2023-04-04 分類: 網(wǎng)站建設(shè)
一個好的seoer,那必需得清楚的知道搜索引擎是如何工作的?用戶在搜索一個關(guān)鍵詞的時候,搜索引擎都做了哪些工作?本文就此展開。
濟南網(wǎng)絡(luò)優(yōu)化公司本文將講解以下三個方面的內(nèi)容,帶你了解搜索引擎的工作方式:
抓取
索引
查詢
抓取
下面的這張圖,應(yīng)該用過搜索引擎的人都非常的熟悉。
我們重點關(guān)注的是紅框里面的玩意,我們可以看到,搜索“seo”的時候,百度為我們找到了四千多萬的結(jié)果。那么這些結(jié)果是怎么來的呢?
在您搜索之前,搜索引擎的抓取工具會從數(shù)千億個網(wǎng)頁中收集信息,然后在搜索索引中進行整理,最后展現(xiàn)給用戶。
一般的,搜索引擎在你搜索某個關(guān)鍵詞之前啊,都會先派一批小弟在互聯(lián)網(wǎng)中到處的抓取各種類型的網(wǎng)頁,只要能抓到都抓了。那抓取的流程是怎么樣的呢?
抓取流程是從以往所抓取內(nèi)容的網(wǎng)址列表和由網(wǎng)站所有者提供的站點地圖開始的。在訪問這些網(wǎng)站時,我們的抓取工具會使用網(wǎng)站上的鏈接來探索其他網(wǎng)頁。該軟件會特別關(guān)注新網(wǎng)站、對現(xiàn)有網(wǎng)站進行的更改以及無效鏈接。計算機程序會確定要抓取的網(wǎng)站、抓取頻率以及要從每個網(wǎng)站中抓取的網(wǎng)頁數(shù)量。
谷歌的抓取流程百度的也差不多。
那么抓到的網(wǎng)頁放在哪里呢?
肯定的是放在搜索引擎的服務(wù)器上面了。一般的只會存放網(wǎng)頁的文字信息,至于其它的資源,比如圖片、音視頻、js、css這些是不做存儲的。只會記錄相關(guān)的信息。
注:更詳細(xì)的內(nèi)容,將會在后續(xù)的重學(xué)seo系列課程中詳細(xì)介紹
那么抓取到內(nèi)容只會該怎么處理呢?
索引
當(dāng)抓取工具找到一個網(wǎng)頁時,我們的系統(tǒng)就會像瀏覽器一樣呈現(xiàn)該網(wǎng)頁的內(nèi)容。我們會記下關(guān)鍵信號(從關(guān)鍵字到網(wǎng)站新鮮度),然后會在 搜索引擎搜索索引中跟蹤所有這些內(nèi)容。
搜索索引中包含數(shù)千億個網(wǎng)頁,其大小遠(yuǎn)遠(yuǎn)超過 1 億千兆字節(jié)。它就像圖書后部的索引一樣 - 編入索引的每個網(wǎng)頁上出現(xiàn)的每個字詞都對應(yīng)著一個條目。在將某個網(wǎng)頁編入索引時,系統(tǒng)會將該網(wǎng)頁分別添加到其包含的所有字詞的對應(yīng)條目中。
借助知識圖譜,我們將繼續(xù)超越關(guān)鍵字匹配,以更好地了解您關(guān)注的人、地點和事物。為此,我們不僅要整理有關(guān)網(wǎng)頁的信息,還要整理其他類型的信息。如今, 搜索引擎不僅可幫助您搜索大型圖書館內(nèi)數(shù)百萬冊圖書中的內(nèi)容,查找當(dāng)?shù)毓还镜木€路和車次安排,還可幫助您瀏覽世界銀行等公開來源的數(shù)據(jù)。
注:其實在索引之前還是一個分析的步驟,還有做各種其他很多的工作,比如去重,提取正文,鏈接分析等等。搜索引擎用到的索引技術(shù)主要就是倒排索引技術(shù)。更詳細(xì)的內(nèi)容,且看后面的系列課程。
接下來,當(dāng)我們搜索一個關(guān)鍵詞的時候,搜索引擎都干了些什么?
查詢
第一步:分析你的關(guān)鍵詞
理解搜索字詞的含義對于返回優(yōu)質(zhì)結(jié)果至關(guān)重要。因此,為了找到包含相關(guān)信息的頁面,搜索引擎的第一步就是分析您的搜索查詢中的字詞的含義。搜索引擎創(chuàng)建了語言模型,試圖了解應(yīng)該使用關(guān)鍵詞的哪些部分在索引中進行查詢。
這會涉及到看起來如同解析拼寫錯誤一樣簡單的步驟,并會擴展到通過將自然語言理解方面的部分最新研究成果付諸應(yīng)用來嘗試?yán)斫饽斎氲牟樵兊念愋汀?/p>
(錯別字糾正)
第二步:與搜索內(nèi)容相符
接下來,搜索引擎會尋找包含與相應(yīng)查詢匹配的信息的網(wǎng)頁。當(dāng)您搜索時,在最基本的層面上,搜索算法會在索引中查詢您的搜索關(guān)鍵詞以找到適當(dāng)?shù)木W(wǎng)頁。這些算法會分析相關(guān)關(guān)鍵字在某個網(wǎng)頁上(不論是在標(biāo)題中還是在正文中)的出現(xiàn)頻率和顯示位置。
當(dāng)某個網(wǎng)頁中包含與您的搜索查詢內(nèi)容相同的關(guān)鍵字時,這是表示搜索到的信息可能與您要查找的內(nèi)容相關(guān)的最基本信號。如果網(wǎng)頁或者文本的標(biāo)題或正文中出現(xiàn)這些關(guān)鍵字,則表示該信息與您要查找的內(nèi)容相關(guān)的可能性更大了。除了簡單的關(guān)鍵字匹配之外,搜索引擎還使用經(jīng)過匯總和匿名化處理的互動數(shù)據(jù)來評估搜索結(jié)果是否與查詢內(nèi)容相關(guān)。搜索引擎會將這些數(shù)據(jù)轉(zhuǎn)換為信號,以協(xié)助機器學(xué)習(xí)系統(tǒng)更好地評估相關(guān)性。
除了匹配關(guān)鍵字,搜索引擎的算法還會尋找線索來衡量潛在搜索結(jié)果能從多大程度上滿足用戶的搜索需求。當(dāng)您搜索“狗”時,您想看到的應(yīng)該不是含有數(shù)百個“狗”字的網(wǎng)頁。搜索引擎會盡力確定網(wǎng)頁是否包含與您的查詢對應(yīng)的答案(而非只是重復(fù)您的查詢)。因此,搜索算法會分析網(wǎng)頁是否包含相關(guān)內(nèi)容,例如狗的圖片、視頻,甚至是品種列表。最后,搜索引擎會檢查網(wǎng)頁所用的語言是否與您的查詢所用的語言相同,以便優(yōu)先顯示采用您的選語言的網(wǎng)頁。
需要說明的是,盡管搜索引擎的系統(tǒng)確實會通過尋找這類可量化的信號來評估相關(guān)性,但并不會因此用于分析主觀觀念,例如分析網(wǎng)頁內(nèi)容的觀點或政治傾向。
第三步:為實用(有價值)網(wǎng)頁排名
對于一項典型的查詢,含有可能相關(guān)的信息的網(wǎng)頁會多達(dá)數(shù)千個甚至數(shù)百萬個。因此,為了幫助將最符合需求的網(wǎng)頁排在靠前的位置,搜索引擎編寫了算法來評估這些網(wǎng)頁的實用性。
這些算法會分析數(shù)百種不同的因素 - 從內(nèi)容的新鮮度,到您的搜索關(guān)鍵詞的出現(xiàn)次數(shù)以及網(wǎng)頁能否提供出色的用戶體驗 - 以盡力呈現(xiàn)網(wǎng)絡(luò)所能提供的最有用的信息。為了評估內(nèi)容在相關(guān)主題方面的可信度和權(quán)威性,同時會尋找那些看起來在類似查詢中受到大量用戶青睞的網(wǎng)站。如果與該主題相關(guān)的其他知名網(wǎng)站鏈接到了相應(yīng)頁面,則可充分說明此頁面上的信息具有較高的品質(zhì)。
網(wǎng)絡(luò)中有很多垃圾網(wǎng)站會試圖通過再三重復(fù)關(guān)鍵字或購買可提升 PageRank 的鏈接等各種不當(dāng)手段,蒙混到搜索結(jié)果中靠前的位置。這些網(wǎng)站提供的用戶體驗非常糟糕,甚至可能會傷害或誤導(dǎo)搜索用戶。因此,搜索引擎編寫了算法來識別網(wǎng)絡(luò)垃圾并將那些違反搜索引擎算法的作弊網(wǎng)站從結(jié)果中移除。
第四步:返回好結(jié)果
在為您提供濟南網(wǎng)站優(yōu)化結(jié)果之前,搜索引擎會評估所有相關(guān)信息的綜合效果:這些搜索結(jié)果是只有一個主題,還是有很多主題?是否有過多的頁面在著重探討一條狹義的詮釋?會根據(jù)您的搜索類型以最有用的格式提供一系列多樣的信息。此外,隨著網(wǎng)絡(luò)不斷發(fā)展,搜索引擎會不斷優(yōu)化排名系統(tǒng),以便為更多查詢提供更優(yōu)質(zhì)的結(jié)果。
這些算法會通過分析相關(guān)信號來評估是否所有用戶都能查看搜索結(jié)果。例如:網(wǎng)站是否能在不同的瀏覽器中正常顯示;網(wǎng)站是否適合各種類型和尺寸的設(shè)備(包括桌面設(shè)備、平板電腦和智能手機);以及網(wǎng)頁加載時間對于互聯(lián)網(wǎng)連接速度較慢的用戶而言是否合適。
鑒于網(wǎng)站所有者可以提高其網(wǎng)站的易用性,搜索引擎會在對搜索算法做出重大更改時盡量提前通知網(wǎng)站所有者以便其可以做出應(yīng)對。例如,百度的各種算法,冰桶算法、颶風(fēng)算法……以及最近的信風(fēng)算法等等。
第五步:考慮具體位置
比如我們搜索“天氣”的時候,都會直接返回所在地的天氣信息。
當(dāng)然了,其實搜索結(jié)果中還有很多更加實用的功能和結(jié)果。
比如:
天氣直接返回、搜索公交路線直接顯示、百度的專業(yè)問答結(jié)果、知識圖譜等等。都是為了方便用戶直接獲取到答案,而不用再進行二次點擊進入網(wǎng)站查看。
最后,本文其實是將谷歌搜索的工作方式給拿下來修改了一點點。具體的大家可以直接看谷歌官方原文:https://www.google.com/search/howsearchworks/
了解了一個其實其它大部分的商業(yè)化搜索引擎都差不多,也可以從中知道一些seo應(yīng)該關(guān)注什么東西。當(dāng)然了,這里并沒有給出更多具體的東西。那么具體的一個搜索引擎原理將會在后續(xù)的系列課程中給大家一一講解哈。
比如搜索引擎一般有4大系統(tǒng),兩大系統(tǒng)分類:
離線系統(tǒng)
抓取系統(tǒng)
分析系統(tǒng)
索引系統(tǒng)
在線系統(tǒng)
查詢系統(tǒng)
文章名稱:學(xué)seo從了解搜索引擎工作方式開始
標(biāo)題鏈接:http://www.rwnh.cn/news7/250557.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、電子商務(wù)、企業(yè)建站、品牌網(wǎng)站設(shè)計、定制開發(fā)、動態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容