2021-11-22 分類: 網(wǎng)站建設(shè)
我想說的是無論搜索引擎怎樣變化,大概的收錄原理是不會變的:
1、找到網(wǎng)站的URL并下載頁面。
2、判斷頁面質(zhì)量是否達到收錄標準收錄頁面,否則刪除。
3、判斷收錄頁面是否更新,更新頁面快照。以上三條是搜索引擎收錄頁面基本的規(guī)律,無論百度還是谷歌都不會違背。那么我們就可以以以上三條作為依據(jù)詳細的解釋一下搜索引擎的工作原理。
1、抓取網(wǎng)頁系統(tǒng):分為探測系統(tǒng)和下載系統(tǒng),探測系統(tǒng)就是我們平常說的蜘蛛,蜘蛛在互聯(lián)網(wǎng)上爬行時探測到一個網(wǎng)站的URL,就會把URL所指向的頁面利用下載系統(tǒng),下載到搜索引擎的服務(wù)器上,然后將頁面交給數(shù)據(jù)分析系統(tǒng)。
2、數(shù)據(jù)分析系統(tǒng):分為數(shù)據(jù)分析和數(shù)據(jù)處理兩個系統(tǒng),當數(shù)據(jù)分析系統(tǒng)從抓取網(wǎng)頁系統(tǒng)那獲取到被下載的頁面,首先進行數(shù)據(jù)分析去除不相關(guān)的文字或網(wǎng)站重復(fù)內(nèi)容,進行頁面文字的處理,然后對處理過后的頁面內(nèi)容進行判斷,是否達到收錄標準,達到交給存儲系統(tǒng),沒有達到刪除。
3、存儲數(shù)據(jù)系統(tǒng):將收錄的頁面進行保存,然后定時進行判斷存儲的頁面是否有更新。
4、緩存系統(tǒng):存儲搜索引擎認為高價值的內(nèi)容,當用戶搜索某個關(guān)鍵詞時經(jīng)常看到收錄量有幾千萬,但是搜索引擎顯示的只有1000條,這也就是說只有1000條被放在了緩存系統(tǒng)上,用戶可以最快速的查找到他們想要的內(nèi)容。
5、展示系統(tǒng):用戶搜索返回到顯示器上的信息。
這是搜索引擎的系統(tǒng)的組成,那么一個頁面是如何被搜索引擎發(fā)現(xiàn)并收錄的呢計算機的緩存中讀取數(shù)據(jù),比在硬盤中讀取數(shù)據(jù)快很多。所以搜索引擎只將緩存中的一部分顯示給用戶。被存儲在硬盤中的頁面,搜索引擎會根據(jù)網(wǎng)站權(quán)重定時對其進判斷是否有更新,是否達到了放入緩存區(qū)的標準,如果搜索引擎在判斷是否有更新的同時發(fā)現(xiàn)網(wǎng)站頁面被刪除或網(wǎng)頁達不到被收錄的標準也會被刪除。
名稱欄目:SEO從業(yè)者必須了解的搜索引擎工作原理
URL網(wǎng)址:http://www.rwnh.cn/news/137044.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、自適應(yīng)網(wǎng)站、搜索引擎優(yōu)化、品牌網(wǎng)站制作、網(wǎng)站導(dǎo)航、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容