SEO答疑之-搜索引擎的抓取、索引到搜索結(jié)果展現(xiàn)的步驟

搜索引擎從用戶搜索到最終搜索結(jié)果展現(xiàn)的步驟是（以百度為例）：
抓取，百度都不知道你的網(wǎng)站，如何讓你有排名呢？所以要讓百度知道你，就要先通過抓取這個步驟；
過濾，過濾掉低質(zhì)量的頁面內(nèi)容；
索引，只有合格的頁面才會被存儲；
處理，對搜索詞進(jìn)行處理，如中文特有的分詞處理，去除停止詞，判斷是否需要啟動整合搜索，判斷是否有拼寫錯誤或錯別字等情況。
排名，將高質(zhì)量的頁面展現(xiàn)給用戶；

創(chuàng)新互聯(lián)公司專注于浦東企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城系統(tǒng)網(wǎng)站開發(fā)。浦東網(wǎng)站建設(shè)公司,為浦東等地區(qū)提供建站服務(wù)。全流程按需網(wǎng)站開發(fā)，專業(yè)設(shè)計，全程項目跟蹤，創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)

蜘蛛（Spider）：
被搜索引擎派出能在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓取的程序稱為蜘蛛，其從已知的數(shù)據(jù)庫出發(fā)，像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁，并跟蹤網(wǎng)頁中的鏈接，訪問更多的網(wǎng)頁，這個過程就叫爬行；
蜘蛛對一個站點的遍歷抓取策略分深度優(yōu)先和廣度優(yōu)先兩種。

spider抓取的基本過程：

根據(jù)爬取目標(biāo)和范圍，可分為

批量性爬蟲：明確的抓取目標(biāo)和范圍，達(dá)到即停止；

增量型爬蟲：應(yīng)對網(wǎng)頁不斷更新的狀態(tài)，爬蟲需要及時反應(yīng)，通用商業(yè)引擎一般都是這類；

垂直型爬蟲：只針對某個特定領(lǐng)域的爬蟲，根據(jù)主題過濾；

百度官方 spider抓取過程中的策略

1、抓取友好性，同一個站點在一段時間內(nèi)的抓取頻率和一段時間內(nèi)的抓取流量都不同，即錯開正常用戶訪問高峰不斷的調(diào)整，避免程度過大影響被抓網(wǎng)站的正常用戶訪問行為。

2、常用抓取返回碼，如503,404,403,301等；

3、多種url重定向的識別，如http 30x、meta refresh重定向和js重定向，Canonical標(biāo)簽也可看做變相的重定向；

4、抓取優(yōu)先級調(diào)配，如深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、大站優(yōu)先策略等；

5、重復(fù)url的過濾，包括url歸一化識別，例如一個url中包含大量無效參數(shù)而實際是同一個頁面；

6、暗網(wǎng)數(shù)據(jù)的獲取，搜索引擎暫時無法抓取到的數(shù)據(jù)，如存在于網(wǎng)絡(luò)數(shù)據(jù)庫中，或由于網(wǎng)絡(luò)環(huán)境、網(wǎng)站本身不符合規(guī)范、孤島等問題而造成的無法被抓取，如百度的“阿拉丁”計劃；

7、抓取反作弊，抓取過程中往往會遇到所謂抓取黑洞或者面臨大量低質(zhì)量頁面的困擾，這就要求抓取系統(tǒng)中同樣需要設(shè)計一套完善的抓取反作弊系統(tǒng)。如分析url特征、分析頁面大小及內(nèi)容、分析站點規(guī)模對應(yīng)抓取規(guī)模等；

spider感興趣的頁面有3類：
1.從未抓取過的新頁面。
2.抓取過但內(nèi)容有改動的頁面。
3.抓取過但現(xiàn)在已刪除的頁面。

蜘蛛不能/不喜歡抓取的內(nèi)容：
1.被robot屏蔽的頁面；
2.圖片、視頻和flash里的內(nèi)容；
3.Js、iframe框架、table嵌套；
4.蜘蛛被服務(wù)器端屏蔽；
5.孤島頁面(無任何導(dǎo)入鏈接)；
6.登錄后才能獲取的內(nèi)容；

四種近似重復(fù)網(wǎng)頁類型：
1.完全重復(fù)頁面：在內(nèi)容和布局格式上毫無區(qū)別；
2.內(nèi)容重復(fù)頁面：內(nèi)容相同，但布局格式不同；
3.布局重復(fù)頁面：有部分重要的內(nèi)容相同，并且布局格式相同；
4.部分重復(fù)頁面有部分重要內(nèi)容相同，但布局格式不同；

典型的網(wǎng)頁去重算法：特征抽取、文檔指紋生成、相似性計算

低質(zhì)量的內(nèi)容頁面：
1.多個URL地址指向同一網(wǎng)頁以及鏡像站點，如帶www和不帶www的同時解析到一個網(wǎng)站；
2.網(wǎng)頁內(nèi)容重復(fù)或近似重復(fù)，如采集內(nèi)容，文不對題或垃圾信息；
沒有豐富的內(nèi)容，如純圖片頁面或頁面內(nèi)容搜索引擎識別不了；

過濾-重復(fù)文檔的處理方式：
1.低質(zhì)量內(nèi)容予以刪除
2.高質(zhì)量重復(fù)文檔分組并優(yōu)先展示（重復(fù)性高表示受歡迎）

網(wǎng)站欄目：SEO答疑之-搜索引擎的抓取、索引到搜索結(jié)果展現(xiàn)的步驟
分享鏈接：http://www.rwnh.cn/article28/ssjp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站建設(shè)、手機網(wǎng)站建設(shè)、定制網(wǎng)站、外貿(mào)建站、電子商務(wù)、外貿(mào)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

SEO答疑之-搜索引擎的抓取、索引到搜索結(jié)果展現(xiàn)的步驟

SEO答疑之-搜索引擎的抓取、索引到搜索結(jié)果展現(xiàn)的步驟