遍歷策略是爬蟲(chóng)的核心問(wèn)題,在爬蟲(chóng)系統(tǒng)中,待抓取URL隊(duì)列是很重要的一部分。待抓取URL隊(duì)列中的URL以什么樣的順序排列也是一個(gè)很重要的問(wèn)題,因?yàn)檫@涉及到先抓取那個(gè)頁(yè)面,后抓取哪個(gè)頁(yè)面而決定這些URL排列順序的方法,叫做抓取策略爬蟲(chóng)策略主要有以下幾種:
創(chuàng)新互聯(lián)建站主營(yíng)江漢網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,手機(jī)APP定制開(kāi)發(fā),江漢h5微信小程序搭建,江漢網(wǎng)站營(yíng)銷(xiāo)推廣歡迎江漢等地區(qū)企業(yè)咨詢(xún)
一,深度優(yōu)先遍歷策略:
深度優(yōu)先遍歷測(cè)試是指網(wǎng)絡(luò)爬蟲(chóng)會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路的鏈接之后,在再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接,我們以下面的圖為例:
遍歷的路徑是:A-F-G E-H-I B C D
不過(guò),我們?cè)谧雠老x(chóng)時(shí),深度優(yōu)先策略不一定能適用于所有情況,深度優(yōu)先如果誤入無(wú)窮分枝(深度無(wú)限),則不可能找到目標(biāo)節(jié)點(diǎn)。
二,廣度優(yōu)先遍歷策略:
廣度優(yōu)先策略是按照樹(shù)的層次進(jìn)行搜索,如果此層沒(méi)有搜索完成,不會(huì)進(jìn)入下一層搜索。即,首先完成一個(gè)層次的搜索,其次在進(jìn)行下一層次,也稱(chēng)之為分層處理。我們還以上面的圖為例:
遍歷的路徑是:第一層遍歷:A-B-C-D-E-F,第二層遍歷:G-H,第三層則遍歷:I
不過(guò),廣度優(yōu)先遍歷策略屬于盲目搜索,它并不考慮結(jié)果存在的可能位置,會(huì)徹底地搜索整張圖,因而效率較低,但是,如果你要盡可能的覆蓋較多的網(wǎng)頁(yè),廣度優(yōu)先搜索方法是較好的選擇。
三,部分的PageRank的策略:
PageRank算法的思想:對(duì)于已經(jīng)下載的網(wǎng)頁(yè),連同待抓取URL隊(duì)列的URL,形成網(wǎng)頁(yè)集合,計(jì)算每個(gè)頁(yè)面的PageRank值(PageRank算法參考:PageRank算法 - 從原理到實(shí)現(xiàn)),計(jì)算完之后,將待抓取隊(duì)列中的URL按照網(wǎng)頁(yè)級(jí)別的值的大小排列,并按照順序依次抓取網(wǎng)址頁(yè)面。
如果每次新抓取一個(gè)網(wǎng)頁(yè),重新就計(jì)算的的的PageRank值,明顯效率太低。折中辦法是網(wǎng)頁(yè)攢夠?個(gè)計(jì)算一次。
下圖即為網(wǎng)頁(yè)級(jí)別的策略示意圖:
設(shè)定每下載3個(gè)網(wǎng)頁(yè)進(jìn)行新的PageRank的計(jì)算,此時(shí)已經(jīng)有{1,2,3} 3個(gè)網(wǎng)頁(yè)下載到本地。這三個(gè)網(wǎng)頁(yè)包含的鏈接指向{4,5,6},即待抓取URL隊(duì)列,如何決定下載順序?
將這6個(gè)網(wǎng)頁(yè)形成新的集合,對(duì)這個(gè)集合計(jì)算的的PageRank的的值,這樣4,5,6就獲得自己對(duì)應(yīng)的網(wǎng)頁(yè)級(jí)別值,由大到小排序,即可得出下載順序假設(shè)順序?yàn)?,4,6,當(dāng)下載55頁(yè)面后抽取出鏈接,指向頁(yè)面8,此時(shí)賦予8臨時(shí)的PageRank值,如果這個(gè)值大于4和6的PageRank的,則接下來(lái)優(yōu)先下載頁(yè)面8,如此不斷循環(huán),即形成了非完全的網(wǎng)頁(yè)級(jí)別的策略的計(jì)算思路。
四,OPIC策略策略(在線頁(yè)面重要性計(jì)算):
基本思路:在算法開(kāi)始前,給所有頁(yè)面一個(gè)相同的初始現(xiàn)金(現(xiàn)金)當(dāng)下載了某個(gè)頁(yè)面P之后,將P的現(xiàn)金分?jǐn)偨o所有從P中分析出的鏈接,并且將P的現(xiàn)金清空。對(duì)于待抓取URL隊(duì)列中的所有頁(yè)面按照現(xiàn)金數(shù)進(jìn)行排序。
與PageRank的的的的區(qū)別在于:PageRank的的的每次需要迭代計(jì)算,而OPIC策略不需要迭代過(guò)程所以計(jì)算速度遠(yuǎn)遠(yuǎn)快與PageRank的的的,適合實(shí)時(shí)計(jì)算使用。
五,大站優(yōu)先策略:
策略思路: 以網(wǎng)站為單位來(lái)選題網(wǎng)頁(yè)重要性,對(duì)于待爬取URL隊(duì)列中的網(wǎng)頁(yè),根據(jù)所屬網(wǎng)站歸類(lèi),如果哪個(gè)網(wǎng)站等待下載的頁(yè)面最多,則優(yōu)先下載這些鏈接,其本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站。因?yàn)榇笮途W(wǎng)站往往包含更多的頁(yè)面。鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容,其網(wǎng)頁(yè)質(zhì)量一般較高,所以這個(gè)思路雖然簡(jiǎn)單,但是有一定依據(jù)。實(shí)驗(yàn)表明這個(gè)算法效果也要略?xún)?yōu)先于寬度優(yōu)先遍歷策略。
花生代理動(dòng)態(tài)換IP軟件可以實(shí)現(xiàn)全國(guó)城市IP一自動(dòng)切換,千萬(wàn)動(dòng)態(tài)IP池,支持過(guò)濾,支持電腦手機(jī)多端使用,數(shù)萬(wàn)隨機(jī)撥號(hào)線路,24小時(shí)不間斷供應(yīng)動(dòng)態(tài)IP。
分享題目:網(wǎng)絡(luò)爬蟲(chóng)的抓取策略
URL網(wǎng)址:http://www.rwnh.cn/article0/igjpoo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開(kāi)發(fā)、品牌網(wǎng)站制作、標(biāo)簽優(yōu)化、App開(kāi)發(fā)、網(wǎng)站維護(hù)、Google
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
營(yíng)銷(xiāo)型網(wǎng)站建設(shè)知識(shí)