這篇文章給大家分享的是有關(guān)python爬蟲實現(xiàn)翻頁的方法的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
很多初學(xué)python爬蟲的小伙伴們都會遇到python爬蟲翻頁的問題,我在這里先介紹一種。
需要爬取的網(wǎng)站如圖所示
查詢的這種植物有四頁。當(dāng)我們平時翻頁時,首先想到肯定是點擊頁面上的下一頁,寫爬蟲也是如此,想提取頁面上的鏈接進(jìn)行訪問。但是這樣做很麻煩,并且效率很低。
翻頁的方式一般有兩種:
1、觀察網(wǎng)站翻頁時鏈接變化
2、如果寫爬蟲的請求方式是post方式請求,則需要觀察post的數(shù)據(jù)的變化是否有規(guī)律
今天講得是第一種方法
如圖,當(dāng)我點擊下一頁時,觀察到地址欄的鏈接變化
在鏈接中我們可以驚喜的發(fā)現(xiàn),有page關(guān)鍵字,而且恰好為2,我們試驗一下,將鏈接中page的值改為3,發(fā)現(xiàn)正常訪問,正好是第三頁。因此,我們找到了翻頁方式,更改鏈接中關(guān)鍵字的值。
因此翻頁過程步驟為:
1、獲取總網(wǎng)頁數(shù)目
2、利用for循環(huán)改變page的值,進(jìn)行翻頁。
具體翻頁代碼實現(xiàn)如下:
獲取總頁碼
網(wǎng)絡(luò)請求方式
改變請求頭中的page數(shù)值
感謝各位的閱讀!關(guān)于python爬蟲實現(xiàn)翻頁的方法就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
網(wǎng)站標(biāo)題:python爬蟲實現(xiàn)翻頁的方法-創(chuàng)新互聯(lián)
轉(zhuǎn)載來于:http://www.rwnh.cn/article30/dosgpo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設(shè)計、企業(yè)建站、搜索引擎優(yōu)化、營銷型網(wǎng)站建設(shè)、外貿(mào)建站、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容