Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

創(chuàng)新互聯(lián)公司專注于托里網(wǎng)站建設(shè)服務(wù)及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。熱誠為您提供托里營銷型網(wǎng)站建設(shè)，托里網(wǎng)站制作、托里網(wǎng)頁設(shè)計、托里網(wǎng)站官網(wǎng)定制、成都微信小程序服務(wù)，打造托里網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供托里網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

/具體實現(xiàn)/

1、針對標(biāo)題，在上篇文章中就有提及，其Xpath表達(dá)式有多種，任選其一即可，在scrapy shell腳本下進(jìn)行調(diào)試，得到標(biāo)題的提取方式，并寫入到爬蟲主體文件中。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

2、接下來是發(fā)布日期的提取，仍然是以交互式的方式實現(xiàn)網(wǎng)頁與源碼之間的交互，如下圖所示。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

3、而且標(biāo)簽“entry-meta-hide-on-mobile”具有全局唯一性，可以很方便的定位到元素。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

4、根據(jù)網(wǎng)頁結(jié)構(gòu)，我們可輕易的寫出發(fā)布日期的Xpath表達(dá)式，可以在scrapy shell中先進(jìn)行測試，再將選擇器表達(dá)式寫入爬蟲文件中，詳情如下圖所示。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

這里有部分雜質(zhì)信息，需要利用strip()和replace()函數(shù)剔除多余的雜質(zhì)，還日期一個“清白”。

5、關(guān)于文章主題標(biāo)簽的Xpath表達(dá)式，可以看到其在網(wǎng)頁結(jié)構(gòu)上處于日期的下方，如下圖所示。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

因此可以通過更改一下發(fā)布日期的Xpath表達(dá)式，即可獲取到文章主題標(biāo)簽。

6、文章主題標(biāo)簽處于a標(biāo)簽下，如下圖所示。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

獲取到整個列表之后，利用join函數(shù)將數(shù)組中的元素以逗號連接生成一個新的字符串叫tags，然后寫入Scrapy爬蟲文件中去。

7、對于點贊數(shù)，其分析方法同之前一致，找到唯一的一個標(biāo)簽“vote-post-up”即可定位到數(shù)據(jù)。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

8、細(xì)心的小伙伴可能會看到“vote-post-up”屬性并不是class標(biāo)簽中唯一一個屬性，所以一開始的Xpath表達(dá)式匹配的內(nèi)容為空。

這里給大家安利一個小技巧，如果標(biāo)簽中存在多個屬性，且屬性是唯一的時候，可以利用contains函數(shù)進(jìn)行助攻，其用法是'//span[contains(@class,"vote-post-up")，務(wù)必要多加練習(xí)，否則容易忘記。根據(jù)網(wǎng)頁結(jié)構(gòu)寫出Xpath表達(dá)式，調(diào)試的過程如下圖所示。

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)

取出的點贊數(shù)是個字符串，需要利用int()將其強制轉(zhuǎn)換為數(shù)字。

看完上述內(nèi)容，你們掌握Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

分享標(biāo)題：Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)
鏈接URL：http://www.rwnh.cn/article4/gpoeoe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站改版、外貿(mào)網(wǎng)站建設(shè)、App設(shè)計、、做網(wǎng)站、網(wǎng)頁設(shè)計公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Scrapy中怎么利用Xpath選擇器從網(wǎng)頁中采集目標(biāo)數(shù)據(jù)