scrapy在python分布式爬蟲的使用范圍

小編給大家分享一下scrapy在python分布式爬蟲的使用范圍，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

成都創(chuàng)新互聯(lián)公司從2013年創(chuàng)立，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項目網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)網(wǎng)站策劃，項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命，1280元昭蘇做網(wǎng)站,已為上家服務(wù),為昭蘇各地企業(yè)和個人服務(wù),聯(lián)系電話:028-86922220

1.scrapy框架是否可以自己實現(xiàn)分布式？

不可以。原因有二。

其一：因為多臺機器上部署的scrapy會各自擁有各自的調(diào)度器，這樣就使得多臺機器無法分配start_urls列表中的url。（多臺機器無法共享同一個調(diào)度器）

其二：多臺機器爬取到的數(shù)據(jù)無法通過同一個管道對數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)持久出存儲。（多臺機器無法共享同一個管道）

2.基于scrapy-redis組件的分布式爬蟲

scrapy-redis組件中為我們封裝好了可以被多臺機器共享的調(diào)度器和管道，我們可以直接使用并實現(xiàn)分布式數(shù)據(jù)爬取。

實現(xiàn)方式：

基于該組件的RedisSpider類
基于該組件的RedisCrawlSpider類

3.分布式實現(xiàn)流程：上述兩種不同方式的分布式實現(xiàn)流程是統(tǒng)一的

3.1 下載scrapy-redis組件：

pip install scrapy-redis

3.2 redis配置文件的配置：

注釋該行：bind 127.0.0.1，表示可以讓其他ip訪問redis

將yes該為no：protected-mode no，表示可以讓其他ip操作redis

3.3 修改爬蟲文件中的相關(guān)代碼：

將爬蟲類的父類修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬蟲文件是基于 Spider的，則應(yīng)該將父類修改成RedisSpider，如果原始爬蟲文件是基于CrawlSpider的，則應(yīng)該將其父類修改成RedisCrawlSpider。

注釋或者刪除start_urls列表，切加入redis_key屬性，屬性值為scrpy-redis組件中調(diào)度器隊列的名稱

3.4 在配置文件中進行相關(guān)配置，開啟使用scrapy-redis組件中封裝好的管道

scrapy在python分布式爬蟲的使用范圍

看完本篇文章我們知道，因為兩點的限制，scrapy框架是不能在python分布式爬蟲獨立運用的，但是我們可以配合其他的一些函數(shù)來運行，這點小伙伴們可要記住啦~

以上是“scrapy在python分布式爬蟲的使用范圍”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學習更多知識，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

文章標題：scrapy在python分布式爬蟲的使用范圍
本文鏈接：http://www.rwnh.cn/article6/iggsig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供、網(wǎng)站維護、外貿(mào)網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作、網(wǎng)頁設(shè)計公司、網(wǎng)站營銷

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

scrapy在python分布式爬蟲的使用范圍