如何在Python中使用Scrapy爬蟲框架-創(chuàng)新互聯(lián)

這篇文章給大家介紹如何在Python中使用Scrapy爬蟲框架，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

創(chuàng)新互聯(lián)是一家專業(yè)提供天心企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站設(shè)計、HTML5、小程序制作等業(yè)務(wù)。10年已為天心眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進行中。

全局命令

全局命令有哪些呢，要想了解在Scrapy中有哪些全局命令，可以在不進入Scrapy項目所在目錄的情況下，運行scrapy-h,如圖所示:

如何在Python中使用Scrapy爬蟲框架

可以看到，此時在可用命令在終端下展示出了常見的全局命令，分別為fetch、runspider、settings、shell、startproject、version、view。

fetch命令

fetch命令主要用來顯示爬蟲爬取的過程.如下圖所示:

如何在Python中使用Scrapy爬蟲框架

在使用fetch命令時，同樣可以使用某些參數(shù)進行相應(yīng)的控制。那么fetch有哪些相關(guān)參數(shù)可以使用呢？我們可以通過scrpy fetch -h列出所有可以使用的fetch相關(guān)參數(shù)。比如我們可以使用–headers顯示頭信息,也可以使用–nolog控制不顯示日志信息，還可以使用–spider=SPIDER參數(shù)來控制使用哪個爬蟲，通過–logfile=FILE指定存儲日志信息的文件，通過–loglevel=LEVEL控制日志等級。舉個栗子:

# 顯示頭信息，并且不顯示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通過runspider命令可以不依托scrapy的爬蟲項目，直接運行一個爬蟲文件

# first.py為自定義的一個爬蟲文件
scrapy runspider first.py

settings命令

在scrapy項目所在的目錄中使用settings命令查看的使用對應(yīng)的項目配置信息,如果在scrapy項目所在的目錄外使用settings命令查看的Scrapy默認(rèn)的配置信息

# 在項目中使用此命令打印的為BOT_NAME對應(yīng)的值，即scrapy項目名稱。
# 在項目外使用此命令打印的為scrapybot
scrapy settings --get BOT_NAME

shell命令

通過shell命令可以啟動Scrapy的交互終端。

Scrapy的交互終端經(jīng)常在開發(fā)以及調(diào)試的時候用到，使用Scrapy的交互終端可以實現(xiàn)在不啟動Scrapy爬蟲的情況下，對網(wǎng)站響應(yīng)進行調(diào)試，同樣，在該交互終端下，我們也可以寫一些Python代碼進行相應(yīng)測試。

如何在Python中使用Scrapy爬蟲框架

在>>>后面可以輸入交互命令以及相應(yīng)的代碼

startproject命令

用于創(chuàng)建scrapy項目

version命令

查看scrapy版本

view命令

用于下載某個網(wǎng)頁，然后通過瀏覽器查看

項目命令

bench命令

測試本地硬件的性能

scrapy bench

genspider命令

用于創(chuàng)建爬蟲文件，這是一種快速創(chuàng)建爬蟲文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此時在spider文件夾下會生成一個以xxx命名的py文件?？梢允褂?code>scrapy genspider -l查看所有可用爬蟲模板。當(dāng)前可用的爬蟲模板有：basic、crawl、csvfeed、xmlfeed

check命令

使用check命令可以實現(xiàn)對某個爬蟲文件進行合同檢查，即測試.

# xxx為爬蟲名
scrapy check xxx

crawl命令

啟動某個爬蟲

# xxx為爬蟲名
scrapy crawl xxx

list命令

列出當(dāng)前可使用的爬蟲文件

scrapy list

edit命令

編輯爬蟲文件

scrapy edit xxx

parse命令

通過parse命令，我們可以實現(xiàn)獲取指定的URL網(wǎng)址，并使用對應(yīng)的爬蟲文件進行處理和分析

日志等級

等級名	含義
CRITICAL	發(fā)生了最嚴(yán)重的錯誤
ERROR	發(fā)生了必須立即處理的錯誤
WARNING	出現(xiàn)了一些警告信息，即存在潛在錯誤
INFO	輸出一些提示顯示
DEBUG	輸出一些調(diào)試信息

python有哪些常用庫

python常用的庫：1.requesuts；2.scrapy；3.pillow；4.twisted；5.numpy；6.matplotlib；7.pygama；8.ipyhton等。

關(guān)于如何在Python中使用Scrapy爬蟲框架就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)站標(biāo)題：如何在Python中使用Scrapy爬蟲框架-創(chuàng)新互聯(lián)
文章分享：http://www.rwnh.cn/article26/cciscg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供Google、品牌網(wǎng)站建設(shè)、虛擬主機、企業(yè)網(wǎng)站制作、定制網(wǎng)站、商城網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

如何在Python中使用Scrapy爬蟲框架-創(chuàng)新互聯(lián)

python有哪些常用庫