内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

python網(wǎng)絡(luò)爬蟲CrawlSpider使用詳解-創(chuàng)新互聯(lián)

CrawlSpider

創(chuàng)新互聯(lián)公司專注于牡丹網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供牡丹營銷型網(wǎng)站建設(shè),牡丹網(wǎng)站制作、牡丹網(wǎng)頁設(shè)計、牡丹網(wǎng)站官網(wǎng)定制、微信小程序服務(wù),打造牡丹網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供牡丹網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。
  • 作用:用于進(jìn)行全站數(shù)據(jù)爬取
  • CrawlSpider就是Spider的一個子類
  • 如何新建一個基于CrawlSpider的爬蟲文件
    • scrapy genspider -t crawl xxx www.xxx.com
  • 例:choutiPro

LinkExtractor連接提取器:根據(jù)指定規(guī)則(正則)進(jìn)行連接的提取

Rule規(guī)則解析器:將連接提取器提取到的連接進(jìn)行請求發(fā)送,然后對獲取的頁面進(jìn)行指定規(guī)則【callback】的解析

一個鏈接提取器對應(yīng)唯一一個規(guī)則解析器

例:crawlspider深度(全棧)爬取【sunlinecrawl例】

分布式(通常用不到,爬取數(shù)據(jù)量級巨大、時間少時用分布式)

概念:可將一組程序執(zhí)行在多態(tài)機(jī)器上(分布式機(jī)群),使其進(jìn)行數(shù)據(jù)的分布爬取

原生的scrapy框架是否可以實(shí)現(xiàn)分布式?

不能

抽屜

# spider文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
  name = 'chouti'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://dig.chouti.com/1']

  # 連接提取器:從起始url對應(yīng)的頁面中提取符合規(guī)則的所有連接;allow=正則表達(dá)式
  # 正則為空的話,提取頁面中所有連接
  link = LinkExtractor(allow=r'\d+')
  rules = (
    # 規(guī)則解析器:將連接提取器提取到的連接對應(yīng)的頁面源碼進(jìn)行指定規(guī)則的解析
    # Rule自動發(fā)送對應(yīng)鏈接的請求
    Rule(link, callback='parse_item', follow=True),
    # follow:True 將連接提取器 繼續(xù) 作用到 連接提取器提取出來的連接 對應(yīng)的頁面源碼中
  )
  def parse_item(self, response):
    item = {}
    #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
    #item['name'] = response.xpath('//div[@id="name"]').get()
    #item['description'] = response.xpath('//div[@id="description"]').get()
    return item

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

名稱欄目:python網(wǎng)絡(luò)爬蟲CrawlSpider使用詳解-創(chuàng)新互聯(lián)
本文路徑:http://www.rwnh.cn/article26/dsddjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)建站、關(guān)鍵詞優(yōu)化、動態(tài)網(wǎng)站用戶體驗(yàn)、域名注冊、企業(yè)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司
长白| 甘德县| 蒙山县| 永登县| 长岭县| 清丰县| 铜陵市| 佛教| 洪泽县| 茂名市| 孟津县| 岑巩县| 台中市| 永春县| 安图县| 千阳县| 霸州市| 株洲县| 当涂县| 乌海市| 常山县| 礼泉县| 永嘉县| 会泽县| 七台河市| 淳化县| 西吉县| 余姚市| 青铜峡市| 巴青县| 五寨县| 南和县| 修水县| 哈尔滨市| 杨浦区| 禄丰县| 突泉县| 永春县| 衡东县| 襄城县| 锡林浩特市|