中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

爬蟲到百度貼吧,爬去自己的小說-創(chuàng)新互聯(lián)

最近在微信里看了一個小說叫《陰陽代理人》的,看到一半,發(fā)現(xiàn)斷了,作者說把后面的部分放到了百度貼吧,去了貼吧發(fā)現(xiàn),文章看起來比較費勁,亂糟糟的,所以為了我的小說,弄個了爬蟲,去給我弄下來。

10多年建站經(jīng)驗, 網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)客戶的見證與正確選擇。創(chuàng)新互聯(lián)提供完善的營銷型網(wǎng)頁建站明細(xì)報價表。后期開發(fā)更加便捷高效,我們致力于追求更美、更快、更規(guī)范。
#!/user/bin/env python
# -*- coding:utf-8 -*-
import urllib2
import urllib
import re

#小說章節(jié)類
class ZHANGJIE:
    #初始化傳入地址
    def __init__(self,zjUrl,Num):
        self.zjUrl = zjUrl    
        self.Num = Num    
    
    #傳入頁碼,獲得網(wǎng)頁源代碼,只看精品
    def getPage(self):
        url = self.zjUrl + str(self.Num)
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        return response.read()

    #獲取每章鏈接資源
    def getNum(self):
        webcon = self.getPage()
        Num = re.findall('<a href="/p/(\d+)"',webcon)
        global Num_r
        Num_r = Num[::-1]
        return Num_r

#每題內(nèi)容類
class NEIRONG:
    #初始化,傳入地址
    def __init__(self,nrUrl,Num):
        self.nrUrl = nrUrl
        self.Num = Num

    #傳入資源頁碼,獲得網(wǎng)頁源代碼,只看樓主
    def getPage(self):
        url = self.nrUrl + str(self.Num) + '?see_lz=1'
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        return response.read()
        
    #獲取小說章節(jié)和標(biāo)題
    def getTitle(self):
        webcon = self.getPage()
        title = re.search('>(.*)</h2>',webcon).group(1)
        return title

    #獲得小說內(nèi)容并打印換行
    def getCon(self):
        webcon = self.getPage()
        try:
            con = re.search('支持蘭大,一定要記得投票哦!推薦票!(.*)(</div><br>)',webcon).group(1)
            con_n = re.sub('<br>','\n',con)
            return con_n
        except AttributeError:
            return '廣告內(nèi)容,已經(jīng)忽略'

    #寫入文件
    def writeDate(self):
        con_t = self.getTitle()
        con_n = self.getCon()
        try:
            with open('/tmp/yydlr.txt','a') as f:
                f.write('\n')
                f.write('\n')
                f.write(con_t)
                f.write(con_n)
        except IOError:
            print '寫入異常' 

for i in range(3050,1650,-50):
    ZJ = ZHANGJIE('http://tieba.baidu.com/f/good?kw=%E9%98%B4%E9%98%B3%E4%BB%A3%E7%90%86%E4%BA%BA&ie=utf-8&cid=0&pn=',i)
    ZJ.getNum()
    for i in Num_r:
        NR = NEIRONG('http://tieba.baidu.com/p/',i)
        NR.writeDate()
print '小說已經(jīng)準(zhǔn)備好啦'

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)頁名稱:爬蟲到百度貼吧,爬去自己的小說-創(chuàng)新互聯(lián)
文章鏈接:http://www.rwnh.cn/article10/icpgo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器網(wǎng)站策劃、面包屑導(dǎo)航網(wǎng)站導(dǎo)航、搜索引擎優(yōu)化、靜態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)
蒲城县| 彩票| 桦川县| 依兰县| 政和县| 承德县| 疏勒县| 大姚县| 棋牌| 宁海县| 西峡县| 盘锦市| 阿拉善盟| 佛山市| 怀集县| 达日县| 崇州市| 来安县| 北流市| 宁都县| 沁阳市| 郎溪县| 武隆县| 恩平市| 广饶县| 介休市| 珲春市| 富民县| 湘西| 河南省| 莱芜市| 宁蒗| 宣武区| 齐齐哈尔市| 宽城| 衡山县| 南平市| 临洮县| 舟曲县| 十堰市| 余江县|