最近在微信里看了一個小說叫《陰陽代理人》的,看到一半,發(fā)現(xiàn)斷了,作者說把后面的部分放到了百度貼吧,去了貼吧發(fā)現(xiàn),文章看起來比較費勁,亂糟糟的,所以為了我的小說,弄個了爬蟲,去給我弄下來。
創(chuàng)新互聯(lián)建站主要從事網(wǎng)站設(shè)計制作、網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)合陽,十多年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):13518219792#!/user/bin/env python # -*- coding:utf-8 -*- import urllib2 import urllib import re #小說章節(jié)類 class ZHANGJIE: #初始化傳入地址 def __init__(self,zjUrl,Num): self.zjUrl = zjUrl self.Num = Num #傳入頁碼,獲得網(wǎng)頁源代碼,只看精品 def getPage(self): url = self.zjUrl + str(self.Num) request = urllib2.Request(url) response = urllib2.urlopen(request) return response.read() #獲取每章鏈接資源 def getNum(self): webcon = self.getPage() Num = re.findall('<a href="/p/(\d+)"',webcon) global Num_r Num_r = Num[::-1] return Num_r #每題內(nèi)容類 class NEIRONG: #初始化,傳入地址 def __init__(self,nrUrl,Num): self.nrUrl = nrUrl self.Num = Num #傳入資源頁碼,獲得網(wǎng)頁源代碼,只看樓主 def getPage(self): url = self.nrUrl + str(self.Num) + '?see_lz=1' request = urllib2.Request(url) response = urllib2.urlopen(request) return response.read() #獲取小說章節(jié)和標(biāo)題 def getTitle(self): webcon = self.getPage() title = re.search('>(.*)</h2>',webcon).group(1) return title #獲得小說內(nèi)容并打印換行 def getCon(self): webcon = self.getPage() try: con = re.search('支持蘭大,一定要記得投票哦!推薦票!(.*)(</div><br>)',webcon).group(1) con_n = re.sub('<br>','\n',con) return con_n except AttributeError: return '廣告內(nèi)容,已經(jīng)忽略' #寫入文件 def writeDate(self): con_t = self.getTitle() con_n = self.getCon() try: with open('/tmp/yydlr.txt','a') as f: f.write('\n') f.write('\n') f.write(con_t) f.write(con_n) except IOError: print '寫入異常' for i in range(3050,1650,-50): ZJ = ZHANGJIE('http://tieba.baidu.com/f/good?kw=%E9%98%B4%E9%98%B3%E4%BB%A3%E7%90%86%E4%BA%BA&ie=utf-8&cid=0&pn=',i) ZJ.getNum() for i in Num_r: NR = NEIRONG('http://tieba.baidu.com/p/',i) NR.writeDate() print '小說已經(jīng)準(zhǔn)備好啦'
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
新聞名稱:爬蟲到百度貼吧,爬取自己的小說-創(chuàng)新互聯(lián)
本文URL:http://www.rwnh.cn/article26/dhhicg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、建站公司、網(wǎng)站營銷、ChatGPT、App設(shè)計、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容