2016-04-15 分類: 網(wǎng)站建設(shè)
爬蟲(chóng)在實(shí)際生活中還是十分常見(jiàn)的,比如說(shuō)國(guó)內(nèi)大的爬蟲(chóng)——百度。所以說(shuō)爬蟲(chóng)做的好就可以賺錢了。今天講的這個(gè)也很簡(jiǎn)單,爬取網(wǎng)頁(yè)超鏈接,但是有前提那就是這是一張靜態(tài)的網(wǎng)頁(yè),動(dòng)態(tài)的網(wǎng)頁(yè)有點(diǎn)難搞,小編還不是很會(huì),等學(xué)會(huì)了在分享給大家。
首先我們需要引入我們要用的包,這里我們使用了python里面自帶的包urllib.request是python操作url的包,re是python正則表達(dá)式的包首先我們寫一個(gè)獲取網(wǎng)頁(yè)源代碼的函數(shù)
然后我們就要寫一個(gè)提取出網(wǎng)頁(yè)源代碼的超鏈接的函數(shù)
接下來(lái)我們就可以測(cè)試一下了
我們就可以去看看url.txt里面的東西了
我們發(fā)現(xiàn)里面有很多不是url,那個(gè)是因?yàn)樵诰帉懢W(wǎng)頁(yè)的時(shí)候使用的是相對(duì)路徑,所以會(huì)出現(xiàn)這種情況。但是這并不影響我們分析頭條首頁(yè)的超鏈接,基本上都不是本站的連接,說(shuō)明頭條的廣告業(yè)務(wù)有點(diǎn)繁忙,當(dāng)然這只是小編的猜測(cè),萬(wàn)一頭條有很多的域名呢?
名稱欄目:超鏈接代碼怎么寫,html網(wǎng)頁(yè)超鏈接代碼怎么做!
本文路徑:http://www.rwnh.cn/news/32825.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、Google、定制開(kāi)發(fā)、網(wǎng)站制作、網(wǎng)站收錄、自適應(yīng)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容