中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

用python爬取圖片的方法

小編給大家分享一下用python爬取圖片的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括安澤網(wǎng)站建設(shè)、安澤網(wǎng)站制作、安澤網(wǎng)頁(yè)制作以及安澤網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái),我們專(zhuān)注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,安澤網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶(hù)以成都為中心已經(jīng)輻射到安澤省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶(hù)的支持與信任!

都知道Python的語(yǔ)法很簡(jiǎn)單易上手,也很適合拿來(lái)做爬蟲(chóng)等等,這里就簡(jiǎn)單講解一下爬蟲(chóng)入門(mén)——簡(jiǎn)單地爬取下載網(wǎng)站圖片。

代碼:

其實(shí)很簡(jiǎn)單,我們直接看下整體的代碼:

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?\.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

效果

就像這樣自動(dòng)爬取下載圖片到本地:

用python爬取圖片的方法

導(dǎo)入庫(kù):

第一行的utf-8是為了支持中文。

這里我們導(dǎo)入了兩個(gè)庫(kù),分別是 urllib 和 re。urllib 是用來(lái)進(jìn)行 url 網(wǎng)絡(luò)請(qǐng)求的,而 re 是一個(gè)正則表達(dá)式匹配的庫(kù)。這里我們要先對(duì)網(wǎng)站進(jìn)行模擬請(qǐng)求,然后找到網(wǎng)站中的圖片進(jìn)行下載。

請(qǐng)求網(wǎng)站:

第一個(gè)方法:getHtml。

這就是用來(lái)模擬瀏覽器訪問(wèn)網(wǎng)站的,參數(shù) url 是要訪問(wèn)的網(wǎng)站鏈接,這里我們?cè)谙旅娴淖兞?html 處調(diào)用了這個(gè)方法,其訪問(wèn)的 url 是一個(gè)圖片網(wǎng)站,關(guān)于選擇訪問(wèn)網(wǎng)站還有一點(diǎn)等下要說(shuō)一下。

在這個(gè)方法中,我們先用了 urllib 庫(kù)的 urlopen 方法來(lái)打開(kāi)網(wǎng)站,然后通過(guò) read 方法來(lái)獲取網(wǎng)站的源代碼,其實(shí)就跟在網(wǎng)頁(yè)中“右鍵–>檢查“是一個(gè)意思。最后返回了讀取到的網(wǎng)站源代碼。

上面說(shuō)了要注意的一點(diǎn)是,由于很多網(wǎng)站會(huì)禁止人們隨意爬取數(shù)據(jù),有反爬蟲(chóng)的技術(shù),所以在選擇要爬取的網(wǎng)站的時(shí)候,最好先通過(guò)這個(gè)方法獲取網(wǎng)站源代碼,然后 print 輸出 html 變量看一下獲取到的內(nèi)容是否是正常的網(wǎng)頁(yè)源代碼,而不是403之類(lèi)的禁止訪問(wèn),如果被禁止了,那么自然也不可能爬取到數(shù)據(jù)了。

看完了這篇文章,相信你對(duì)用python爬取圖片的方法有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!

文章標(biāo)題:用python爬取圖片的方法
文章位置:http://www.rwnh.cn/article24/gpoeje.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)站設(shè)計(jì)公司網(wǎng)站設(shè)計(jì)、域名注冊(cè)、品牌網(wǎng)站設(shè)計(jì)、網(wǎng)站排名

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
三河市| 宁远县| 石城县| 道孚县| 巴林右旗| 新宁县| 台中市| 贞丰县| 西峡县| 广河县| 大石桥市| 华蓥市| 嘉黎县| 大同市| 白玉县| 正阳县| 青浦区| 东阿县| 周口市| 新和县| 应城市| 武威市| 孝义市| 饶平县| 岳池县| 犍为县| 舒城县| 南开区| 公安县| 三明市| 德州市| 双柏县| 浦江县| 绿春县| 永德县| 甘谷县| 龙里县| 柏乡县| 瑞昌市| 德令哈市| 开化县|