小編給大家分享一下用python爬取圖片的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括安澤網(wǎng)站建設(shè)、安澤網(wǎng)站制作、安澤網(wǎng)頁(yè)制作以及安澤網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái),我們專(zhuān)注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,安澤網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶(hù)以成都為中心已經(jīng)輻射到安澤省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶(hù)的支持與信任!
都知道Python的語(yǔ)法很簡(jiǎn)單易上手,也很適合拿來(lái)做爬蟲(chóng)等等,這里就簡(jiǎn)單講解一下爬蟲(chóng)入門(mén)——簡(jiǎn)單地爬取下載網(wǎng)站圖片。
代碼:
其實(shí)很簡(jiǎn)單,我們直接看下整體的代碼:
#coding = utf-8 import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = 'src="(.+?\.jpg)" alt=' imgre = re.compile(reg) imglist = re.findall(imgre, html) x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl, '%s.jpg' % x) x+=1 return imglist html = getHtml("http://pic.yxdown.com/list/0_0_1.html") print getImg(html)
效果
就像這樣自動(dòng)爬取下載圖片到本地:
導(dǎo)入庫(kù):
第一行的utf-8是為了支持中文。
這里我們導(dǎo)入了兩個(gè)庫(kù),分別是 urllib 和 re。urllib 是用來(lái)進(jìn)行 url 網(wǎng)絡(luò)請(qǐng)求的,而 re 是一個(gè)正則表達(dá)式匹配的庫(kù)。這里我們要先對(duì)網(wǎng)站進(jìn)行模擬請(qǐng)求,然后找到網(wǎng)站中的圖片進(jìn)行下載。
請(qǐng)求網(wǎng)站:
第一個(gè)方法:getHtml。
這就是用來(lái)模擬瀏覽器訪問(wèn)網(wǎng)站的,參數(shù) url 是要訪問(wèn)的網(wǎng)站鏈接,這里我們?cè)谙旅娴淖兞?html 處調(diào)用了這個(gè)方法,其訪問(wèn)的 url 是一個(gè)圖片網(wǎng)站,關(guān)于選擇訪問(wèn)網(wǎng)站還有一點(diǎn)等下要說(shuō)一下。
在這個(gè)方法中,我們先用了 urllib 庫(kù)的 urlopen 方法來(lái)打開(kāi)網(wǎng)站,然后通過(guò) read 方法來(lái)獲取網(wǎng)站的源代碼,其實(shí)就跟在網(wǎng)頁(yè)中“右鍵–>檢查“是一個(gè)意思。最后返回了讀取到的網(wǎng)站源代碼。
上面說(shuō)了要注意的一點(diǎn)是,由于很多網(wǎng)站會(huì)禁止人們隨意爬取數(shù)據(jù),有反爬蟲(chóng)的技術(shù),所以在選擇要爬取的網(wǎng)站的時(shí)候,最好先通過(guò)這個(gè)方法獲取網(wǎng)站源代碼,然后 print 輸出 html 變量看一下獲取到的內(nèi)容是否是正常的網(wǎng)頁(yè)源代碼,而不是403之類(lèi)的禁止訪問(wèn),如果被禁止了,那么自然也不可能爬取到數(shù)據(jù)了。
看完了這篇文章,相信你對(duì)用python爬取圖片的方法有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
文章標(biāo)題:用python爬取圖片的方法
文章位置:http://www.rwnh.cn/article24/gpoeje.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)站設(shè)計(jì)公司、網(wǎng)站設(shè)計(jì)、域名注冊(cè)、品牌網(wǎng)站設(shè)計(jì)、網(wǎng)站排名
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)