如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片

小編給大家分享一下如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

在雙塔等地區(qū)，都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局，加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務(wù)理念，為客戶提供做網(wǎng)站、網(wǎng)站設(shè)計(jì) 網(wǎng)站設(shè)計(jì)制作按需搭建網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),全網(wǎng)營銷推廣,外貿(mào)營銷網(wǎng)站建設(shè),雙塔網(wǎng)站建設(shè)費(fèi)用合理。

python的數(shù)據(jù)類型有哪些?

python的數(shù)據(jù)類型：1. 數(shù)字類型，包括int（整型）、long（長整型）和float（浮點(diǎn)型）。2.字符串，分別是str類型和unicode類型。3.布爾型，Python布爾類型也是用于邏輯運(yùn)算，有兩個(gè)值：True（真）和False（假）。4.列表，列表是Python中使用最頻繁的數(shù)據(jù)類型，集合中可以放任何數(shù)據(jù)類型。5. 元組，元組用”()”標(biāo)識(shí)，內(nèi)部元素用逗號(hào)隔開。6. 字典，字典是一種鍵值對的集合。7. 集合，集合是一個(gè)無序的、不重復(fù)的數(shù)據(jù)組合。

python爬蟲支持模塊多、代碼簡潔、開發(fā)效率高，是我們進(jìn)行網(wǎng)絡(luò)爬蟲可以選取的好工具。對于一個(gè)個(gè)的爬取下載，勢必會(huì)消耗我們大量的時(shí)間，使用Python爬蟲就可以解決這個(gè)問題，即可以實(shí)現(xiàn)自動(dòng)下載。

一、自動(dòng)下載圖片流程

1、總結(jié)網(wǎng)址規(guī)律，以便根據(jù)網(wǎng)址訪問網(wǎng)頁；

2、根據(jù)網(wǎng)址規(guī)律，循環(huán)爬取并返回網(wǎng)頁；

3、利用正則表達(dá)式提取并返回圖片。

二、使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片步驟

1、導(dǎo)入相關(guān)包

import requests
import importlib
import urllib
import re
import os
import sys
importlib.reload(sys)

2、定義網(wǎng)頁訪問函數(shù)

cookie獲得方式：正常訪問此頁面，鼠標(biāo)右鍵檢查或F12-在Network處查看自己的cookie，由于cookie很長且每個(gè)用戶的cookie不同，故代碼中將cookie省略了，讀者可查看自己瀏覽器的cookie，將其加入代碼中。

def askURL(url):
    head = {   
        "Accept": "image/webp,image/apng,image/*,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Connection": "keep-alive",
        "Cookie": " ",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/
        71.0.3578.98 Safari/537.36"
    }
    s = quote(url, safe=string.printable)    # 中文轉(zhuǎn)utf8字符，否則會(huì)報(bào)ascii錯(cuò)
    print(s)
    request = urllib.request.Request(s, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

3、提取圖片并返回

根據(jù)返回的html網(wǎng)頁可以看到，網(wǎng)頁中包含圖片的url共有四種類型，分別是objURL、middleURL、hoverURL和thumbURL，故利用正則表達(dá)式返回四種類型的鏈接并合并。

i = 1

def savePic(url):
    global i  # 
    html = askURL(url)
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  # re.S表示讓換行符包含在字符中
    pic_url2 = re.findall('"middleURL":"(.*?)",', html, re.S)
    pic_url3 = re.findall('"hoverURL":"(.*?)",', html, re.S)
    pic_url4 = re.findall('"thumbURL":"(.*?)",', html, re.S)
    result = pic_url2 + pic_url + pic_url4 + pic_url3

    for item in result:
        print("已下載" + str(i) + "張圖片")
        # 定義異?？刂?
        try:
            pic = requests.get(item, timeout=5)
        except Exception:  
            print("當(dāng)前圖片無法下載")
            continue 

        #  保存圖片
        string = 'D:/MyData/Python爬蟲/圖片/'+word+"/"+str(i)+".jpg"
        fp = open(string, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1

4、定義主函數(shù)

if __name__ == '__main__':  # 主程序
    word = input("請輸入想要下載的圖片:")

    #  根據(jù)搜索的關(guān)鍵字判斷存放該類別的文件夾是否存在,不存在則創(chuàng)建
    road = "D:/MyData/Python爬蟲/圖片下載器/" + word
    if not os.path.exists(road):
        os.mkdir(road)

    #  根據(jù)輸入的內(nèi)容構(gòu)建url列表，此處只訪問了四頁驗(yàn)證效果
    urls = [
        'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word='
        + word '.format(str(i)) for i in range(0, 40, 10)]

    for url in urls:
        print(url)
        downloadPic(url)

    print("下載完成!")

看完了這篇文章，相信你對“如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片”有了一定的了解，如果想了解更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

網(wǎng)站標(biāo)題：如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片
本文URL：http://www.rwnh.cn/article18/ghcpgp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供做網(wǎng)站、Google、網(wǎng)站導(dǎo)航、App開發(fā)、網(wǎng)站改版、服務(wù)器托管

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

如何使用Python爬蟲實(shí)現(xiàn)自動(dòng)下載圖片

python的數(shù)據(jù)類型有哪些?