中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

古詩文網(wǎng)站的網(wǎng)絡(luò)爬蟲編寫方式,通過網(wǎng)絡(luò)爬蟲抓去內(nèi)容

1. 以下就是古詩文網(wǎng)站的爬蟲代碼,請(qǐng)看:

為陽明等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù),及陽明網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、陽明網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!

# encoding:utf-8
import requests
import re
import json
 
 
def parse_page(url):
    # 1.請(qǐng)求網(wǎng)站
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    text = response.text
    # 2.解析網(wǎng)站
    titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>', text, re.DOTALL)
    # print json.dumps(titles, encoding="utf-8", ensure_ascii=False)
    times = re.findall(r'<p\sclass="source">.*?<a\s.*?>(.*?)</a>', text, re.DOTALL)
    # print json.dumps(times, encoding="utf-8", ensure_ascii=False)
    authors = re.findall(r'<p class="source">.*?<a.*?<a.*?>(.*?)</a>', text, re.DOTALL)
    poems_ret = re.findall(r'<div class="contson" id=.*?>(.*?)</div>', text, re.DOTALL)
    poems = []
    for poem in poems_ret:
        temp = re.sub("<.*?>", "", poem)
        poems.append(temp.strip())
    # for index, value in enumerate(titles):
    #     print titles[index]
    #     print times[index]
    #     print authors[index]
    #     print poems[index]
    #     print "*"*50
    # zip函數(shù)自動(dòng)實(shí)現(xiàn)上述組合
    results = []
    for value in zip(titles, times, authors, poems):
        title, time, author, poem = value
        result = {
            "標(biāo)題": title,
            "朝代": time,
            "作者": author,
            "原文": poem
        }
        print result["標(biāo)題"]
        results.append(result)
    # print results
 
 
def main():
    url_base = "https://www.xzslx.net/gushi/"
    for i in range(1, 11):
        url = url_base.format(i)
        print " "*20+"優(yōu)美古詩文"+" "*20
        print "*"*50
        parse_page(url)
        print "*"*50
 
 
if __name__ == '__main__':
    main()

2. 輸出來的結(jié)果是:

C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py
                    古詩文                    
**************************************************
關(guān)山月
明月出天山,蒼茫云海間。
長(zhǎng)風(fēng)幾×××,吹度玉門關(guān)。 
漢下白登道,胡窺青海灣。
[2] 由來征戰(zhàn)地,不見有人還。
戍客望邊邑,思?xì)w多苦顏。 
高樓當(dāng)此夜,嘆息未應(yīng)閑。
**************************************************
                    古詩文                    
**************************************************
隴西行四首·其二
誓掃匈奴不顧身,五千貂錦喪胡塵。
可憐無定河邊骨,猶是春閨夢(mèng)里人!
**************************************************
                    古詩文                    
**************************************************
嫦娥(嫦娥應(yīng)悔偷靈藥)
云母屏風(fēng)燭影深, 長(zhǎng)河漸落曉星沉。 嫦娥應(yīng)悔偷靈藥, 碧海青天夜夜心。
**************************************************

 

Process finished with exit code 0



網(wǎng)站題目:古詩文網(wǎng)站的網(wǎng)絡(luò)爬蟲編寫方式,通過網(wǎng)絡(luò)爬蟲抓去內(nèi)容
本文來源:http://www.rwnh.cn/article10/igidgo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、關(guān)鍵詞優(yōu)化、ChatGPT、虛擬主機(jī)、網(wǎng)站排名、小程序開發(fā)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)
鹤庆县| 丰城市| 保康县| 珲春市| 河东区| 井陉县| 南城县| 宁南县| 张家港市| 肃宁县| 应城市| 仲巴县| 和政县| 京山县| 蓬安县| 靖西县| 苗栗市| 淮北市| 古蔺县| 那坡县| 麟游县| 玉溪市| 化德县| 南阳市| 崇仁县| 霸州市| 凯里市| 凤翔县| 永春县| 新化县| 进贤县| 科技| 黄骅市| 华亭县| 蕉岭县| 洱源县| 临城县| 肇州县| 杭锦后旗| 江孜县| 永德县|