中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

Python3中Ajax結(jié)果提取的方法是什么-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買(mǎi)多久送多久,劃算不套路!

創(chuàng)新互聯(lián)是一家專業(yè)提供華陰企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為華陰眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進(jìn)行中。

這篇文章將為大家詳細(xì)講解有關(guān)Python3中Ajax結(jié)果提取的方法是什么,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

這里仍然以微博為例,接下來(lái)用Python來(lái)模擬這些Ajax請(qǐng)求,把我發(fā)過(guò)的微博爬取下來(lái)。

1. 分析請(qǐng)求

打開(kāi)Ajax的XHR過(guò)濾器,然后一直滑動(dòng)頁(yè)面以加載新的微博內(nèi)容??梢钥吹剑瑫?huì)不斷有Ajax請(qǐng)求發(fā)出。

選定其中一個(gè)請(qǐng)求,分析它的參數(shù)信息。點(diǎn)擊該請(qǐng)求,進(jìn)入詳情頁(yè)面,如圖6-11所示。

Python3中Ajax結(jié)果提取的方法是什么

                                                                             圖6-11 詳情頁(yè)面

可以發(fā)現(xiàn),這是一個(gè)GET類型的請(qǐng)求,請(qǐng)求鏈接為[https://m.weibo.cn/api/container/getIndex?type=uid&value=2830678474&containerid=1076032830678474&page=2)。請(qǐng)求的參數(shù)有4個(gè):type、value、containerid和page。

隨后再看看其他請(qǐng)求,可以發(fā)現(xiàn),它們的type、value和containerid始終如一。type始終為uid,value的值就是頁(yè)面鏈接中的數(shù)字,其實(shí)這就是用戶的id。另外,還有containerid??梢园l(fā)現(xiàn),它就是107603加上用戶id。改變的值就是page,很明顯這個(gè)參數(shù)是用來(lái)控制分頁(yè)的,page=1代表第一頁(yè),page=2代表第二頁(yè),以此類推。

2. 分析響應(yīng)

隨后,觀察這個(gè)請(qǐng)求的響應(yīng)內(nèi)容,如圖6-12所示。

Python3中Ajax結(jié)果提取的方法是什么

                                                                                    圖6-12 響應(yīng)內(nèi)容

這個(gè)內(nèi)容是JSON格式的,瀏覽器開(kāi)發(fā)者工具自動(dòng)做了解析以方便我們查看??梢钥吹?,最關(guān)鍵的兩部分信息就是cardlistInfo和cards:前者包含一個(gè)比較重要的信息total,觀察后可以發(fā)現(xiàn),它其實(shí)是微博的總數(shù)量,我們可以根據(jù)這個(gè)數(shù)字來(lái)估算分頁(yè)數(shù);后者則是一個(gè)列表,它包含10個(gè)元素,展開(kāi)其中一個(gè)看一下,如圖6-13所示。

Python3中Ajax結(jié)果提取的方法是什么

                                                                                 圖6-13 列表內(nèi)容

可以發(fā)現(xiàn),這個(gè)元素有一個(gè)比較重要的字段mblog。展開(kāi)它,可以發(fā)現(xiàn)它包含的正是微博的一些信息,比如attitudes_count(贊數(shù)目)、comments_count(評(píng)論數(shù)目)、reposts_count(轉(zhuǎn)發(fā)數(shù)目)、created_at(發(fā)布時(shí)間)、text(微博正文)等,而且它們都是一些格式化的內(nèi)容。

這樣我們請(qǐng)求一個(gè)接口,就可以得到10條微博,而且請(qǐng)求時(shí)只需要改變page參數(shù)即可。

這樣的話,我們只需要簡(jiǎn)單做一個(gè)循環(huán),就可以獲取所有微博了。

3. 實(shí)戰(zhàn)演練

這里我們用程序模擬這些Ajax請(qǐng)求,將我的前10頁(yè)微博全部爬取下來(lái)。

首先,定義一個(gè)方法來(lái)獲取每次請(qǐng)求的結(jié)果。在請(qǐng)求時(shí),page是一個(gè)可變參數(shù),所以我們將它作為方法的參數(shù)傳遞進(jìn)來(lái),相關(guān)代碼如下:

from urllib.parse import urlencode
import requests
base_url = 'https://m.weibo.cn/api/container/getIndex?'
headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/2830678474',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) 
    Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}
def get_page(page):
    params = {
        'type': 'uid',
        'value': '2830678474',
        'containerid': '1076032830678474',
        'page': page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('Error', e.args)

首先,這里定義了base_url來(lái)表示請(qǐng)求的URL的前半部分。接下來(lái),構(gòu)造參數(shù)字典,其中type、value和containerid是固定參數(shù),page是可變參數(shù)。接下來(lái),調(diào)用urlencode()方法將參數(shù)轉(zhuǎn)化為URL的GET請(qǐng)求參數(shù),即類似于type=uid&value=2830678474&containerid=1076032830678474&page=2這樣的形式。隨后,base_url與參數(shù)拼合形成一個(gè)新的URL。接著,我們用requests請(qǐng)求這個(gè)鏈接,加入headers參數(shù)。然后判斷響應(yīng)的狀態(tài)碼,如果是200,則直接調(diào)用json()方法將內(nèi)容解析為JSON返回,否則不返回任何信息。如果出現(xiàn)異常,則捕獲并輸出其異常信息。

隨后,我們需要定義一個(gè)解析方法,用來(lái)從結(jié)果中提取想要的信息,比如這次想保存微博的id、正文、贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)這幾個(gè)內(nèi)容,那么可以先遍歷cards,然后獲取mblog中的各個(gè)信息,賦值為一個(gè)新的字典返回即可:

from pyquery import PyQuery as pq
def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            weibo = {}
            weibo['id'] = item.get('id')
            weibo['text'] = pq(item.get('text')).text()
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo

這里我們借助pyquery將正文中的HTML標(biāo)簽去掉。

最后,遍歷一下page,一共10頁(yè),將提取到的結(jié)果打印輸出即可:

if __name__ == '__main__':
    for page in range(1, 11):
        json = get_page(page)
        results = parse_page(json)
        for result in results:
            print(result)

另外,我們還可以加一個(gè)方法將結(jié)果保存到MongoDB數(shù)據(jù)庫(kù):

from pymongo import MongoClient
client = MongoClient()
db = client['weibo']
collection = db['weibo']
def save_to_mongo(result):
    if collection.insert(result):
        print('Saved to Mongo')

這樣所有功能就實(shí)現(xiàn)完成了。運(yùn)行程序后,樣例輸出結(jié)果如下:

{'id': '4134879836735238', 'text': '驚不驚喜,刺不刺激,意不意外,感不感動(dòng)', 'attitudes': 3, 'comments': 1, 
'reposts': 0}
Saved to Mongo
{'id': '4143853554221385', 'text': '曾經(jīng)夢(mèng)想仗劍走天涯,后來(lái)過(guò)安檢給收走了。分享單曲 遠(yuǎn)走高飛', 'attitudes': 5, 
'comments': 1, 'reposts': 0}
Saved to Mongo

查看一下MongoDB,相應(yīng)的數(shù)據(jù)也被保存到MongoDB,如圖6-14所示。

Python3中Ajax結(jié)果提取的方法是什么

                                                                            圖6-14 保存結(jié)果

這樣,我們就順利通過(guò)分析Ajax并編寫(xiě)爬蟲(chóng)爬取下來(lái)了微博列表,最后,給出本節(jié)的代碼地址:https://github.com/Python3WebSpider/WeiboList。

本節(jié)的目的是為了演示Ajax的模擬請(qǐng)求過(guò)程,爬取的結(jié)果不是重點(diǎn)。該程序仍有很多可以完善的地方,如頁(yè)碼的動(dòng)態(tài)計(jì)算、微博查看全文等,若感興趣,可以嘗試一下。

通過(guò)這個(gè)實(shí)例,我們主要學(xué)會(huì)了怎樣去分析Ajax請(qǐng)求,怎樣用程序來(lái)模擬抓取Ajax請(qǐng)求。了解了抓取原理之后,下一節(jié)的Ajax實(shí)戰(zhàn)演練會(huì)更加得心應(yīng)手。

關(guān)于Python3中Ajax結(jié)果提取的方法是什么就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

網(wǎng)頁(yè)題目:Python3中Ajax結(jié)果提取的方法是什么-創(chuàng)新互聯(lián)
本文鏈接:http://www.rwnh.cn/article20/doegco.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開(kāi)發(fā)、企業(yè)網(wǎng)站制作、網(wǎng)頁(yè)設(shè)計(jì)公司、動(dòng)態(tài)網(wǎng)站網(wǎng)站建設(shè)、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化
云和县| 县级市| 个旧市| 石泉县| 正定县| 长武县| 桐柏县| 平度市| 汉寿县| 临泽县| 宝坻区| 老河口市| 秭归县| 兴和县| 饶河县| 长白| 长汀县| 新密市| 鹿泉市| 台州市| 崇明县| 嘉祥县| 乌恰县| 定安县| 东光县| 河津市| 夹江县| 基隆市| 肃南| 琼中| 施秉县| 淮北市| 封丘县| 如皋市| 海淀区| 蒲城县| 南皮县| 新昌县| 东安县| 威远县| 泗阳县|