這篇文章給大家分享的是有關(guān)Python中如何獲取高考志愿信息的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。
創(chuàng)新互聯(lián)公司是一家專(zhuān)業(yè)提供新區(qū)企業(yè)網(wǎng)站建設(shè),專(zhuān)注與成都網(wǎng)站制作、成都做網(wǎng)站、成都h5網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為新區(qū)眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專(zhuān)業(yè)網(wǎng)絡(luò)公司優(yōu)惠進(jìn)行中。準(zhǔn)備工作
首先明確一下任務(wù)。首先我們要從網(wǎng)址表格中讀取到一大串網(wǎng)址,然后訪問(wèn)每個(gè)網(wǎng)址,獲取到頁(yè)面上的學(xué)校信息,然后將它們?cè)趯?xiě)到另一個(gè)Excel中。顯然,我們需要一個(gè)爬蟲(chóng)庫(kù)和一個(gè)Excel庫(kù)來(lái)幫助我們完成任務(wù)。
第一步自然是安裝它們,requests-html
是一個(gè)非常好用的HTML解析庫(kù),拿來(lái)做簡(jiǎn)單的爬蟲(chóng)非常優(yōu)雅;而openpyxl是一個(gè)Excel表格庫(kù),可以輕松創(chuàng)建和處理Excel數(shù)據(jù)。
pip install requests-html openpyxl
然后就是網(wǎng)址表格,大概長(zhǎng)這樣,總共大概一千七百多條數(shù)據(jù)。其中有少量網(wǎng)址是錯(cuò)誤的,訪問(wèn)會(huì)得到404錯(cuò)誤,所以在編寫(xiě)代碼的時(shí)候還要注意錯(cuò)誤處理。
任務(wù)分析
任務(wù)的核心自然就是分析和獲取網(wǎng)頁(yè)內(nèi)容了。首先現(xiàn)在瀏覽器里面打開(kāi)一個(gè)網(wǎng)址,看看網(wǎng)頁(yè)上的內(nèi)容是什么。
可以看到這個(gè)網(wǎng)頁(yè)格式很亂,學(xué)校名字什么的都是混在一起的,一點(diǎn)也不規(guī)整,這給我們提取數(shù)據(jù)造成了不少的麻煩。不過(guò)仔細(xì)分析之后,其實(shí)問(wèn)題也并不難。
首先要提取的是學(xué)校名字,可以看到學(xué)校名字和其他文字混在一起,例如"本科一批普通文科627集美大學(xué)報(bào)考情況"。本來(lái)我準(zhǔn)備用正則表達(dá)式提取,然后發(fā)現(xiàn)用正則表達(dá)式好像很難。之后我多訪問(wèn)了幾個(gè)網(wǎng)頁(yè),發(fā)現(xiàn)學(xué)校代碼基本上都是數(shù)字,如果有字母的話也出現(xiàn)到第一位,所以我采用了以下的算法,首先將字符串從數(shù)字處分隔,右邊的一個(gè)部分就包含了學(xué)校名字和“報(bào)考情況”幾個(gè)字,然后刪除“報(bào)考情況”即可得到學(xué)校名字。這個(gè)算法唯一的缺點(diǎn)就是,假如出現(xiàn)了字母在中間的代號(hào),就沒(méi)辦法獲取到學(xué)校名字了,不過(guò)實(shí)際運(yùn)行之后,我幸運(yùn)的發(fā)現(xiàn)并沒(méi)有出現(xiàn)這種情況。
之后要提取的就是專(zhuān)業(yè)信息了,在網(wǎng)頁(yè)源代碼中這部分使用tr和td標(biāo)簽來(lái)呈現(xiàn)的。一開(kāi)始我用的是tr加上選擇器來(lái)提取,但是這個(gè)網(wǎng)頁(yè)生成的時(shí)候很有問(wèn)題,每個(gè)tr標(biāo)簽的樣式居然還根據(jù)內(nèi)容的多少而不同,導(dǎo)致我寫(xiě)死的選擇器沒(méi)法完美獲取所有行。不過(guò)后來(lái)我發(fā)現(xiàn)整個(gè)網(wǎng)頁(yè)內(nèi)容都是一個(gè)表格, 除去表頭和結(jié)尾的幾個(gè)固定行之外,剩下的恰好就是要提取的數(shù)據(jù)行,所以直接獲取tr標(biāo)簽,然后切片除去收尾即可。
網(wǎng)頁(yè)基本上分析完了,下面就是編寫(xiě)代碼了。
編寫(xiě)代碼
總共50行左右代碼,我添加了注釋?zhuān)嘈糯蠹覒?yīng)該很容易就可以看懂。
第一部分代碼是從網(wǎng)址表格讀取所有url,一開(kāi)始編寫(xiě)的時(shí)候,表格里的url是從另一個(gè)公式生成的,所以需要在加載的時(shí)候添加data_only=True才能讀取到公式的結(jié)果,否則只能讀取到公式本身。
第二部分是創(chuàng)建輸出文件,然后編寫(xiě)表頭。順帶為了調(diào)試方便,我讓它如果檢測(cè)到已經(jīng)存在目標(biāo)文件的話就刪掉,在建立一個(gè)新的。
第三部分就是代碼的核心了。Python代碼看著可能有點(diǎn)奇怪,不過(guò)對(duì)照上面的分析,我想大家應(yīng)該很容易看懂。需要注意保存文件在最后,假如半路代碼出現(xiàn)異常,整個(gè)就白干了,而一千七百多條網(wǎng)址不可能保證都正常運(yùn)行。由于輸出格式是“學(xué)校名+專(zhuān)業(yè)信息”這樣的格式,所以我獲取學(xué)校名之后,還要將學(xué)校插入到每行專(zhuān)業(yè)信息之前。所以我這里索性直接用try-except包起來(lái),如果出錯(cuò)的話只打印一下出錯(cuò)的網(wǎng)址。
import os from requests_html import HTMLSession from openpyxl import Workbook, load_workbook # 從網(wǎng)址表格獲取urls def get_urls(): input_file = 'source.xlsx' wb = load_workbook(input_file, data_only=True) ws = wb.active urls = [row[0] for row in ws.values] wb.close() return urls # 輸出Excel文件,如果已存在則刪除已有的 out_file = 'data.xlsx' if os.path.exists(out_file): os.remove(out_file) wb = Workbook() ws = wb.active # 編寫(xiě)第一行表頭 ws['a1'] = '學(xué)校' ws['b1'] = '專(zhuān)業(yè)代號(hào)' ws['c1'] = '專(zhuān)業(yè)名稱(chēng)' ws['d1'] = '計(jì)劃數(shù)' ws['e1'] = '預(yù)計(jì)1:1錄取最低分(投檔分)' ws['f1'] = '按院校投檔比例投檔線上已報(bào)人數(shù)' ws['g1'] = '學(xué)費(fèi)' ws['h2'] = '辦學(xué)地點(diǎn)' ws['i1'] = '專(zhuān)業(yè)備注' # 發(fā)起網(wǎng)絡(luò)請(qǐng)求,解析網(wǎng)頁(yè)信息,并寫(xiě)入文件 session = HTMLSession() urls = get_urls() for url in urls: import re page = session.get(url) page.html.encoding = 'gb2312' try: college_info = page.html.xpath('//td[@class="report1_1_1"]/text()', first=True) college = re.split('\d+', college_info)[1].replace('報(bào)考情況', '') rows = page.html.xpath('//tr')[3:-2] for r in rows: info = [x.text for x in r.xpath('//td')] info.insert(0, college) ws.append(info) print(info) except: print(url) # 保存文件 wb.save(out_file)
運(yùn)行結(jié)果
好了,費(fèi)了大半天的勁,代碼終于完成了。讓我們運(yùn)行一下看看結(jié)果。整個(gè)代碼大概需要運(yùn)行7-8分鐘,最后完成之后得到了一個(gè)500多k的Excel文件。
打開(kāi)之后,可以發(fā)現(xiàn)Excel文件填的滿滿的,最后總共獲取到了大約一萬(wàn)多條數(shù)據(jù),任務(wù)圓滿完成。
python的五大特點(diǎn):1.簡(jiǎn)單易學(xué),開(kāi)發(fā)程序時(shí),專(zhuān)注的是解決問(wèn)題,而不是搞明白語(yǔ)言本身。2.面向?qū)ο?,與其他主要的語(yǔ)言如C++和Java相比, Python以一種非常強(qiáng)大又簡(jiǎn)單的方式實(shí)現(xiàn)面向?qū)ο缶幊獭?.可移植性,Python程序無(wú)需修改就可以在各種平臺(tái)上運(yùn)行。4.解釋性,Python語(yǔ)言寫(xiě)的程序不需要編譯成二進(jìn)制代碼,可以直接從源代碼運(yùn)行程序。5.開(kāi)源,Python是 FLOSS(自由/開(kāi)放源碼軟件)之一。
感謝各位的閱讀!關(guān)于“Python中如何獲取高考志愿信息”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性?xún)r(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專(zhuān)為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
分享名稱(chēng):Python中如何獲取高考志愿信息-創(chuàng)新互聯(lián)
文章源于:http://www.rwnh.cn/article26/ccigjg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、服務(wù)器托管、云服務(wù)器、用戶體驗(yàn)、網(wǎng)站排名、網(wǎng)站改版
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容