這篇文章主要介紹了python爬蟲亂碼是文字方塊的解決方法,具有一定借鑒價值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。
你所需要的網(wǎng)站建設(shè)服務(wù),我們均能行業(yè)靠前的水平為你提供.標準是產(chǎn)品質(zhì)量的保證,主要從事網(wǎng)站制作、成都做網(wǎng)站、企業(yè)網(wǎng)站建設(shè)、手機網(wǎng)站制作、網(wǎng)頁設(shè)計、高端網(wǎng)站設(shè)計、網(wǎng)頁制作、做網(wǎng)站、建網(wǎng)站。創(chuàng)新互聯(lián)擁有實力堅強的技術(shù)研發(fā)團隊及素養(yǎng)的視覺設(shè)計專才。
在跟一群小伙伴探討完亂碼的問題后,小編發(fā)現(xiàn)了各式各樣的獲取方法,當然亂碼的問題也是蜂擁而來,都讓小編覺得出錯比找數(shù)據(jù)不要太容易了。小編近期一直在收集大家的問題,不斷地更新整理后分享給大家,希望更多的小伙伴看到后都知道該如何去解決,今天就python爬蟲亂碼是文字方塊的解決辦法。
在解析網(wǎng)頁時,時??梢钥吹饺缦虑榫埃?/p>
這種情況下,我們需要的僅僅是數(shù)字,則需要找到相應(yīng)的字體對應(yīng)規(guī)則。
首先,轉(zhuǎn)碼,將字符串轉(zhuǎn)為bytes類型:
然后,根據(jù)0~9各個字符的bytes類型編碼,建立對應(yīng)詞典,示例中這個網(wǎng)站的網(wǎng)頁載入有點賤嘻嘻,弄了三套對應(yīng)的轉(zhuǎn)換模式,現(xiàn)在也不知道是否每天還會更新,反正人肉分別將30個bytes類型編碼與字符串做對應(yīng),用數(shù)組或者字典皆可。
最后就可以根據(jù)內(nèi)容來進行轉(zhuǎn)碼了。
上面說到這是有限的解決方案,原因在于,如果網(wǎng)站實行動態(tài)加密,那可能就要去看具體的js內(nèi)容了,再就是有的可能是圖片,可能需要OCR來進行輔助。
在爬相應(yīng)的網(wǎng)站的時候,友好起見,我使用了selenium+chromedriver,載入后,再刷新一次,效果更好,說的好像刷新一次以后,就不是機器人了一樣哈哈。
感謝你能夠認真閱讀完這篇文章,希望小編分享python爬蟲亂碼是文字方塊的解決方法內(nèi)容對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,遇到問題就找創(chuàng)新互聯(lián),詳細的解決方法等著你來學習!
本文標題:python爬蟲亂碼是文字方塊的解決方法
當前地址:http://www.rwnh.cn/article46/psgeeg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導航、小程序開發(fā)、云服務(wù)器、企業(yè)建站、微信小程序、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)