無論是是自動化登錄還是爬蟲,總繞不開驗證碼,這次就來談談python中光學識別驗證碼模塊tesserocr
和pytesseract
。tesserocr
和pytesseract
是Python的一個OCR識別庫,但其實是對tesseract
做的一層Python API封裝,pytesseract
是Google的Tesseract-OCR
引擎包裝器;所以它們的核心是tesseract
,因此在安裝tesserocr
之前,我們需要先安裝tesseract
。
下載安裝
下載地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe
下載完成后,雙擊安裝,可以勾選Additional language data(download)
選項來安裝OCR識別支持的語言包,但下載語言包實在是慢,我們可以直接從https://github.com/tesseract-ocr/tessdata/下載zip的語言包壓縮文件,解壓后將tessdata-master
中的文件復制到Tesseract
的安裝目錄C:\Program Files (x86)\Tesseract-OCR\tessdata
目錄下,最后我們配置下環(huán)境變量,我們將C:\Program Files (x86)\Tesseract-OCR
添加到環(huán)境變量中。進入命令提示符,輸入tesseract
,顯示下圖結(jié)果,說明配置完成
查看安裝了的語言包:tesseract --list-langs
顯示我一共安裝了167種語言包,里邊包含英文或者其他字符。
測試
實驗用的二維碼
基本使用語法
tesseract image.png result
(tesseract 圖片名稱 生成文件名稱)
結(jié)果
由結(jié)果來看,識別出來了P、2和X,但是把C識別成了G,識別度還是比較高,接下來看在python中的使用
python引入tesseract
在python下使用pip命令即可完成下載安裝 pip install pytesseract
識別驗證碼腳本
import pytesseract from PIL import Image im=Image.open('pin.png') print(pytesseract.image_to_string(im))
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
文章題目:python利用Tesseract識別驗證碼的方法示例-創(chuàng)新互聯(lián)
瀏覽地址:http://www.rwnh.cn/article44/dhhshe.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設、網(wǎng)站排名、小程序開發(fā)、手機網(wǎng)站建設、標簽優(yōu)化、ChatGPT
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)