本篇內(nèi)容介紹了“python中什么是Unicode文本標(biāo)準(zhǔn)化”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
白塔網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián),白塔網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為白塔上千提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的白塔做網(wǎng)站的公司定做!
最近遇到unicodedata
模塊,才知道它的一個(gè)應(yīng)用。某些字符能夠用多個(gè)合法的編碼表示,這就會(huì)導(dǎo)致一些問題。
如一個(gè)字符?
既可以使用\u00f1
,也可以使用n\u0303
表示,如下所示:
In [2]: '\u00f1'
Out[2]: '?'
In [3]: 'n\u0303' # 注意前面有個(gè)字符n
Out[3]: '?'
原因是第一種表示\u00f1
為整體表示法,第二種n\u0303
為組合表示法,是n
和字符~
的組合字符。
很顯然,在需要比較字符串的程序中,使用像上面字符的多種表示法會(huì)產(chǎn)生問題,如下所示:
In [4]: s1='\u00f1'
In [5]: s2='n\u0303'
In [6]: s1==s2
Out[6]: False
我們期望上面的字符?
在兩種表示下是相等的,這就需要使用unicodedata
模塊,將這些字符標(biāo)準(zhǔn)化:
s1='\u00f1'
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2
Out[25]: True
normalize()
第一個(gè)參數(shù)指定字符串標(biāo)準(zhǔn)化的方式。NFC表示字符應(yīng)該是整體組成,還有其他標(biāo)準(zhǔn)化方法如NFD
,上面的字符n
和 \u0303
的組合n\u0303
,就是NFD表示法。
埃格斯特朗符號(hào) ?
,在NFC中總是被代換成在視覺上相同的U+00C5(? –在上方帶環(huán)的A)。在NFD中,則會(huì)換成由U+0041(A) 和U+030A(°)這兩個(gè)字符所組成的序列。
標(biāo)準(zhǔn)化對(duì)于任何需要以一致的方式處理Unicode文本的程序,正規(guī)化是很重要,因?yàn)樗绊懥吮容^、搜索和排序的意義。
“python中什么是Unicode文本標(biāo)準(zhǔn)化”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
分享名稱:python中什么是Unicode文本標(biāo)準(zhǔn)化
本文鏈接:http://www.rwnh.cn/article22/igjhcc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、定制網(wǎng)站、營(yíng)銷型網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作、商城網(wǎng)站、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)