中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

猜測(cè)百度分詞基本步驟

2021-09-14    分類(lèi): 網(wǎng)站建設(shè)

最近和朋友在討論百度分詞,看了很多網(wǎng)上關(guān)于百度分詞的一些實(shí)例,我們來(lái)對(duì)百度的分詞步驟進(jìn)行一些猜測(cè),我們不可能真正的了解只能說(shuō)是猜測(cè):

1. 判斷用戶提交字符串,如果為多個(gè)字符串,則通過(guò)空格,標(biāo)點(diǎn)符號(hào),等進(jìn)行切割。

2. 判斷提交字符串中有無(wú)字母或者數(shù)字,如果有把字母與數(shù)字當(dāng)作獨(dú)立整體,并把這個(gè)整體當(dāng)作切割負(fù),進(jìn)行前后切割。

3. 判斷切割后的詞組有無(wú)重復(fù)詞,有當(dāng)作一個(gè)計(jì)算。

4. 如果提交為一個(gè)字符串,判斷字符串字?jǐn)?shù),大于4并等于4個(gè)字的進(jìn)行切割,如果小于4個(gè)字不進(jìn)行任何處理。

5. 對(duì)照特殊詞庫(kù)表進(jìn)行提取,如果字符串中包含特殊詞進(jìn)行單獨(dú)提取。

6. 進(jìn)行正向分詞處理。

7. 進(jìn)行反向分詞處理。

8. 正向分詞結(jié)果與反向分詞結(jié)果進(jìn)行對(duì)比,如果結(jié)果一樣,直接輸出。

9. 如果結(jié)果不一樣,輸出最短路徑(詞數(shù)最少的)進(jìn)行輸出。

10. 如果長(zhǎng)度一樣進(jìn)行則輸出單子最少的結(jié)果。

11. 如果單子最少結(jié)果一樣,則輸出正向分詞結(jié)果。針對(duì)百度索引提示,糾錯(cuò)原理。

1.判讀詞組,1個(gè)字的詞不進(jìn)行提示,大于1個(gè)字開(kāi)啟提示功能。

1.進(jìn)行同音字提示,如果詞數(shù)過(guò)多,提取用戶搜索最多詞組進(jìn)行提示。除以上外,我們還需要注意一點(diǎn),那就是現(xiàn)在分詞中進(jìn)行了語(yǔ)意相關(guān)結(jié)合:舉個(gè)例子我們常常在搜索某些詞的時(shí)候會(huì)發(fā)現(xiàn)有些結(jié)果中并不是完全匹配的詞也進(jìn)行了飄紅。其實(shí)這種情況就是語(yǔ)意結(jié)合。我們可以理解為百度把相關(guān)詞表進(jìn)行了關(guān)聯(lián),或者干脆進(jìn)行了表結(jié)合。造成了這種情況的出現(xiàn)。比如我們搜索太原,我們會(huì)發(fā)現(xiàn)太原與太原市都進(jìn)行了飄紅。

網(wǎng)站題目:猜測(cè)百度分詞基本步驟
標(biāo)題來(lái)源:http://www.rwnh.cn/news19/126619.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、品牌網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作、小程序開(kāi)發(fā)域名注冊(cè)、做網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
阜宁县| 嘉祥县| 江安县| 芜湖县| 德格县| 泰顺县| 察雅县| 莱西市| 肃北| 闽侯县| 南陵县| 玉门市| 丁青县| 青冈县| 昌黎县| 个旧市| 德兴市| 会东县| 宿松县| 白河县| 荣成市| 穆棱市| 英吉沙县| 梨树县| 玛多县| 阳信县| 丰原市| 郴州市| 莲花县| 丹凤县| 昌乐县| 公安县| 怀远县| 藁城市| 江油市| 平邑县| 开化县| 大姚县| 抚远县| 乐平市| 临朐县|