2019-12-06 分類(lèi): 網(wǎng)站建設(shè)
成都創(chuàng)新互聯(lián)科技有限公司認(rèn)為在網(wǎng)站優(yōu)化中,我們不的不遇到百度切詞這個(gè)常識(shí),百度中文切詞算法:指搜索引擎為了更好的辨別用戶的需求,并且為了快速提供給用戶需求性信息而使用的算法。
搜索引擎要在單位時(shí)間內(nèi)處理千萬(wàn)億級(jí)的頁(yè)面數(shù)據(jù)量,因此搜索引擎擁有一個(gè)中文詞庫(kù)。比如百度現(xiàn)在大約有9萬(wàn)個(gè)中文詞,那么搜索引擎就可以對(duì)千億級(jí)的頁(yè)面進(jìn)行分析,按照中文詞庫(kù)進(jìn)行了分類(lèi)。
百度分詞基本有三種分法
1、基于理解:傻瓜式匹配,小于等于3個(gè)中文字符百度是不進(jìn)行切詞的,比如搜索“大學(xué)堂”。
2、基于統(tǒng)計(jì):百度把一個(gè)詞標(biāo)紅的原因:標(biāo)紅的詞一般是一個(gè)關(guān)鍵詞,你搜索“學(xué)”字的時(shí)候,百度它自認(rèn)的把“學(xué)習(xí)”也當(dāng)成了一個(gè)關(guān)鍵詞,所以出現(xiàn)“學(xué)習(xí)”這個(gè)詞標(biāo)紅,這就是百度分詞法:基于統(tǒng)計(jì)分詞。
3、基于字符串匹配(百度的分詞法:正向大切詞法)
大與最小(大匹配:一直匹配到?jīng)]詞可配;最小匹配:匹配出詞了就停止匹配,再?gòu)牧硪粋€(gè)詞開(kāi)始匹配)比如:百度搜索“成都網(wǎng)絡(luò)公司”,百度的一個(gè)分詞算法我們把它當(dāng)成一個(gè)黑盒子,我們通過(guò)一些輸入關(guān)鍵詞,根據(jù)百度的輸出結(jié)果來(lái)判定百度的分詞算法。正向與反向(正向:從前往后配;反向:從后往前配)(鹽城網(wǎng)絡(luò)公司)正向分法:鹽城 網(wǎng)絡(luò) 公司。
另外,切詞原理:百度有專有詞庫(kù)(是不可分割的)比如杰出人物(如:毛澤東)明星(如:劉德華)檢索量大的詞(如:買(mǎi)票難) 。
當(dāng)然這些只是百度切詞原理的一部分,也不是全對(duì)。因?yàn)榈陌俣鹊乃惴ㄊ遣豢赡芡嘎冻鰜?lái),商業(yè)機(jī)核心機(jī)密如果都讓你我知道了,那百度還賺什么錢(qián)呢?
當(dāng)前文章:網(wǎng)站優(yōu)化中不能不考慮的百度切詞技巧
文章轉(zhuǎn)載:http://www.rwnh.cn/news16/80966.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、網(wǎng)站營(yíng)銷(xiāo)、網(wǎng)站內(nèi)鏈、網(wǎng)頁(yè)設(shè)計(jì)公司、微信小程序、品牌網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容