2023-01-22 分類: 網(wǎng)站建設(shè)
一般環(huán)境下,文本顛末預(yù)處理懲罰獲得候選詞集,然后通過特征值量化從候選詞會合得到要害詞?;诮y(tǒng)計(jì)特征的要害詞提取要領(lǐng)的要害是回收何種特征值量化指標(biāo)。
一般來說,詞的位置對詞有很大的代價(jià)。譬喻,標(biāo)題和摘要自己是作者總結(jié)的文章的主要思想,萊蕪網(wǎng)站制作,因此呈此刻這些處所的詞具有代表性,更容易成為要害詞。然而,由于每個(gè)作者都有差異的習(xí)慣、寫作要領(lǐng)和要害句子的位置,這也是一種很是遍及的得到要害詞的要領(lǐng),凡是不光獨(dú)利用?;バ畔⒑突バ畔⑹切畔⒄撝械囊粋€(gè)觀念,是權(quán)衡變量彼此依賴性的一個(gè)指標(biāo)。彼此信息不限于實(shí)值隨機(jī)變量。
結(jié)構(gòu)要害詞提取模子只需要少量的練習(xí)數(shù)據(jù),然后操作模子對新文本舉辦查抄。要害字提取,手動篩選這些要害字,并將篩選后的要害字添加到培訓(xùn)集以從頭培訓(xùn)模子。無監(jiān)視的要領(lǐng)不需要手動標(biāo)志語料庫。一些要領(lǐng)被用來尋找文本中更重要的詞作為要害字并提取要害字。監(jiān)視文本要害字提取算法要求人工本錢高,現(xiàn)有的文本要害字提取主要回收無監(jiān)視要害字提取,合用性強(qiáng)。
今朝常用的要領(lǐng)有三種:1、基于詞權(quán)的特征量化主要包羅部門語音、詞頻、反向文檔頻率、相對詞頻、詞長等。2、基于詞位的特征量化要領(lǐng)是基于差異位置的句子對文獻(xiàn)的重要性差異的假設(shè)。凡是,文章的前N個(gè)詞、后N個(gè)詞、開頭、末了、標(biāo)題和引言都是有代表性的詞。這些詞可以把整個(gè)主題表達(dá)為要害詞。3、基于詞關(guān)聯(lián)信息的特征量詞的關(guān)聯(lián)信息是指詞與詞、詞與文獻(xiàn)的關(guān)聯(lián)水平,包羅互信息、擲中值、孝敬度、依賴度、tf-idf值等,這里有一些常用的特征值量化指標(biāo)。部門語音分詞和語法闡明的功效?,F(xiàn)有的要害詞大多是名詞或動名詞。
文本要害字提取的進(jìn)程如下:無監(jiān)視文本要害字提取流程圖無監(jiān)視要害字提取算法可分為三類:基于統(tǒng)計(jì)特征的要害字提取、基于詞圖模子的要害字提取和基于主題模子的要害字提取?;诮y(tǒng)計(jì)特征的文本要害字提取算法基于統(tǒng)計(jì)特征的要害字提取算法基于統(tǒng)計(jì)特征的要害字提取算法是操作文檔中的統(tǒng)計(jì)信息提取要害字。
在自然語言處理懲罰規(guī)模,處理懲罰海量文本文件的要害是提取用戶最體貼的問題。無論是長文本照舊隨筆本,我們都可以通過幾個(gè)要害詞來窺視整個(gè)文本的主題。同時(shí),無論是基于文本的推薦照舊基于文本的搜索,對文本要害字的依賴性也很大。要害詞提取的精確性直接干系到推薦系統(tǒng)或搜索系統(tǒng)的最終結(jié)果。
一般來說,名詞比言語的其他部門更能表達(dá)文章的主旨。然而,作為特征量化的指標(biāo),部門語音凡是與其他指標(biāo)團(tuán)結(jié)利用。單詞頻率暗示單詞在文本中呈現(xiàn)的頻率。一般來說,我們認(rèn)為一個(gè)詞在文本中呈現(xiàn)的頻率越高,它就越有大概成為文章的焦點(diǎn)詞。單詞頻率只是計(jì)較文本中呈現(xiàn)的單詞數(shù)。然而,僅依靠詞頻得到的要害詞具有很大的不確定性。對付長文本,此要領(lǐng)將發(fā)生大量噪聲。
因此,要害字提取是文本挖掘規(guī)模的一個(gè)重要構(gòu)成部門。從文本中提取要害詞有三種要領(lǐng):監(jiān)視、半監(jiān)視和無監(jiān)視。監(jiān)視要害字提取算法是將要害字提取算法結(jié)構(gòu)為兩類問題來判定文檔中的詞或短語是否為要害字。由于這是一個(gè)分類問題,因此有須要提供標(biāo)志的練習(xí)預(yù)測。練習(xí)語料庫用于練習(xí)要害詞提取模子。按照該模子,對需要提取要害字的文檔的要害字提取算法舉辦了半監(jiān)視。
分享標(biāo)題:濰坊百度快照推廣分享文章中要害詞的提取與拓展要領(lǐng)
瀏覽地址:http://www.rwnh.cn/news24/231674.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航、做網(wǎng)站、網(wǎng)站營銷、網(wǎng)站內(nèi)鏈、定制開發(fā)、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容