2022-05-12 分類: 網(wǎng)站建設(shè)
信息時(shí)代,科學(xué)技術(shù)的飛速發(fā)展帶動(dòng)人工智能化技術(shù)的更新進(jìn)步。機(jī)器人的應(yīng)用領(lǐng)域和范圍也越來(lái)越廣泛,在生產(chǎn)、建筑、旅游等各個(gè)行業(yè)都能夠看到人工智能機(jī)器人的身影。旅游產(chǎn)業(yè)與互聯(lián)網(wǎng)的結(jié)合,要隨著信息技術(shù)的發(fā)展與時(shí)俱進(jìn)。物聯(lián)網(wǎng)、人工智能、虛擬現(xiàn)實(shí)等新興的互聯(lián)網(wǎng)技術(shù)讓旅游產(chǎn)業(yè)的未來(lái)充滿了挑戰(zhàn)與機(jī)遇,導(dǎo)游等依賴大數(shù)據(jù)的職業(yè)完全可能被人工智能機(jī)器人取代。
本文主要介紹語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用,一般語(yǔ)音機(jī)器人的設(shè)計(jì)開(kāi)發(fā)主要著眼于“能聽(tīng)會(huì)說(shuō)”,力圖利用語(yǔ)音識(shí)別和語(yǔ)音合成等技術(shù),將模擬的聽(tīng)說(shuō)能力賦予機(jī)器人并生動(dòng)地展示給觀眾,主要應(yīng)用于展廳博物館等場(chǎng)景,需考慮到機(jī)器人所處環(huán)境非常嘈雜,因此對(duì)系統(tǒng)的穩(wěn)定性和抗噪性能都提出了較高的要求。此外,由于參與的觀眾來(lái)自全國(guó)各地,涉及不同性別、年齡、地域口音,所以系統(tǒng)聲學(xué)模型的分類設(shè)計(jì)、調(diào)練和自動(dòng)切換也是一個(gè)重要的設(shè)計(jì)要素。
智能語(yǔ)音機(jī)器人的總體設(shè)計(jì)
智能機(jī)器人與觀眾采用相互問(wèn)答的小型對(duì)話形式進(jìn)行交流。為實(shí)現(xiàn)上方便,可把問(wèn)答對(duì)話的領(lǐng)域進(jìn)行合理的限制。除迎賓和問(wèn)候語(yǔ)外,可以設(shè)計(jì)4個(gè)問(wèn)題域:有關(guān)時(shí)間、日期和星期的問(wèn)答,有關(guān)全世界各大城市所在時(shí)區(qū)和當(dāng)?shù)貢r(shí)間的問(wèn)答,100以內(nèi)的數(shù)學(xué)四則運(yùn)算題目的問(wèn)答,沒(méi)有關(guān)系機(jī)器人的身世、本領(lǐng)等自身情況的問(wèn)答。對(duì)于每個(gè)限定的問(wèn)題域,相應(yīng)詞匯表的大小是有限的。在限定領(lǐng)域、有限詞匯的條件下,機(jī)器人基本可以與觀眾進(jìn)行自由問(wèn)答,并可以在不同的問(wèn)題與之間相互切換。系統(tǒng)工作流程圖如下。
系統(tǒng)啟動(dòng)并初始化后處于等待狀態(tài),如果沒(méi)有觀眾靠近,機(jī)器人就定時(shí)反復(fù)播放自我介紹。如果有觀眾參觀(由紅外探測(cè)配合),系統(tǒng)檢測(cè)到語(yǔ)音信號(hào),便會(huì)從等待狀態(tài)進(jìn)入問(wèn)答狀態(tài)。在觀眾預(yù)先選定的問(wèn)題域內(nèi),機(jī)器人將和觀眾進(jìn)行“自由”問(wèn)答,在回答觀眾提問(wèn)的同時(shí),機(jī)器人會(huì)有協(xié)調(diào)的動(dòng)作加以配合:針對(duì)不同觀眾對(duì)機(jī)器人所提問(wèn)題的不同回答,機(jī)器人會(huì)有不同的相應(yīng),并以此決定下一步的動(dòng)作。在某些問(wèn)題域內(nèi),機(jī)器人在對(duì)文檔話過(guò)程中還會(huì)向觀眾提出一些問(wèn)題,并等待觀眾回答。如果觀眾回答正確,機(jī)器人將表示祝賀,否則機(jī)器人將給出合理的提示(如噪聲太大,講話聲音要大點(diǎn),沒(méi)有聽(tīng)清楚或者你的答案不正確等)。多次回答不正確時(shí),機(jī)器人將給出正確答案,機(jī)器人與觀眾對(duì)話結(jié)束后,向觀眾道別,再次轉(zhuǎn)入等待狀態(tài)。
核心語(yǔ)音模塊及關(guān)鍵技術(shù)
語(yǔ)音模塊是智能機(jī)器人的核心構(gòu)件,它完成的功能包括:機(jī)器人從外界接收觀眾的語(yǔ)街,送入語(yǔ)音識(shí)別器進(jìn)行識(shí)別,再?gòu)淖R(shí)別結(jié)果中提取若干關(guān)鍵詞,而后通過(guò)對(duì)這些關(guān)詞的分析,將其映射為某個(gè)問(wèn)題:機(jī)器人再針對(duì)此問(wèn)題生成回答,最后將文本形式的答案合成為語(yǔ)音,輸出給觀眾。如果觀眾的問(wèn)題超出限定的對(duì)話范圍或者識(shí)別結(jié)果可信度不高,則在答案生成階段給出錯(cuò)誤提示,并由語(yǔ)音合成器輸出。如果機(jī)器人想向觀眾提出問(wèn)題,也要由語(yǔ)音合成器合成后輸出,模塊的整體框架如下圖所示。
1.問(wèn)題域相關(guān)的數(shù)據(jù)組織
機(jī)器人與觀眾的問(wèn)答將限定在某個(gè)問(wèn)題域內(nèi)進(jìn)行,針對(duì)每個(gè)問(wèn)題域,我們確定了有限大小的“詞匯表”,并通過(guò)大量的語(yǔ)料訓(xùn)練出相應(yīng)的基于詞類的統(tǒng)計(jì)“語(yǔ)言模型”“關(guān)鍵詞表”可以從“詞匯表”中提煉得到,它記錄的是對(duì)于理解問(wèn)題有實(shí)質(zhì)作用的詞匯及其相關(guān)信息,此外還要在“關(guān)鍵詞表”的基礎(chǔ)上形成“關(guān)鍵詞類型組合模板庫(kù)”,其中每個(gè)模板代表問(wèn)題域內(nèi)的一類具體問(wèn)題。
2.識(shí)別結(jié)果的可信度度量及拒識(shí)
從以上框圖可以看到,語(yǔ)音識(shí)別器的識(shí)別結(jié)果作為“關(guān)鍵詞提取”和“問(wèn)題理解等后續(xù)各個(gè)步驟的原始輸入,它的正確與否直接影響到整個(gè)系的性能。
在限定領(lǐng)域限定詞匯量的條件下,如果觀眾的提問(wèn)或回答不超出限定的詞匯,識(shí)別結(jié)果的正確率可以達(dá)到95%以上。但是,一旦問(wèn)題超出限定的領(lǐng)域或者出現(xiàn)了集外詞,識(shí)別器的性能就會(huì)嚴(yán)重下降。因此對(duì)識(shí)別器識(shí)別結(jié)果的可信度進(jìn)行度量就顯得非常重要,它可以降低集外詞(OOV)帶來(lái)的不利影響。
我們采取的方法是利用統(tǒng)計(jì)語(yǔ)言模型衡量識(shí)別所得到的整個(gè)句子的可信度。如果一個(gè)句子的詞誤識(shí)率比較低,構(gòu)成這個(gè)句子的眾多三元短語(yǔ)(w1w2,w3),會(huì)比較多的出現(xiàn)在統(tǒng)計(jì)語(yǔ)言模型Trigram中;反之如果出現(xiàn)較多的識(shí)別錯(cuò)誤,那么句子中大部分的詞w1和元短語(yǔ)(wl,w2)將出現(xiàn)在Unigram或Bigram中,很少有三元短語(yǔ)命中Trigram對(duì)于一個(gè)由若干詞W,W2,,Wi,…Wn構(gòu)成的句子,我們根據(jù)各個(gè)詞及它所構(gòu)成的知語(yǔ)在統(tǒng)計(jì)語(yǔ)言模型中出現(xiàn)的情況對(duì)其中每個(gè)詞打分。出現(xiàn)在Trigram中的可信度高,因而得分較高,出現(xiàn)在Bigram或Unigram中的可信度低,因而得分較低。再在各個(gè)詞得分的基礎(chǔ)上得到整個(gè)句子的可信度得分。若得分低于某個(gè)門(mén)限,則認(rèn)為句子中包含較多的識(shí)別錯(cuò)誤或者集外詞,可信度較低,應(yīng)當(dāng)被拒識(shí)。
3.關(guān)鍵詞檢測(cè)
從識(shí)別器得到的識(shí)別結(jié)果,是由一個(gè)個(gè)詞構(gòu)成的詞序列,其中某些詞對(duì)于理解整個(gè)句子有著非常重要的作用,這就是我們所說(shuō)的關(guān)鍵詞。在這步要做的就是提取出這些關(guān)鍵詞,形成一個(gè)關(guān)鍵詞串,作為下一步問(wèn)題理解”的輸入,這種處理同時(shí)也是為了降低“問(wèn)題理解”時(shí)的難度。針對(duì)上面提到的四個(gè)問(wèn)題域,我們分別設(shè)計(jì)了關(guān)鍵詞表,預(yù)先規(guī)定了在這一問(wèn)題域內(nèi)的關(guān)鍵詞。這個(gè)關(guān)鍵表是語(yǔ)音識(shí)別系統(tǒng)中相應(yīng)問(wèn)題域下的詞匯表的子集,記錄了每個(gè)關(guān)鍵詞的漢字串,類標(biāo)識(shí)和詞序號(hào)等信息。在提取關(guān)鍵詞時(shí),只需要在句子中進(jìn)行搜索,檢測(cè)到出現(xiàn)在關(guān)鍵間表的關(guān)鍵詞,記錄它們出現(xiàn)的位置和次序。比如一個(gè)句子“請(qǐng)問(wèn)現(xiàn)在紐約的當(dāng)?shù)貢r(shí)間是幾點(diǎn)鐘?”我們可以提取出關(guān)鍵漢字串“現(xiàn)在紐約當(dāng)?shù)貢r(shí)間幾點(diǎn)鐘”以及對(duì)應(yīng)的關(guān)鍵詞類型串NOWCITY+LOCALTIME+CCLOCK”。對(duì)于不包含關(guān)鍵詞的句子我們把它視作無(wú)效或者錯(cuò)誤的輸入,給出相應(yīng)的提示。
4.問(wèn)題理解和答案生成
“關(guān)鍵詞提取”得到的關(guān)鍵詞漢字串以及類型串將用于問(wèn)題理解和答案生成。
在“問(wèn)題理解”時(shí),主要用到關(guān)鍵詞類型串,通過(guò)與模板組合庫(kù)中的模板對(duì)照,可以把它映射到某一類具體問(wèn)題上。比如上面例子中的“NOW+CITY+LOCALTIME+OCLOCK”,就可以映射為“詢問(wèn)某城市的當(dāng)?shù)貢r(shí)間這類問(wèn)題。在系統(tǒng)中針對(duì)每個(gè)不同的問(wèn)題域,設(shè)計(jì)了許多關(guān)鍵字類型組合的模板,每個(gè)模板對(duì)應(yīng)一類問(wèn)題。如果關(guān)鍵字類型串成功映射為某類問(wèn)題,即可轉(zhuǎn)入“答案生成”,否則我們認(rèn)為問(wèn)題無(wú)效和錯(cuò)誤在“答案生成”時(shí),已經(jīng)明確了問(wèn)題的類型,相應(yīng)回答的基本句式就已經(jīng)確定,所需要的就是給句式賦予具體的內(nèi)容。利用“關(guān)鍵詞提取”得到的關(guān)鍵字漢字串和詞序號(hào)等信息,可以唯一地確定問(wèn)題的具體內(nèi)容,并由此得到問(wèn)題的最終答案。
以上介紹的是系統(tǒng)的總體結(jié)構(gòu)和流程設(shè)計(jì),針對(duì)機(jī)器人將要長(zhǎng)期展出的要求,以及其展出環(huán)境比較嘈雜觀眾類型復(fù)雜、年齡跨度大等特點(diǎn),還有許多實(shí)際問(wèn)題需要解決。比如,針對(duì)現(xiàn)場(chǎng)環(huán)境噪聲和不同的觀眾類型需要現(xiàn)場(chǎng)采集數(shù)據(jù),進(jìn)行聲學(xué)模型訓(xùn)練;根據(jù)說(shuō)話人的不同聲學(xué)特性,要對(duì)說(shuō)話人進(jìn)行聚類,設(shè)計(jì)分類的聲學(xué)模型,并在線選擇、切換;另外還要設(shè)計(jì)不同的問(wèn)題域,并組織數(shù)據(jù)和訓(xùn)練相應(yīng)的語(yǔ)言模型。
本文題目:語(yǔ)音識(shí)別技術(shù)在智能語(yǔ)音機(jī)器人中的應(yīng)用
瀏覽路徑:http://www.rwnh.cn/news13/152613.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)、動(dòng)態(tài)網(wǎng)站、網(wǎng)站收錄、用戶體驗(yàn)、網(wǎng)站排名、網(wǎng)站策劃
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容