識別方面,百度提出流式多級的截斷注意力模型SMLTA,這是國際上首次實現(xiàn)局部注意力建模超越整句的注意力模型,也是國際上首次實現(xiàn)在線語音大規(guī)模使用注意力模型。
SMLTA在大幅提升識別速度的同時,也提高了識別準確率。在輸入法有效產(chǎn)品相對準確率提升15%,音箱有效產(chǎn)品相對準確率提升20%.合成方面,針對現(xiàn)階段面臨風格遷移、音色模擬和情感擬人的三大挑戰(zhàn),百度推出語音合成技術(shù)Meitron,可以將語音中的音色、風格、情感等要素映射到不同的子空間,在使用時,不同要素可以任意組合,靈活的控制合成語音的風格。同時降低語言合成門檻,僅需20句話就可以制作一個人的專屬聲音。
對于落地應(yīng)用正在端側(cè)呈現(xiàn)出巨大需求,百度大腦語音團隊研發(fā)出一款針對遠場語音交互打造的芯片--百度芯片。芯片采用"軟件定義芯片"的全新設(shè)計思路。該芯片采用雙核HiFi4架構(gòu),2.8M大內(nèi)存,臺積電40nm工藝,在此硬件規(guī)格上,100mw左右平均工作功耗,即可支持遠場語音交互核心的陣列信號處理和語音喚醒能力。同時,按照車規(guī)級標準打造的芯片,可為車載語音交互,以及智能家居等場景帶來更大想象力。芯片流片的同時,即實現(xiàn)了量產(chǎn)。
百度視覺技術(shù)部、增強現(xiàn)實技術(shù)部總監(jiān),5G時代,越來越多物理設(shè)備將連接到高可靠、低延時的網(wǎng)絡(luò)空間,這將徹底改變?nèi)藗兣c環(huán)境及設(shè)備的交互方式。本次全新發(fā)布視覺語義化平臺2.0,正在推進視覺技術(shù)由"看清看懂"向"交互"進行升級。視覺語義化平臺2.0在交互升級和軟硬件結(jié)合兩大方面實現(xiàn)突破。
交互升級包含一體化人機交互系統(tǒng)和大場景物理世界交互系統(tǒng)。簡單而言,一體化人機交互系統(tǒng)是人與機器、虛擬環(huán)境的自然交互與融合,該系統(tǒng)適用于實現(xiàn)AR特效的直播、小視頻、特效小程序等場景,已應(yīng)用于百度多款視頻App.大場景物理世界交互系統(tǒng)是將視覺定位與AR技術(shù)突破性結(jié)合,實現(xiàn)大范圍的虛擬信息與物理世界的精準疊加,從而建立起AI時代全新的交互系統(tǒng)。
目前,軟硬件結(jié)合可以滿足應(yīng)用場景更高效的視覺計算,以及更低延時的體驗,同時能保護數(shù)據(jù)隱私。百度視覺方面的軟硬件結(jié)合主要聚焦于模型壓縮平臺PaddleSlim、多模態(tài)FaceID開發(fā)組件以及軟硬件一體解決方案AI相機三部分。FaceID覆蓋設(shè)備量已超1200萬臺。
視覺語義化平臺2.0更新了許多先進的感知技術(shù),也讓機器人技術(shù)實現(xiàn)新突破。百度三維視覺首席科學家楊睿剛介紹,機器人就是一個智能體,除了感知技術(shù),智能體需要決策和動作相關(guān)的技術(shù),實現(xiàn)從環(huán)境感知到主動感知。
目前,百度研究的智能體技術(shù)主要集中在自動駕駛Apollo、工程機械和服務(wù)機器人三大方面。上午主論壇中引人關(guān)注的機械臂"茶博士"不僅能說會道,還完成了傳統(tǒng)的長嘴壺倒茶工作,其背后依靠的正是服務(wù)機器人方案。
網(wǎng)站名稱:百度算法是怎么進行全方位升級的
文章位置:http://www.rwnh.cn/news39/28589.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、微信公眾號、商城網(wǎng)站、搜索引擎優(yōu)化、全網(wǎng)營銷推廣、標簽優(yōu)化
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源:
創(chuàng)新互聯(lián)