最佛系的人工智能
成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比賽罕網(wǎng)站開(kāi)發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式賽罕網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋賽罕地區(qū)。費(fèi)用合理售后完善,十多年實(shí)體公司更值得信賴。
編者按:本文來(lái)自微信公眾號(hào)“HyperAI超神經(jīng)”(ID:HyperAI),作者:神經(jīng)小兮,36氪經(jīng)授權(quán)發(fā)布。
內(nèi)容提要:來(lái)自最強(qiáng)科研寺廟龍泉寺的賢超法師,近年來(lái)一直在研究人工智能與文獻(xiàn)古籍的融合,目前,他已帶領(lǐng)的《大藏經(jīng)》團(tuán)隊(duì)實(shí)現(xiàn) AI 自動(dòng)標(biāo)點(diǎn)、文白翻譯、古籍文字識(shí)別等技術(shù)實(shí)踐。
關(guān)鍵詞:NLp,LSTM,自動(dòng)標(biāo)點(diǎn)
坐落在京郊鳳凰嶺腳下的龍泉寺,稱得上全國(guó)甚至全球科研實(shí)力最強(qiáng)的佛教寺廟。
憑借當(dāng)年學(xué)誠(chéng)法師的一句「佛教是古老的,但佛教徒是現(xiàn)代的」,推動(dòng)了龍泉寺里的高僧們搞科研、寫代碼,將佛學(xué)與新技術(shù)結(jié)合,將項(xiàng)目大眾化、國(guó)際化。成果不斷,屢上熱搜,被外界持續(xù)關(guān)注。
近期龍泉寺的賢超法師,參加了國(guó)內(nèi)某技術(shù)大會(huì),分享了使用人工智能對(duì)《大藏經(jīng)》進(jìn)行整理和校勘的技術(shù)實(shí)踐。
佛系 AI 的誕生:讓佛經(jīng)更易讀
賢超法師原是北京大學(xué)物理學(xué)院凝聚態(tài)物理碩士,2007 年他從北大畢業(yè),2008 年在龍泉寺皈依,此后一直致力于龍泉大藏經(jīng)的編修與佛學(xué)義理研究。
2016 年,AlphaGo 在戰(zhàn)勝李世石的歷史性事件,引起了賢超法師對(duì) AI 的關(guān)注。從那時(shí)候起,他便開(kāi)始嘗試將 AI 和自己正在研究的 OCR 技術(shù)以及自動(dòng)標(biāo)點(diǎn)相結(jié)合。
佛原生 AI 解決古籍經(jīng)文痛點(diǎn)
龍泉寺在整理和??钡摹洞蟛亟?jīng)》為佛教經(jīng)典的總集,也稱為一切經(jīng)。在漢傳佛教的兩千多年里,歷朝歷代都對(duì)《大藏經(jīng)》進(jìn)行了翻譯、增補(bǔ)、修訂。
流傳至今有數(shù)十個(gè)版本,少的有五千多萬(wàn)字,多的有一億兩千萬(wàn)字。
《乾隆版大藏經(jīng)》的修訂參與官員、學(xué)者、高僧等 60 余人,
刻字、刷印和裝幀等工匠 860 余人,歷時(shí)六年完成
2012 年,龍泉寺就著手整理《大藏經(jīng)》,計(jì)劃用整整十年的時(shí)間完成。因?yàn)閭鹘y(tǒng)方法對(duì)古籍的整理主要有版本校對(duì)、校勘、標(biāo)點(diǎn),這些步驟能夠保證當(dāng)代讀者,也可以盡可能理解晦澀、生僻的經(jīng)文。
三年后,龍泉寺整理出版了《南山八大部》;再次年,龍泉寺的藏經(jīng)辦公室成立,旨在探索利用人工智能技術(shù),研發(fā)出基于深度學(xué)習(xí)的單字識(shí)別引擎;
2017年,龍泉寺成立人工智能與信息技術(shù)中心,研發(fā)出能識(shí)別各種不同大藏經(jīng)版本的整列識(shí)別引擎,并成功的將《六十華嚴(yán)》的大藏經(jīng)版本進(jìn)行電子化。
賢超法師目前擔(dān)任藏經(jīng)辦公室主任,負(fù)責(zé)《大藏經(jīng)》的整理工作。
自動(dòng)標(biāo)點(diǎn):OCR +深度學(xué)習(xí)
為了降低人們閱讀古文典籍的門檻,提高學(xué)者的工作效率,在近年來(lái)賢超法師團(tuán)隊(duì),運(yùn)用了包括深度學(xué)習(xí)、OCR 在內(nèi)的技術(shù)改變傳統(tǒng)《大藏經(jīng)》的解讀方式,目前已經(jīng)取得了頗為驚艷的效果。
現(xiàn)代漢語(yǔ)中,句號(hào)、引號(hào)、書名號(hào)等常用標(biāo)點(diǎn)近十種,
古漢語(yǔ)中僅有的句號(hào)、頓號(hào),經(jīng)文中也很少出現(xiàn),難以閱讀
賢超法師介紹道,所謂自動(dòng)標(biāo)點(diǎn),是指在沒(méi)有人工干預(yù)的前提下,根據(jù)算法給古籍文本自動(dòng)標(biāo)注現(xiàn)代中文標(biāo)點(diǎn)的技術(shù),這主要是為了方便現(xiàn)代讀者閱讀。
此前,已有人工智能為古文加標(biāo)點(diǎn)的相關(guān)研究,不過(guò)賢超法師表示,之前基本只是為古文加句號(hào),他認(rèn)為這個(gè)做法「比較保守,比較學(xué)術(shù)性」。
而他的團(tuán)隊(duì)將深度學(xué)習(xí)運(yùn)用到了自動(dòng)標(biāo)點(diǎn)上,可以以更高的準(zhǔn)確性,給古文添加句號(hào)、逗號(hào)、問(wèn)號(hào)、感嘆號(hào)、冒號(hào)、分號(hào)和頓號(hào)其中標(biāo)點(diǎn)符號(hào)。經(jīng)過(guò)驗(yàn)證,他們所研發(fā)的 Transformer 標(biāo)注結(jié)果,和人類的標(biāo)注結(jié)果「幾乎已經(jīng)無(wú)法區(qū)分」。
RNN+LSTM+ResNet 效果全面提升
自動(dòng)標(biāo)點(diǎn),在 NLp 領(lǐng)域來(lái)說(shuō),就是一個(gè)簡(jiǎn)單的序列標(biāo)注問(wèn)題。解決這類問(wèn)題的標(biāo)準(zhǔn)方法,就是使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。
為了增強(qiáng) RNN 的性能,在此基礎(chǔ)上又發(fā)展出來(lái)了雙向 RNN,也就是每一時(shí)刻的輸出不僅僅取決于之前時(shí)刻的所有輸入,而是同時(shí)取決于之前和之后的輸入。之后,賢超法師團(tuán)隊(duì)又將 LSTM 方法引入。
但是此前基于這些技術(shù)所實(shí)現(xiàn)的自動(dòng)標(biāo)點(diǎn),效果仍不是很令人滿意。賢超法師團(tuán)隊(duì)之所以達(dá)到出乎意料的效果,是因?yàn)樗麄冊(cè)诖饲暗幕A(chǔ)上,引入了 ResNet 殘差網(wǎng)絡(luò)(Residual network)。
《大藏經(jīng)的匯編:當(dāng) AI 遇見(jiàn)佛教》,介紹了其自動(dòng)標(biāo)點(diǎn)技術(shù)
賢超法師解釋道,以往的神經(jīng)網(wǎng)絡(luò)最多就是十幾層、二十多層的結(jié)構(gòu),如果層數(shù)再多,訓(xùn)練結(jié)果就不太容易收斂了。而殘差網(wǎng)絡(luò)動(dòng)輒幾百層,甚至上千層。更深的網(wǎng)絡(luò)有助于捕捉到更深層的語(yǔ)義信息,這是其大獲成功的關(guān)鍵。
團(tuán)隊(duì)也曾嘗試使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),最終效果是,殘差網(wǎng)絡(luò)比卷積神經(jīng)網(wǎng)絡(luò)的標(biāo)點(diǎn)準(zhǔn)確率平均高出 20-30% 左右。
AI 自動(dòng)標(biāo)點(diǎn)工具效率如何呢?賢超法師用一天時(shí)間完成了 2 萬(wàn)字左右規(guī)模的古文標(biāo)點(diǎn),按照古籍標(biāo)點(diǎn)每千字 15 元的一般稿酬水平,相當(dāng)于一天創(chuàng)造了 300 元的經(jīng)濟(jì)價(jià)值。即使自動(dòng)標(biāo)點(diǎn)的準(zhǔn)確率只按照 60% 來(lái)算,其每天也創(chuàng)造了 180 元的價(jià)值。
團(tuán)隊(duì)對(duì)該自動(dòng)標(biāo)點(diǎn)工具也在不斷升級(jí)
目前最新一代的準(zhǔn)確率達(dá)到 93.3%
目前,由于賢超法師團(tuán)隊(duì)的訓(xùn)練數(shù)據(jù)多取自佛經(jīng),因此其自動(dòng)標(biāo)點(diǎn)更適合標(biāo)點(diǎn)佛教典籍。不過(guò),他表示,未來(lái)該技術(shù)也將應(yīng)用在,經(jīng)史子集等更多領(lǐng)域的古文獻(xiàn)整理工作之中,從而讓學(xué)者們擺脫機(jī)械、重復(fù)性的勞動(dòng)。
今后的古籍點(diǎn)校工作模式有希望改為:AI 先斷句、加標(biāo)點(diǎn);專業(yè)學(xué)者進(jìn)行后期校對(duì)、修改。
賢超法師團(tuán)隊(duì)在 18 年就開(kāi)源了這一自動(dòng)標(biāo)點(diǎn)的在線服務(wù),訪問(wèn)古籍·酷(http://gj.cool)可以試用,還可以申請(qǐng)免費(fèi)調(diào)用 ApI。
識(shí)別、翻譯:AI 成為佛經(jīng)漢化百寶箱
除了自動(dòng)標(biāo)點(diǎn),賢超法師還將 AI 應(yīng)用古籍研究的多個(gè)方面。
文白對(duì)句:對(duì)齊 & 翻譯
文白對(duì)句,也就是古文到現(xiàn)代文的對(duì)齊和翻譯。為了實(shí)現(xiàn) AI 文白對(duì)句,賢超法師首先構(gòu)建了一個(gè)文白對(duì)齊的語(yǔ)料庫(kù),然后設(shè)計(jì)了一個(gè)對(duì)齊算法,取得了很好的效果。根據(jù)相似度和差異度這兩個(gè)獨(dú)立指標(biāo),可以非常容易地定位出對(duì)齊錯(cuò)誤的句子。
將《大藏經(jīng)》翻譯并單句分離開(kāi)對(duì)齊
有助于人工后期檢索與校對(duì)
由于《大藏經(jīng)》專業(yè)名詞眾多,且歷代翻譯著作語(yǔ)料繁雜,因此并非古文相關(guān)專業(yè)就能搞定?!洞蟛亟?jīng)》的總字?jǐn)?shù)以億計(jì),如果僅依靠有限的幾位專家,工作量將十分巨大,所以,AI 的介入,為專家們分擔(dān)了不少工作量。
基于深度學(xué)習(xí)的 OCR,識(shí)別古籍文字
目前市面上的 OCR 軟件都是針對(duì)印刷體的,因此不能很好地識(shí)別古籍文獻(xiàn)中的字體。
賢超法師及其合作團(tuán)隊(duì),基于 CNN+LSTM+CTC 框架,開(kāi)發(fā)了新的 OCR 引擎。然后基于《大藏經(jīng)(高麗版)》的七萬(wàn)多張整圖,168 萬(wàn)條文本行圖像的數(shù)據(jù)集進(jìn)行訓(xùn)練。
基于弱監(jiān)督學(xué)習(xí)的精確文字分割
最終,其開(kāi)發(fā)的 OCR 方法能夠進(jìn)行古籍的單字識(shí)別、單列識(shí)別和半自動(dòng)的多列識(shí)別,能夠有效地完成各類古籍的電子化工作。
OCR 軟件識(shí)別古文將其數(shù)字化
賢超法師還在其公眾號(hào)「賢超小和尚」(微信號(hào):xianchaofashi)中,分享了更多項(xiàng)目實(shí)踐和學(xué)佛感悟,感興趣的朋友可以關(guān)注。
科技與佛法:以悲憫為內(nèi)核的不同外化
佛法與科技,距離并不遙遠(yuǎn)。
我們也曾在《本世紀(jì),佛祖派機(jī)器人來(lái)弘揚(yáng)佛法》一文中,對(duì)佛教與科技融合的趨勢(shì)做出過(guò)報(bào)道,近年來(lái)涌現(xiàn)的賢二機(jī)器人、機(jī)器觀音、智能佛珠等等,早已講科技深刻和諧地融入進(jìn)佛法。
科技與佛學(xué)的融合中佳作頻出,吸引關(guān)注
龍泉寺的另一位知名高僧、IT 禪修營(yíng)的創(chuàng)辦者賢信法師,在一次訪談里被提問(wèn)佛法和科技的關(guān)系。
他回答:「科技,是追求物質(zhì)世界的真。佛法,是內(nèi)心世界的真。很多在科學(xué)上做出探索、在技術(shù)上做出探索的人,最開(kāi)始是抱著想為人類做貢獻(xiàn)的心,跟佛教提出最慈悲的追求也是相共的,這就是科技與佛法的共同點(diǎn)?!?/p>
參考資料:
賢超小和尚公眾號(hào):《人工智能與中華文明的碰撞交融》
2050 云棲大會(huì):《賢度法師——龍泉寺的科技實(shí)踐》
本文標(biāo)題:龍泉寺賢超法師:用AI為古籍經(jīng)書識(shí)別、斷句、翻譯
URL鏈接:http://www.rwnh.cn/article26/scdpcg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導(dǎo)航、面包屑導(dǎo)航、企業(yè)網(wǎng)站制作、小程序開(kāi)發(fā)、網(wǎng)站內(nèi)鏈、外貿(mào)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容