2021-02-05 分類: 網(wǎng)站建設(shè)
幾十年來,機(jī)器學(xué)習(xí)領(lǐng)域一直飽受“坦克問題(tank problem)”的折磨。為了說明這點,這里列舉三個Google Accelerate Science團(tuán)隊所面臨并且克服的機(jī)器學(xué)習(xí)的三大問題。
幾十年來,機(jī)器學(xué)習(xí)領(lǐng)域一直飽受“坦克問題(tank problem)”的折磨。
故事發(fā)生在上個世紀(jì)60年代(此研究已知的最早文獻(xiàn),此處感謝軟件工程師Jeff Kaufman),事件的細(xì)節(jié)已湮沒在時間的迷霧當(dāng)中,不過故事大概是這樣子的:
研究者們編寫了個算法來從軍方提供的照片中識別坦克。該模型成功地在測試圖中找到了坦克,但隨后使用真實的照片時卻失敗了。
原因是什么呢?口口相傳的具體細(xì)節(jié)各不相同,但算法用來測試的圖片包含了其他信息,比如在晨光中或從云層下顯現(xiàn)的坦克影響了機(jī)器判斷是一個重要的原因。所以說,并不是坦克的存在決定了算法,其它因素也很重要。
類似的情況在當(dāng)今也引起了反省。許多機(jī)器學(xué)習(xí)的論文未能完成足夠多的實驗,審查標(biāo)準(zhǔn)不夠一致,并且行業(yè)內(nèi)激烈的競爭也鼓勵一些研究人員,一旦得到了他們想要的答案就偷工減料跳過檢查。所以在無數(shù)領(lǐng)域的科學(xué)家正急于用機(jī)器學(xué)習(xí)解決問題時,谷歌的Patrick Riley卻呼吁大家在研究中制定更加明確的標(biāo)準(zhǔn)。
不可否認(rèn)的是機(jī)器學(xué)習(xí)正在推動著整個科學(xué)界的發(fā)展,尤其是它發(fā)現(xiàn)及預(yù)測的模式正在從各個領(lǐng)域輔助研究者們,從搜尋分子制造的新方法和在試驗中發(fā)現(xiàn)微小信號,到改進(jìn)醫(yī)療診斷與揭示基本粒子,皆有其身影。
然而,機(jī)器學(xué)習(xí)工具也會變成“智障”,比如假正例、死胡同與各種錯誤。而且由于許多算法都太過復(fù)雜,以至于無法檢查所有參數(shù)或者準(zhǔn)確了解輸入的方式,隨著這些算法被更加廣泛地應(yīng)用,錯誤的結(jié)論和科學(xué)成果所引發(fā)的風(fēng)險將會呈螺旋式上升。
這些問題并不是一朝一夕的事,所以預(yù)測每次分析中出現(xiàn)的所有問題或困境也是不可能的,但至少,那些在自己的領(lǐng)域使用機(jī)器學(xué)習(xí)的研究者們,應(yīng)該去熟悉一些常見的陷阱,以及如何檢測或避免那些陷阱。
為了說明這點,這里列舉三個Google Accelerate Science團(tuán)隊所面臨并且克服的機(jī)器學(xué)習(xí)的三大問題。
機(jī)器學(xué)習(xí)三大陷阱
1. 不適當(dāng)?shù)夭鸱謹(jǐn)?shù)據(jù)
在建模時,機(jī)器學(xué)習(xí)從業(yè)者通常將數(shù)據(jù)分成訓(xùn)練集和測試集,用訓(xùn)練集訓(xùn)練模型,用測試集評估模型的性能。研究員通常會隨機(jī)拆分?jǐn)?shù)據(jù),但是現(xiàn)實生活里真正隨機(jī)的數(shù)據(jù)少之又少。他們可能包含了時間趨勢,例如收集數(shù)據(jù)方法的變化,或是收集信息的各種選擇。
例如,這種歷史模式隱藏在分子數(shù)據(jù)集中,而機(jī)器學(xué)習(xí)算法正在對這些數(shù)據(jù)集進(jìn)行虛擬篩選,以尋找候選藥物。這里的挑戰(zhàn)在于預(yù)測一個分子如何會被有效地被人體吸收或減少炎癥。篩選從有關(guān)分子的數(shù)據(jù)開始,這些分子具有或不具有預(yù)期的效果,但是收集數(shù)據(jù)的背景或許會與機(jī)器學(xué)習(xí)模型的使用方式有所不同。
一個模型可能是用一組公開可用的分子數(shù)據(jù)集訓(xùn)練的,然后用于測試另一組專有的分子數(shù)據(jù)集。而當(dāng)有希望的候選項被檢測和丟棄時,化學(xué)家的關(guān)注點往往從某些分子群轉(zhuǎn)移到另一些分子群。 因此,研究人員經(jīng)常高估模型在實踐中的表現(xiàn)。 這會導(dǎo)致期望值的膨脹,并且在選擇不適合的分子上浪費時間和金錢。 許多模型制造者都落入這個陷阱。
換句話說,你要解決的問題才應(yīng)該影響你如何分割數(shù)據(jù)。為了預(yù)測向一個分子中添加兩個原子的效果,測試集中的每個分子在訓(xùn)練集中應(yīng)該至少存在兩個原子的差別。 如果你想對不同的化學(xué)分子有更好的預(yù)測,測試集中的每個分子都應(yīng)該不同于訓(xùn)練集中的任何東西。 分割數(shù)據(jù)的“正確”方法可能并不顯眼,但是仔細(xì)考慮和嘗試幾種方法或有意想不到的收獲。
2. 隱藏變量
在一個理想的實驗當(dāng)中,研究者只改變他們感興趣的變量,并讓其他變量保持不變,而這種控制在現(xiàn)實當(dāng)中幾乎是不可能的。儀器的精確度會隨著時間而改變,試劑的批次會有所不同,一個實驗條件會先于另一個進(jìn)行表現(xiàn)出來,甚至天氣都有可能影響結(jié)果。在機(jī)器學(xué)習(xí)模型中,這些不受控制的變量都將是有害無益的。
舉個例子,谷歌的一個團(tuán)隊一直在加利福尼亞州的福特·希爾蘭赫 (Foothill Ranch, California) 的核聚變初創(chuàng)公司TAE Technologies工作,進(jìn)行優(yōu)化生產(chǎn)高能等離子體的實驗。他們在這里建了模型來試圖理解等離子機(jī)的設(shè)備裝置。這里存在著上百個從“何時接通電極”到“設(shè)置在磁體上的電壓為多少”等控制參數(shù),然后記錄了一系列包括溫度和光譜在內(nèi)的測量值。
他們歷經(jīng)數(shù)月,從數(shù)千次運行的等離子機(jī)中提取了數(shù)據(jù),其中的設(shè)定會隨著我們的設(shè)備調(diào)整、部件磨損和多種嘗試有所變化。當(dāng)我們得到了一個在給定的設(shè)置下,無論等離子能量是否會變高,預(yù)測結(jié)果都很不錯的模型時,大家都很高興,不過很快就打臉了。
當(dāng)他們以實驗時間為唯一輸入而不是機(jī)器的所有設(shè)置來訓(xùn)練模型,也得到了相似的預(yù)測效果。為什么?因為模型鎖定的就是時間趨勢,而不是物理現(xiàn)象。也就是說,機(jī)器運轉(zhuǎn)良好的時間段和不良的時間段分別出現(xiàn),所以,從實驗完成的時間可以看出等離子體是否是高能量的。此外,通過控制參數(shù)的設(shè)置可以粗略預(yù)測實驗何時進(jìn)行ーー這些參數(shù)的變化也存在時間趨勢。也就是說,除了時間規(guī)律,模型什么物理規(guī)律都沒管。
隱藏變量也會來源于實驗布局。像我們在解讀顯微鏡圖像方面與許多機(jī)構(gòu)合作,其中包括紐約市的紐約干細(xì)胞基金會研究所。這些圖像包括了在培養(yǎng)皿上進(jìn)行的生物實驗,通常是一些包含細(xì)胞和液體的網(wǎng)格孔。我們的目標(biāo)是發(fā)現(xiàn)擁有某些特征的孔,比如化學(xué)處理后細(xì)胞外觀的變化。但是生物變異意味著每個培養(yǎng)皿本身總是會看起來有稍許不同,并且單個培養(yǎng)皿也可能存有差異。如果外圍孔有更多液體蒸發(fā),或者培養(yǎng)皿有被傾斜,那邊緣看起來通常會與中心不一樣。
機(jī)器學(xué)習(xí)算法能輕而易舉地注意到這些變化。比如說模型可能剛辨認(rèn)出了哪些孔處在培養(yǎng)皿的邊緣 ,一種檢查模型的簡易方法就是讓模型去預(yù)測其他方面,如培養(yǎng)皿的位置、哪一塊培養(yǎng)皿,或者圖片來源的批次。如果算法能做到這一點,那你最好對結(jié)果持懷疑態(tài)度。
最重要的一點是,要使用多個模型來檢測那些意外變量與隱藏變量??梢杂靡粋€模型側(cè)重你關(guān)心的問題,比如離子是高能還是低能,細(xì)胞是否健康,其他模型則用來清除干擾因子。如果后者結(jié)果很強(qiáng),那么請將數(shù)據(jù)標(biāo)準(zhǔn)化,做些進(jìn)一步的實驗,或者調(diào)整一下結(jié)論。
3. 曲解目標(biāo)
機(jī)器學(xué)習(xí)算法要求研究員明確一個用來估量各種錯誤嚴(yán)重度的“損失函數(shù)”,例如到底是有兩個1%的錯誤好,還是單個2%的錯誤更合理。從業(yè)者們傾向于應(yīng)用函數(shù)的一小部分,從而導(dǎo)致他們無法得到真正需要的內(nèi)容。
還是舉個例子,大家一直有用機(jī)器學(xué)習(xí)來輔佐求解微分方程。這些公式在包括流體力學(xué)、電磁學(xué)、材料科學(xué)、天體物理學(xué)和金融建模中很常見,一般情況下它們必須以數(shù)字方式解決,然后開始訓(xùn)練模型,從而能在有限的條件下提供更高的精確性。
比如說從一個方程開始描述水波如何在一維進(jìn)行傳播吧。該算法的任務(wù)是從當(dāng)前的時間步長來重復(fù)預(yù)測下一步,在這方面可以準(zhǔn)備兩種略微不同的方法與訓(xùn)練模型。根據(jù)損失函數(shù)來看,這兩個模型是一樣優(yōu)秀的,但實際上其中一個做了一堆無用功,另一個的產(chǎn)生結(jié)果更接近預(yù)期。
原因就是控制學(xué)習(xí)的損失函數(shù)只考慮到了下一步的錯誤,而不是研究者真正想要的多重步驟的解決方案有效性。
我們在糖尿病視網(wǎng)膜病變的機(jī)器篩查方面也出現(xiàn)了分歧目標(biāo)。這是糖尿病的一種并發(fā)癥,也是世界上可預(yù)防性失明的主要原因。如果能從眼后圖像及時檢測到該病癥,它就能被有效治療。當(dāng)我們收集數(shù)據(jù)并且讓眼科醫(yī)生通過圖像進(jìn)行診斷時,我們讓機(jī)器學(xué)習(xí)的工具預(yù)測一下醫(yī)生都會說些什么,此時出現(xiàn)了兩種情況。
在印度Madurai的Aravind醫(yī)院,工作人員和谷歌研究員正在進(jìn)行眼科檢查,試圖自動診斷由糖尿病引起的失明。圖源:Atul Loke /紐約時報/ Red / eyevine
情況一是眼科醫(yī)生經(jīng)常不認(rèn)同診斷,因此研究人員意識到不能通過單一的預(yù)測來建立模型。總不能來個投票說少數(shù)服從多數(shù),因為在醫(yī)療上,有時候少數(shù)人的意見才是正確的。情況二是單一疾病的診斷實際上并不是真正的目標(biāo)。因為往往需要問的是:“這個患者需要去看醫(yī)生嗎?”,然后通過這種方式將目標(biāo)從單一疾病的診斷擴(kuò)展到多重疾病。
機(jī)器學(xué)習(xí)從業(yè)者很容易迷戀上數(shù)據(jù)標(biāo)簽都清晰的 “明顯“目標(biāo),但他們可能正在設(shè)置算法來解決錯誤的問題。所以必須牢記大方向和總目標(biāo),否則就只會為錯誤問題埋單。
那可以做什么呢?
首先,機(jī)器學(xué)習(xí)專家需要讓自己和同事們持有更高的標(biāo)準(zhǔn)。當(dāng)有新實驗設(shè)備到來時,大家總是寄希望于實驗室的小伙伴們搞懂其功能,怎么校準(zhǔn),怎么檢測到問題,還要了解其功能的限制。因此,面對機(jī)器學(xué)習(xí)時也應(yīng)如此。機(jī)器學(xué)習(xí)不是魔法,工具的使用者們必須了解如何掌控它們。
其次,當(dāng)需要使用機(jī)器學(xué)習(xí)時,不同學(xué)科需要為其制定出明確的標(biāo)準(zhǔn)。合適的控制、健全性檢查和錯誤的測量會因領(lǐng)域而異,所以這些都需要解釋清楚,以便研究者、審查者和從業(yè)者有規(guī)可循。
第三,機(jī)器學(xué)習(xí)科學(xué)家們所受的教育需要包括一些更廣泛的內(nèi)容。即使有些類似于這樣開源的資源存在,需要做的仍然很多。授人以魚不如授人以漁,可能更多人只去學(xué)算法與工具,但學(xué)習(xí)如何應(yīng)用算法與適當(dāng)?shù)靥岢鲑|(zhì)疑也很重要。
所有從事機(jī)器學(xué)習(xí)的人都正處在一個神奇的點上——計算能力、數(shù)據(jù)和算法交織在一起,在機(jī)器學(xué)習(xí)的的協(xié)助下碰撞出了新的美妙火花 ,利用好這個機(jī)會將是整個科學(xué)界義不容辭的責(zé)任。
網(wǎng)站題目:機(jī)器學(xué)習(xí)過程的三個坑,看看你踩過哪一個
分享鏈接:http://www.rwnh.cn/news/99217.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊、外貿(mào)建站、商城網(wǎng)站、做網(wǎng)站、移動網(wǎng)站建設(shè)、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容