深度學(xué)習(xí)的”深度”, 早幾年討論的挺多的,身邊有不同的理解:深度=更大規(guī)模的網(wǎng)絡(luò),也有認(rèn)為:深度=更抽象的特征,近年來物理上也有人側(cè)面顯示:深度=玻璃相轉(zhuǎn)變,如果后者的觀點(diǎn)成立,那么僅僅引入GPU甚至FPGA硬件的目的只是加快, 沒有算法的幫助(調(diào)參也算一種算法,后面會(huì)解釋)是不會(huì)加深的?。ㄗⅲ旱忍?hào)表示強(qiáng)關(guān)系,不表示等價(jià))
吐魯番ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來市場(chǎng)廣闊!成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18982081108(備注:SSL證書合作)期待與您的合作!度量”深“
這個(gè)”深“同復(fù)雜度的聯(lián)系是很緊密的。神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,我們可以使用層數(shù),神經(jīng)元數(shù)目,或者連接權(quán)重?cái)?shù)目作為度量。相對(duì)的,數(shù)據(jù)本身的復(fù)雜度,我們用帶標(biāo)簽的數(shù)據(jù)的比例和不帶標(biāo)簽的數(shù)據(jù)的比例來衡量。
深度=規(guī)模?網(wǎng)絡(luò)復(fù)雜性同分類誤差之間的聯(lián)系:
70-90年代關(guān)于神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)結(jié)論可謂多如牛毛,基本上很多討論了規(guī)模和泛化之間的關(guān)系,尤其是分類問題,關(guān)于分類的訓(xùn)練誤差和測(cè)試誤差(泛化能力),基本上歸結(jié)為幾個(gè)基本要求和限制:
模型要多復(fù)雜: 增加復(fù)雜度總是能擬合好訓(xùn)練樣本,而要獲得良好的泛化能力,普遍認(rèn)為復(fù)雜度應(yīng)該為訓(xùn)練數(shù)據(jù)數(shù)目的某種冪次,才能有較好的泛化能力。而且冪次要求小于1,若不然,每增加一個(gè)訓(xùn)練樣本,都必須要擴(kuò)充網(wǎng)絡(luò),這種模型沒有任何實(shí)際意義。謝天謝地,神經(jīng)網(wǎng)絡(luò)可以滿足這個(gè)要求,參考文獻(xiàn)3。 要多少訓(xùn)練數(shù)據(jù):如果網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為 N,連接權(quán)重?cái)?shù)為W,那么泛化誤差小于任意指定值ε 的一個(gè)合理的要求便是: 訓(xùn)練數(shù)據(jù)的數(shù)目 >(W/ε)Log(N/ε),這說明復(fù)雜的模型需要更多的訓(xùn)練以獲得優(yōu)秀的泛化能力!事實(shí)上,不斷提高數(shù)據(jù)量,多層感知器模型也能達(dá)到目前深度學(xué)習(xí)的水平(參考文獻(xiàn)2),認(rèn)為深度學(xué)習(xí)=普通多層神經(jīng)網(wǎng)絡(luò),的確有現(xiàn)實(shí)的理由。 奧卡姆剃刀疑惑:理論上,帶一層隱藏層的核基神經(jīng)網(wǎng)絡(luò)可以將任意數(shù)據(jù)擬合好(理解為級(jí)數(shù)展開,每個(gè)項(xiàng)就是一個(gè)隱藏神經(jīng)元),那么提高復(fù)雜度的作用是啥?無法爭(zhēng)辯的事實(shí)是,數(shù)據(jù)量足夠高以后,簡(jiǎn)單的分類器都能給出優(yōu)秀的結(jié)果。關(guān)于這一點(diǎn)從相變角度能解釋為何需要實(shí)際工程需要一個(gè)“過度復(fù)雜的網(wǎng)絡(luò)”,而不是一個(gè)大小“剛剛好的”網(wǎng)絡(luò)。 復(fù)雜的代價(jià):一個(gè)基本的定理,測(cè)試誤差 >= 訓(xùn)練誤差 + 模型復(fù)雜度,過度復(fù)雜的代價(jià)便是過擬合。防止過擬合的方法沒有通論,業(yè)界通稱“黑魔法”。
上面4點(diǎn)告訴我們的表象是,針對(duì)靜態(tài)非時(shí)序分類問題,我們貌似可以不要高大上的算法,只要數(shù)據(jù)量足夠,網(wǎng)絡(luò)足夠復(fù)雜,機(jī)器夠大,速度夠快,懂點(diǎn)“黑魔法”,在現(xiàn)在的工業(yè)界的數(shù)據(jù)量和模型通常都是用億來衡量其規(guī)模的時(shí)代,此乃現(xiàn)世王道。
深度=更多抽象特征?一連串問題來了,何為特征?何為好的特征?深度學(xué)習(xí)的特征為何被稱為抽象的?多層和抽象的關(guān)系是啥?
特征=函數(shù)展開的基函數(shù)?數(shù)學(xué)上將基函數(shù)理解成特征是可以的,當(dāng)然不必要完備,也不必要正交。比如下圖,圖片特征提取,稀疏編碼就是在一堆特征當(dāng)中尋找最少且擬合最好的特征組,前提假設(shè)是圖片都可以被分解為這些特征的線性疊加。然而前提要求分解仍然是線性的,使得機(jī)器上好計(jì)算,但是實(shí)際問題需要的特征通常是不同類型的組合,強(qiáng)行線性組合就像是吃正宗粵菜的時(shí)候來個(gè)山東煎餅果子一樣。(圖取自吳恩達(dá)的slide)
特征=低維流形嵌入?
產(chǎn)生成千上萬(wàn)個(gè)沒經(jīng)驗(yàn)證的特征總是容易的,但去除冗余特征,也就是去掉那些添不添加都不影響結(jié)果的特征,就需要相當(dāng)?shù)募记?。一種便是通過低維流形去尋找最重要的結(jié)構(gòu),這種方法可以利用多層自編碼去逐層壓縮維度,也可以用傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)+Isomap類似的方法一步到位地壓縮維度,然后不斷調(diào)整使得嵌入低維的數(shù)據(jù)點(diǎn)“互相分離的最遠(yuǎn)”。由于數(shù)據(jù)點(diǎn)靠的近表示相似,故此這種方法能將數(shù)據(jù)本身的平移旋轉(zhuǎn)按順序嵌入到每塊低維子流形當(dāng)中。反過來說,如果訓(xùn)練數(shù)據(jù)已經(jīng)包含有其本身的旋轉(zhuǎn)平移,其低維子流形將會(huì)被填充得“更加的豐滿”(如綠色的圓圈,因?yàn)槭謱憯?shù)字1無論如何寫都是“ |” 的某種旋轉(zhuǎn)拉伸),其低維的邊界就更容易被發(fā)現(xiàn)。然而這種方法是假設(shè)數(shù)據(jù)的可解釋性隱藏在其低維流形結(jié)構(gòu)上,難免讓人費(fèi)解,而且不同標(biāo)簽的嵌入子流形能否被充分分離也是非常困難的事情。(參考G.E.Hinton 06年 nature, Y LeCun,etc)
特征=數(shù)據(jù)拓?fù)?/strong>?似乎研究訓(xùn)練數(shù)據(jù)本身復(fù)雜性的不多,都強(qiáng)調(diào)模型對(duì)數(shù)據(jù)的解釋能力。實(shí)際上,不論任何數(shù)據(jù),任何奇怪的類型,拓?fù)涠际潜热嗽O(shè)模型更泛的工具。不少人直觀認(rèn)為拓?fù)鋵W(xué)的概括性過強(qiáng),用作特征沒法表示數(shù)據(jù)的內(nèi)稟結(jié)構(gòu)。其實(shí)不然,目前比較火的,如代數(shù)拓?fù)淅锩嬗袀€(gè)Persistent homology,其對(duì)數(shù)據(jù)主要特征如此敏感,甚至可以用來當(dāng)作蛋白質(zhì)結(jié)構(gòu)的拓?fù)渲讣y,有數(shù)學(xué)家通過這些指紋,甚至發(fā)現(xiàn)一些蛋白數(shù)據(jù)庫(kù)的結(jié)構(gòu)錯(cuò)誤。(參考文獻(xiàn)4,5) 是特征提升“深度”,還是“深度”提升特征?
深度=玻璃相轉(zhuǎn)變?何為玻璃相?它對(duì)泛化誤差的影響是啥?
相,作為區(qū)分兩種狀態(tài)的詞,有個(gè)非?,F(xiàn)實(shí)和直觀的影響便是,外部條件不變的話,從一種相跨到另一種相是有很大難度的!比如水在低溫會(huì)結(jié)冰,同樣條件,讓水不結(jié)冰的概率,雖然按照玻爾茲曼分布來看并非為零,過冷水便是一例。但這種狀態(tài)是非常不穩(wěn)定的,一旦擾動(dòng)很快就變成冰,不可能回到液體。 相變過程=搜索能量最小點(diǎn),這是一個(gè)粗淺的理解,在給定條件下(比如溫度T),相變就是從能量高的狀態(tài)(低溫水)找到能量低的狀態(tài)(冰)。但是該過程不是直線式的下陂過程,期間要翻過一些很小的山頭,描述這些小山頭的阻礙我們用一個(gè)正的能量壘ΔE
來表示。其阻礙時(shí)間按照阿倫尼烏斯的觀點(diǎn),正比于N*E^(ΔE/T),指數(shù)型的拖延。前面的參數(shù)N用來形容山頭的多寡。 玻璃相。假設(shè)這些小山頭不是一個(gè),而是體系自由度的指數(shù),雖然每個(gè)山頭的高度不高,累計(jì)的阻礙仍然非??捎^,甚至嚴(yán)重影響你尋找最小能量態(tài)的可能性,進(jìn)入這種像踩到瀝青的區(qū)域,我們用玻璃相來形容。如下圖,比如蛋白質(zhì)折疊的能量漏斗模型(能量landscape),從計(jì)算機(jī)模擬上來看,穿過玻璃轉(zhuǎn)變區(qū)(glass transition)進(jìn)入能量最小值是最消耗時(shí)間的一個(gè)區(qū)域。這個(gè)過程硬件提速固然重要,但是并行加速是線性的提高,只解決空間復(fù)雜,不解決時(shí)間復(fù)雜!玻璃區(qū)域是包含有時(shí)間復(fù)雜的,一旦規(guī)模巨大后,沒有算法技巧,尋找能量最低點(diǎn),在這種非凸的模型上,基本無望。
玻璃世界的山頭類型,這里的山頭不僅包括語(yǔ)義上的山,也包括低谷。數(shù)學(xué)上嚴(yán)格描述應(yīng)該理解為梯度為零的點(diǎn),梯度為零的點(diǎn)有兩種,鞍點(diǎn)和極值點(diǎn)。梯度下降法中,鞍點(diǎn)總是可以找到出路的,到了極小點(diǎn)就無望了。物理上,鞍點(diǎn)數(shù)目可能會(huì)隨著能量不斷下降而慢慢轉(zhuǎn)換成極小點(diǎn),如下圖便是Lennard-Jones液固轉(zhuǎn)變的模擬計(jì)算(文獻(xiàn)7),y軸描述鞍點(diǎn)數(shù)目,系統(tǒng)還沒到達(dá)最小能量(變成固體)就被包圍在一堆極小值附近了,這時(shí)候采用梯度下降搜索萬(wàn)億年都是徒勞的。然而這也告訴我們一個(gè)希望,沒必要擔(dān)心局部極小,因?yàn)橐坏┑搅苏嬲木植繕O小,也非常接近最小值了,畢竟大部分區(qū)域都是被鞍點(diǎn)割據(jù)著。
智能是非凸的過程!這是一個(gè)非常老的觀點(diǎn),按照早期的計(jì)算能力來看,可想而知地不受歡迎。任何訓(xùn)練都是在最小化某個(gè)損失函數(shù)L(W)
或叫能量函數(shù)也可。Y LeCun(文獻(xiàn)6)等人近來研究的觀點(diǎn)顯示,多層卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)雖然是非凸的,但是阻礙其通向最優(yōu)點(diǎn)的山頭屬鞍點(diǎn)居多,是鞍點(diǎn)意味著總是可以找到出路。但是小index的鞍點(diǎn)阻礙能力甚高,而且隨機(jī)矩陣?yán)碚摵湍M顯示,神經(jīng)網(wǎng)絡(luò)在一定能量以上的某個(gè)區(qū)域全都是這類鞍點(diǎn),非常類似物理上的Lennard-Jones液固轉(zhuǎn)變過程,這也能理解為何訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)慢慢開始黏在一個(gè)區(qū)域不動(dòng),這個(gè)區(qū)域的鞍點(diǎn)山頭阻礙都十分可怕(參考8)。(下圖y軸描述鞍點(diǎn)數(shù),橫軸就是損失函數(shù),第4張圖說明能量高到一定程度,鞍點(diǎn)都會(huì)消失)
深度=跨越玻璃相?這里要給個(gè)問號(hào),畢竟目前理論都不是在真實(shí)工業(yè)界的模型下計(jì)算出來的,像是一個(gè)猜測(cè)。想法是,既然訓(xùn)練存在玻璃阻礙,為何不一開始就把系統(tǒng)初始化到鞍點(diǎn)盡量少的區(qū)域,可惜在高維空間判斷鞍點(diǎn)少的區(qū)域是個(gè)十分復(fù)雜的問題。但是我們可以降低維度去判斷,比如引入少量外部控制變量—序參數(shù)(權(quán)重的平方和,類似SVM中的間隔,輸入層的偏置,無標(biāo)簽/有標(biāo)簽數(shù)據(jù)數(shù)目等),然后約束這些序參數(shù),按照某種權(quán)重平均掉這些鞍點(diǎn)Wi的貢獻(xiàn)(重要性抽樣說明這約等于將所有W積掉)。由于鞍點(diǎn)多的地方貢獻(xiàn)相對(duì)大,序參數(shù)調(diào)整不好會(huì)導(dǎo)致平均結(jié)果同其它區(qū)域有明顯不同,因此可以用來判斷相區(qū)。如下圖,log(ε)表示泛化能力的對(duì)數(shù),越小泛化能力越強(qiáng)。β表示無標(biāo)簽樣本的數(shù)目,α表示有標(biāo)簽樣本數(shù)。不同顏色的線是不同偏置,藍(lán)色線的偏置最小。不論那條顏色的線,增大無標(biāo)簽的樣本原則上可以降低誤差,但是理論上存在“相區(qū)”,如藍(lán)色線的上半支和下半支,中間不穩(wěn)定,難以逗留長(zhǎng)時(shí)間,會(huì)存在一支相的誤差一直無法下降。它卡住了!
預(yù)訓(xùn)練能加深!有了控制變量,我們可以通過調(diào)整這些值,將損失函數(shù)拖到感興趣的區(qū)域,從而回避相的影響,這個(gè)拖動(dòng)過程由一個(gè)日本人今年的研究表明(文獻(xiàn)9),就是無標(biāo)簽的預(yù)訓(xùn)練!如下圖,預(yù)訓(xùn)練越多,有標(biāo)簽的調(diào)優(yōu)能越早找到最小值區(qū)域?。╨og(ε)表示泛化能力的對(duì)數(shù),越小泛化能力越強(qiáng)。β表示無標(biāo)簽樣本的數(shù)目,α表示有標(biāo)簽樣本數(shù),預(yù)訓(xùn)練是RBM之流,激活函數(shù)是ReLu)
不止有預(yù)訓(xùn)練?雖然相的觀點(diǎn)仍然說明這只是一個(gè)初始化“黑魔法”而已。但這個(gè)步驟確確實(shí)實(shí)在削弱玻璃相區(qū)的阻礙。因此本人也有個(gè)臆測(cè),加大規(guī)模,加大樣本,提取深層特征的深度學(xué)習(xí)是跨越相一個(gè)表面技巧而已!或許我們能找到一種跨越或者回避相區(qū)的通用方法,一旦達(dá)到此目的,由此獲得的特征或者才是真正的內(nèi)稟表示。
當(dāng)前標(biāo)題:深度學(xué)習(xí)“深度”有什么意義?
標(biāo)題來源:http://www.rwnh.cn/article36/sdpopg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、定制開發(fā)、做網(wǎng)站、網(wǎng)站設(shè)計(jì)公司、App開發(fā)、網(wǎng)頁(yè)設(shè)計(jì)公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)