深度學(xué)習(xí)“深度”有什么意義？

深度學(xué)習(xí)的”深度”，早幾年討論的挺多的，身邊有不同的理解：深度=更大規(guī)模的網(wǎng)絡(luò)，也有認(rèn)為：深度=更抽象的特征，近年來物理上也有人側(cè)面顯示：深度=玻璃相轉(zhuǎn)變，如果后者的觀點(diǎn)成立，那么僅僅引入GPU甚至FPGA硬件的目的只是加快，沒有算法的幫助（調(diào)參也算一種算法，后面會(huì)解釋）是不會(huì)加深的?。ㄗⅲ旱忍?hào)表示強(qiáng)關(guān)系，不表示等價(jià)）

吐魯番ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景，ssl證書未來市場(chǎng)廣闊！成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道，可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：18982081108（備注：SSL證書合作）期待與您的合作！

度量”深“

這個(gè)”深“同復(fù)雜度的聯(lián)系是很緊密的。神經(jīng)網(wǎng)絡(luò)的復(fù)雜度，我們可以使用層數(shù)，神經(jīng)元數(shù)目，或者連接權(quán)重?cái)?shù)目作為度量。相對(duì)的，數(shù)據(jù)本身的復(fù)雜度，我們用帶標(biāo)簽的數(shù)據(jù)的比例和不帶標(biāo)簽的數(shù)據(jù)的比例來衡量。

深度=規(guī)模？網(wǎng)絡(luò)復(fù)雜性同分類誤差之間的聯(lián)系：

70-90年代關(guān)于神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)結(jié)論可謂多如牛毛，基本上很多討論了規(guī)模和泛化之間的關(guān)系，尤其是分類問題，關(guān)于分類的訓(xùn)練誤差和測(cè)試誤差（泛化能力），基本上歸結(jié)為幾個(gè)基本要求和限制：

模型要多復(fù)雜： 增加復(fù)雜度總是能擬合好訓(xùn)練樣本，而要獲得良好的泛化能力，普遍認(rèn)為復(fù)雜度應(yīng)該為訓(xùn)練數(shù)據(jù)數(shù)目的某種冪次，才能有較好的泛化能力。而且冪次要求小于1，若不然，每增加一個(gè)訓(xùn)練樣本，都必須要擴(kuò)充網(wǎng)絡(luò)，這種模型沒有任何實(shí)際意義。謝天謝地，神經(jīng)網(wǎng)絡(luò)可以滿足這個(gè)要求，參考文獻(xiàn)3。 要多少訓(xùn)練數(shù)據(jù)：如果網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為 N，連接權(quán)重?cái)?shù)為W，那么泛化誤差小于任意指定值ε 的一個(gè)合理的要求便是： 訓(xùn)練數(shù)據(jù)的數(shù)目 >（W/ε）Log（N/ε），這說明復(fù)雜的模型需要更多的訓(xùn)練以獲得優(yōu)秀的泛化能力！事實(shí)上，不斷提高數(shù)據(jù)量，多層感知器模型也能達(dá)到目前深度學(xué)習(xí)的水平（參考文獻(xiàn)2），認(rèn)為深度學(xué)習(xí)=普通多層神經(jīng)網(wǎng)絡(luò)，的確有現(xiàn)實(shí)的理由。 奧卡姆剃刀疑惑：理論上，帶一層隱藏層的核基神經(jīng)網(wǎng)絡(luò)可以將任意數(shù)據(jù)擬合好（理解為級(jí)數(shù)展開，每個(gè)項(xiàng)就是一個(gè)隱藏神經(jīng)元），那么提高復(fù)雜度的作用是啥？無法爭(zhēng)辯的事實(shí)是，數(shù)據(jù)量足夠高以后，簡(jiǎn)單的分類器都能給出優(yōu)秀的結(jié)果。關(guān)于這一點(diǎn)從相變角度能解釋為何需要實(shí)際工程需要一個(gè)“過度復(fù)雜的網(wǎng)絡(luò)”，而不是一個(gè)大小“剛剛好的”網(wǎng)絡(luò)。 復(fù)雜的代價(jià)：一個(gè)基本的定理，測(cè)試誤差 >= 訓(xùn)練誤差 + 模型復(fù)雜度，過度復(fù)雜的代價(jià)便是過擬合。防止過擬合的方法沒有通論，業(yè)界通稱“黑魔法”。

上面4點(diǎn)告訴我們的表象是，針對(duì)靜態(tài)非時(shí)序分類問題，我們貌似可以不要高大上的算法，只要數(shù)據(jù)量足夠，網(wǎng)絡(luò)足夠復(fù)雜，機(jī)器夠大，速度夠快，懂點(diǎn)“黑魔法”，在現(xiàn)在的工業(yè)界的數(shù)據(jù)量和模型通常都是用億來衡量其規(guī)模的時(shí)代，此乃現(xiàn)世王道。

深度=更多抽象特征？一連串問題來了，何為特征？何為好的特征？深度學(xué)習(xí)的特征為何被稱為抽象的？多層和抽象的關(guān)系是啥？

特征=函數(shù)展開的基函數(shù)？數(shù)學(xué)上將基函數(shù)理解成特征是可以的，當(dāng)然不必要完備，也不必要正交。比如下圖，圖片特征提取，稀疏編碼就是在一堆特征當(dāng)中尋找最少且擬合最好的特征組，前提假設(shè)是圖片都可以被分解為這些特征的線性疊加。然而前提要求分解仍然是線性的，使得機(jī)器上好計(jì)算，但是實(shí)際問題需要的特征通常是不同類型的組合，強(qiáng)行線性組合就像是吃正宗粵菜的時(shí)候來個(gè)山東煎餅果子一樣。(圖取自吳恩達(dá)的slide)

特征=低維流形嵌入？

產(chǎn)生成千上萬(wàn)個(gè)沒經(jīng)驗(yàn)證的特征總是容易的，但去除冗余特征，也就是去掉那些添不添加都不影響結(jié)果的特征，就需要相當(dāng)?shù)募记?。一種便是通過低維流形去尋找最重要的結(jié)構(gòu)，這種方法可以利用多層自編碼去逐層壓縮維度，也可以用傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)+Isomap類似的方法一步到位地壓縮維度，然后不斷調(diào)整使得嵌入低維的數(shù)據(jù)點(diǎn)“互相分離的最遠(yuǎn)”。由于數(shù)據(jù)點(diǎn)靠的近表示相似，故此這種方法能將數(shù)據(jù)本身的平移旋轉(zhuǎn)按順序嵌入到每塊低維子流形當(dāng)中。反過來說，如果訓(xùn)練數(shù)據(jù)已經(jīng)包含有其本身的旋轉(zhuǎn)平移，其低維子流形將會(huì)被填充得“更加的豐滿”（如綠色的圓圈，因?yàn)槭謱憯?shù)字1無論如何寫都是“ |” 的某種旋轉(zhuǎn)拉伸），其低維的邊界就更容易被發(fā)現(xiàn)。然而這種方法是假設(shè)數(shù)據(jù)的可解釋性隱藏在其低維流形結(jié)構(gòu)上，難免讓人費(fèi)解，而且不同標(biāo)簽的嵌入子流形能否被充分分離也是非常困難的事情。（參考G.E.Hinton 06年 nature， Y LeCun，etc）

特征=數(shù)據(jù)拓?fù)?/strong>？似乎研究訓(xùn)練數(shù)據(jù)本身復(fù)雜性的不多，都強(qiáng)調(diào)模型對(duì)數(shù)據(jù)的解釋能力。實(shí)際上，不論任何數(shù)據(jù)，任何奇怪的類型，拓?fù)涠际潜热嗽O(shè)模型更泛的工具。不少人直觀認(rèn)為拓?fù)鋵W(xué)的概括性過強(qiáng)，用作特征沒法表示數(shù)據(jù)的內(nèi)稟結(jié)構(gòu)。其實(shí)不然，目前比較火的，如代數(shù)拓?fù)淅锩嬗袀€(gè)Persistent homology，其對(duì)數(shù)據(jù)主要特征如此敏感，甚至可以用來當(dāng)作蛋白質(zhì)結(jié)構(gòu)的拓?fù)渲讣y，有數(shù)學(xué)家通過這些指紋，甚至發(fā)現(xiàn)一些蛋白數(shù)據(jù)庫(kù)的結(jié)構(gòu)錯(cuò)誤。（參考文獻(xiàn)4，5） 是特征提升“深度”，還是“深度”提升特征？

深度=玻璃相轉(zhuǎn)變？何為玻璃相？它對(duì)泛化誤差的影響是啥？

相，作為區(qū)分兩種狀態(tài)的詞，有個(gè)非?，F(xiàn)實(shí)和直觀的影響便是，外部條件不變的話，從一種相跨到另一種相是有很大難度的！比如水在低溫會(huì)結(jié)冰，同樣條件，讓水不結(jié)冰的概率，雖然按照玻爾茲曼分布來看并非為零，過冷水便是一例。但這種狀態(tài)是非常不穩(wěn)定的，一旦擾動(dòng)很快就變成冰，不可能回到液體。 相變過程=搜索能量最小點(diǎn)，這是一個(gè)粗淺的理解，在給定條件下（比如溫度T），相變就是從能量高的狀態(tài)（低溫水）找到能量低的狀態(tài)（冰）。但是該過程不是直線式的下陂過程，期間要翻過一些很小的山頭，描述這些小山頭的阻礙我們用一個(gè)正的能量壘ΔE

來表示。其阻礙時(shí)間按照阿倫尼烏斯的觀點(diǎn)，正比于N*E^(ΔE/T)，指數(shù)型的拖延。前面的參數(shù)N用來形容山頭的多寡。 玻璃相。假設(shè)這些小山頭不是一個(gè)，而是體系自由度的指數(shù)，雖然每個(gè)山頭的高度不高，累計(jì)的阻礙仍然非?？捎^，甚至嚴(yán)重影響你尋找最小能量態(tài)的可能性，進(jìn)入這種像踩到瀝青的區(qū)域，我們用玻璃相來形容。如下圖，比如蛋白質(zhì)折疊的能量漏斗模型（能量landscape），從計(jì)算機(jī)模擬上來看，穿過玻璃轉(zhuǎn)變區(qū)（glass transition）進(jìn)入能量最小值是最消耗時(shí)間的一個(gè)區(qū)域。這個(gè)過程硬件提速固然重要，但是并行加速是線性的提高，只解決空間復(fù)雜，不解決時(shí)間復(fù)雜！玻璃區(qū)域是包含有時(shí)間復(fù)雜的，一旦規(guī)模巨大后，沒有算法技巧，尋找能量最低點(diǎn)，在這種非凸的模型上，基本無望。

玻璃世界的山頭類型，這里的山頭不僅包括語(yǔ)義上的山，也包括低谷。數(shù)學(xué)上嚴(yán)格描述應(yīng)該理解為梯度為零的點(diǎn)，梯度為零的點(diǎn)有兩種，鞍點(diǎn)和極值點(diǎn)。梯度下降法中，鞍點(diǎn)總是可以找到出路的，到了極小點(diǎn)就無望了。物理上，鞍點(diǎn)數(shù)目可能會(huì)隨著能量不斷下降而慢慢轉(zhuǎn)換成極小點(diǎn)，如下圖便是Lennard-Jones液固轉(zhuǎn)變的模擬計(jì)算（文獻(xiàn)7），y軸描述鞍點(diǎn)數(shù)目，系統(tǒng)還沒到達(dá)最小能量（變成固體）就被包圍在一堆極小值附近了，這時(shí)候采用梯度下降搜索萬(wàn)億年都是徒勞的。然而這也告訴我們一個(gè)希望，沒必要擔(dān)心局部極小，因?yàn)橐坏┑搅苏嬲木植繕O小，也非常接近最小值了，畢竟大部分區(qū)域都是被鞍點(diǎn)割據(jù)著。

智能是非凸的過程！這是一個(gè)非常老的觀點(diǎn)，按照早期的計(jì)算能力來看，可想而知地不受歡迎。任何訓(xùn)練都是在最小化某個(gè)損失函數(shù)L(W)

或叫能量函數(shù)也可。Y LeCun（文獻(xiàn)6）等人近來研究的觀點(diǎn)顯示，多層卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)雖然是非凸的，但是阻礙其通向最優(yōu)點(diǎn)的山頭屬鞍點(diǎn)居多，是鞍點(diǎn)意味著總是可以找到出路。但是小index的鞍點(diǎn)阻礙能力甚高，而且隨機(jī)矩陣?yán)碚摵湍M顯示，神經(jīng)網(wǎng)絡(luò)在一定能量以上的某個(gè)區(qū)域全都是這類鞍點(diǎn)，非常類似物理上的Lennard-Jones液固轉(zhuǎn)變過程，這也能理解為何訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)慢慢開始黏在一個(gè)區(qū)域不動(dòng)，這個(gè)區(qū)域的鞍點(diǎn)山頭阻礙都十分可怕（參考8）。（下圖y軸描述鞍點(diǎn)數(shù)，橫軸就是損失函數(shù)，第4張圖說明能量高到一定程度，鞍點(diǎn)都會(huì)消失）

深度=跨越玻璃相？這里要給個(gè)問號(hào)，畢竟目前理論都不是在真實(shí)工業(yè)界的模型下計(jì)算出來的，像是一個(gè)猜測(cè)。想法是，既然訓(xùn)練存在玻璃阻礙，為何不一開始就把系統(tǒng)初始化到鞍點(diǎn)盡量少的區(qū)域，可惜在高維空間判斷鞍點(diǎn)少的區(qū)域是個(gè)十分復(fù)雜的問題。但是我們可以降低維度去判斷，比如引入少量外部控制變量—序參數(shù)（權(quán)重的平方和，類似SVM中的間隔，輸入層的偏置，無標(biāo)簽/有標(biāo)簽數(shù)據(jù)數(shù)目等），然后約束這些序參數(shù)，按照某種權(quán)重平均掉這些鞍點(diǎn)Wi的貢獻(xiàn)（重要性抽樣說明這約等于將所有W積掉）。由于鞍點(diǎn)多的地方貢獻(xiàn)相對(duì)大，序參數(shù)調(diào)整不好會(huì)導(dǎo)致平均結(jié)果同其它區(qū)域有明顯不同，因此可以用來判斷相區(qū)。如下圖，log（ε）表示泛化能力的對(duì)數(shù)，越小泛化能力越強(qiáng)。β表示無標(biāo)簽樣本的數(shù)目，α表示有標(biāo)簽樣本數(shù)。不同顏色的線是不同偏置，藍(lán)色線的偏置最小。不論那條顏色的線，增大無標(biāo)簽的樣本原則上可以降低誤差，但是理論上存在“相區(qū)”，如藍(lán)色線的上半支和下半支，中間不穩(wěn)定，難以逗留長(zhǎng)時(shí)間，會(huì)存在一支相的誤差一直無法下降。它卡住了！

預(yù)訓(xùn)練能加深！有了控制變量，我們可以通過調(diào)整這些值，將損失函數(shù)拖到感興趣的區(qū)域，從而回避相的影響，這個(gè)拖動(dòng)過程由一個(gè)日本人今年的研究表明（文獻(xiàn)9），就是無標(biāo)簽的預(yù)訓(xùn)練！如下圖，預(yù)訓(xùn)練越多，有標(biāo)簽的調(diào)優(yōu)能越早找到最小值區(qū)域?。╨og（ε）表示泛化能力的對(duì)數(shù)，越小泛化能力越強(qiáng)。β表示無標(biāo)簽樣本的數(shù)目，α表示有標(biāo)簽樣本數(shù)，預(yù)訓(xùn)練是RBM之流，激活函數(shù)是ReLu）

不止有預(yù)訓(xùn)練？雖然相的觀點(diǎn)仍然說明這只是一個(gè)初始化“黑魔法”而已。但這個(gè)步驟確確實(shí)實(shí)在削弱玻璃相區(qū)的阻礙。因此本人也有個(gè)臆測(cè)，加大規(guī)模，加大樣本，提取深層特征的深度學(xué)習(xí)是跨越相一個(gè)表面技巧而已！或許我們能找到一種跨越或者回避相區(qū)的通用方法，一旦達(dá)到此目的，由此獲得的特征或者才是真正的內(nèi)稟表示。

當(dāng)前標(biāo)題：深度學(xué)習(xí)“深度”有什么意義？
標(biāo)題來源：http://www.rwnh.cn/article36/sdpopg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站制作、定制開發(fā)、做網(wǎng)站、網(wǎng)站設(shè)計(jì)公司、App開發(fā)、網(wǎng)頁(yè)設(shè)計(jì)公司

廣告

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

企業(yè)網(wǎng)絡(luò)建設(shè)的目的與意義是什么？
本地云存儲(chǔ)是什么工作原理是怎樣的
服務(wù)器工作和臺(tái)式機(jī)的區(qū)別都有哪些？
一個(gè)優(yōu)秀網(wǎng)站應(yīng)該具備的特點(diǎn)有哪些？
ssl證書選哪家？ssl錯(cuò)誤的原因有哪些？
申請(qǐng)公司網(wǎng)址方法有哪些？.org域名有哪些應(yīng)用價(jià)值？
域名解析網(wǎng)有哪些？網(wǎng)站的域名解析如何做？

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

深度學(xué)習(xí)“深度”有什么意義？

深度學(xué)習(xí)“深度”有什么意義？