go語言神經(jīng)網(wǎng)絡(luò) go 神經(jīng)網(wǎng)絡(luò)

學(xué)人工智能要學(xué)些什么？

、數(shù)學(xué)基礎(chǔ)。數(shù)學(xué)基礎(chǔ)知識蘊含著處理智能問題的基本思想與方法，也是理解復(fù)雜算法的必備要素。這一模塊覆蓋了人工智能必備的數(shù)學(xué)基礎(chǔ)知識，包括線性代數(shù)、概率論、最優(yōu)化方法等。

讓客戶滿意是我們工作的目標，不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶，將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴，公司提供的服務(wù)項目有：主機域名、網(wǎng)絡(luò)空間、營銷軟件、網(wǎng)站建設(shè)、鐵西網(wǎng)站維護、網(wǎng)站推廣。

2、機器學(xué)習(xí)。機器學(xué)習(xí)的作用是從數(shù)據(jù)中習(xí)得學(xué)習(xí)算法，進而解決實際的應(yīng)用問題，是人工智能的核心內(nèi)容之一。這一模塊覆蓋了機器學(xué)習(xí)中的主要方法，包括線性回歸、決策樹、支持向量機、聚類等。

3、人工神經(jīng)網(wǎng)絡(luò)。作為機器學(xué)習(xí)的一個分支，神經(jīng)網(wǎng)絡(luò)將認知科學(xué)引入機器學(xué)習(xí)中，以模擬生物神經(jīng)系統(tǒng)對真實世界的交互反應(yīng)，并取得了良好的效果。這一模塊覆蓋了神經(jīng)網(wǎng)絡(luò)中的基本概念，包括多層神經(jīng)網(wǎng)絡(luò)、前饋與反向傳播、自組織神經(jīng)網(wǎng)絡(luò)等。

4、深度學(xué)習(xí)。簡而言之，深度學(xué)習(xí)就是包含多個中間層的神經(jīng)網(wǎng)絡(luò)，數(shù)據(jù)爆炸和計算力飆升推動了深度學(xué)習(xí)的崛起。這一模塊覆蓋了深度學(xué)習(xí)的概念與實現(xiàn)，包括深度前饋網(wǎng)絡(luò)、深度學(xué)習(xí)中的正則化、自編碼器等。

5、神經(jīng)網(wǎng)絡(luò)實例。在深度學(xué)習(xí)框架下，一些神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于各種應(yīng)用場景，并取得了不俗的效果。這一模塊覆蓋了幾種神經(jīng)網(wǎng)絡(luò)實例，包括深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。

6、深度學(xué)習(xí)之外的人工智能。深度學(xué)習(xí)既有優(yōu)點也有局限，其他方向的人工智能研究正是有益的補充。這一模塊覆蓋了與深度學(xué)習(xí)無關(guān)的典型學(xué)習(xí)方法，包括概率圖模型、集群智能、遷移學(xué)習(xí)、知識圖譜等。

7、應(yīng)用場景。除了代替人類執(zhí)行重復(fù)性的勞動，在諸多實際問題的處理中，人工智能也提供了有意義的嘗試。這一模塊覆蓋了人工智能技術(shù)在幾類實際任務(wù)中的應(yīng)用，包括計算機視覺、語音處理、對話系統(tǒng)等。

未來的人工神經(jīng)網(wǎng)絡(luò)將會怎樣改變我們的生活。

1、客服行業(yè)/行政助手

傳統(tǒng)客服、企業(yè)內(nèi)部行政，這種機械性、重復(fù)性、程式化的重復(fù)體力勞動的工作將會被專業(yè)的行政/客服機器人所替代。

2、翻譯行業(yè)

打破語言界限，幫助人類進行跨民族、跨語種、跨文化的交流，一直以來都是“翻譯”這一專業(yè)領(lǐng)域的神圣指責，且深深的在全球化的大潮中，被重要依賴著。

3、服務(wù)于公共交通的司機、公交車司機

交通改變了人類生存的空間感和時間感，交通行業(yè)的發(fā)展和速度效率的提升，極大的提升了社會效率和人類生活體驗。但每年不斷增加的汽車保有量和隨之快速上升的交通事故，也造成了不可挽回的生命及財產(chǎn)損失。

4、制造業(yè)流水線工人

人工智能最常讓人浮想聯(lián)翩的技術(shù)領(lǐng)域，毫無疑問是機器人，尤其是工業(yè)制造機器人領(lǐng)域。現(xiàn)在在高端科技制造、精密機械制造、主流汽車生產(chǎn)和甚至手機生產(chǎn)線中，工業(yè)機器人是標配。大量的工業(yè)應(yīng)用故事，已經(jīng)明確地指明了未來工業(yè)生產(chǎn)的方向。

5、基礎(chǔ)醫(yī)學(xué)服務(wù)和輔助醫(yī)療

近年來在醫(yī)療行業(yè)，多家企業(yè)源源不斷地向人工智能技術(shù)應(yīng)用方向注入大量資金，尤其是降低醫(yī)療成本、增加醫(yī)療效果、提升醫(yī)療效率、改善患者健康領(lǐng)域。

在某些情境下，人工智能的深度學(xué)習(xí)能力已超越醫(yī)生。專家預(yù)測2020年醫(yī)療人工智能將持續(xù)增長，尤其是在成像、診斷、預(yù)測分析和管理領(lǐng)域。

6、金融審計和風(fēng)控

人工智能的知識圖譜、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)在金融行業(yè)已有廣泛的應(yīng)用，通過專業(yè)策略深度應(yīng)用下，對金融領(lǐng)域數(shù)據(jù)的監(jiān)控和數(shù)據(jù)分析、決策方向極大的提高了業(yè)務(wù)處理效率，并且在每日新增和歷史的金融海量數(shù)據(jù)下，人工智能的效率是人工不可企及的。

7、便利店收銀員

無營業(yè)員超市，又稱為無人超市。負責收錢的不是營業(yè)員，而是一個具備攝像頭、人臉識別、機器交互終端、掃碼設(shè)備的自動收款機器人。這種無須排隊結(jié)賬的實體店：刷手機進店、選品、拿貨，然后走人！這種黑科技早已于2016年，隨著Amazon Go無人超市的正式上線成為現(xiàn)實。

特點優(yōu)點：

人工神經(jīng)網(wǎng)絡(luò)的特點和優(yōu)越性，主要表現(xiàn)在三個方面：

1、具有自學(xué)習(xí)功能

例如實現(xiàn)圖像識別時，只在先把許多不同的圖像樣板和對應(yīng)的應(yīng)識別的結(jié)果輸入人工神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)就會通過自學(xué)習(xí)功能，慢慢學(xué)會識別類似的圖像。

自學(xué)習(xí)功能對于預(yù)測有特別重要的意義。預(yù)期未來的人工神經(jīng)網(wǎng)絡(luò)計算機將為人類提供經(jīng)濟預(yù)測、市場預(yù)測、效益預(yù)測，其應(yīng)用前途是很遠大的。

2、具有聯(lián)想存儲功能

用人工神經(jīng)網(wǎng)絡(luò)的反饋網(wǎng)絡(luò)就可以實現(xiàn)這種聯(lián)想。

3、具有高速尋找優(yōu)化解的能力

尋找一個復(fù)雜問題的優(yōu)化解，往往需要很大的計算量，利用一個針對某問題而設(shè)計的反饋型人工神經(jīng)網(wǎng)絡(luò)，發(fā)揮計算機的高速運算能力，可能很快找到優(yōu)化解。

在職場中晉升和加薪是困難的，應(yīng)該怎么保持平常心？

相信有很多人認同之前的朋友，那么就來說說在這個瞬息萬變的時代，年輕人是否有必要進行職業(yè)規(guī)劃。誠然，這個社會的確是多變的。每一刻，都有新的東西不知從哪里冒出來，每一分鐘，太多曾經(jīng)輝煌的東西慢慢消失。可能這兩年你一只腳踏入了共享經(jīng)濟，打算5~10年做點什么。誰曾想到風(fēng)一夜之間就熄了，豬倒了，你還是看不到事業(yè)的影子，得到的卻是一張裁員通知。

行業(yè)內(nèi)就是這樣，技能甚至?xí)^時。兩年前很火的Go語言，現(xiàn)在在招聘需求上已經(jīng)很難看到了。今天所有的招聘都是想搶AI和神經(jīng)網(wǎng)絡(luò)人才，但是沒人知道幾年后會發(fā)生什么。大時代的變化像波浪一樣洶涌澎湃，個人難免會覺得變化來得太快，跟不上節(jié)奏。從這個角度來看，我們似乎真的很難控制和預(yù)測行業(yè)的變化。這個時候，制定一個五年或者十年的職業(yè)規(guī)劃，似乎真的沒有太大的意義。但是，如果你真的這么想，恐怕你在思維上已經(jīng)陷入了誤區(qū)。

無論行業(yè)和社會發(fā)生多大的變化和翻案，個人的成長軌跡始終是連貫統(tǒng)一的。職業(yè)規(guī)劃不是讓我們預(yù)測行業(yè)的發(fā)展，甚至是未來可能出現(xiàn)的行業(yè)，而是回歸個人成長本身，讓我們時刻提醒自己在人生的某個階段應(yīng)該做什么，應(yīng)該做什么。很多人覺得職業(yè)規(guī)劃太復(fù)雜。其實這種規(guī)劃并沒有那么神奇。你甚至可以簡單的理解為一個人在不同的階段給自己設(shè)定不同的目標，然后規(guī)劃一條合理的路徑去實現(xiàn)。

盡管現(xiàn)如今社會與行業(yè)的發(fā)展瞬息萬變，沒有人能夠預(yù)測未來10年會發(fā)生什么。然而正是在這種情況下，我們才更應(yīng)該關(guān)注個人的職業(yè)發(fā)展規(guī)劃，給自己設(shè)定一個正確的規(guī)劃與目標，不要讓自己迷失在社會與行業(yè)的顛簸變化之中。以上就是今天想要給大家分享的內(nèi)容，希望對您有所幫助。

神經(jīng)網(wǎng)絡(luò)如何外推：從前饋網(wǎng)絡(luò)到圖網(wǎng)絡(luò)

How?Neural?Networks?Extrapolate:?From?Feedforward?to?Graph?Neural?Networks

ICLR2021最高分論文????????????

52頁論文，正文占9頁，主要都是附錄，不過附錄里很多圖片（一頁就一兩張圖），排除這些一頁一圖的，只有40頁

我們研究用梯度下降法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)如何外推，也就是說，它們在訓(xùn)練分布的支持之外學(xué)習(xí)什么。以前的工作報告了使用神經(jīng)網(wǎng)絡(luò)進行外推時混合的實證結(jié)果：雖然前饋神經(jīng)網(wǎng)絡(luò)，即多層感知器（MLP）在某些簡單任務(wù)中外推效果不好，但圖形神經(jīng)網(wǎng)絡(luò)（GNN）——帶有MLP模塊的結(jié)構(gòu)化網(wǎng)絡(luò)——在更復(fù)雜的任務(wù)中取得了一些成功。為了得到理論解釋，我們確定了MLPs和GNNs外推良好的條件。首先，我們量化了ReLU-MLPs從原點沿任意方向快速收斂到線性函數(shù)的觀測結(jié)果，這意味著ReLU-MLPs不能外推大多數(shù)非線性函數(shù)。但是，當訓(xùn)練分布足夠“多樣化”時，他們可以證明學(xué)習(xí)線性目標函數(shù)。其次，在分析GNNs的成功和局限性時，這些結(jié)果提出了一個假設(shè)，我們提供了理論和經(jīng)驗證據(jù)：GNNs在將算法任務(wù)外推到新數(shù)據(jù)（例如。，較大的圖或邊權(quán)重）依賴于編碼體系結(jié)構(gòu)或特征中特定于任務(wù)的非線性。我們的理論分析建立在過度參數(shù)化網(wǎng)絡(luò)與神經(jīng)切線核的聯(lián)系上。根據(jù)經(jīng)驗，我們的理論適用于不同的培訓(xùn)環(huán)境

1簡介

人類在許多任務(wù)中推斷得很好。例如，我們可以對任意大的數(shù)應(yīng)用算術(shù)。人們可能想知道，神經(jīng)網(wǎng)絡(luò)是否也能做到這一點，并將其推廣到任意遠離訓(xùn)練數(shù)據(jù)的示例中（Lake et al.，2017）。奇怪的是，以前的工作報告混合外推結(jié)果與神經(jīng)網(wǎng)絡(luò)。早期的工作表明，前饋神經(jīng)網(wǎng)絡(luò)，又稱多層感知器（MLPs），在學(xué)習(xí)簡單多項式函數(shù)時不能很好地進行外推（BarnardWessels，1992；HaleySoloway，1992年）。然而，最近的研究表明，圖神經(jīng)網(wǎng)絡(luò)（GNNs）（Scarselli et al.，2009）是一類具有MLP構(gòu)建塊的結(jié)構(gòu)化網(wǎng)絡(luò)，在具有挑戰(zhàn)性的算法任務(wù)中，如預(yù)測物理系統(tǒng)的時間演化（Battaglia et al.，2016），可以推廣到比訓(xùn)練圖大得多的圖，學(xué)習(xí)圖形算法（Velickovic et al.，2020），求解數(shù)學(xué)方程（LampleCharton，2020）。

為了解釋這個難題，我們正式研究了梯度下降（GD）訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是如何外推的，即它們在訓(xùn)練分布的支持之外學(xué)習(xí)什么。我們說，如果一個神經(jīng)網(wǎng)絡(luò)在訓(xùn)練分布之外學(xué)習(xí)了一個任務(wù)，它就能很好地進行外推。乍一看，似乎神經(jīng)網(wǎng)絡(luò)可以在訓(xùn)練分布之外任意行為，因為它們具有高容量（Zhang et al.，2017），并且是通用逼近器（Cybenko，1989；Funahashi，1989年；Hornik等人，1989年；庫爾科娃，1992年）。然而，神經(jīng)網(wǎng)絡(luò)受到梯度下降訓(xùn)練的限制（Hardt等人，2016；Soudry等人，2018年）。在我們的分析中，我們通過類比過參數(shù)化神經(jīng)網(wǎng)絡(luò)的訓(xùn)練動態(tài)和通過神經(jīng)切線核（NTK）的核回歸，明確考慮了這種隱式偏差（Jacot等人，2018）。

從前饋網(wǎng)絡(luò)、最簡單的神經(jīng)網(wǎng)絡(luò)和更復(fù)雜的體系結(jié)構(gòu)（如GNNs）的構(gòu)建塊開始，我們建立了由GD訓(xùn)練的具有ReLU激活的過參數(shù)mlp的預(yù)測從原點沿任意方向收斂到線性函數(shù)。我們證明了兩層網(wǎng)絡(luò)的收斂速度，并從經(jīng)驗上觀察到收斂經(jīng)常發(fā)生在訓(xùn)練數(shù)據(jù)附近（圖1），這表明ReLU-MLPs不能很好地外推大多數(shù)非線性任務(wù)。我們強調(diào)，我們的結(jié)果并不是基于ReLU網(wǎng)絡(luò)具有有限多個線性區(qū)域的事實（Arora et al.，2018；HaninRolnick，2019年；Hein等人，2019年）。雖然有有限多個線性區(qū)域意味著ReLU MLPs最終會變?yōu)榫€性，但MLPs是否會學(xué)習(xí)到接近訓(xùn)練分布的正確目標函數(shù)并沒有說明。相比之下，我們的結(jié)果是非漸近的，并且量化了MLPs將學(xué)習(xí)什么樣的函數(shù)接近于訓(xùn)練分布。其次，我們確定了mlp外推良好的條件：任務(wù)是線性的，訓(xùn)練分布的幾何結(jié)構(gòu)是充分“多樣化”的。據(jù)我們所知，我們的結(jié)果是這種前饋神經(jīng)網(wǎng)絡(luò)的第一個外推結(jié)果。

然后，我們將我們對前饋神經(jīng)網(wǎng)絡(luò)的見解與GNNs聯(lián)系起來，以解釋GNNs在某些算法任務(wù)中外推得好的原因。先前的工作報告了可以通過動態(tài)規(guī)劃（DP）解決的任務(wù)的成功外推（Bellman，1966），其計算結(jié)構(gòu)與GNNs一致（Xu等人，2020）。DP更新通常可以分解為非線性和線性步驟。因此，我們假設(shè)GD訓(xùn)練的GNN可以在DP任務(wù)中很好地外推，如果我們在架構(gòu)和輸入表示中編碼適當?shù)姆蔷€性（圖2）。重要的是，編碼非線性可能不需要GNNs插值，因為MLP模塊可以很容易地學(xué)習(xí)訓(xùn)練分布中的許多非線性函數(shù)（Cybenko，1989；Hornik等人，1989年；Xu等人，2020），但GNNs正確外推至關(guān)重要。我們使用圖NTK（Du等人，2019b）證明了簡化情況下的這一假設(shè)。在經(jīng)驗上，我們驗證了三個DP任務(wù)的假設(shè)：最大度、最短路徑和n體問題。我們證明了具有適當結(jié)構(gòu)、輸入表示和訓(xùn)練分布的GNNs可以很好地預(yù)測具有未知大小、結(jié)構(gòu)、邊權(quán)值和節(jié)點特征的圖。我們的理論解釋了以往工作的經(jīng)驗成功，并指出了它們的局限性：成功的外推依賴于編碼任務(wù)特定的非線性，這需要領(lǐng)域知識或廣泛的模型搜索。從更廣泛的角度來看，我們的見解超越了GNNs，并廣泛應(yīng)用于其他神經(jīng)網(wǎng)絡(luò)。

總之，我們研究神經(jīng)網(wǎng)絡(luò)如何外推。首先，由GD訓(xùn)練的ReLU-mlp以O(shè)（1/t）的速率沿原點方向收斂為線性函數(shù)。其次，為了解釋為什么GNNs在一些算法任務(wù)中可以很好地外推，我們證明了ReLU-MLPs在線性任務(wù)中可以很好地外推，從而引出一個假設(shè)：當適當?shù)姆蔷€性被編碼到結(jié)構(gòu)和特征中時，神經(jīng)網(wǎng)絡(luò)可以很好地外推。我們用一個簡化的例子證明了這個假設(shè)，并為更一般的情況提供了經(jīng)驗支持。

1.1相關(guān)工作

早期的工作顯示了MLP不能很好地外推的示例任務(wù)，例如學(xué)習(xí)簡單多項式（BarnardWessels，1992；HaleySoloway，1992年）。相反，我們展示了ReLU MLPs如何外推的一般模式，并確定MLPs外推良好的條件。最近的工作研究了在NTK和平均場兩種情況下，梯度下降對MLP產(chǎn)生的隱性偏差（Bietti和Mairal，2019；ChizatBach，2018年；Song等人，2018年）。與我們的結(jié)果相關(guān)，一些工作表明MLP預(yù)測收斂于“簡單”分段線性函數(shù)，例如，具有很少的線性區(qū)域（HaninRolnick，2019；Maennel等人，2018年；Savarese等人，2019年；威廉姆斯等人，2019年）。我們的工作不同之處在于，這些工作都沒有明確研究外推法，有些只關(guān)注一維輸入。最近的研究還表明，在NTK區(qū)域的高維環(huán)境中，MLP在某些標度極限下至多是一個漸近線性預(yù)測因子（Ba等人，2020；Ghorbani等人，2019年）。我們研究不同的設(shè)置（外推），我們的分析是非漸近性質(zhì)，不依賴于隨機矩陣理論。

先前的工作通過在較大的圖上進行測試來探索GNN外推（Battaglia et al.，2018；Santoro等人，2018年；薩克斯頓等人，2019年；Velickovic等人，2020年）。我們是第一個從理論上研究GNN外推法的人，我們完成了外推法的概念，包括看不見的特征和結(jié)構(gòu)。

2準備工作

3前饋神經(jīng)網(wǎng)絡(luò)如何外推

前饋網(wǎng)絡(luò)是最簡單的神經(jīng)網(wǎng)絡(luò)和更復(fù)雜的體系結(jié)構(gòu)（如GNNs）的構(gòu)建塊，因此我們首先研究它們在GD訓(xùn)練時是如何外推的。在本文中，我們假設(shè)ReLU激活。第3.3節(jié)包含其他激活的初步結(jié)果。

3.1 RELU MLP的線性外推行為

通過架構(gòu)，ReLU網(wǎng)絡(luò)學(xué)習(xí)分段線性函數(shù)，但是在訓(xùn)練數(shù)據(jù)的支持之外，這些區(qū)域究竟是什么樣的呢？圖1舉例說明了當GD對各種非線性函數(shù)進行訓(xùn)練時，ReLU MLP如何進行外推。這些例子表明，在訓(xùn)練支持之外，預(yù)測很快就會沿著原點的方向線性化。我們通過線性回歸對MLPs的預(yù)測進行了系統(tǒng)的驗證：決定系數(shù)（R2）總是大于0.99（附錄C.2）。也就是說，ReLU MLPs幾乎立即在訓(xùn)練數(shù)據(jù)范圍之外“線性化”。

我們使用GD通過神經(jīng)切線核（NTK）訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱式偏差來形式化這個觀察：GD訓(xùn)練的過參數(shù)化網(wǎng)絡(luò)的優(yōu)化軌跡等價于具有特定神經(jīng)切線核的核回歸的軌跡，在一系列被稱為“NTK制度”的假設(shè)下（Jacot等人，2018年）。我們在這里提供了一個非正式的定義；更多詳情，請參閱Jacot等人（2018）和附錄A。

定義2。

（非正式）在NTK區(qū)域訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是無限寬的，以一定的比例隨機初始化，并且由GD以無窮小的步長訓(xùn)練。

先前的工作通過NTK分析過參數(shù)化神經(jīng)網(wǎng)絡(luò)的優(yōu)化和分布泛化（Allen-Zhu等人，2019a；b類；Arora等人，2019a；b類；曹顧，2019；杜等人，2019c；一個；李亮，2018；日田和鈴木，2021年）。相反，我們分析外推。

定理1將我們從圖1中觀察到的結(jié)果形式化：在訓(xùn)練數(shù)據(jù)范圍之外，沿著原點的任何方向tv，兩層ReLU MLP的預(yù)測迅速收斂為速率為O（1/t）的線性函數(shù)。線性系數(shù)β收斂速度中的常數(shù)項依賴于訓(xùn)練數(shù)據(jù)和方向v。證據(jù)見附錄B.1

定理1

ReLU網(wǎng)絡(luò)具有有限多個線性區(qū)域（Arora等人，2018；漢寧和羅爾尼克，2019），因此他們的預(yù)測最終成為線性。相反，定理1是一個更細粒度的分析MLP如何外推，并提供了收斂速度。雖然定理1假設(shè)兩層網(wǎng)絡(luò)處于NTK狀態(tài)，但實驗證實，線性外推行為發(fā)生在具有不同深度、寬度、學(xué)習(xí)速率和批量大小的網(wǎng)絡(luò)上（附錄C.1和C.2）。我們的證明技術(shù)也可能擴展到更深層次的網(wǎng)絡(luò)。

圖4a提供了一個更積極的結(jié)果：MLP在許多不同的超參數(shù)上很好地外推了線性目標函數(shù)。雖然學(xué)習(xí)線性函數(shù)一開始似乎非常有限，但在第4節(jié)中，這一見解將有助于解釋GNN在非線性實際任務(wù)中的外推特性。在此之前，我們首先從理論上分析了MLPs外推的好時機。

3.2當RELU MLPS可證明外推井

圖4a顯示，當目標函數(shù)為線性時，MLP可以很好地外推。然而，這并不總是正確的。在本節(jié)中，我們展示了成功的外推依賴于訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)。直觀地說，訓(xùn)練分布必須足夠“多樣化”，以便進行正確的推斷

我們提供了兩個條件，將訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)與外推聯(lián)系起來。引理1指出，過參數(shù)化的mlp只需二維例子就可以學(xué)習(xí)線性目標函數(shù)。

實驗：訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)影響外推。

定理2中的條件形式化了一種直覺，即訓(xùn)練分布必須是“多樣的”，才能成功地進行外推，例如，D包括所有方向。從經(jīng)驗上講，當滿足定理2的條件時（圖4b中的“all”），外推誤差確實很小。相反，當訓(xùn)練示例僅限于某些方向時，外推誤差要大得多（圖4b和圖3）。

與之前的工作相關(guān)，定理2提出了為什么虛假相關(guān)性可能會損害外推，補充了因果關(guān)系論點（Arjovsky et al.，2019；Peters等人，2016年；Rojas Carulla等人，2018年）。當訓(xùn)練數(shù)據(jù)具有虛假相關(guān)性時，某些特征組合丟失；e、例如，駱駝可能只出現(xiàn)在沙漠中的圖像收集。因此，定理2的條件不再成立，模型可能外推錯誤。定理2也類似于線性模型的可辨識條件，但更為嚴格。如果訓(xùn)練數(shù)據(jù)具有全（特征）秩，我們可以唯一地識別一個線性函數(shù)。mlp更具表現(xiàn)力，因此識別線性目標函數(shù)需要附加約束。

綜上所述，我們分析了ReLU-MLPs是如何外推的，并提供了兩個啟示：（1）MLPs由于其線性外推而不能外推大多數(shù)非線性任務(wù)（定理1）；當目標函數(shù)是線性函數(shù)時，如果訓(xùn)練分布是“多樣的”（定理2），mlp可以很好地外推。在下一節(jié)中，這些結(jié)果將幫助我們理解更復(fù)雜的網(wǎng)絡(luò)是如何外推的。

3.3具有其他激活功能的MLPS

在繼續(xù)討論GNNs之前，我們通過對其他激活函數(shù)tanh的實驗來完成MLPs的描述σ(x） =tanh（x），余弦σ(x） =cos（x）（LapedesFarber，1987年；McCaughan，1997年；Sopena和Alquezar，1994），和σ(x） =x2（杜和李，2018；Livni等人，2014年）。詳情見附錄C.4。當激活函數(shù)和目標函數(shù)相似時，MLPs外推效果較好；e、例如，當學(xué)習(xí)tanh時，tanh激活可以很好地推斷，但不能推斷其他功能（圖5）。而且，每個激活函數(shù)都有不同的局限性。要用tanh激活外推tanh函數(shù)，訓(xùn)練數(shù)據(jù)范圍必須足夠?qū)?。當學(xué)習(xí)具有二次激活的二次函數(shù)時，只有兩層網(wǎng)絡(luò)可以很好地進行外推，而更多的層可以得到更高階的多項式。對于高維數(shù)據(jù)，余弦激活很難優(yōu)化，因此我們只考慮一維/二維余弦目標函數(shù)。

4圖形神經(jīng)網(wǎng)絡(luò)如何外推

上面，我們看到非線性任務(wù)中的外推對于MLP來說是困難的。盡管存在這一局限性，GNNs在一些非線性算法任務(wù)中表現(xiàn)出了很好的外推能力，如直觀物理（Battaglia et al.，2016；Janner等人，2019），圖算法（Battaglia等人，2018；Velickovic等人，2020）和符號數(shù)學(xué)（LampleCharton，2020）。為了解決這個差異，我們建立在MLP結(jié)果的基礎(chǔ)上，研究GD訓(xùn)練的GNNs是如何外推的。

4.1假設(shè)：線性算法對齊有助于外推

我們從一個例子開始：訓(xùn)練GNNs來解決最短路徑問題。對于這項任務(wù)，先前的工作觀察到，具有最小聚集的改進GNN架構(gòu)可以推廣到比訓(xùn)練集中的圖更大的圖（Battaglia et al.，2018；Velickovic等人，2020）：

我們首先提供一個直觀的解釋（圖2a）。最短路徑可通過Bellman-Ford（BF）算法（Bellman，1958）求解，并進行以下更新

其中w（v，u）是邊（v，u）的權(quán)重，d[k][u]是k步內(nèi)到節(jié)點u的最短距離。這兩個方程可以很容易地對齊：如果GNNs的MLP模塊學(xué)習(xí)一個線性函數(shù)d[k]，那么它將模擬BF算法?1] [v]+w（v，u）。由于mlp可以外推線性任務(wù)，這種“對齊”可以解釋為什么GNNs可以在這個任務(wù)中很好地外推。

為了進行比較，我們可以解釋為什么我們不希望GNN使用更常用的和聚合（Eqn。1）在這項任務(wù)中推斷得很好。對于和聚合，MLP模塊需要學(xué)習(xí)一個非線性函數(shù)來模擬BF算法，但定理1表明，它們不會在訓(xùn)練支持之外外推大多數(shù)非線性函數(shù)。

我們可以將上述直覺推廣到其他算法任務(wù)。許多GNNs外推良好的任務(wù)可以通過動態(tài)規(guī)劃（DP）來解決（Bellman，1966），這是一種具有類似GNNs（Eqn）的遞歸結(jié)構(gòu)的算法范式。1）（Xu等人，2020年）。

定義3。動態(tài)規(guī)劃（DP）是一個帶有更新的遞歸過程

其中答案[k][s]是迭代k和狀態(tài)s索引的子問題的解決方案，DP Update是一個任務(wù)特定的更新函數(shù)，它基于上一次迭代解決子問題。從更廣泛的角度出發(fā)，我們假設(shè)：如果我們將適當?shù)姆蔷€性編碼到模型結(jié)構(gòu)和輸入表示中，使MLP模塊只需要學(xué)習(xí)接近線性的步驟，那么所得到的神經(jīng)網(wǎng)絡(luò)就可以很好地外推。

假設(shè)1。

我們的假設(shè)建立在（Xu等人，2020）的算法對齊框架之上，該框架指出，如果模塊“對齊”以便于學(xué)習(xí)（可能是非線性）函數(shù)，則神經(jīng)網(wǎng)絡(luò)插值良好。成功的外推更難：模塊需要與線性函數(shù)對齊。

線性算法對準的應(yīng)用。

一般來說，線性算法對準不局限于GNN，廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)。為了滿足這種情況，我們可以在結(jié)構(gòu)或輸入表示中編碼適當?shù)姆蔷€性操作（圖2）。使用GNNs學(xué)習(xí)DP算法是在體系結(jié)構(gòu)中編碼非線性的一個例子（Battaglia等人，2018；Corso等人，2020年）。另一個例子是對體系結(jié)構(gòu)中的日志和exp變換進行編碼，以幫助外推算術(shù)任務(wù)中的乘法（Trask等人，2018；MadsenJohansen，2020年）。神經(jīng)符號程序進一步發(fā)展，并對符號操作庫進行編碼，以幫助推斷（Johnson等人，2017年；Mao等人，2019年；易等，2018年）。

對于某些任務(wù)，更改輸入表示可能更容易（圖2b）。有時，我們可以將目標函數(shù)f分解為f=g? 將h嵌入特征嵌入h和一個簡單的目標函數(shù)g中，我們的模型可以很好地推斷。我們可以通過使用領(lǐng)域知識通過專門的特征或特征轉(zhuǎn)換獲得h（LampleCharton，2020；Webb等人，2020年），或通過X\D中未標記的未標記的未標記的分發(fā)數(shù)據(jù)的表示學(xué)習(xí)（例如，BERT）（Chen等人，2020年）；Devlin等人，2019年；胡等，2020；Mikolov等人，2013b；Peters等人，2018年）。這為表示如何幫助在不同應(yīng)用領(lǐng)域進行外推提供了新的視角。例如，在自然語言處理中，預(yù)處理表示（Mikolov等人，2013a；WuDredze，2019）和使用領(lǐng)域知識進行特征轉(zhuǎn)換（袁等，2020年；Zhang等人，2019）幫助模型在語言之間進行概括，這是一種特殊的外推。在定量金融中，確定正確的“因素”或特征對于深入學(xué)習(xí)模型至關(guān)重要，因為金融市場可能經(jīng)常處于外推制度中（Banz，1981；法蘭西，1993年；羅斯，1976）。

線性算法對齊解釋了文獻中成功的外推，并指出外推一般更難：編碼適當?shù)姆蔷€性通常需要領(lǐng)域?qū)＜一蚰Ｐ退阉?。其次，我們?yōu)槲覀兊募僭O(shè)提供理論和實證支持。

4.2理論和經(jīng)驗支持

我們驗證了我們對三個DP任務(wù)的假設(shè)：最大度、最短路徑和n-體問題，并證明了最大度假設(shè)。我們強調(diào)了圖結(jié)構(gòu)在外推中的作用。

理論分析。

我們從一個簡單而基本的任務(wù)開始：學(xué)習(xí)一個圖的最大度，一個DP的特例。作為定理1的推論，常用的基于和的GNN（Eqn。1）無法很好地推斷（證據(jù)見附錄B.4）。

推論1。

具有和聚集和和和讀出的GNNs在最大程度上不能很好地外推。為了實現(xiàn)線性算法對齊，我們可以對讀出器中唯一的非線性max函數(shù)進行編碼。定理3證實了具有最大讀數(shù)的GNN在這個任務(wù)中可以很好地外推。

定理3并不是緊跟定理2，因為GNNs中的MLP模塊只接受間接的監(jiān)視。我們分析圖NTK（Du等人，2019b）來證明附錄B.5中的定理3。雖然定理3假設(shè)相同的節(jié)點特征，但我們在經(jīng)驗上觀察到相同和不相同特征的相似結(jié)果（附錄中的圖16）。

條件的解釋。

定理3中的條件類似于定理2中的條件。這兩個定理都需要不同的訓(xùn)練數(shù)據(jù)，用定理3中的圖結(jié)構(gòu)或定理2中的方向來度量。在定理3中，如果所有訓(xùn)練圖都具有相同的最大或最小節(jié)點度，例如，當訓(xùn)練數(shù)據(jù)來自以下族之一時，違反了該條件：路徑、C-正則圖（具有C度的正則圖）、圈和階梯。

實驗：有助于推斷的架構(gòu)。

我們用兩個DP任務(wù)來驗證我們的理論分析：最大度和最短路徑（詳見附錄C.5和C.6）。而以前的工作只測試不同大小的圖（Battaglia et al.，2018；Velickovic等人，2020），我們還測試了具有不可見結(jié)構(gòu)、邊權(quán)重和節(jié)點特征的圖。結(jié)果支持了我們的理論。對于最大度，具有最大讀數(shù)的GNNs優(yōu)于具有和讀數(shù)的GNNs（圖6a），證實了推論1和定理3。對于最短路徑，具有最小讀數(shù)和最小聚集的GNN優(yōu)于具有和讀數(shù)的GNN（圖6a）。

實驗證實了訓(xùn)練圖結(jié)構(gòu)的重要性（圖7）。有趣的是，這兩個任務(wù)支持不同的圖結(jié)構(gòu)。對于最大度，如定理3所預(yù)測的，當訓(xùn)練在樹、完全圖、擴張圖和一般圖上時，GNNs外推效果很好，當訓(xùn)練在4-正則圖、圈圖或梯形圖上時，外推誤差更大。對于最短路徑，當我們改變訓(xùn)練圖的稀疏性時，外推誤差遵循U形曲線（附錄中的圖7b和圖18）。直覺上，在稀疏或稠密圖上訓(xùn)練的模型可能學(xué)習(xí)退化解。

實驗：有助于推斷的表征。

最后，我們展示了一個很好的輸入表示幫助外推。我們研究了n體問題（Battaglia等人，2016；Watters等人，2017年）（附錄C.7），即預(yù)測重力系統(tǒng)中n個物體的時間演化。根據(jù)之前的工作，輸入是一個完整的圖形，其中節(jié)點是對象（Battaglia等人，2016）。

5與其他分布外設(shè)置的連接

我們討論幾個相關(guān)的設(shè)置。直觀地說，從我們上述結(jié)果的觀點來看，相關(guān)設(shè)置中的方法可以通過1）學(xué)習(xí)超出訓(xùn)練數(shù)據(jù)范圍的有用非線性和2）將相關(guān)測試數(shù)據(jù)映射到訓(xùn)練數(shù)據(jù)范圍來改進外推。

領(lǐng)域適應(yīng)研究對特定目標領(lǐng)域的泛化（Ben-David等人，2010；Blitzer等人，2008年；Mansour等人，2009年）。典型的策略會調(diào)整訓(xùn)練過程：例如，使用來自目標域的未標記樣本來對齊目標和源分布（Ganin等人，2016；趙等，2018）。在訓(xùn)練期間使用目標域數(shù)據(jù)可能會導(dǎo)致有用的非線性，并可能通過匹配目標和源分布來減輕外推，盡管學(xué)習(xí)映射的正確性取決于標簽分布（Zhao等人，2019）。

對大量未標記數(shù)據(jù)的自監(jiān)督學(xué)習(xí)可以學(xué)習(xí)超出標記訓(xùn)練數(shù)據(jù)范圍的有用非線性（Chen et al.，2020；Devlin等人，2019年；He等人，2020年；Peters等人，2018年）。因此，我們的結(jié)果提出了一個解釋，為什么像BERT這樣的預(yù)訓(xùn)練表示可以提高分布外魯棒性（Hendrycks et al.，2020）。此外，自監(jiān)督學(xué)習(xí)可以將語義相似的數(shù)據(jù)映射到相似的表示，因此映射后的一些域外實例可能會落入訓(xùn)練分布中。

不變模型旨在學(xué)習(xí)在多個訓(xùn)練分布中尊重特定不變性的特征（Arjovsky et al.，2019；Rojas Carulla等人，2018年；周等人，2021）。如果模型真的學(xué)習(xí)到了這些不變性，這可能發(fā)生在線性情況下，當存在混雜或反因果變量時（Ahuja等人，2021；Rosenfeld等人，2021），這可能從本質(zhì)上增加了訓(xùn)練數(shù)據(jù)范圍，因為模型可以忽略不變特征的變化。

分布魯棒性考慮了數(shù)據(jù)分布的小干擾，并確保模型在這些干擾下表現(xiàn)良好（GohSim，2010；Sagawa等人，2020年；Sinha等人，2018年；StaibJegelka，2019年）。相反，我們看的是更多的全局擾動。盡管如此，人們還是希望，有助于外推的修改通常也能提高對局部擾動的魯棒性。

6結(jié)論

本文是一個初步的步驟，正式了解如何神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度下降外推。我們確定了MLPs和GNNs按期望外推的條件。我們還提出了一種解釋，說明GNNs在復(fù)雜的算法任務(wù)中是如何能夠很好地進行外推的：在架構(gòu)和特性中編碼適當?shù)姆蔷€性可以幫助外推。我們的結(jié)果和假設(shè)與本文和文獻中的實證結(jié)果一致

什么是end-to-end神經(jīng)網(wǎng)絡(luò)

因為多層神經(jīng)網(wǎng)絡(luò)被證明能夠耦合任意非線性函數(shù)，通過一些配置能讓網(wǎng)絡(luò)去做以前需要人工參與的特征設(shè)計這些工作，然后配置合適的功能如classifier,regression，而現(xiàn)在神經(jīng)網(wǎng)絡(luò)可以通過配置layers的參數(shù)達到這些功能，整個輸入到最終輸出無需太多人工設(shè)置，從raw data 到最終輸出指標

經(jīng)典機器學(xué)習(xí)方式是以人類的先驗知識將raw數(shù)據(jù)預(yù)處理成feature，然后對feature進行分類。分類結(jié)果十分取決于feature的好壞。所以過去的機器學(xué)習(xí)專家將大部分時間花費在設(shè)計feature上。那時的機器學(xué)習(xí)有個更合適的名字叫feature engineering 。

后來人們發(fā)現(xiàn)，利用神經(jīng)網(wǎng)絡(luò)，讓網(wǎng)絡(luò)自己學(xué)習(xí)如何抓取feature效果更佳。于是興起了representation learning。這種方式對數(shù)據(jù)的擬合更加靈活。

網(wǎng)絡(luò)進一步加深，多層次概念的representation learning將識別率達到了另一個新高度。于是你聽到了是個搞機器學(xué)習(xí)的人都知道的名字：deep learning。實指多層次的特征提取器與識別器統(tǒng)一訓(xùn)練和預(yù)測的網(wǎng)絡(luò)。

end to end的好處：通過縮減人工預(yù)處理和后續(xù)處理，盡可能使模型從原始輸入到最終輸出，給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間，增加模型的整體契合度。

拿語音識別為具體實例。普遍方法是將語音信號轉(zhuǎn)成頻域信號，并可以進一步加工成符合人耳特點的MFCC進行編碼（encode）。也可以選擇Convolutional layers對頻譜圖進行特征抓取。這樣可在encode的部分更接近end to end 中的第一個end。

但識別出的結(jié)果并不可以告訴我們這段語音到底是什么。DNN-HMM混合模型還需要將DNN識別出的結(jié)果通過HMM來解碼（decode）。而RNN-CTC就將HMM的對齊工作交給了網(wǎng)絡(luò)的output layer來實現(xiàn)。在decode的部分更接近end to end 中的第二個end。

新聞標題：go語言神經(jīng)網(wǎng)絡(luò) go 神經(jīng)網(wǎng)絡(luò)
文章來源：http://www.rwnh.cn/article40/doohgho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供虛擬主機、手機網(wǎng)站建設(shè)、網(wǎng)站制作、域名注冊、定制網(wǎng)站、外貿(mào)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片