Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析-創(chuàng)新互聯(lián)

Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析，很多新手對(duì)此不是很清楚，為了幫助大家解決這個(gè)難題，下面小編將為大家詳細(xì)講解，有這方面需求的人可以來(lái)學(xué)習(xí)下，希望你能有所收獲。

十載的廣西網(wǎng)站建設(shè)經(jīng)驗(yàn)，針對(duì)設(shè)計(jì)、前端、開(kāi)發(fā)、售后、文案、推廣等六對(duì)一服務(wù)，響應(yīng)快，48小時(shí)及時(shí)工作處理。全網(wǎng)營(yíng)銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動(dòng)調(diào)整廣西建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì)，從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)從事“廣西網(wǎng)站設(shè)計(jì)”,“廣西網(wǎng)站推廣”以來(lái)，每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

谷歌宣布開(kāi)源基于 TensorFlow 的強(qiáng)化學(xué)習(xí)框架——Dopamine。

強(qiáng)化學(xué)習(xí)是一種人工智能（AI）技術(shù)，它使用獎(jiǎng)勵(lì)（或懲罰）來(lái)驅(qū)動(dòng)agent朝著特定目標(biāo)前進(jìn)，比如之前大火的Alpha Go擊敗人類頂尖圍棋選手，還有在 Dota2 對(duì)戰(zhàn)人類職業(yè)玩家的Open AI Five。同時(shí)，強(qiáng)化學(xué)習(xí)也是DeepMind 的深度Q 網(wǎng)絡(luò)（DQN）的核心部分，可以在多個(gè)workers 中分配學(xué)習(xí)，例如，在Atari 2600游戲中實(shí)現(xiàn)“超人”性能。麻煩的是，強(qiáng)化學(xué)習(xí)框架需要時(shí)間來(lái)掌握一個(gè)目標(biāo)，往往是不靈活的，也不夠穩(wěn)定。

這就是谷歌提出替代方案的原因：基于TensorFlow的開(kāi)源強(qiáng)化學(xué)習(xí)框架——Dopamine，從今天開(kāi)始，它可以從Github獲得。

（https://github.com/google/dopamine/tree/master/docs#downloads）

谷歌研究人員表示，他們開(kāi)源的這個(gè) TensorFlow 強(qiáng)化學(xué)習(xí)框架強(qiáng)調(diào)三點(diǎn)：靈活、穩(wěn)定和可重復(fù)性。

受到主要組件之一大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為行為的啟發(fā),以及反映神經(jīng)科學(xué)和強(qiáng)化學(xué)習(xí)的研究之間的聯(lián)系,這個(gè)平臺(tái)的目的是使推測(cè)性研究推動(dòng)根本性的發(fā)現(xiàn)，此版本還包括一組闡明如何使用整個(gè)框架的colabs。

易用性

為此，它包括了一套精心編寫的代碼（15個(gè)Python文件），專注于Arcade學(xué)習(xí)環(huán)境（一個(gè)用視頻游戲評(píng)估AI技術(shù)的平臺(tái)）以及四種不同的機(jī)器學(xué)習(xí)模型：上述提到的深度Q 網(wǎng)絡(luò)（DQN）; C51; Rainbow agent的一個(gè)簡(jiǎn)化版本; Implicit Quantile Network agent。清晰和簡(jiǎn)潔是這個(gè)框架設(shè)計(jì)中的兩個(gè)關(guān)鍵考慮因素。

可重復(fù)性

為了實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的可重復(fù)性，代碼在Arcade學(xué)習(xí)環(huán)境支持的60個(gè)游戲中提供完整的測(cè)試覆蓋率和訓(xùn)練數(shù)據(jù)（采用JSON和Python pickle格式），并遵循標(biāo)準(zhǔn)化結(jié)果以進(jìn)行實(shí)證評(píng)估的最佳實(shí)踐。

基準(zhǔn)測(cè)試

對(duì)于新的研究者來(lái)說(shuō)，對(duì)自己的想法進(jìn)行快速的基準(zhǔn)測(cè)試是非常重要的。谷歌提供四個(gè)智能體的完整訓(xùn)練數(shù)據(jù)，包括ALE 支持的60 個(gè)游戲，格式為Python pickle 文件（對(duì)于使用谷歌框架訓(xùn)練的智能體）和JSON 數(shù)據(jù)文件（用于對(duì)比其他框架訓(xùn)練的智能體）。谷歌還提供了一個(gè)網(wǎng)站，研究者可以使用該網(wǎng)站對(duì)所有提供智能體在所有60 個(gè)游戲中的訓(xùn)練運(yùn)行進(jìn)行快速可視化。

Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析

谷歌的4 個(gè)智能體在Seaquest 上的訓(xùn)練運(yùn)行（Seaquest 是ALE 支持的Atari

除此之外，谷歌還推出了一個(gè)網(wǎng)站，允許開(kāi)發(fā)人員將多個(gè)訓(xùn)練中智能體的運(yùn)行情況快速可視化。它還提供經(jīng)過(guò)訓(xùn)練的模型、原始統(tǒng)計(jì)日志和TensorFlow event files，用于TensorBoard動(dòng)態(tài)圖的繪制，TensorBoard是一個(gè)web應(yīng)用可視化套件。

Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析

“我們的希望是，我們的框架的靈活性和易用性將使研究人員能夠嘗試新的思想，無(wú)論是漸進(jìn)的還是激進(jìn)的?！?/p>

看完上述內(nèi)容是否對(duì)您有幫助呢？如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章，請(qǐng)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道，感謝您對(duì)創(chuàng)新互聯(lián)的支持。

當(dāng)前題目：Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析-創(chuàng)新互聯(lián)
網(wǎng)頁(yè)路徑：http://www.rwnh.cn/article5/dspjoi.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App開(kāi)發(fā)、商城網(wǎng)站、服務(wù)器托管、品牌網(wǎng)站設(shè)計(jì)、標(biāo)簽優(yōu)化、網(wǎng)站收錄

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析-創(chuàng)新互聯(lián)