展會(huì)信息港展會(huì)大全

國(guó)外科學(xué)家用訓(xùn)狗法證明訓(xùn)練機(jī)器人方式
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2020-10-28 10:11:10   瀏覽:8556次  

導(dǎo)讀:據(jù)外媒,約翰斯霍普金斯大學(xué)的一篇最新論文中表示,正強(qiáng)化學(xué)習(xí)有助于機(jī)器人訓(xùn)練,從而使機(jī)器人獲得新技巧。所謂正強(qiáng)化學(xué)習(xí)通常用于訓(xùn)狗,論文中同樣舉了一個(gè)作者訓(xùn)練他的狗不要追逐松鼠的例子。 這個(gè)想法的核心是,當(dāng)機(jī)器人做對(duì)了事情時(shí),要給它一些激勵(lì),而...

據(jù)外媒,約翰斯霍普金斯大學(xué)的一篇最新論文中表示,正強(qiáng)化學(xué)習(xí)有助于機(jī)器人訓(xùn)練,從而使機(jī)器人獲得新技巧。所謂正強(qiáng)化學(xué)習(xí)通常用于訓(xùn)狗,論文中同樣舉了一個(gè)作者訓(xùn)練他的狗不要追逐松鼠的例子。

國(guó)外科學(xué)家用訓(xùn)狗法證明訓(xùn)練機(jī)器人方式

這個(gè)想法的核心是,當(dāng)機(jī)器人做對(duì)了事情時(shí),要給它一些激勵(lì),而不是當(dāng)它做錯(cuò)了事情時(shí),要給它一些懲罰。對(duì)于機(jī)器人來(lái)說(shuō),激勵(lì)措施以評(píng)分系統(tǒng)的形式出現(xiàn)--本質(zhì)上是一種游戲化,根據(jù)正確執(zhí)行任務(wù)的情況獎(jiǎng)勵(lì)若干積分。

論文稱(chēng)這種方法能夠大大縮短任務(wù)的訓(xùn)練時(shí)間,機(jī)器人希望獲得最好的獎(jiǎng)勵(lì)。過(guò)去機(jī)器人需要一個(gè)月的練習(xí)才能達(dá)到100%的準(zhǔn)確性。但采用正強(qiáng)化學(xué)習(xí)的方法可以在兩天內(nèi)完成。

(7551013)


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港