展會信息港展會大全

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-29 15:25:12   瀏覽:990次  

導(dǎo)讀:劃重點(diǎn)01UC伯克利BAIR實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)強(qiáng)化學(xué)習(xí)框架HIL-SERL,可在現(xiàn)實(shí)世界中訓(xùn)練通用的基于視覺的機(jī)器人操作策略。02HIL-SERL僅需1-2.5小時(shí)的訓(xùn)練就能在所有任務(wù)上實(shí)現(xiàn)100%的成功率,而基線方法的平均成功率還不到50%。03該系統(tǒng)采用人類參與的強(qiáng)化學(xué)習(xí),通過監(jiān)督機(jī)器人并在必要時(shí)進(jìn)行干預(yù),實(shí)現(xiàn)更高效的策略探索。04實(shí)驗(yàn)結(jié)果顯示,HIL-SERL在幾乎所有任務(wù)上都能在1- ......

劃重點(diǎn)

01UC伯克利BAIR實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了一個(gè)強(qiáng)化學(xué)習(xí)框架HIL-SERL,可在現(xiàn)實(shí)世界中訓(xùn)練通用的基于視覺的機(jī)器人操作策略。

02HIL-SERL僅需1-2.5小時(shí)的訓(xùn)練就能在所有任務(wù)上實(shí)現(xiàn)100%的成功率,而基線方法的平均成功率還不到50%。

03該系統(tǒng)采用人類參與的強(qiáng)化學(xué)習(xí),通過監(jiān)督機(jī)器人并在必要時(shí)進(jìn)行干預(yù),實(shí)現(xiàn)更高效的策略探索。

04實(shí)驗(yàn)結(jié)果顯示,HIL-SERL在幾乎所有任務(wù)上都能在1-2.5小時(shí)的訓(xùn)練時(shí)間內(nèi)達(dá)到100%的成功率。

05除此之外,強(qiáng)化學(xué)習(xí)還能達(dá)到超越人類的水平,遠(yuǎn)遠(yuǎn)勝過模仿學(xué)習(xí)和人工設(shè)計(jì)的控制器。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

機(jī)器之心報(bào)道

編輯:Panda、佳琪

把平均成功率從 50% 拉到了 100%。

最近,AI 的進(jìn)步有目共睹,現(xiàn)在這些進(jìn)步已經(jīng)開始傳遞到機(jī)器人領(lǐng)域。強(qiáng)大的 AI 技術(shù)也能幫助機(jī)器人更好地理解其所處的物理世界并采取更合理的行動。

近日,UC 伯克利 BAIR 實(shí)驗(yàn)室的 Sergey Levine 研究團(tuán)隊(duì)提出了一個(gè)強(qiáng)化學(xué)習(xí)框架 HIL-SERL,可直接在現(xiàn)實(shí)世界中訓(xùn)練通用的基于視覺的機(jī)器人操作策略。HIL-SERL 的表現(xiàn)堪稱前所未有的卓越,僅需 1-2.5 小時(shí)的訓(xùn)練就能在所有任務(wù)上實(shí)現(xiàn) 100% 的成功率。要知道,基線方法的平均成功率還不到50%。就算有外部干擾,機(jī)器人也能取得很好的表現(xiàn)。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

論文一作 Jianlan Luo 的推文,他目前正在 UC 伯克利 BAIR 實(shí)驗(yàn)室從事博士后研究

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

團(tuán)隊(duì)導(dǎo)師 Sergey Levine 也發(fā)了推文宣傳這項(xiàng)研究,他是一位非常著名的 AI 和機(jī)器人研究科學(xué)家,曾是 2021 年發(fā)表相關(guān)論文最多的研究者,參閱機(jī)器之心報(bào)道《2021 年 ML 和 NLP 學(xué)術(shù)統(tǒng)計(jì):谷歌斷層第一,強(qiáng)化學(xué)習(xí)大牛 Sergey Levine 位居榜首》

空口無憑,眼見為實(shí),那就先讓機(jī)器人來煎個(gè)蛋吧。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

在主板上安裝一塊固態(tài)硬盤?機(jī)器人也能與人類搭配,輕松完成。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

插入 USB,問題也不大,看起來比人執(zhí)行這個(gè)操作還流暢,畢竟很多人插 USB 都要對準(zhǔn)兩三次才能成功。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

這么好的效果,不禁讓人懷疑,這不會是遠(yuǎn)程操控吧?Nonono!這些任務(wù)都是機(jī)器人獨(dú)立完成的,這次人類的角色也不是站在身后發(fā)號施令,而是在它旁邊搗亂。

對于沒有獨(dú)立思考能力的機(jī)器人來說,任務(wù)執(zhí)行起來那是相當(dāng)死板。一旦目標(biāo)物體換了一個(gè)位置,它們就會迷失方向。但對于采取 HIL-SERL 框架的機(jī)器人,就算你強(qiáng)行奪走它手中這根 USB 線,它依然能自動定位,重新完成任務(wù)。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

機(jī)器人如何變得如此厲害?下面我們就來看看 UC 伯克利的這項(xiàng)研究。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

論文標(biāo)題:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf

項(xiàng)目地址:https://hil-serl.github.io/

簡而言之,他們設(shè)計(jì)了一個(gè)有人類參與的強(qiáng)化學(xué)習(xí)框架。在此之前,基于強(qiáng)化學(xué)習(xí)的技術(shù)已經(jīng)為機(jī)器人領(lǐng)域帶來了一些技術(shù)突破,使機(jī)器人已經(jīng)能夠熟練地處理一些簡單任務(wù)。但是,真實(shí)世界環(huán)境非常動態(tài)多變,而且非常復(fù)雜,如果能開發(fā)出某種基于視覺的通用方法,必定有助于機(jī)器人掌握更加復(fù)雜的技能。

這正是該團(tuán)隊(duì)做出貢獻(xiàn)的地方,他們開發(fā)的基于視覺的強(qiáng)化學(xué)習(xí)系統(tǒng)可以讓機(jī)器人掌握大量不同的機(jī)器人技能。

他們將該系統(tǒng)命名為 Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning,即有人類參與的樣本高效型機(jī)器人強(qiáng)化學(xué)習(xí),簡稱 HIL-SERL。

為了解決優(yōu)化穩(wěn)定性問題,他們采用了預(yù)訓(xùn)練的視覺主干網(wǎng)絡(luò)來實(shí)現(xiàn)策略學(xué)習(xí)。

為了處理樣本復(fù)雜性問題,他們利用了基于 RLPD 的樣本高效型離策略強(qiáng)化學(xué)習(xí)算法,該算法還結(jié)合了人工演示和校正。

此外,為了確保策略訓(xùn)練期間的安全性,他們還納入了一個(gè)精心設(shè)計(jì)的低級控制器。

在訓(xùn)練時(shí),該系統(tǒng)會向人類操作員詢問潛在的校正,然后以離策略的方式使用這些校正來更新策略。他們發(fā)現(xiàn),這種有人類參與的校正程序可讓策略從錯(cuò)誤中學(xué)習(xí)并提高性能,尤其是對于這項(xiàng)研究中考慮的一些難以從頭開始學(xué)習(xí)的任務(wù)。

如圖 1 所示,該系統(tǒng)可解決的任務(wù)紛繁多樣,包括動態(tài)翻轉(zhuǎn)平底鍋中的物體、從積木塔中抽出一塊積木、在兩個(gè)機(jī)器臂之間遞交物體以及使用一個(gè)或兩個(gè)機(jī)械臂組裝復(fù)雜的設(shè)備,例如計(jì)算機(jī)主板、宜家置物架、汽車儀表板或正時(shí)皮帶。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

這些任務(wù)復(fù)雜而精細(xì),有著動態(tài)且高維的動作空間。之前一些研究者甚至認(rèn)為無法通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)其中一些技能,但 BAIR 這個(gè)團(tuán)隊(duì)的研究證否了這個(gè)說法。

研究和實(shí)驗(yàn)表明,他們的系統(tǒng)能在相當(dāng)短的時(shí)間(1-2.5 小時(shí))內(nèi)在所有這些任務(wù)上都實(shí)現(xiàn)幾近完美的成功率。

使用同樣數(shù)量的人類數(shù)據(jù)(演示和校正的數(shù)量)時(shí),他們訓(xùn)練的策略遠(yuǎn)勝過模仿學(xué)習(xí)方法  成功率平均超過 101%,周期時(shí)間平均快 1.8 倍。

這是個(gè)具有重大意義的結(jié)果,因?yàn)槠浔砻?strong>強(qiáng)化學(xué)習(xí)確實(shí)可以直接在現(xiàn)實(shí)世界中,使用實(shí)際可行的訓(xùn)練時(shí)間學(xué)會大量不同的基于視覺的復(fù)雜操作策略。而之前的強(qiáng)化學(xué)習(xí)方法無法做到這一點(diǎn)。此外,強(qiáng)化學(xué)習(xí)還能達(dá)到超越人類的水平,遠(yuǎn)遠(yuǎn)勝過模仿學(xué)習(xí)和人工設(shè)計(jì)的控制器。

下面展示了一個(gè)超越人類水平的有趣示例:用一根鞭子將一塊積木抽打出去,同時(shí)保證積木塔整體穩(wěn)定。很顯然,這個(gè)任務(wù)對大多數(shù)人來說都非常困難,但這臺機(jī)器人通過強(qiáng)化學(xué)習(xí)掌握了這一技能。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

有人類參與的強(qiáng)化學(xué)習(xí)系統(tǒng)

系統(tǒng)概況

HIL-SERL 系統(tǒng)由三個(gè)主要組件組成:actor 過程、learner 過程和位于 learner 過程中的重放緩存。它們都能以分布式的方式運(yùn)行,如圖 2 所示。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

actor 過程與環(huán)境交互的方式是在機(jī)器人上執(zhí)行當(dāng)前策略,并將數(shù)據(jù)發(fā)送回重放緩存。

環(huán)境采用了模塊化設(shè)計(jì),允許靈活配置各種設(shè)備,包括支持多個(gè)攝像頭、集成 SpaceMouse 等用于遠(yuǎn)程操作的輸入設(shè)備。

為了評估任務(wù)是否成功,也需要一個(gè)獎(jiǎng)勵(lì)函數(shù),而該獎(jiǎng)勵(lì)函數(shù)是使用人類演示離線訓(xùn)練的。

在 actor 過程中,人類可使用 SpaceMouse 從強(qiáng)化學(xué)習(xí)策略接管機(jī)器人的控制權(quán),從而干預(yù)機(jī)器人的行動。

該團(tuán)隊(duì)采用了兩種重放緩存,一種是為了存儲離線的人類演示(演示緩存),另一種則是為了存儲在策略數(shù)據(jù)(RL 緩存)。

learner 過程會從演示緩存和 RL 緩存平等地采樣數(shù)據(jù),使用 RLPD 優(yōu)化策略,并定期將更新后的策略發(fā)送到 actor 進(jìn)程。

詳細(xì)的系統(tǒng)設(shè)計(jì)選擇這里不再贅述,請?jiān)L問原論文。

有人類參與的強(qiáng)化學(xué)習(xí)

此前,強(qiáng)化學(xué)習(xí)理論 (Jin et al., 2018; 2020; Azar et al., 2012; Kearns and Singh, 1998) 已經(jīng)證明了智能體能學(xué)會的難度和它要處理的信息量密切相關(guān)。具體來說,狀態(tài) / 動作空間的大小、任務(wù)的難度,這些變量不斷累加,會導(dǎo)致智能體在找到最優(yōu)策略時(shí)所需的樣本成倍增加。最終在超過某個(gè)閾值時(shí),所需要的樣本量過多,智能體實(shí)在學(xué)不動了,擺爛了,在現(xiàn)實(shí)世界中訓(xùn)練 RL 策略也變得不切實(shí)際。

為了解決用強(qiáng)化學(xué)習(xí)訓(xùn)練真實(shí)機(jī)器人策略的難題,該團(tuán)隊(duì)研究后發(fā)現(xiàn),人類反饋很好用  可以引導(dǎo)學(xué)習(xí)過程,實(shí)現(xiàn)更高效的策略探索。具體來說,就是在訓(xùn)練期間監(jiān)督機(jī)器人,并在有必要時(shí)進(jìn)行干預(yù),糾正其動作。如上圖 2 所示。

在該系統(tǒng)的設(shè)計(jì)中,干預(yù)數(shù)據(jù)會被同時(shí)存儲在演示緩存和 RL 緩存中,但僅有 RL 緩存帶有策略轉(zhuǎn)移(即干預(yù)前后的狀態(tài)和動作)。事實(shí)證明,這種方法可以提升策略的訓(xùn)練效率。

這種干預(yù)在以下情況下至關(guān)重要:

策略導(dǎo)致機(jī)器人處于不可恢復(fù)或不良狀態(tài)時(shí);

當(dāng)機(jī)器人陷入局部最優(yōu)狀態(tài)時(shí)  如果沒有人工幫助,就可能需要大量時(shí)間才能克服。

在訓(xùn)練過程的開始階段,人類會更頻繁地干預(yù)以提供正確動作,隨著策略的改進(jìn),頻率會逐漸降低。根據(jù)該團(tuán)隊(duì)的經(jīng)驗(yàn),相比于讓機(jī)器人自行探索,當(dāng)人類操作員給出具體的糾正措施時(shí),策略改進(jìn)速度會更快。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

研究團(tuán)隊(duì)放出了任務(wù)訓(xùn)練過程的完整錄像

更具體的訓(xùn)練過程請?jiān)L問原論文。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)選擇了七個(gè)任務(wù)來測試 HIL-SERL。這些任務(wù)對應(yīng)著一系列挑戰(zhàn),比如操縱動態(tài)物體(在平底鍋中翻煎蛋)、精確操作(插 USB 線)、動態(tài)和精確操作相結(jié)合(在主板移動時(shí)插入組件)、操縱柔性物體(組裝正時(shí)皮帶)、包含多個(gè)子任務(wù)的多階段任務(wù)(組裝宜家書架)。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

如上表所示,在幾乎所有任務(wù)上,HIL-SERL 在 1 到 2.5 小時(shí)的真實(shí)世界訓(xùn)練里達(dá)到了 100% 的成功率。這比基線方法 HG-DAgger 的平均成功率 49.7% 有了顯著提高。對于抽積木、插入 RAM 條等,這種更復(fù)雜的任務(wù),HIL-SERL 的優(yōu)勢就更為明顯了。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

上圖中顯示了采用 HIL-SERL 方法的機(jī)械臂在執(zhí)行任務(wù)時(shí)被人工干預(yù)的次。為了便于統(tǒng)計(jì),研究團(tuán)隊(duì)計(jì)算了每次干預(yù)的時(shí)步數(shù)與單次嘗試中的總時(shí)步數(shù)之比(干預(yù)率),并統(tǒng)計(jì)了 20 次實(shí)驗(yàn)的動態(tài)平均值。從圖表中不難看出,干預(yù)率隨著訓(xùn)練逐漸降低。這表明 HIL-SERL 策略會不斷優(yōu)化,越來越不需要人類操心了。

同時(shí),人工干預(yù)的總時(shí)長也大幅度減少。策略不成熟時(shí),機(jī)械臂犯錯(cuò),需要花較長時(shí)間糾正,隨著 HIL-SERL 不斷完善,較短的干預(yù)就足以減少錯(cuò)誤。相比之下,HG-DAgger 需要更頻繁的干預(yù),亦不會因?yàn)椴呗灾饾u完善減少犯錯(cuò)的次數(shù)。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

上圖展示了 HIL-SERL 的零樣本魯棒性。這證明新提出的策略能夠讓機(jī)器人靈活地適應(yīng)即時(shí)變化,有效地處理外部干擾。

比如有人故意地松開了齒輪上的皮帶,受 HIL-SERL 指導(dǎo)的兩個(gè)機(jī)械臂,一個(gè)把皮帶放回了原位,另一個(gè)配合著把滑輪恢復(fù)到了適當(dāng)?shù)奈恢谩?br/>

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

在兩個(gè)機(jī)械臂對接時(shí),研究人員有意讓其中一個(gè)機(jī)械臂「失誤」,放開了手中的物體。在 HIL-SERL 的加持下,兩個(gè)機(jī)械臂自主分工合作,又恢復(fù)了搬運(yùn)物體的平衡。

強(qiáng)化學(xué)習(xí)訓(xùn)練一兩個(gè)小時(shí),100%自主完成任務(wù):機(jī)器人ChatGPT時(shí)刻真來了?

參考鏈接:

https://x.com/jianlanluo/status/1850902348010557453

https://x.com/svlevine/status/1850934397090078948

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港