新智元報(bào)道
編輯:Aeneas 好困
【新智元導(dǎo)讀】UC伯克利的雙足機(jī)器人,400米直接跑進(jìn)了2分34秒,這個(gè)速度屬實(shí)是超越不少人類了。而背后的RL通用框架,讓它無(wú)論是站立,還是跑步、跳高、跳遠(yuǎn),動(dòng)作都十分絲滑。
UC伯克利的雙足機(jī)器人,跑步又破紀(jì)錄了!
最近,HYBRID ROBOTICS研究團(tuán)隊(duì)的Cassie,給我們來(lái)了一段驚艷的表演
以2分34秒的成績(jī),跑完了400米!
隨后,它又在不需要額外訓(xùn)練的情況下,完成了1.4米的跳遠(yuǎn)。
是的,相信你已經(jīng)注意到了,它的外形十分獨(dú)特只有下半身!
沒(méi)錯(cuò),跑步什么的,要上半身干啥。
400米沖刺腳下生風(fēng)
沒(méi)有腿意味著什么?當(dāng)然是速度就是一切!
一聲令下,Cassie就開始跑400米了。
只見它兩腳生風(fēng),腳步敏捷。
就是,不知道腳下這雙跑鞋有沒(méi)有速度加成?
可以看到,Cassie的跑步姿勢(shì)十分標(biāo)準(zhǔn),沒(méi)有任何累贅的動(dòng)作。
而研究人員則全程跟在后面陪跑。
現(xiàn)在,Cassie在做最后的沖刺,它集中精力一鼓作氣,一躍而沖過(guò)了終點(diǎn)線。
它最后的成績(jī)是2分34秒!
這個(gè)成績(jī),或許已經(jīng)超越了不少人類。
算起來(lái),Cassie的步速是每分155.6米。
在21年,Cassie在中途不充電的條件下,完成了5公里的戶外長(zhǎng)跑,用時(shí)53分鐘,這個(gè)步速是每分94.3米。
這個(gè)進(jìn)步是肉眼可見的。
Cassie是利用神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的,因此,它可以從頭掌握簡(jiǎn)單的技能,比如原地跳躍、向前走或跑而不摔倒。
它被孤立模仿人體動(dòng)捕的數(shù)據(jù),和動(dòng)作的演示動(dòng)畫。
最后,團(tuán)隊(duì)還測(cè)試了Cassie的跳遠(yuǎn)能力,注意,這是在它沒(méi)有經(jīng)過(guò)額外訓(xùn)練的情況下。
它的成績(jī)是1.4米。
RL通用框架,跑步、跳高、跳遠(yuǎn)多才多藝
Cassie怎么這么強(qiáng)?
我們?cè)谶@篇發(fā)表于1月底的論文中,找到了答案。
論文地址:https://arxiv.org/pdf/2401.16889.pdf
利用深度強(qiáng)化學(xué)習(xí)(RL),研究者為雙足機(jī)器人創(chuàng)建了動(dòng)態(tài)運(yùn)動(dòng)控制器。
他們開發(fā)出了一種通用控制解決方案,可用于一系列動(dòng)態(tài)雙足技能,比如周期性行走,跑步,以及非周期性的跳躍和站立。
這個(gè)通用控制框架,可以實(shí)現(xiàn)各種周期性和非周期性的雙足運(yùn)動(dòng)技能
基于強(qiáng)化學(xué)習(xí)的控制器,他們采用了新穎的雙歷史架構(gòu),利用了機(jī)器人的長(zhǎng)期和短期輸入/輸出(I/O)歷史。
當(dāng)通過(guò)端到端強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練時(shí),這種控制架構(gòu)在模擬和現(xiàn)實(shí)世界中的各種技能上,都始終優(yōu)于其他方法。
另外,RL系統(tǒng)還引入了適應(yīng)性和魯棒性。
可以證明,通過(guò)有效利用機(jī)器人的I/O歷史記錄,架構(gòu)就可以適應(yīng)各種變化,如接觸事件。
魯棒性的另一個(gè)關(guān)鍵來(lái)源,就是任務(wù)隨機(jī)化。
因此,我們就看到了Cassie的各種運(yùn)動(dòng)技能。比如穩(wěn)穩(wěn)地站立,多才多藝地步行,快速跑步,以及各種跳高和跳遠(yuǎn)。
這個(gè)研究所基于RL的控制器架構(gòu)如下圖,它利用了機(jī)器人的輸入和輸出(I/O)的雙重歷史記錄。
利用這個(gè)多階段的訓(xùn)練框架,就可以獲得零樣本轉(zhuǎn)移到現(xiàn)實(shí)世界的通用控制策略。
如下是基于RL的雙足機(jī)器人運(yùn)動(dòng)控制策略架構(gòu)各種基線的圖示。
利用研究者開發(fā)的多功能跑步策略,Cassie成功完成了400米沖刺。
這個(gè)過(guò)程是使用單一跑步策略完成的。
它使得機(jī)器人能夠從站立姿勢(shì)轉(zhuǎn)變?yōu)槠骄?.15m/s和峰值3.54m/s的快速跑步步態(tài)。
使用微調(diào)的跑步策略,Cssie還以快速的跑步步態(tài)完成了100米短跑。
用訓(xùn)GPT的方法,訓(xùn)出人形機(jī)器人
機(jī)器人接管舊金山?
在今年1月,UC伯克利的人形機(jī)器人顯眼包「小綠」,就曾經(jīng)大規(guī)模引起了人們的注意。
那時(shí)它長(zhǎng)這樣
看著挺好,就是沒(méi)脖子。
只見它在圍觀人群的驚嘆聲中,大搖大擺地走出UC伯克利校門。
在操場(chǎng)草坪上,跟大爺一樣練習(xí)倒步走。
身影遍布UC伯克利校園的各個(gè)角落。
甚至引起網(wǎng)友驚呼:機(jī)器人接管舊金山了?
預(yù)測(cè)下一個(gè)動(dòng)作,控制人形機(jī)器人行走
不久后,就在2月底,UC伯克利就發(fā)表了一篇重磅論文,介紹「小綠」是怎么訓(xùn)練出的。
論文地址:https://arxiv.org/pdf/2402.19469.pdf
在這篇論文中,他們介紹了訓(xùn)練人形機(jī)器人的方法跟訓(xùn)練GPT的方法是一樣的。
用這種訓(xùn)練GPT的方法,研究者成功地訓(xùn)練出了人形機(jī)器人的類人運(yùn)動(dòng)。
重點(diǎn)就是:通過(guò)預(yù)測(cè)下一個(gè)動(dòng)作,來(lái)控制人形機(jī)器人的行走。
人體運(yùn)動(dòng)作為下一個(gè)token預(yù)測(cè)
在一系列模擬軌跡上,他們對(duì)模型進(jìn)行了訓(xùn)練。
而這些軌跡,來(lái)自之前的神經(jīng)網(wǎng)絡(luò)策略。
使用不同數(shù)據(jù)源進(jìn)行訓(xùn)練的通用框架
人形機(jī)器人所學(xué)習(xí)的,就是基于模型的控制器、動(dòng)捕數(shù)據(jù)和YouTube上的人類視頻。
訓(xùn)練數(shù)據(jù)集的4個(gè)來(lái)源
結(jié)果,這個(gè)模型能讓全尺寸的人形機(jī)器人在完全未經(jīng)訓(xùn)練的情況下,直接完成行走!
僅僅用了27個(gè)小時(shí)的訓(xùn)練,模型就能在現(xiàn)實(shí)世界中泛化了。
而訓(xùn)練過(guò)程中從未見過(guò)的指令,機(jī)器人也能應(yīng)對(duì)。
從此,機(jī)器人可以學(xué)習(xí)真實(shí)世界的控制任務(wù)了。
參考資料:
https://arxiv.org/abs/2402.19469
https://arxiv.org/abs/2401.16889