劃重點(diǎn)
01英偉達(dá)團(tuán)隊(duì)發(fā)布了1.5M參數(shù)的神經(jīng)網(wǎng)絡(luò)HOVER,可用于控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動(dòng)。
02HOVER的設(shè)計(jì)靈感來(lái)自人類的潛意識(shí),通過(guò)學(xué)習(xí)協(xié)調(diào)電機(jī)來(lái)實(shí)現(xiàn)運(yùn)動(dòng)和操控。
03該團(tuán)隊(duì)定義了一個(gè)統(tǒng)一的命令空間,包括上身和下身控制,以及三種不同的控制模式。
04實(shí)驗(yàn)結(jié)果顯示,HOVER在12個(gè)指標(biāo)中的11個(gè)上超越了專家策略,展示了優(yōu)越的泛化能力。
05此外,HOVER在真實(shí)世界場(chǎng)景中的魯棒性也得到了驗(yàn)證,能夠平滑地在不同模式之間追蹤動(dòng)作。
以上內(nèi)容由大模型生成,僅供參考
機(jī)器之心報(bào)道
編輯:Panda、佳琪
當(dāng)機(jī)器人也有潛意識(shí)。
大模型固然性能強(qiáng)大,但限制也頗多。如果想在端側(cè)塞進(jìn) 405B 這種級(jí)別的大模型,那真是小廟供不起大菩薩。近段時(shí)間,小模型正在逐漸贏得人們更多關(guān)注。這一趨勢(shì)不僅出現(xiàn)在語(yǔ)言模型領(lǐng)域,也出現(xiàn)在了機(jī)器人領(lǐng)域。
昨天晚上,朱玉可和 Jim Fan 團(tuán)隊(duì)(英偉達(dá) GEAR 團(tuán)隊(duì))新鮮發(fā)布了他們的最新研究成果 HOVER。這是一個(gè)僅有 1.5M 參數(shù)的神經(jīng)網(wǎng)絡(luò),但它足以控制人形機(jī)器人執(zhí)行多種機(jī)體運(yùn)動(dòng)。
先來(lái)看看效果,將 HOVER 在不同模式下控制的機(jī)器人放到一起組成陣列,其中每一臺(tái)機(jī)器人都有自己的控制模式。還挺壯觀的!這也佐證了 HOVER 的通用性。你能看出它們的不同之處嗎?
無(wú)論是 H2O 模式、OmniH2O Mode 模式、還是 ExBody 模式 、HumanPlus 模式,左手和右手的慢動(dòng)作都直接被 HOVER 大一統(tǒng)了。
實(shí)際上,HOVER 就是一個(gè)通用型的人形機(jī)器人控制器。
HOVER 一作 Tairan He(何泰然)的推文,他是 CMU 機(jī)器人研究所的二年級(jí)博士生,還是個(gè)有 38 萬(wàn)多粉絲的 B 站 up 主(WhynotTV)
據(jù)介紹,HOVER 的設(shè)計(jì)靈感來(lái)自人類的潛意識(shí)。人類在行走、保持平衡和調(diào)整四肢位置時(shí)都需要大量潛意識(shí)的計(jì)算,HOVER 將這種「潛意識(shí)」能力融合進(jìn)了機(jī)器人。這個(gè)單一模型可以學(xué)習(xí)協(xié)調(diào)人形機(jī)器人的電機(jī),從而實(shí)現(xiàn)運(yùn)動(dòng)和操控。
Jim Fan 的推文
論文標(biāo)題:HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots
論文地址:https://arxiv.org/pdf/2410.21229
項(xiàng)目地址:https://hover-versatile-humanoid.github.io/
HOVER 的訓(xùn)練使用了 NVIDIA Isaac,這是一個(gè)由 GPU 驅(qū)動(dòng)的模擬套件,可將物理加速到實(shí)時(shí)的 1 萬(wàn)倍。按 Jim Fan 的比喻就是說(shuō),只需在一張 GPU 卡上運(yùn)算大概 50 分鐘,機(jī)器人就像是在虛擬「道場(chǎng)」中經(jīng)歷了一整年的密集訓(xùn)練。
然后,無(wú)需微調(diào),就可以將這個(gè)神經(jīng)網(wǎng)絡(luò)以零樣本方式遷移到真實(shí)世界。
HOVER 可以接收多種高級(jí)運(yùn)動(dòng)指令,即所謂的「控制模式(control mode)」,比如:
頭部和手部姿勢(shì),可通過(guò) Apple Vision Pro 等增強(qiáng)現(xiàn)實(shí)設(shè)備捕捉;
全身姿勢(shì),可通過(guò) MoCap 或 RGB 相機(jī);
全身關(guān)節(jié)角度:外骨骼;
根速度命令:操縱桿。
這項(xiàng)研究的貢獻(xiàn)包括:
一個(gè)統(tǒng)一的界面,可讓控制者使用任何方便的輸入設(shè)備來(lái)控制機(jī)器人;
一種更簡(jiǎn)單的全身遠(yuǎn)程操作數(shù)據(jù)收集方法;
一個(gè)上游的視覺(jué) - 語(yǔ)言 - 動(dòng)作模型,可用于提供運(yùn)動(dòng)指令,之后 HOVER 會(huì)將其轉(zhuǎn)換為高頻的低級(jí)運(yùn)動(dòng)信號(hào)。
用戶人形機(jī)器人控制的命令空間設(shè)計(jì)
對(duì)于腿部運(yùn)動(dòng),根速度或位置跟蹤是常用的命令空間。然而,僅僅關(guān)注根跟蹤會(huì)限制人形機(jī)器人的全部能力,尤其是對(duì)于涉及全身運(yùn)動(dòng)的任務(wù)。
該團(tuán)隊(duì)研究了之前的工作,發(fā)現(xiàn)它們提出了一些各不一樣的控制模式,并且每種模式通常都是針對(duì)某些特定的任務(wù),因此缺乏通用人形機(jī)器人控制所需的靈活性。
而該團(tuán)隊(duì)的目標(biāo)是設(shè)計(jì)一個(gè)全面的控制框架,以適應(yīng)多種多樣的場(chǎng)景和各種不同的人形機(jī)器人任務(wù)。為此,在構(gòu)建命令空間時(shí),必須滿足以下關(guān)鍵標(biāo)準(zhǔn):
通用性:命令空間應(yīng)包含大多數(shù)現(xiàn)有配置,允許通用控制器替換針對(duì)特定任務(wù)的控制器,同時(shí)還不會(huì)犧牲性能或多功能性。并且該空間應(yīng)具有足夠的表現(xiàn)力,以便與現(xiàn)實(shí)世界的控制設(shè)備交互,包括操縱桿、鍵盤、動(dòng)作捕捉系統(tǒng)、外骨骼和虛擬現(xiàn)實(shí) (VR) 頭設(shè),如圖 1 所示。
原子性:命令空間應(yīng)由獨(dú)立的維度組成,從而能夠任意組合控制選項(xiàng)以支持各種模式。
基于這些標(biāo)準(zhǔn),該團(tuán)隊(duì)定義了一個(gè)用于人形機(jī)器人全身控制的統(tǒng)一命令空間。該空間由兩個(gè)主要控制區(qū)域組成 上身和下身控制 并包含三種不同的控制模式:
運(yùn)動(dòng)位置跟蹤:機(jī)器人上關(guān)鍵剛體點(diǎn)的目標(biāo) 3D 位置;
局部關(guān)節(jié)角度跟蹤:每個(gè)機(jī)器人電機(jī)的目標(biāo)關(guān)節(jié)角度;
根跟蹤:目標(biāo)根速度、高度和方向,由滾動(dòng)、俯仰和偏航角指定。
在如圖 1 所示的框架中,該團(tuán)隊(duì)引入了一個(gè) one-hot 掩碼向量來(lái)指定激活命令空間的哪些組件,以便后面跟蹤。
如表 1 所示,可以將其它基于學(xué)習(xí)的人形全身控制的最新研究看作是新提出的統(tǒng)一命令空間的子集,其中每項(xiàng)研究都代表特定的配置。
運(yùn)動(dòng)重定向
近期有研究表明,如果學(xué)習(xí)的運(yùn)動(dòng)數(shù)據(jù)集很大,學(xué)習(xí)到的人形機(jī)器人全身運(yùn)動(dòng)控制策略就會(huì)更加穩(wěn)健。
為了獲得大型數(shù)據(jù)集,可將人類運(yùn)動(dòng)數(shù)據(jù)集重定向成人形機(jī)器人運(yùn)動(dòng)數(shù)據(jù)集,這個(gè)過(guò)程分為三步:
1. 使用正向運(yùn)動(dòng)學(xué)(forward kinematics)計(jì)算人形機(jī)器人的關(guān)鍵點(diǎn)位置,將其關(guān)節(jié)配置映射成工作空間坐標(biāo)。
2. 擬合 SMPL 模型以匹配人形機(jī)器人的運(yùn)動(dòng)學(xué),做法是優(yōu)化 SMPL 參數(shù)以與正向運(yùn)動(dòng)學(xué)計(jì)算得到的關(guān)鍵點(diǎn)對(duì)齊。
3. 使用梯度下降來(lái)匹配已經(jīng)擬合的 SMPL 模型和人形機(jī)器人之間的對(duì)應(yīng)關(guān)鍵點(diǎn),重定向 AMASS 數(shù)據(jù)集。
例如,在某些情況下,上半身可能只跟蹤手的運(yùn)動(dòng)位置,而下半身只跟蹤軀干的關(guān)節(jié)角度。模式和稀疏二元掩碼的每一比特都來(lái)自伯努利分布 (0.5)。模式和稀疏掩碼在事件情節(jié)(episode)開(kāi)始時(shí)是隨機(jī)的,并保持固定,直到該情節(jié)結(jié)束。
實(shí)驗(yàn)
研究團(tuán)隊(duì)針對(duì)以下問(wèn)題,在 IsaacGym 和 Unitree H1 機(jī)器人上開(kāi)展了廣泛的實(shí)驗(yàn):
Q1: HOVER 這個(gè)通用策略能比那些只針對(duì)特定指令訓(xùn)練的策略表現(xiàn)得更好嗎?
Q2: HOVER 能比其他訓(xùn)練方法更有效地訓(xùn)練多模態(tài)仿人機(jī)器人控制器嗎?
Q3: HOVER 能否在真實(shí)世界的硬件上實(shí)現(xiàn)多功能多模態(tài)控制?
與專家策略的對(duì)比
該團(tuán)隊(duì)在不同控制模式下比較了 HOVER 和相應(yīng)專家策略的表現(xiàn)。以 ExBody 模式為例,研究團(tuán)隊(duì)加入了固定的掩碼,讓 HOVER 和整個(gè)數(shù)據(jù)集 Q 中的 ExBody 模式可比。
如表 III 和圖 3 所示,HOVER 展現(xiàn)出了優(yōu)越的泛化能力。在每一種指令模式中,HOVER 在至少 7 個(gè)指標(biāo)上超越了之前的專家控制器(表 III 中用粗體值突出顯示)。同時(shí),這也意味著即使只關(guān)注單一控制模式,從專家策略中提取的策略也比通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出的專家更強(qiáng)。
與通用訓(xùn)練方法的對(duì)比
研究團(tuán)隊(duì)在八種不同的模式下測(cè)量了 HOVER 在跟蹤局部和全身位置方面的表現(xiàn)。他們用最大誤差(Emax)減去當(dāng)前誤差(E (.)),再除以最大誤差(Emax)和最小誤差(Emin)之間的差值來(lái)計(jì)算誤差。雷達(dá)網(wǎng)圖更大,代表模型的跟蹤性能更好。實(shí)驗(yàn)結(jié)果顯示,HOVER 在所有 32 個(gè)指標(biāo)和模式中的誤差都很低。
在真實(shí)世界中的測(cè)評(píng)
為了測(cè)試 HOVER 策略在真實(shí)世界中的表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了定量的跟蹤實(shí)驗(yàn)和定性的多模態(tài)控制實(shí)驗(yàn)。
站立時(shí)的動(dòng)作評(píng)估
該團(tuán)隊(duì)通過(guò)跟蹤 20 種不同的站立動(dòng)作來(lái)評(píng)估 HOVER 的性能,表 V 中的定量指標(biāo)顯示,HOVER 在 12 個(gè)指標(biāo)中的 11 個(gè)上超越了專家策略。HOVER 成功跟蹤了關(guān)節(jié)俯仰運(yùn)動(dòng)與全身運(yùn)動(dòng),特別是高度動(dòng)態(tài)的跑步動(dòng)作也能搞定。
機(jī)器人的關(guān)節(jié)可以在 - 0.5 到 0.5 的俯仰角度之間變化
多模態(tài)評(píng)估
該團(tuán)隊(duì)還模擬了真實(shí)的生活場(chǎng)景,測(cè)試了在突然切換命令時(shí) HOVER 對(duì)運(yùn)動(dòng)的泛化能力。HOVER 成功地讓機(jī)器人從 ExBody 模式切換到 H2O 模式,同時(shí)在向前行走。
從 ExBody 切換到 H2O 模式
從 HumanPlus 模式切換到 OmniH2O 模式,機(jī)器人也能同時(shí)執(zhí)行轉(zhuǎn)彎和向后行走。
從 HumanPlus 切換到 OmniH2O 模式
此外,他們還使用 Vision Pro 隨機(jī)掩蓋頭部和手部的位置,進(jìn)行了遠(yuǎn)程操作演示,可以看出,機(jī)器人的動(dòng)作非常地絲滑流暢。
有時(shí),它也會(huì)出錯(cuò),比如只追蹤了測(cè)試者的頭部位置,忽略了揮手的動(dòng)作。
結(jié)果表明,HOVER 能夠平滑地在不同模式之間追蹤動(dòng)作,展示了其在真實(shí)世界場(chǎng)景中的魯棒性。