機(jī)器人前瞻(公眾號(hào):robot_pro)
作者|許麗思
編輯|漠影
機(jī)器人前瞻1月9日?qǐng)?bào)道,這兩天,智元機(jī)器人、上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室共同研發(fā)的機(jī)器人領(lǐng)域首個(gè)4D世界模型EnerVerse亮相,該模型旨在讓機(jī)器人在任務(wù)指引和實(shí)時(shí)觀測(cè)的基礎(chǔ)上規(guī)劃未來(lái)動(dòng)作。
在機(jī)器人技術(shù)領(lǐng)域中,動(dòng)作規(guī)劃始始終是一大難題,F(xiàn)有的機(jī)器人動(dòng)作規(guī)劃方法,往往難以實(shí)現(xiàn)在語(yǔ)言、視覺(jué)和動(dòng)作等多模態(tài)空間之間精確對(duì)齊,并且還缺乏大規(guī)模、多模態(tài)且?guī)в袆?dòng)作標(biāo)簽的數(shù)據(jù)集。
對(duì)此,EnerVerse架構(gòu)可以通過(guò)自回歸擴(kuò)散模型(autoregressive diffusion),在生成未來(lái)具身空間的同時(shí)引導(dǎo)機(jī)器人完成復(fù)雜任務(wù)。EnerVerse還引入稀疏記憶機(jī)制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時(shí),實(shí)現(xiàn)了動(dòng)作規(guī)劃性能的顯著突破。
智元機(jī)器人表示,EnerVerse 不僅具備卓越的未來(lái)空間生成能力,更在機(jī)器人動(dòng)作規(guī)劃任務(wù)中實(shí)現(xiàn)了當(dāng)前最優(yōu)(SOTA)表現(xiàn)。
目前,項(xiàng)目主頁(yè)與論文已上線,模型與相關(guān)數(shù)據(jù)集即將開(kāi)源。
一、逐步生成未來(lái)具身空間,靈活表達(dá)4D空間
EnerVerse 采用逐塊生成的自回歸擴(kuò)散模型,通過(guò)逐步生成未來(lái)具身空間來(lái)引導(dǎo)機(jī)器人動(dòng)作規(guī)劃。其關(guān)鍵設(shè)計(jì)包括:1)擴(kuò)散模型架構(gòu):基于結(jié)合時(shí)空注意力的 UNet 結(jié)構(gòu),每個(gè)空間塊內(nèi)部通過(guò)卷積與雙向注意力建模;塊與塊之間通過(guò)單向因果邏輯(causal logic)保持時(shí)間一致性,從而確保生成序列的邏輯合理性。
2)稀疏記憶機(jī)制:借鑒大模型(LLM)的上下文記憶,EnerVerse 在訓(xùn)練階段對(duì)歷史幀進(jìn)行高比例隨機(jī)掩碼(mask),推理階段以較大時(shí)間間隔更新記憶隊(duì)列,有效降低計(jì)算開(kāi)銷(xiāo),同時(shí)顯著提升長(zhǎng)程任務(wù)的生成能力。
3)任務(wù)結(jié)束邏輯:通過(guò)特殊的結(jié)束幀(EOS frame),實(shí)現(xiàn)對(duì)任務(wù)結(jié)束時(shí)機(jī)的精準(zhǔn)監(jiān)督,確保生成過(guò)程在合適節(jié)點(diǎn)終止。
▲自回歸擴(kuò)散模型
EnerVerse提出了靈活的自由錨定視角(FAV)方法,以解決過(guò)去在具身操作中由于遮擋關(guān)系復(fù)雜,難以構(gòu)建完美的全局視角的問(wèn)題。核心特點(diǎn)有:
1)自由設(shè)定視角:允許根據(jù)場(chǎng)景靈活重置錨定視角,避免固定多視角在狹窄空間中的局限性。例如,在廚房等場(chǎng)景,F(xiàn)AV可以輕松適應(yīng)動(dòng)態(tài)的遮擋環(huán)境。
2)跨視角空間一致性:基于光線投射原理,EnerVerse使用視線方向圖作為視角控制條件,同時(shí)將擴(kuò)散模型中的2D空間注意力擴(kuò)展為跨視角的3D空間注意力,確保生成的多視角視頻在幾何上保持一致。
3)Sim2Real Adaption:通過(guò)在仿真數(shù)據(jù)上微調(diào)的4D生成模型與4D高斯?jié)姙R(4D Gaussian Splatting)交替迭代,構(gòu)建了一個(gè)數(shù)據(jù)飛輪,為真實(shí)場(chǎng)景下的FAV生成提供偽真值支持。
▲自由錨定視角方法
EnerVerse 還通過(guò)在生成網(wǎng)絡(luò)下游集成 Diffusion 策略頭(Diffusion Policy Head),打通未來(lái)空間生成與機(jī)器人動(dòng)作規(guī)劃的全鏈條。關(guān)鍵設(shè)計(jì)包括:
1)高效動(dòng)作預(yù)測(cè):生成網(wǎng)絡(luò)在逆擴(kuò)散的第一步即可輸出未來(lái)動(dòng)作序列,無(wú)需等待完整的空間生成過(guò)程,確保動(dòng)作預(yù)測(cè)的實(shí)時(shí)性。面,EnerVerse 在視頻生成、動(dòng)作規(guī)劃、消融與訓(xùn)練策略分析及注意力可視化方面都表現(xiàn)出卓越的性能。