展會(huì)信息港展會(huì)大全

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-01 14:08:52   瀏覽:75次  

導(dǎo)讀:劃重點(diǎn)01中山大學(xué)和華為諾亞等單位的研究團(tuán)隊(duì)提出了一種全新的原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型PIVOT-R。02與現(xiàn)有方法相比,PIVOT-R通過(guò)關(guān)注與任務(wù)相關(guān)的路徑點(diǎn)預(yù)測(cè),提升機(jī)器人操作的準(zhǔn)確性,并設(shè)計(jì)了一個(gè)異步分層執(zhí)行器,降低計(jì)算冗余,提升模型的執(zhí)行效率。03實(shí)驗(yàn)結(jié)果顯示,PIVOT-R在仿真環(huán)境和真實(shí)環(huán)境都取得了最優(yōu)的效果,同時(shí),模型的速度和RT-1等方法速度相近,沒(méi)有因?yàn)槭?......

劃重點(diǎn)

01中山大學(xué)和華為諾亞等單位的研究團(tuán)隊(duì)提出了一種全新的原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型PIVOT-R。

02與現(xiàn)有方法相比,PIVOT-R通過(guò)關(guān)注與任務(wù)相關(guān)的路徑點(diǎn)預(yù)測(cè),提升機(jī)器人操作的準(zhǔn)確性,并設(shè)計(jì)了一個(gè)異步分層執(zhí)行器,降低計(jì)算冗余,提升模型的執(zhí)行效率。

03實(shí)驗(yàn)結(jié)果顯示,PIVOT-R在仿真環(huán)境和真實(shí)環(huán)境都取得了最優(yōu)的效果,同時(shí),模型的速度和RT-1等方法速度相近,沒(méi)有因?yàn)槭褂么竽P投鴮?dǎo)致速度變慢。

以上內(nèi)容由大模型生成,僅供參考

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

對(duì)于人類而言,一旦掌握了 “打開瓶蓋” 的動(dòng)作,面對(duì) “擰緊螺絲” 這樣的任務(wù)通常也能游刃有余,因?yàn)檫@兩者依賴于相似的手部動(dòng)作。然而,對(duì)于機(jī)器人來(lái)說(shuō),即使是這樣看似簡(jiǎn)單的任務(wù)轉(zhuǎn)換依然充滿挑戰(zhàn)。例如,換成另一種類型的瓶蓋,機(jī)器人可能無(wú)法成功打開。這表明,目前的機(jī)器人方法尚未充分讓模型學(xué)習(xí)到任務(wù)的內(nèi)在執(zhí)行邏輯,而只是單純的依賴于數(shù)據(jù)擬合。

針對(duì)該問(wèn)題,來(lái)自中山大學(xué)和華為諾亞等單位的研究團(tuán)隊(duì)提出了一種全新的原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型,借助 VLMs 作為機(jī)器人的大腦,理解任務(wù)之間的動(dòng)作關(guān)聯(lián)性,并通過(guò) “世界模型” 獲取對(duì)未來(lái)動(dòng)作的表征,從而更好地幫助機(jī)器人學(xué)習(xí)和決策。該方法顯著提升了機(jī)器人的學(xué)習(xí)能力,并保持良好的泛化性。

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

論文地址:https://arxiv.org/abs/2410.10394

項(xiàng)目主頁(yè):https://abliao.github.io/PIVOT-R/

研究動(dòng)機(jī)

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

當(dāng)前,現(xiàn)有機(jī)器人操作任務(wù)有兩個(gè)關(guān)鍵問(wèn)題:

機(jī)器人模型在開放世界中表現(xiàn)差且不穩(wěn)定:許多機(jī)器人操作模型雖然能夠處理復(fù)雜任務(wù),但往往直接將用戶指令和視覺(jué)感知映射到低層次的可執(zhí)行動(dòng)作上,而忽略了操作任務(wù)中關(guān)鍵狀態(tài)(路徑點(diǎn))的建模。這種方式容易使模型記住表面數(shù)據(jù)模式,導(dǎo)致模型在開放環(huán)境中表現(xiàn)脆弱。模型缺乏對(duì)關(guān)鍵路徑點(diǎn)的預(yù)測(cè),使得每個(gè)動(dòng)作的隨機(jī)性可能逐步放大,降低了任務(wù)的執(zhí)行成功率。

計(jì)算效率低:隨著模型的增大(例如 RT-2, RT-H),運(yùn)行速率隨之降低,無(wú)法滿足機(jī)器人任務(wù)實(shí)時(shí)性的需求。

為了解決上述問(wèn)題,研究團(tuán)隊(duì)提出了 PIVOT-R,一種原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型。如上圖所示,對(duì)比左圖現(xiàn)有的方法,右圖展示了 PIVOT-R 通過(guò)關(guān)注與任務(wù)相關(guān)的路徑點(diǎn)預(yù)測(cè),提升機(jī)器人操作的準(zhǔn)確性,并設(shè)計(jì)了一個(gè)異步分層執(zhí)行器,降低計(jì)算冗余,提升模型的執(zhí)行效率。

這樣做有幾個(gè)好處:

它使得模型可以更好的學(xué)習(xí)任務(wù)與動(dòng)作之間的內(nèi)在關(guān)聯(lián)性,減少其他干擾因素的影響,并更好地捕捉不同任務(wù)之間的相似性(例如,擰瓶蓋和擰螺絲的動(dòng)作是相似的,拿杯子和搭積木都有一個(gè)抓住物體的過(guò)程),從而使得模型可以在多任務(wù)數(shù)據(jù)下學(xué)習(xí)到可遷移的知識(shí)。

通過(guò)世界模型建模的方式獲得對(duì)未來(lái)關(guān)鍵動(dòng)作的表征,避免了文本語(yǔ)言帶來(lái)的模糊性、不確定性。

通過(guò)異步執(zhí)行的方式,確保各模塊獨(dú)立運(yùn)行、互不阻塞,從而有效避免了大模型導(dǎo)致的低速率問(wèn)題。

研究方法

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

原語(yǔ)動(dòng)作解析

PIVOT-R 的第一個(gè)核心步驟是原語(yǔ)動(dòng)作解析,這一步通過(guò)預(yù)訓(xùn)練的視覺(jué) - 語(yǔ)言模型(VLM)來(lái)解析用戶的語(yǔ)言指令。VLM 可以將復(fù)雜的自然語(yǔ)言指令轉(zhuǎn)換為一組簡(jiǎn)單的原語(yǔ)動(dòng)作,例如 “靠近”、“抓取”、“移動(dòng)” 等。這些原語(yǔ)動(dòng)作為機(jī)器人提供了操作任務(wù)的粗略路徑。

具體流程如下:

用戶輸入的語(yǔ)言指令(例如 “請(qǐng)給我那個(gè)杯子”)首先被輸入到 VLM 中,VLM 會(huì)將其解析為與任務(wù)相關(guān)的原語(yǔ)動(dòng)作(如 “靠近杯子”、“抓取杯子”)。

原語(yǔ)動(dòng)作作為提示,指導(dǎo)機(jī)器人在接下來(lái)的步驟中專注于特定的操作軌跡點(diǎn)。這種方式確保機(jī)器人不會(huì)被復(fù)雜的環(huán)境因素干擾,而是明確知道每個(gè)動(dòng)作的目的。

路徑點(diǎn)預(yù)測(cè)

在原語(yǔ)動(dòng)作解析后,PIVOT-R 的下一步是路徑點(diǎn)預(yù)測(cè)。路徑點(diǎn)代表了機(jī)器人操控過(guò)程中一些關(guān)鍵的中間狀態(tài),例如靠近物體、抓取物體、移動(dòng)物體等。通過(guò)預(yù)測(cè)路徑點(diǎn),PIVOT-R 能夠在機(jī)器人執(zhí)行任務(wù)時(shí)提供明確的操作指導(dǎo)。具體來(lái)說(shuō),通過(guò)一個(gè) Transformer 架構(gòu)的模型,預(yù)測(cè)路徑點(diǎn)對(duì)應(yīng)的視覺(jué)特征,為后續(xù)的動(dòng)作預(yù)測(cè)模塊提供指引。

動(dòng)作預(yù)測(cè)模塊

動(dòng)作預(yù)測(cè)模塊負(fù)責(zé)根據(jù)預(yù)測(cè)的路徑點(diǎn)生成具體的低層次機(jī)器人動(dòng)作。它以路徑點(diǎn)為提示,結(jié)合機(jī)器人歷史狀態(tài)(如位置、姿態(tài)等),計(jì)算下一步應(yīng)該執(zhí)行的動(dòng)作。該模塊使用輕量級(jí)的 Transformer 架構(gòu)進(jìn)行動(dòng)作預(yù)測(cè),確保計(jì)算效率和性能的平衡。這一模塊的設(shè)計(jì)重點(diǎn)在于低延遲和高精度執(zhí)行操控任務(wù)。

異步分層執(zhí)行器

此外,PIVOT-R 還引入了一個(gè)關(guān)鍵的執(zhí)行機(jī)制,即異步分層執(zhí)行器。與以往的機(jī)器人模型不同,PIVOT-R 并不對(duì)所有模塊在每一步都進(jìn)行同步更新,而是為不同模塊設(shè)置了不同的執(zhí)行頻率,以多線程的方式進(jìn)行異步更新,從而提升執(zhí)行速度。

實(shí)驗(yàn)

作者在具有復(fù)雜指令的 SeaWave 仿真環(huán)境和真實(shí)環(huán)境下進(jìn)行實(shí)驗(yàn)。

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

如 Table 1 和 Table 2 所示,PIVOT-R 在仿真環(huán)境和真實(shí)環(huán)境都取得了最優(yōu)的效果,同時(shí),模型的速度和 RT-1 等方法速度相近,沒(méi)有因?yàn)槭褂么竽P投鴮?dǎo)致速度變慢。

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

作者也在 SeaWave 上做了泛化性測(cè)試,在三種泛化性測(cè)試場(chǎng)景下,PIVOT-R 仍保持遠(yuǎn)高于其他模型的成功率。

研究總結(jié)

PIVOT-R 通過(guò)引入原語(yǔ)動(dòng)作驅(qū)動(dòng)的路徑點(diǎn)感知,顯著提升了機(jī)器人在復(fù)雜操控任務(wù)中的性能。該模型不僅在執(zhí)行效率上具備優(yōu)勢(shì),還能夠更好地應(yīng)對(duì)復(fù)雜、多變的環(huán)境。該方法在仿真環(huán)境和真實(shí)環(huán)境操縱下表現(xiàn)優(yōu)異,為機(jī)器人學(xué)習(xí)提供了一個(gè)新范式。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港