當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > 視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:29:18 瀏覽：0次

導(dǎo)讀：AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者來(lái)自于中國(guó)人民大學(xué)，深圳朝聞道科技有限公司以及中國(guó)電信人工智能研究院。其 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者來(lái)自于中國(guó)人民大學(xué)，深圳朝聞道科技有限公司以及中國(guó)電信人工智能研究院。其中第一作者馮若軒為中國(guó)人民大學(xué)二年級(jí)碩士生，主要研究方向?yàn)槎嗄B(tài)具身智能，師從胡迪教授。

引言：在機(jī)器人操縱物體的過(guò)程中，不同傳感器數(shù)據(jù)攜帶的噪聲會(huì)對(duì)預(yù)測(cè)控制造成怎樣的影響？中國(guó)人民大學(xué)高瓴人工智能學(xué)院 GeWu 實(shí)驗(yàn)室、朝聞道機(jī)器人和 TeleAI 最近的合作研究揭示并指出了 “模態(tài)時(shí)變性”（Modality Temporality）現(xiàn)象，通過(guò)捕捉并刻畫(huà)各個(gè)模態(tài)質(zhì)量隨物體操縱過(guò)程的變化，提升不同信息在具身多模態(tài)交互的感知質(zhì)量，可顯著改善精細(xì)物體操縱的表現(xiàn)。論文已被 CoRL2024 接收并選為 Oral Presentation。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

視頻鏈接：https://mp.weixin.qq.com/s/STlxll_LWO-iRFuVbP_s6A

人類在與環(huán)境互動(dòng)時(shí)展現(xiàn)出了令人驚嘆的感官協(xié)調(diào)能力。以一位廚師為例，他不僅能夠憑借直覺(jué)掌握食材添加的最佳時(shí)機(jī)，還能通過(guò)觀察食物的顏色變化、傾聽(tīng)烹飪過(guò)程中的聲音以及嗅聞食物的香氣來(lái)精準(zhǔn)調(diào)控火候，從而無(wú)縫地完成烹飪過(guò)程中的每一個(gè)復(fù)雜階段。這種能力，即在執(zhí)行復(fù)雜且長(zhǎng)時(shí)間的操作任務(wù)時(shí)，靈活運(yùn)用不同的感官，是建立在對(duì)任務(wù)各個(gè)階段全面而深刻理解的基礎(chǔ)之上的。

然而，對(duì)于機(jī)器人而言，如何協(xié)調(diào)這些感官模態(tài)以更高效地完成指定的操作任務(wù)，以及如何充分利用多模態(tài)感知能力來(lái)實(shí)現(xiàn)可泛化的任務(wù)執(zhí)行，仍是當(dāng)前尚未解決的問(wèn)題。我們不僅需要使模型理解任務(wù)階段本身，還需要從任務(wù)階段的新角度重新審視多傳感器融合。在一個(gè)復(fù)雜的操縱任務(wù)中完成將任務(wù)劃分為不同階段的一系列子目標(biāo)的過(guò)程中，各個(gè)模態(tài)的數(shù)據(jù)質(zhì)量很可能隨任務(wù)階段而不斷變化。因此，階段轉(zhuǎn)換很可能導(dǎo)致模態(tài)重要性的變化。除此之外，每個(gè)階段內(nèi)部也可能存在相對(duì)較小的模態(tài)質(zhì)量變化。我們將這種現(xiàn)象總結(jié)為多傳感器模仿學(xué)習(xí)的一大挑戰(zhàn)：模態(tài)時(shí)變性（Modality Temporality）。然而，過(guò)去的方法很少關(guān)注這一點(diǎn)，忽視了階段理解在多傳感器融合中的重要性。

本文借鑒人類的基于階段理解的多感官感知過(guò)程，提出了一個(gè)由階段引導(dǎo)的動(dòng)態(tài)多傳感器融合框架 MS-Bot，旨在基于由粗到細(xì)粒度的任務(wù)階段理解動(dòng)態(tài)地關(guān)注具有更高質(zhì)量的模態(tài)數(shù)據(jù)，從而更好地應(yīng)對(duì)模態(tài)時(shí)變性的挑戰(zhàn)，完成需要多種傳感器的精細(xì)操縱任務(wù)。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

論文鏈接：https://arxiv.org/abs/2408.01366v2

項(xiàng)目主頁(yè)：https://gewu-lab.github.io/MS-Bot/

模態(tài)時(shí)變性

在復(fù)雜的操作任務(wù)中，各傳感器數(shù)據(jù)的質(zhì)量可能會(huì)隨著階段的變化而變化。在不同的任務(wù)階段中，一個(gè)特定模態(tài)的數(shù)據(jù)可能對(duì)動(dòng)作的預(yù)測(cè)具有重大貢獻(xiàn)，也可能作為主要模態(tài)的補(bǔ)充，甚至可能幾乎不提供任何有用的信息。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

圖 1 傾倒任務(wù)的模態(tài)時(shí)變性

以上圖中的傾倒任務(wù)為例，在初始的對(duì)齊階段中，視覺(jué)模態(tài)對(duì)動(dòng)作的預(yù)測(cè)起決定性作用。進(jìn)入開(kāi)始傾倒階段后，模型需要開(kāi)始利用音頻和觸覺(jué)的反饋來(lái)確定合適的傾倒角度（倒出速度）。在保持靜止階段，模型主要依賴音頻和觸覺(jué)信息來(lái)判斷已經(jīng)倒出的小鋼珠質(zhì)量是否已經(jīng)接近目標(biāo)值，而視覺(jué)幾乎不提供有用的信息。最后，在結(jié)束傾倒階段，模型需要利用觸覺(jué)模態(tài)的信息判斷傾倒任務(wù)是否已經(jīng)完成，與開(kāi)始傾倒階段進(jìn)行區(qū)分。除階段間的模態(tài)質(zhì)量變化，各個(gè)階段內(nèi)部也可能存在較小的質(zhì)量變化，例如音頻模態(tài)在開(kāi)始傾倒和結(jié)束傾倒的前期和后期具有不同的重要性。我們將這兩種變化區(qū)分為粗粒度和細(xì)粒度的模態(tài)質(zhì)量變化，并將這種現(xiàn)象總結(jié)為多傳感器模仿學(xué)習(xí)中的一個(gè)重要挑戰(zhàn)：模態(tài)時(shí)變性。

方法：階段引導(dǎo)的動(dòng)態(tài)多傳感器融合

為了應(yīng)對(duì)模態(tài)時(shí)變性的挑戰(zhàn)，我們認(rèn)為在機(jī)器人操縱任務(wù)中，多傳感器數(shù)據(jù)的融合應(yīng)該建立在充分的任務(wù)階段理解之上。因此，我們提出了 MS-Bot 框架，這是一個(gè)由階段引導(dǎo)的動(dòng)態(tài)多傳感器融合方法，旨在基于顯式的由粗到細(xì)的任務(wù)階段理解動(dòng)態(tài)地關(guān)注具有更高質(zhì)量的模態(tài)數(shù)據(jù)。為了將顯式的階段理解整合到模仿學(xué)習(xí)過(guò)程中，我們首先為每個(gè)數(shù)據(jù)集中的樣本添加了一個(gè)階段標(biāo)簽，并將動(dòng)作標(biāo)簽和階段標(biāo)簽共同作為監(jiān)督信號(hào)訓(xùn)練包含四個(gè)模塊的 MS-Bot 框架（如圖 2 所示）：

特征提取模塊：該模塊包含一系列單模態(tài)編碼器，每個(gè)編碼器都接受一段簡(jiǎn)短的單模態(tài)觀測(cè)歷史作為輸入，并將它們編碼為特征。

狀態(tài)編碼器：該模塊旨在將各模態(tài)特征和動(dòng)作歷史序列編碼為表示當(dāng)前任務(wù)狀態(tài)的 token。動(dòng)作歷史與人類記憶相似，可以幫助指示當(dāng)前所處的任務(wù)狀態(tài)。我們將動(dòng)作歷史輸入到一個(gè) LSTM 中，并通過(guò)一個(gè) MLP 將它們與模態(tài)特征編碼為狀態(tài) token。

階段理解模塊：該模塊旨在通過(guò)將階段信息注入狀態(tài) token 中，從而實(shí)現(xiàn)顯式的由粗到細(xì)粒度的任務(wù)階段理解。我們用一組可學(xué)習(xí)的階段 token 來(lái)表示每個(gè)任務(wù)階段，并通過(guò)一個(gè)門(mén)控網(wǎng)絡(luò)（MLP）來(lái)預(yù)測(cè)當(dāng)前所處的階段，利用 Softmax 歸一化后的階段預(yù)測(cè)分?jǐn)?shù)對(duì)階段 token 進(jìn)行加權(quán)融合，得到當(dāng)前階段 token。門(mén)控網(wǎng)絡(luò)的訓(xùn)練以階段標(biāo)簽作為監(jiān)督信號(hào)，對(duì)非當(dāng)前階段的預(yù)測(cè)分?jǐn)?shù)進(jìn)行懲罰。我們還放松了對(duì)階段邊界附近的樣本上的相鄰階段分?jǐn)?shù)懲罰，從而實(shí)現(xiàn)軟約束效果，得到更平滑的階段預(yù)測(cè)。新的注入階段信息后的狀態(tài) token 由原狀態(tài) token 和階段 token 加權(quán)融合得到，可以表示任務(wù)階段內(nèi)的細(xì)粒度狀態(tài)，從而對(duì)多傳感器動(dòng)態(tài)融合進(jìn)行引導(dǎo)。

動(dòng)態(tài)融合模塊：該模塊根據(jù)當(dāng)前任務(wù)階段的細(xì)粒度狀態(tài)動(dòng)態(tài)地選擇關(guān)注的模態(tài)特征。我們以注入了階段信息的狀態(tài) token 作為 Query，將模態(tài)特征作為 Key 和 Value 進(jìn)行交叉注意力（Cross Attention）。該方法根據(jù)當(dāng)前任務(wù)階段的需求，將各模態(tài)的特征動(dòng)態(tài)地整合到一個(gè)融合 token 中。最后，該融合 token 輸入到策略網(wǎng)絡(luò)（MLP）中預(yù)測(cè)下一個(gè)動(dòng)作。我們還引入了隨機(jī)注意力模糊機(jī)制，以一定概率將各單模態(tài)特征 token 上的注意力分?jǐn)?shù)替換為相同的平均值，防止模型簡(jiǎn)單地記憶與注意力分?jǐn)?shù)模式對(duì)應(yīng)的動(dòng)作。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

圖 2 由階段引導(dǎo)的動(dòng)態(tài)多傳感器融合框架 MS-Bot

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證基于由粗到細(xì)的任務(wù)階段理解的 MS-Bot 的優(yōu)越性，我們?cè)趦蓚€(gè)十分有挑戰(zhàn)性的精細(xì)機(jī)器人操縱任務(wù)：傾倒和帶有鍵槽的樁插入中進(jìn)行了詳細(xì)的對(duì)比。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

圖 3 傾倒與帶有鍵槽的樁插入任務(wù)設(shè)置

如表 1 所示，MS-Bot 在兩個(gè)任務(wù)的所有設(shè)置上均優(yōu)于所有基線方法。MS-Bot 在兩個(gè)任務(wù)中的性能超過(guò)了使用自注意力（Self Attention）進(jìn)行動(dòng)態(tài)融合的 MULSA 基線，這表明 MS-Bot 通過(guò)在融合過(guò)程中基于對(duì)當(dāng)前階段的細(xì)粒度狀態(tài)的理解更好地分配模態(tài)權(quán)重，而沒(méi)有顯示階段理解的 MULSA 基線無(wú)法充分利用動(dòng)態(tài)融合的優(yōu)勢(shì)。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

表 1 傾倒和帶有鍵槽的樁插入任務(wù)上的性能比較

我們還對(duì)任務(wù)完成中各個(gè)模態(tài)的注意力分?jǐn)?shù)和各階段的預(yù)測(cè)分?jǐn)?shù)進(jìn)行了可視化。在每個(gè)時(shí)間步，我們分別對(duì)每種模態(tài)的所有特征 token 的注意力分?jǐn)?shù)進(jìn)行平均，而階段預(yù)測(cè)分?jǐn)?shù)是 Softmax 歸一化后的門(mén)控網(wǎng)絡(luò)輸出。如圖 4 所示，MS-Bot 準(zhǔn)確地預(yù)測(cè)了任務(wù)階段的變化，并且得益于模型中由粗到細(xì)粒度的任務(wù)階段理解，三個(gè)模態(tài)的注意力分?jǐn)?shù)保持相對(duì)穩(wěn)定，表現(xiàn)出明顯的階段間變化和較小的階段內(nèi)調(diào)整。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

圖 4 各模態(tài)注意力分?jǐn)?shù)和階段預(yù)測(cè)分?jǐn)?shù)可視化

為了驗(yàn)證 MS-Bot 對(duì)干擾物的泛化能力，我們?cè)趦蓚€(gè)任務(wù)中都加入了視覺(jué)干擾物。在傾倒任務(wù)中，我們將量筒的顏色從白色更改為紅色。對(duì)于樁插入任務(wù)，我們將底座顏色從黑色更改為綠色（“Color”），并在底座周圍放置雜物（“Mess”）。如表 2 所示，MS-Bot 在各種有干擾物的場(chǎng)景中始終保持性能優(yōu)勢(shì)，這是因?yàn)?MS-Bot 根據(jù)對(duì)當(dāng)前任務(wù)階段的理解動(dòng)態(tài)地分配模態(tài)權(quán)重，從而減少視覺(jué)噪聲對(duì)融合特征的影響，而基線方法缺乏理解任務(wù)階段并動(dòng)態(tài)調(diào)整模態(tài)權(quán)重的能力。

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)

表 2 含視覺(jué)干擾物場(chǎng)景中的性能比較

總述

本文從任務(wù)階段的視角重新審視了機(jī)器人操縱任務(wù)中的多傳感器融合，引入模態(tài)時(shí)變性的挑戰(zhàn)，并將由子目標(biāo)劃分的任務(wù)階段融入到模仿學(xué)習(xí)過(guò)程中。該研究提出了 MS-Bot，一種由階段引導(dǎo)的多傳感器融合方法，基于由粗到細(xì)粒度的階段理解動(dòng)態(tài)地關(guān)注質(zhì)量更高的模態(tài)。我們相信由顯式階段理解引導(dǎo)的多傳感器融合會(huì)成為一種有效的多傳感器機(jī)器人感知范式，并借此希望能夠激勵(lì)更多的多傳感器機(jī)器人操縱的相關(guān)研究。

上一篇：專家：AI應(yīng)用正推動(dòng)精神健康服務(wù)向智能化、個(gè)性化方向發(fā)展

下一篇：無(wú)人出租車燃爆舊金山！日訂單遠(yuǎn)超出租車，全球自動(dòng)駕駛競(jìng)爭(zhēng)進(jìn)入新階段

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:29:18 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn) 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:29:18 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

視聽(tīng)觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時(shí)變性挑戰(zhàn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:29:18 瀏覽：0次