AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的作者均來自新加坡國立大學(xué) LinS Lab。本文的共同第一作者為上海交通大學(xué)實習(xí)生衛(wèi)振宇和新加坡國立大學(xué)博士生徐志軒,主要研究方向為機(jī)器人學(xué)習(xí)和靈巧操縱,其余作者分別為實習(xí)生郭京翔,博士生侯懿文、高崇凱,以及碩士生蔡哲豪、羅嘉宇。本文的通訊作者為新加坡國立大學(xué)助理教授邵林。
想象一下,市面上有數(shù)十種形態(tài)各異的靈巧手,每一款都被設(shè)計得精巧而獨特。然而,是否有可能存在一種通用的抓取策略,無需為每款靈巧手單獨優(yōu)化,卻能夠適應(yīng)各種機(jī)器人手型和多樣物體形狀?這一看似遙不可及的夢想,正在逐步成為現(xiàn)實。
靈巧抓取是機(jī)器人操作領(lǐng)域的一項核心挑戰(zhàn),它要求機(jī)器人手能夠與物體實現(xiàn)精確且穩(wěn)定的交互接觸。然而,如何有效建模這種高自由度且復(fù)雜的交互關(guān)系,并生成精準(zhǔn)、多樣且高效的抓取策略,一直是該領(lǐng)域亟待解決的難題。
近期,新加坡國立大學(xué)計算機(jī)學(xué)院的邵林團(tuán)隊提出了 D(R,O) Grasp:一種面向跨智能體靈巧抓取的機(jī)器人與物體交互統(tǒng)一表示。該方法通過創(chuàng)新性地建模機(jī)器人手與物體在抓取姿態(tài)下的交互關(guān)系,成功實現(xiàn)了對多種機(jī)器人手型與物體幾何形狀的高度泛化能力,為靈巧抓取技術(shù)的未來開辟了全新的方向。該論文在 CoRL 2024 MAPoDeL Workshop 中獲得了 Best Robotics Paper Award。
論文標(biāo)題:D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
項目主頁:https://nus-lins-lab.github.io/drograspweb/
論文鏈接:https://arxiv.org/abs/2410.01702
代碼鏈接:https://github.com/zhenyuwei2003/DRO-Grasp
一、引言
靈巧抓取是機(jī)器人完成復(fù)雜操作任務(wù)的關(guān)鍵,但由于靈巧手的高自由度及穩(wěn)定抓取所需的復(fù)雜交互,任務(wù)挑戰(zhàn)巨大。目前基于深度學(xué)習(xí)的方法主要分為機(jī)器人中心 (robot-centric) 和物體中心 (object-centric) 兩類。
機(jī)器人中心方法(如手腕姿態(tài)或關(guān)節(jié)角度表示)直接將觀測映射為控制命令,推理速度快,但樣本效率低,且因映射依賴特定機(jī)器人結(jié)構(gòu),難以泛化到不同手型。
物體中心方法(如接觸點和接觸熱力圖表示)通過描述物體幾何與接觸信息,泛化能力強(qiáng),適應(yīng)不同物體和手型。然而,需額外優(yōu)化步驟(如指尖逆運動學(xué)求解)將預(yù)測結(jié)果轉(zhuǎn)化為運動學(xué)可行的抓取姿態(tài),計算復(fù)雜且耗時。
為克服這些局限,我們提出交互中心 (interaction-centric) 的統(tǒng)一表示 D(R,O)。該方法捕捉機(jī)器手運動學(xué)與物體幾何的交互關(guān)系,彌補(bǔ)機(jī)器人中心方法的泛化不足,同時提升物體中心方法的推理效率,實現(xiàn)跨機(jī)器人手型與物體形狀的泛化,為靈巧抓取提供高效且魯棒的解決方案。
圖 1 靈巧手抓取方法比較
二、方法
圖 2D(R,O) Grasp 整體框架
給定物體點云和機(jī)器人手的 URDF 文件,模型的目標(biāo)是生成靈巧且多樣化的抓取姿態(tài),能夠在不同的物體和機(jī)器人手型之間實現(xiàn)廣泛的泛化。D(R,O) Grasp 整體框架如圖 2 所示,主要有以下三個部分組成:
1. 基于對比學(xué)習(xí)的配置不變預(yù)訓(xùn)練
2. D(R,O)表征預(yù)測
3. 基于 D(R,O) 表征的抓取姿態(tài)生成
2.1 基于對比學(xué)習(xí)的配置不變預(yù)訓(xùn)練
學(xué)習(xí)靈巧抓取需要理解機(jī)器手與物體的空間關(guān)系,目標(biāo)是將機(jī)器手的特定配置與物體匹配。然而,由于不同配置下機(jī)器手整體姿態(tài)變化顯著,模型難以捕捉局部幾何特征的一致性。為此,我們提出一種配置不變的預(yù)訓(xùn)練方法,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)對齊不同配置下的幾何特征,促進(jìn)匹配并提升多姿態(tài)適應(yīng)能力。
我們首先采樣并存儲機(jī)器手各 link 的點云數(shù)據(jù);谇跋蜻\動學(xué)模型,可為任意配置計算對應(yīng)點云,確保不同配置下點云的一致性。在預(yù)訓(xùn)練中,規(guī)范配置(如張開手姿態(tài))和抓取配置的點云分別輸入機(jī)器人編碼器網(wǎng)絡(luò)提取逐點特征。我們通過點間歐氏距離加權(quán)正負(fù)點對關(guān)系,進(jìn)行逐點對比學(xué)習(xí),并計算如下?lián)p失函數(shù):
該方法通過對齊不同配置下編碼器的幾何特征,簡化機(jī)器手與物體匹配難度,提高模型的泛化能力。
2.2 D(R,O) 表征預(yù)測
我們預(yù)測的 D(R,O) 表征是一個機(jī)器手點云和物體點云之間相對距離矩陣(Distances of Robot and Object)。首先,我們使用兩個相同結(jié)構(gòu)的編碼器分別提取機(jī)器手點云和物體點云的幾何特征:
在此過程中,機(jī)器手的編碼器使用預(yù)訓(xùn)練網(wǎng)絡(luò)并在訓(xùn)練中保持凍結(jié)。為建立兩組特征的對應(yīng)關(guān)系,我們引入兩個 Transformer 模型嵌入點間對應(yīng)信息,并使用殘差連接:
為實現(xiàn)跨智能體抓取的多樣性,我們采用條件變分自編碼器(CVAE)網(wǎng)絡(luò)捕捉機(jī)器手、物體與抓取姿態(tài)的多種組合變化。具體而言,將機(jī)器手與物體在抓取姿態(tài)下的點云拼接后輸入 CVAE 編碼器,利用點云特征作為條件生成隱變量。隨后,將隱變量與每個點特征拼接,得到機(jī)器手和物體的綜合特征。
對于機(jī)器手某點與物體某點的綜合特征,我們采用結(jié)合 MLP 網(wǎng)絡(luò)和 softplus 函數(shù)的核函數(shù)計算相對距離,確保結(jié)果具有對稱性和非負(fù)性:
通過對所有點對進(jìn)行上述計算,我們最終得到完整的 D(R,O) 表征如下:
2.3 基于 D(R,O) 表征的抓取姿態(tài)生成
給定預(yù)測的 D(R,O) 表征,我們獲得了機(jī)器人手點云與物體點云之間的相對距離關(guān)系。由于物體點云已知,我們可利用這些距離關(guān)系通過多點定位(Multilateration)技術(shù)計算出隱式描述的機(jī)器人手點云。本質(zhì)上,這是一個最小二乘優(yōu)化問題:
該問題已證明具有閉式解,可快速計算機(jī)器人手點云。在三維空間中,確定一個點的位置僅需四個相對距離,而 D(R,O) 表征提供了上百個距離。相比直接預(yù)測點云,這種表征對神經(jīng)網(wǎng)絡(luò)預(yù)測誤差更加魯棒。
得到機(jī)器人手點云后,為求解相應(yīng)關(guān)節(jié)值,我們將逆運動學(xué)分為兩步:首先,使用 SVD 分解從點云計算出每個 link 的 6D 姿態(tài);然后,以這些 6D 姿態(tài)為優(yōu)化目標(biāo),利用雅克比矩陣迭代更新初始關(guān)節(jié)值,最終得到期望抓取姿態(tài)的關(guān)節(jié)值。
這一優(yōu)化過程約束簡單,即便是 ShadowHand 等高自由度靈巧手,也可在不到 1 秒內(nèi)完成優(yōu)化,大幅提升抓取生成速度。
三、實驗結(jié)果
圖 3 與 baseline 的實驗結(jié)果對比
在實驗中,我們評估了抓取成功率、姿態(tài)多樣性及生成效率三個指標(biāo)。抓取結(jié)果在 10 個全新物體上進(jìn)行了測試,使用 Barrett、Allegro 和 ShadowHand 三款靈巧手進(jìn)行比較。圖 3 表顯示,我們的方法在所有靈巧手上都顯著超越了現(xiàn)有方法的成功率,驗證了方法的有效性。此外,生成速度亦大幅優(yōu)于其他方法,這對靈巧操控任務(wù)至關(guān)重要。
圖 4 生成抓取與 baseline 失敗抓取可視化
與基準(zhǔn)方法相比,我們的方法生成的抓取姿態(tài)更自然且魯棒,而基準(zhǔn)方法易產(chǎn)生不自然、穿透嚴(yán)重且穩(wěn)定性差的抓取。
圖 5 不同條件下實驗結(jié)果對比
從圖 5 表前兩行可見,跨智能體訓(xùn)練較單一機(jī)器人訓(xùn)練在成功率上略有提升,證明了跨智能體的良好泛化能力。即便輸入部分點云,我們的方法也能取得優(yōu)異表現(xiàn),展示了其廣泛適用性。
圖 6 多樣化的抓取姿態(tài)生成
由于訓(xùn)練數(shù)據(jù)中輸入和抓取旋轉(zhuǎn)已對齊,模型能隱式映射這些旋轉(zhuǎn),從而根據(jù)輸入方向生成適宜抓取姿態(tài)。如圖 6 所示,六個不同方向下模型均生成可行抓取,體現(xiàn)方法的可控性。同時,通過從正態(tài)分布中采樣隱變量,模型在相同方向上生成多個抓取姿態(tài),展現(xiàn)多樣性。
圖 7 預(yù)訓(xùn)練點云匹配可視化
圖 7 展示了預(yù)訓(xùn)練模型捕捉到的不同配置下幾何特征的對齊關(guān)系,不同機(jī)器人手間的強(qiáng)匹配性突顯了特征的遷移能力。正如圖 3 表所示,去除預(yù)訓(xùn)練參數(shù)直接訓(xùn)練編碼器會導(dǎo)致性能顯著下降,進(jìn)一步證明預(yù)訓(xùn)練的重要性。
圖 8 真機(jī)實驗效果
在真實機(jī)器人實驗中,算法部署到 XArm 和 LeapHand 上,并在 10 個全新物體實驗中達(dá)成 89% 成功率,展現(xiàn)了方法在靈巧抓取中的有效性和良好泛化能力。更多實驗視頻請見項目主頁。
四、總結(jié)
在本論文中,我們提出了一種基于相對距離矩陣 D(R,O) 的新穎表征方法,用于捕捉機(jī)器人手與物體之間的交互信息,從而提升靈巧手的抓取性能。與現(xiàn)有方法過于依賴特定物體或機(jī)器手表示的局限性不同,我們的方法通過引入統(tǒng)一框架彌合了這種差距,并在不同機(jī)器人和物體幾何形狀之間實現(xiàn)了良好的泛化能力。此外,我們設(shè)計的預(yù)訓(xùn)練方法有效增強(qiáng)了模型適應(yīng)不同手部配置的能力,從而支持廣泛的機(jī)器人系統(tǒng)應(yīng)用。實驗結(jié)果表明,我們的方法在抓取成功率、姿態(tài)多樣性以及計算效率方面均取得了顯著提升,為靈巧抓取任務(wù)提供了新的解決方案。