劃重點(diǎn)
01斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出數(shù)字表親概念,有效降低真實(shí)轉(zhuǎn)模擬成本并提升學(xué)習(xí)泛化性能。
02數(shù)字表親并非真實(shí)物體的虛擬對(duì)應(yīng),而只是具有相似的幾何和語(yǔ)義特質(zhì)和屬性。
03該團(tuán)隊(duì)提出自動(dòng)數(shù)字表親創(chuàng)建(ACDC)方法,可生成完全可交互的場(chǎng)景以及訓(xùn)練可零樣本方式部署的機(jī)器人策略。
04實(shí)驗(yàn)結(jié)果顯示,基于數(shù)字表親訓(xùn)練得到的策略在零樣本虛擬→真實(shí)遷移條件下,能以90%的成功率勝過數(shù)字孿生的25%。
05與在數(shù)字孿生上訓(xùn)練的策略相比,使用數(shù)字表親訓(xùn)練的策略表現(xiàn)出相當(dāng)?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能,且支持零樣本模擬到現(xiàn)實(shí)的策略轉(zhuǎn)移。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
機(jī)器之心報(bào)道
編輯:澤南、Panda
不百分百還原出虛擬場(chǎng)景,效果反而更好。
我們很多人都聽說過數(shù)字孿生(digital twin),在英偉達(dá)等公司的大力推動(dòng)下,這種高效運(yùn)營(yíng)工作流程的方法已經(jīng)在很多工業(yè)場(chǎng)景中得到應(yīng)用。
但你聽說過數(shù)字表親(digital cousin)嗎?
近日,斯坦福大學(xué)李飛飛團(tuán)隊(duì)就做出了一個(gè)這樣的研究,其可有效地將真實(shí)數(shù)據(jù)變成適用于機(jī)器人學(xué)習(xí)的模擬數(shù)據(jù) 在降低真實(shí)轉(zhuǎn)模擬成本的同時(shí)還能提升學(xué)習(xí)的泛化性能。
簡(jiǎn)單來說,你只需拍一張照片,就能將照片中的物體變成虛擬版本,并且這個(gè)數(shù)字虛擬版本還不是照片中物體的一比一復(fù)刻,而是存在一定的變化。
我們知道,在真實(shí)世界中訓(xùn)練機(jī)器人并不安全,而且成本很高,難以大規(guī)模擴(kuò)展。這就是模擬的用武之地,其成本低,并且可以源源不斷地獲取訓(xùn)練數(shù)據(jù)。但是,模擬的問題也很明顯,模擬環(huán)境和真實(shí)環(huán)境總歸不一樣,存在含義和物理機(jī)制上的差異。
為了解決這種差異,數(shù)字孿生的概念誕生了。簡(jiǎn)單來說,數(shù)字孿生就是為真實(shí)場(chǎng)景構(gòu)建一個(gè)虛擬副本,但其成本很高,并且難以實(shí)現(xiàn)跨域泛化。
為了解決這些局限,李飛飛團(tuán)隊(duì)提出了數(shù)字表親(digital cousin)的概念。不同于數(shù)字孿生,數(shù)字表親并不是真實(shí)物體的虛擬對(duì)應(yīng),而只是具有相似的幾何和語(yǔ)義特質(zhì)和屬性。
論文標(biāo)題:ACDC: Automated Creation of Digital Cousins for Robust Policy Learning
論文鏈接:https://arxiv.org/abs/2410.07408
項(xiàng)目地址:https://digital-cousins.github.io/
如此一來,數(shù)字表親既能降低生成相似的虛擬環(huán)境的成本,還能通過提供相似訓(xùn)練場(chǎng)景的分布而實(shí)現(xiàn)更好的跨域泛化;跀(shù)字表親,該團(tuán)隊(duì)提出了一種用于自動(dòng)創(chuàng)建數(shù)字表親的全新方法,該方法就叫做自動(dòng)數(shù)字表親創(chuàng)建(Automatic Creation of Digital Cousins),簡(jiǎn)稱 ACDC。
他們還提出了一種全自動(dòng)的「真實(shí)→虛擬→真實(shí)」流程,可用于生成完全可交互的場(chǎng)景以及訓(xùn)練可以零樣本方式部署在原始場(chǎng)景中的機(jī)器人策略。
結(jié)果表明,ACDC 得到的數(shù)字表親可以成功保留幾何與語(yǔ)義特質(zhì)和屬性,同時(shí)訓(xùn)練得到的機(jī)器人策略也優(yōu)于使用數(shù)字孿生得到的策略:在零樣本虛擬→真實(shí)遷移條件下,能以 90% 的成功率勝過數(shù)字孿生的 25%。
方法概述
ACDC 由三個(gè)連續(xù)步驟構(gòu)成:
首先,從輸入的 RGB 圖像中提取出每個(gè)物體的相關(guān)信息。
接下來,基于一個(gè)資產(chǎn)數(shù)據(jù)集,使用該信息來為每個(gè)檢測(cè)到的輸入物體匹配數(shù)字表親。
最后,對(duì)選取的數(shù)字表親進(jìn)行后處理,生成一個(gè)完全可交互的模擬場(chǎng)景。
實(shí)驗(yàn)
該團(tuán)隊(duì)進(jìn)行一系列實(shí)驗(yàn),試圖解答以下研究問題:
問題 1:ACDC 能否得到高質(zhì)量的數(shù)字表親場(chǎng)景?給定一張 RGB 圖像,ACDC 能否捕獲原始場(chǎng)景中固有的高層級(jí)語(yǔ)義和空間細(xì)節(jié)?
問題 2:當(dāng)在原始設(shè)置上進(jìn)行評(píng)估時(shí),基于數(shù)字表親訓(xùn)練得到的策略能否與基于數(shù)字孿生得到的策略相媲美?
問題 3:相比于基于數(shù)字孿生訓(xùn)練得到的策略,基于數(shù)字表親訓(xùn)練得到的策略是否更加穩(wěn)健
問題 4:基于數(shù)字表親訓(xùn)練得到的策略能否實(shí)現(xiàn)零樣本「虛擬→真實(shí)」策略遷移
通過 ACDC 進(jìn)行場(chǎng)景重建
在模擬 - 模擬場(chǎng)景中,ACDC 對(duì)場(chǎng)景重建進(jìn)行定量和定性評(píng)估。
其中,「Scale」是輸入場(chǎng)景中兩個(gè)物體的邊界框之間的最大距離。「Cat.」表示正確分類的物體與場(chǎng)景中物體總數(shù)的比例。「Mod.」顯示正確建模的物體與場(chǎng)景中物體總數(shù)的比例!窵2 Dist.」提供輸入和重建場(chǎng)景中邊界框中心之間的歐幾里得距離的平均值和標(biāo)準(zhǔn)差!窸ri. Diff.」表示每個(gè)中心對(duì)稱物體的方向幅度差異的平均值和標(biāo)準(zhǔn)差!窧box IoU」表示資產(chǎn) 3D 邊界框的交并比 (IoU)。
定性 ACDC 真實(shí) - 模擬場(chǎng)景重建結(jié)果。針對(duì)給定場(chǎng)景顯示多個(gè)表親。
基于這些結(jié)果,我們可以放心地回答問題 1:ACDC 確實(shí)可以保留輸入場(chǎng)景的語(yǔ)義和空間細(xì)節(jié),從單個(gè) RGB 圖像生成現(xiàn)實(shí)世界對(duì)象的表親,這些表親可以準(zhǔn)確定位和擴(kuò)展,以匹配原始場(chǎng)景。
使用數(shù)字表親進(jìn)行模擬 - 模擬策略學(xué)習(xí)
模擬-模擬策略結(jié)果。
在精確孿生、不同數(shù)量的表親和三個(gè)最近類別的所有資產(chǎn)上訓(xùn)練的策略的匯總成功率。策略在四種設(shè)置上進(jìn)行測(cè)試:精確數(shù)字孿生和三種越來越不相似的設(shè)置(以 DINOv2 嵌入距離為衡量標(biāo)準(zhǔn))以探測(cè)零樣本泛化。請(qǐng)注意,對(duì)于任務(wù) 3,使任務(wù)可行的櫥柜模型要少得多,因此這里僅比較數(shù)字孿生和 8 個(gè)表親的策略。
使用數(shù)字表親進(jìn)行模擬-真實(shí)策略學(xué)習(xí)
數(shù)字孿生與數(shù)字表親策略的零樣本真實(shí)世界評(píng)估。任務(wù)是打開宜家櫥柜的門,衡量標(biāo)準(zhǔn)是成功率:模擬 / 真實(shí)結(jié)果在 50/20 次試驗(yàn)中取平均值。
真實(shí)-模擬-真實(shí)的場(chǎng)景生成和策略學(xué)習(xí)
全自動(dòng)數(shù)字表親生成。ACDC 的無(wú)剪切視頻完全自動(dòng)執(zhí)行,為真實(shí)廚房場(chǎng)景生成了多個(gè)數(shù)字表親。ACDC 步驟 1 末尾的軸對(duì)齊邊界框無(wú)需加速即可做到可視化。
零樣本模擬到真實(shí)世界策略遷移。專門從上面生成的四個(gè)數(shù)字表親訓(xùn)練的模擬策略,我們可以零樣本遷移到相應(yīng)的真實(shí)廚房場(chǎng)景。
基于這些結(jié)果,我們可以放心地回答問題 2、3、4:與在數(shù)字孿生上訓(xùn)練的策略相比,使用數(shù)字表親訓(xùn)練的策略表現(xiàn)出相當(dāng)?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能,并且可以實(shí)現(xiàn)零樣本模擬到真實(shí)策略遷移。
結(jié)論
作為一種全自動(dòng)管道,ACDC 用于快速生成與單個(gè)現(xiàn)實(shí)世界 RGB 圖像相對(duì)應(yīng)的完全交互式數(shù)字表親場(chǎng)景。我們可以發(fā)現(xiàn),利用這些數(shù)字表親訓(xùn)練的策略比在數(shù)字孿生上訓(xùn)練的策略更穩(wěn)健,具有可媲美的域內(nèi)性能和卓越的域外泛化能力,同時(shí)也支持零樣本模擬到現(xiàn)實(shí)的策略轉(zhuǎn)移。