加勒比一本大道香蕉大在线,精品剧情v国产在线麻豆

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:20:51 瀏覽：2931次

導(dǎo)讀：劃重點(diǎn) 01斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出數(shù)字表親概念，有效降低真實(shí)轉(zhuǎn)模擬成本并提升學(xué)習(xí)泛化性能。 02數(shù)字表親并非真實(shí)物體的虛擬對(duì)應(yīng)，而只是具有相似的幾何和語(yǔ)義特質(zhì)和屬性。 03該團(tuán)隊(duì)提出自動(dòng)數(shù)字表親創(chuàng)建(ACDC)方法，可生成完全可交互的場(chǎng)景以及訓(xùn)練可零樣...

劃重點(diǎn)

01斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出數(shù)字表親概念，有效降低真實(shí)轉(zhuǎn)模擬成本并提升學(xué)習(xí)泛化性能。

02數(shù)字表親并非真實(shí)物體的虛擬對(duì)應(yīng)，而只是具有相似的幾何和語(yǔ)義特質(zhì)和屬性。

03該團(tuán)隊(duì)提出自動(dòng)數(shù)字表親創(chuàng)建(ACDC)方法，可生成完全可交互的場(chǎng)景以及訓(xùn)練可零樣本方式部署的機(jī)器人策略。

04實(shí)驗(yàn)結(jié)果顯示，基于數(shù)字表親訓(xùn)練得到的策略在零樣本虛擬→真實(shí)遷移條件下，能以90%的成功率勝過數(shù)字孿生的25%。

05與在數(shù)字孿生上訓(xùn)練的策略相比，使用數(shù)字表親訓(xùn)練的策略表現(xiàn)出相當(dāng)?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能，且支持零樣本模擬到現(xiàn)實(shí)的策略轉(zhuǎn)移。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

機(jī)器之心報(bào)道

編輯：澤南、Panda

不百分百還原出虛擬場(chǎng)景，效果反而更好。

我們很多人都聽說過數(shù)字孿生（digital twin），在英偉達(dá)等公司的大力推動(dòng)下，這種高效運(yùn)營(yíng)工作流程的方法已經(jīng)在很多工業(yè)場(chǎng)景中得到應(yīng)用。

但你聽說過數(shù)字表親（digital cousin）嗎？

近日，斯坦福大學(xué)李飛飛團(tuán)隊(duì)就做出了一個(gè)這樣的研究，其可有效地將真實(shí)數(shù)據(jù)變成適用于機(jī)器人學(xué)習(xí)的模擬數(shù)據(jù) 在降低真實(shí)轉(zhuǎn)模擬成本的同時(shí)還能提升學(xué)習(xí)的泛化性能。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

簡(jiǎn)單來說，你只需拍一張照片，就能將照片中的物體變成虛擬版本，并且這個(gè)數(shù)字虛擬版本還不是照片中物體的一比一復(fù)刻，而是存在一定的變化。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

我們知道，在真實(shí)世界中訓(xùn)練機(jī)器人并不安全，而且成本很高，難以大規(guī)模擴(kuò)展。這就是模擬的用武之地，其成本低，并且可以源源不斷地獲取訓(xùn)練數(shù)據(jù)。但是，模擬的問題也很明顯，模擬環(huán)境和真實(shí)環(huán)境總歸不一樣，存在含義和物理機(jī)制上的差異。

為了解決這種差異，數(shù)字孿生的概念誕生了。簡(jiǎn)單來說，數(shù)字孿生就是為真實(shí)場(chǎng)景構(gòu)建一個(gè)虛擬副本，但其成本很高，并且難以實(shí)現(xiàn)跨域泛化。

為了解決這些局限，李飛飛團(tuán)隊(duì)提出了數(shù)字表親（digital cousin）的概念。不同于數(shù)字孿生，數(shù)字表親并不是真實(shí)物體的虛擬對(duì)應(yīng)，而只是具有相似的幾何和語(yǔ)義特質(zhì)和屬性。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

論文標(biāo)題：ACDC: Automated Creation of Digital Cousins for Robust Policy Learning

論文鏈接：https://arxiv.org/abs/2410.07408

項(xiàng)目地址：https://digital-cousins.github.io/

如此一來，數(shù)字表親既能降低生成相似的虛擬環(huán)境的成本，還能通過提供相似訓(xùn)練場(chǎng)景的分布而實(shí)現(xiàn)更好的跨域泛化�；跀�(shù)字表親，該團(tuán)隊(duì)提出了一種用于自動(dòng)創(chuàng)建數(shù)字表親的全新方法，該方法就叫做自動(dòng)數(shù)字表親創(chuàng)建（Automatic Creation of Digital Cousins），簡(jiǎn)稱 ACDC。

他們還提出了一種全自動(dòng)的「真實(shí)→虛擬→真實(shí)」流程，可用于生成完全可交互的場(chǎng)景以及訓(xùn)練可以零樣本方式部署在原始場(chǎng)景中的機(jī)器人策略。

結(jié)果表明，ACDC 得到的數(shù)字表親可以成功保留幾何與語(yǔ)義特質(zhì)和屬性，同時(shí)訓(xùn)練得到的機(jī)器人策略也優(yōu)于使用數(shù)字孿生得到的策略：在零樣本虛擬→真實(shí)遷移條件下，能以 90% 的成功率勝過數(shù)字孿生的 25%。

方法概述

ACDC 由三個(gè)連續(xù)步驟構(gòu)成：

首先，從輸入的 RGB 圖像中提取出每個(gè)物體的相關(guān)信息。

接下來，基于一個(gè)資產(chǎn)數(shù)據(jù)集，使用該信息來為每個(gè)檢測(cè)到的輸入物體匹配數(shù)字表親。

最后，對(duì)選取的數(shù)字表親進(jìn)行后處理，生成一個(gè)完全可交互的模擬場(chǎng)景。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

實(shí)驗(yàn)

該團(tuán)隊(duì)進(jìn)行一系列實(shí)驗(yàn)，試圖解答以下研究問題：

問題 1：ACDC 能否得到高質(zhì)量的數(shù)字表親場(chǎng)景？給定一張 RGB 圖像，ACDC 能否捕獲原始場(chǎng)景中固有的高層級(jí)語(yǔ)義和空間細(xì)節(jié)？

問題 2：當(dāng)在原始設(shè)置上進(jìn)行評(píng)估時(shí)，基于數(shù)字表親訓(xùn)練得到的策略能否與基于數(shù)字孿生得到的策略相媲美？

問題 3：相比于基于數(shù)字孿生訓(xùn)練得到的策略，基于數(shù)字表親訓(xùn)練得到的策略是否更加穩(wěn)健

問題 4：基于數(shù)字表親訓(xùn)練得到的策略能否實(shí)現(xiàn)零樣本「虛擬→真實(shí)」策略遷移

通過 ACDC 進(jìn)行場(chǎng)景重建

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

在模擬 - 模擬場(chǎng)景中，ACDC 對(duì)場(chǎng)景重建進(jìn)行定量和定性評(píng)估。

其中，「Scale」是輸入場(chǎng)景中兩個(gè)物體的邊界框之間的最大距離。「Cat.」表示正確分類的物體與場(chǎng)景中物體總數(shù)的比例。「Mod.」顯示正確建模的物體與場(chǎng)景中物體總數(shù)的比例�！窵2 Dist.」提供輸入和重建場(chǎng)景中邊界框中心之間的歐幾里得距離的平均值和標(biāo)準(zhǔn)差�！窸ri. Diff.」表示每個(gè)中心對(duì)稱物體的方向幅度差異的平均值和標(biāo)準(zhǔn)差�！窧box IoU」表示資產(chǎn) 3D 邊界框的交并比 (IoU)。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

定性 ACDC 真實(shí) - 模擬場(chǎng)景重建結(jié)果。針對(duì)給定場(chǎng)景顯示多個(gè)表親。

基于這些結(jié)果，我們可以放心地回答問題 1：ACDC 確實(shí)可以保留輸入場(chǎng)景的語(yǔ)義和空間細(xì)節(jié)，從單個(gè) RGB 圖像生成現(xiàn)實(shí)世界對(duì)象的表親，這些表親可以準(zhǔn)確定位和擴(kuò)展，以匹配原始場(chǎng)景。

使用數(shù)字表親進(jìn)行模擬 - 模擬策略學(xué)習(xí)

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

模擬-模擬策略結(jié)果。

在精確孿生、不同數(shù)量的表親和三個(gè)最近類別的所有資產(chǎn)上訓(xùn)練的策略的匯總成功率。策略在四種設(shè)置上進(jìn)行測(cè)試：精確數(shù)字孿生和三種越來越不相似的設(shè)置（以 DINOv2 嵌入距離為衡量標(biāo)準(zhǔn)）以探測(cè)零樣本泛化。請(qǐng)注意，對(duì)于任務(wù) 3，使任務(wù)可行的櫥柜模型要少得多，因此這里僅比較數(shù)字孿生和 8 個(gè)表親的策略。

使用數(shù)字表親進(jìn)行模擬-真實(shí)策略學(xué)習(xí)

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

數(shù)字孿生與數(shù)字表親策略的零樣本真實(shí)世界評(píng)估。任務(wù)是打開宜家櫥柜的門，衡量標(biāo)準(zhǔn)是成功率：模擬 / 真實(shí)結(jié)果在 50/20 次試驗(yàn)中取平均值。

真實(shí)-模擬-真實(shí)的場(chǎng)景生成和策略學(xué)習(xí)

全自動(dòng)數(shù)字表親生成。ACDC 的無(wú)剪切視頻完全自動(dòng)執(zhí)行，為真實(shí)廚房場(chǎng)景生成了多個(gè)數(shù)字表親。ACDC 步驟 1 末尾的軸對(duì)齊邊界框無(wú)需加速即可做到可視化。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景

零樣本模擬到真實(shí)世界策略遷移。專門從上面生成的四個(gè)數(shù)字表親訓(xùn)練的模擬策略，我們可以零樣本遷移到相應(yīng)的真實(shí)廚房場(chǎng)景。

基于這些結(jié)果，我們可以放心地回答問題 2、3、4：與在數(shù)字孿生上訓(xùn)練的策略相比，使用數(shù)字表親訓(xùn)練的策略表現(xiàn)出相當(dāng)?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能，并且可以實(shí)現(xiàn)零樣本模擬到真實(shí)策略遷移。

結(jié)論

作為一種全自動(dòng)管道，ACDC 用于快速生成與單個(gè)現(xiàn)實(shí)世界 RGB 圖像相對(duì)應(yīng)的完全交互式數(shù)字表親場(chǎng)景。我們可以發(fā)現(xiàn)，利用這些數(shù)字表親訓(xùn)練的策略比在數(shù)字孿生上訓(xùn)練的策略更穩(wěn)健，具有可媲美的域內(nèi)性能和卓越的域外泛化能力，同時(shí)也支持零樣本模擬到現(xiàn)實(shí)的策略轉(zhuǎn)移。

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:20:51 瀏覽：2931次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:20:51 瀏覽：2931次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機(jī)器人訓(xùn)練場(chǎng)景
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:20:51 瀏覽：2931次