來源:MIT Technology Review
教會機器人在新環(huán)境中導航是個棘手的任務(wù)。你可以利用人類錄制的真實世界數(shù)據(jù)對它們進行訓練,但這些數(shù)據(jù)不僅稀缺,還需要高昂的成本來收集。數(shù)字模擬是一種快速且可擴展的訓練方式,但機器人常常在從虛擬世界轉(zhuǎn)移到現(xiàn)實環(huán)境后難以完成相同的任務(wù)。
如今,有了一種潛在的更優(yōu)方案:一個結(jié)合生成式 AI 模型和物理模擬器的新系統(tǒng),用于創(chuàng)建更貼近物理世界的虛擬訓練場。通過這種方法訓練的機器人,在現(xiàn)實世界測試中的成功率比采用傳統(tǒng)技術(shù)訓練的機器人更高。
研究人員使用這一名為 LucidSim 的系統(tǒng)訓練了一只機器狗進行跑酷,使其能夠爬過箱子、上樓梯,盡管它從未接觸過任何真實世界的數(shù)據(jù)。這種方法展現(xiàn)了生成式 AI 在教機器人執(zhí)行復(fù)雜任務(wù)方面的潛力,也提出了一個可能性:我們或許最終能完全在虛擬世界中訓練機器人。相關(guān)研究已于上周的機器人學習會議(Conference on Robot Learning, CoRL)上發(fā)表。
“我們正處于機器人領(lǐng)域的工業(yè)革命之中,”MIT 計算機科學與人工智能實驗室(MIT CSAIL)的博士后研究員 Ge Yang 說道,他參與了這一項目。“這是我們嘗試理解這些生成式 AI 模型在其原本預(yù)期用途之外的影響,希望這能引領(lǐng)我們邁向下一代工具和模型!
LucidSim 使用生成式 AI 模型的組合來創(chuàng)建視覺訓練數(shù)據(jù)。研究人員首先為 ChatGPT 生成了數(shù)千個提示,讓其創(chuàng)建涵蓋多種環(huán)境的描述,這些環(huán)境代表了機器人可能在現(xiàn)實世界中遇到的條件,包括不同的天氣、時間和光照條件。例如,“一個古老的小巷,兩旁是茶館和小而別致的商店,每家店鋪都陳列著傳統(tǒng)飾品和書法作品”,“陽光照亮了一片有些凌亂的草坪,草地上點綴著干枯的斑點”。
這些描述隨后被輸入一個系統(tǒng),該系統(tǒng)將 3D 幾何和物理數(shù)據(jù)映射到 AI 生成的圖像上,從而創(chuàng)建一系列短視頻,為機器人繪制軌跡。這些信息幫助機器人計算它需要導航的物體的高度、寬度和深度,例如一個箱子或一段樓梯。
研究人員通過讓一只配備攝像頭的四足機器人完成多項任務(wù)來測試LucidSim的性能,包括找到一個交通錐或足球,爬過一個箱子,以及上下樓梯。結(jié)果顯示,機器人使用 LucidSim 時的表現(xiàn)明顯優(yōu)于使用傳統(tǒng)模擬系統(tǒng)時的表現(xiàn)。在尋找交通錐的 20 次測試中,LucidSim 實現(xiàn)了 100% 的成功率,而使用傳統(tǒng)模擬系統(tǒng)的成功率僅為 70%。同樣,在另一組 20 次找到足球的測試中,LucidSim 的成功率為 85%,而傳統(tǒng)系統(tǒng)僅為 35%。
最后,當機器人運行 LucidSim 時,它在所有 10 次樓梯攀爬測試中都成功完成了任務(wù),而傳統(tǒng)系統(tǒng)的成功率僅為 50%。
來源:MIT Technology Review | 從左到右:Phillip Isola, Ge Yang, and Alan Yu
“如果 LucidSim 能夠直接利用先進的生成式視頻模型,而不是現(xiàn)在這種語言、圖像和物理模型的拼接組合,未來的結(jié)果可能會進一步改善,”MIT 副教授 Phillip Isola說,他參與了這項研究。
紐約大學博士生 Mahi Shafiullah 也表示,研究人員采用生成式 AI 的方式是一種新穎的嘗試,將為更多有趣的新研究鋪平道路。他目前使用 AI 模型訓練機器人,但并未參與該項目。他補充道:“在我看來,更有趣的方向是結(jié)合真實數(shù)據(jù)和逼真的‘想象’數(shù)據(jù),這樣可以幫助我們現(xiàn)有的依賴數(shù)據(jù)的方法更快更好地擴展!
華為的資深研究科學家 Zafeirios Fountas,專注于腦啟發(fā)式 AI,他指出,能夠完全基于 AI 生成的情境和場景從零開始訓練機器人是一個重要成就,其影響可能不僅限于機器,還能擴展到更廣泛的通用 AI 智能體。
“這里‘機器人’的定義非常廣泛,我們談?wù)摰氖侨魏我环N與現(xiàn)實世界交互的 AI,”Fountas 說!拔铱梢韵胂筮@一技術(shù)被用于控制各種視覺信息,從機器人和自動駕駛汽車到電腦屏幕或智能手機的操作。”
關(guān)于下一步研究,作者計劃嘗試使用完全合成的數(shù)據(jù)訓練人形機器人。他們承認這是一個雄心勃勃的目標,因為雙足機器人通常比四足機器人更不穩(wěn)定。他們還將目光投向另一個新挑戰(zhàn):利用 LucidSim 訓練用于工廠和廚房的機器人手臂。這些任務(wù)需要比在場景中奔跑更高的靈活性和物理理解能力。
“例如實際拿起一杯咖啡并將其倒出,這是一個非常困難且尚未解決的開放性問題,”Isola 說!叭绻覀兡軌蚶蒙墒 AI 增強的模擬來創(chuàng)造大量的多樣性,并訓練出一個能夠在咖啡館中操作的非常強大的智能體,我覺得那將非?。”
原文鏈接:
https://www.technologyreview.com/2024/11/12/1106811/generative-ai-taught-a-robot-dog-to-scramble-around-a-new-environment/