劃重點
01MIT研究團隊開發(fā)了一種新方法,將來自多種來源的大量異質(zhì)數(shù)據(jù)整合到一個系統(tǒng)中,訓(xùn)練機器人多種任務(wù)。
02該方法通過對不同領(lǐng)域的數(shù)據(jù)(如仿真數(shù)據(jù)和實際機器人數(shù)據(jù))以及多種模態(tài)(如視覺傳感器和機械臂位置編碼器)進行對齊,將它們轉(zhuǎn)化為一種“通用語言”。
03通過整合大量數(shù)據(jù),這一方法可以用于訓(xùn)練機器人執(zhí)行多種任務(wù),而不必每次都從頭開始訓(xùn)練。
04實驗結(jié)果顯示,這種方法在模擬和現(xiàn)實任務(wù)中的機器人表現(xiàn)相比從零開始的訓(xùn)練提升了超過20%。
05未來,研究人員希望探索數(shù)據(jù)多樣性對HPT性能的提升作用,并計劃增強HPT,使其能夠處理無標(biāo)注數(shù)據(jù)。
以上內(nèi)容由大模型生成,僅供參考
(來源:MIT News)
在經(jīng)典動畫《杰森一家》中,機器人女傭 Rosie 可以輕松地從打掃房間切換到做飯、倒垃圾。然而在現(xiàn)實中,訓(xùn)練一個通用機器人卻是極大的挑戰(zhàn)。
通常,工程師會為某一特定的機器人和任務(wù)收集專門的數(shù)據(jù),在一個受控環(huán)境中對其進行訓(xùn)練。然而,這種數(shù)據(jù)收集不僅成本高昂且耗時,并且機器人在陌生環(huán)境或新任務(wù)下往往難以適應(yīng)。
為了訓(xùn)練更高效的通用機器人,MIT 的研究人員開發(fā)了一種靈活的技術(shù),將來自多種來源的大量異質(zhì)數(shù)據(jù)整合到一個系統(tǒng)中,以此來教授機器人多種任務(wù)。
這種方法通過對來自不同領(lǐng)域的數(shù)據(jù)(如仿真數(shù)據(jù)和實際機器人數(shù)據(jù))以及多種模態(tài)(如視覺傳感器和機械臂位置編碼器)進行對齊,將它們轉(zhuǎn)化為一種“通用語言”,使得生成式 AI 模型可以處理。
通過整合大量數(shù)據(jù),這一方法可以用于訓(xùn)練機器人執(zhí)行多種任務(wù),而不必每次都從頭開始訓(xùn)練。
這種方法不僅比傳統(tǒng)技術(shù)更快速、成本更低,而且在模擬和現(xiàn)實實驗中,相比從零開始的訓(xùn)練提高了超過 20% 的性能。
“在機器人學(xué)領(lǐng)域,大家常說訓(xùn)練數(shù)據(jù)不足。但在我看來,另一個大問題是數(shù)據(jù)來自于太多不同的領(lǐng)域、模態(tài)和機器人硬件。我們的研究展示了如何將這些數(shù)據(jù)整合起來訓(xùn)練機器人!彪姎夤こ膛c計算機科學(xué)(EECS)專業(yè)的研究生、論文第一作者 Lirui Wang 說道。
Wang 的合作者包括同為 EECS 研究生的 Jialiang Zhao、Meta 研究科學(xué)家Xinlei Chen,以及資深作者、EECS 副教授和計算機科學(xué)與人工智能實驗室(CSAIL)成員 Kaiming He。該研究將在神經(jīng)信息處理系統(tǒng)會議上展示。
借鑒 LLM
機器人“策略”會接收來自傳感器的觀測數(shù)據(jù),例如攝像頭圖像或機械臂的速度和位置測量數(shù)據(jù),進而指導(dǎo)機器人如何移動、去往何處。
通常,策略通過模仿學(xué)習(xí)進行訓(xùn)練,即由人類演示操作或遠程控制機器人生成數(shù)據(jù),再將這些數(shù)據(jù)輸入 AI 模型中進行學(xué)習(xí)。然而,由于這種方法使用的任務(wù)數(shù)據(jù)量較少,機器人在環(huán)境或任務(wù)發(fā)生變化時往往表現(xiàn)不佳。
為此,Wang 和他的團隊借鑒了 GPT-4 等大型語言模型的理念。
這些模型在訓(xùn)練初期使用大量多樣化的語言數(shù)據(jù)進行預(yù)訓(xùn)練,隨后再通過少量的任務(wù)數(shù)據(jù)進行微調(diào),如此大量的預(yù)訓(xùn)練數(shù)據(jù)使得模型能適應(yīng)多種任務(wù)。
“語言領(lǐng)域中的數(shù)據(jù)都是句子,而機器人數(shù)據(jù)的多樣性極大。如果想以類似的方式進行預(yù)訓(xùn)練,我們就需要不同的架構(gòu)!彼f道。
機器人的數(shù)據(jù)形式多樣,從攝像頭圖像到語言指令,再到深度圖像。同時,每臺機器人在機械上也各不相同,臂數(shù)、夾持器和傳感器的排列各異,數(shù)據(jù)收集的環(huán)境也千差萬別。
MIT 的研究人員因此開發(fā)了一種新架構(gòu),稱為異質(zhì)預(yù)訓(xùn)練變換器(HPT),將這些不同模態(tài)和領(lǐng)域的數(shù)據(jù)統(tǒng)一起來。
他們在架構(gòu)的核心部分引入了一種名為變換器的機器學(xué)習(xí)模型,用于處理視覺和本體感受(proprioception)輸入。變換器正是大型語言模型的基礎(chǔ)。
研究人員將視覺和本體感受數(shù)據(jù)對齊為一種統(tǒng)一的輸入形式,稱為“token”,變換器可以處理,每種輸入都以相同數(shù)量的 token 表示。
接著,變換器將所有輸入映射到一個共享空間中,隨著數(shù)據(jù)處理和學(xué)習(xí)量的增加,逐漸發(fā)展為一個大型預(yù)訓(xùn)練模型。變換器的規(guī)模越大,其表現(xiàn)也越好。
用戶只需向 HPT 提供少量關(guān)于機器人設(shè)計、設(shè)置和目標(biāo)任務(wù)的數(shù)據(jù),HPT 便能將預(yù)訓(xùn)練期間獲得的知識轉(zhuǎn)移,學(xué)習(xí)新的任務(wù)。
實現(xiàn)靈活操作
開發(fā) HPT 面臨的最大挑戰(zhàn)之一是建立用于預(yù)訓(xùn)練的龐大數(shù)據(jù)集,涵蓋了 52 個數(shù)據(jù)集,包含超過 20 萬條機器人軌跡,分為四個類別,包括人類示范視頻和仿真數(shù)據(jù)。
研究人員還需要開發(fā)一種高效的方法,將來自傳感器陣列的原始本體感受信號轉(zhuǎn)化為變換器可處理的數(shù)據(jù)。
“本體感受對于實現(xiàn)很多靈巧的動作至關(guān)重要。由于在我們的架構(gòu)中 token 數(shù)量總是相同,我們賦予本體感受和視覺相同的重要性,”Wang 解釋道。
在測試中,HPT 在模擬和現(xiàn)實任務(wù)中的機器人表現(xiàn)相比每次從零開始的訓(xùn)練提升了超過 20%。即使任務(wù)與預(yù)訓(xùn)練數(shù)據(jù)差異較大,HPT 的性能仍然得到了提升。
“這篇論文為跨多種機器人結(jié)構(gòu)訓(xùn)練單一策略提供了新的方法。這使得能夠在多樣的數(shù)據(jù)集上進行訓(xùn)練,并大幅擴大了機器人學(xué)習(xí)方法的數(shù)據(jù)集規(guī)模。同時,這種方法還能快速適應(yīng)新的機器人結(jié)構(gòu),這對于新型機器人設(shè)計的不斷出現(xiàn)尤為重要!蔽磪⑴c該研究的卡內(nèi)基梅隆大學(xué)機器人研究所副教授 David Held 說道。
未來,研究人員希望探索數(shù)據(jù)多樣性對 HPT 性能的提升作用,同時計劃增強 HPT,使其能夠像 GPT-4 和其他大型語言模型一樣處理無標(biāo)注數(shù)據(jù)。
“我們的夢想是擁有一個通用的機器人‘大腦’,用戶無需任何訓(xùn)練就能直接下載使用。雖然我們現(xiàn)在還處在起步階段,但會繼續(xù)努力,希望像大型語言模型的突破一樣,在機器人策略上取得突破性進展!彼硎。
該研究部分由亞馬遜大波士頓技術(shù)計劃和豐田研究院資助。
原文鏈接:
https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028