自機器人誕生以來,該領(lǐng)域的從業(yè)者一直希望制造出可以完成各種家務(wù)的機器人。但長期以來,這只是一個難以實現(xiàn)的夢想。
雖然機器人學(xué)家已經(jīng)能夠讓機器人在實驗室里做一些令人印象深刻的事情,比如跑酷,但這些任務(wù)通常需要在嚴格控制的環(huán)境中進行細致的規(guī)劃。
這使得機器人很難在家里可靠地工作,尤其是有兒童和寵物的家庭。此外,每間房子的構(gòu)造都不一樣,還會有各種混亂的狀況出現(xiàn)。
機器人領(lǐng)域有一個著名的觀察結(jié)果,稱為莫拉維克悖論:人類覺得困難的東西對機器而言是容易的,而對人類來說容易的東西機器人卻很難完成。
現(xiàn)在有了人工智能,這種情況正在改變。機器人開始能夠完成折疊衣物和烹飪等任務(wù),而不久前,這些任務(wù)還被視為是幾乎不可能完成的任務(wù)。
在最新一期《麻省理工科技評論》雜志的封面故事中,我研究了機器人領(lǐng)域是如何迎來它的轉(zhuǎn)折點的。
機器人研究領(lǐng)域出現(xiàn)了非常令人興奮的(技術(shù))融合,這可能(只是可能)會讓機器人走出實驗室,進入我們的家。
以下是機器人即將迎來“ChatGPT 時刻”的三個原因。
廉價的硬件使研究更容易完成
機器人很貴。高度復(fù)雜的機器人起步就要數(shù)十萬美元,這使得大多數(shù)研究人員沒能力購買它們。例如,最早一批家用機器人 PR2,重達 200 公斤,售價 40 萬美元。
但新的、更便宜的機器人讓更多的研究人員能夠做一些很酷的事情。初創(chuàng)公司 Hello robot 開發(fā)并推出了一種名為 Stretch 的新機器人,價格約為 18000 美元,重約 22.6 公斤。
它有一個小的移動底座,一個掛著攝像頭的桿子,一個可調(diào)節(jié)的手臂,末端有一個吸盤,可以用控制器控制。
與此同時,美國斯坦福大學(xué)的一個團隊構(gòu)建了一個名為 Mobile ALOHA(“低成本開源硬件遠程操作系統(tǒng)”的縮寫)的系統(tǒng),該系統(tǒng)僅依靠 20 個人類演示和其他任務(wù)的數(shù)據(jù)就學(xué)會了烹飪蝦。
他們使用現(xiàn)成的組件拼湊出了價格更低的機器人,價格為數(shù)萬美元,而不是數(shù)十萬。
人工智能正在幫助我們構(gòu)建“機器人大腦”
這些新機器人的軟件有別于過去的機器人。由于人工智能的蓬勃發(fā)展,現(xiàn)在的研究重點正從讓昂貴的機器人變得更靈活,轉(zhuǎn)變?yōu)橐陨窠?jīng)網(wǎng)絡(luò)的形式構(gòu)建“通用機器人大腦”。
機器人學(xué)家已經(jīng)開始使用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)來創(chuàng)建系統(tǒng),在環(huán)境中不斷練習(xí)和學(xué)習(xí),并相應(yīng)地調(diào)整它們的行為,而不是傳統(tǒng)的規(guī)劃和訓(xùn)練。
2023 年夏天,谷歌推出了一款名為 RT-2 的視覺語言動作模型。該模型通過網(wǎng)絡(luò)文本和圖像以及自己的互動來獲得對世界的總體理解。它將這些數(shù)據(jù)轉(zhuǎn)化為機器人動作。
豐田研究所(Toyota Research Institute)、哥倫比亞大學(xué)和麻省理工學(xué)院的研究人員已經(jīng)能夠借助一種名為模仿學(xué)習(xí)的人工智能學(xué)習(xí)技術(shù)和生成式人工智能,快速教機器人完成許多新任務(wù)。
他們相信自己已經(jīng)找到了一種方法,將推動生成式人工智能技術(shù)從文本、圖像和視頻領(lǐng)域擴展到機器人運動領(lǐng)域。
許多人都在嘗試生成式人工智能。Covariant 是一家從 OpenAI 現(xiàn)已關(guān)閉的機器人研究部門剝離出來的機器人初創(chuàng)公司,它建立了一個名為 RFM-1 的多模態(tài)模型。
它可以接受文本、圖像、視頻、機器人指令或測量(數(shù)據(jù))形式的提示。生成式人工智能使機器人既能理解指令,又能生成與這些任務(wù)相關(guān)的圖像或視頻。
更多的數(shù)據(jù),更多的技能
GPT-4 等大型人工智能模型的強大能力源于從互聯(lián)網(wǎng)上收集的大量數(shù)據(jù)。但這并不適用于機器人,因為機器人需要專門為機器人收集的數(shù)據(jù)。
它們需要如何打開洗衣機和冰箱的演示數(shù)據(jù),還有如何拿起盤子,如何折疊衣物等等。目前這些數(shù)據(jù)非常稀缺,人類需要很長時間才能收集到。
谷歌 DeepMind 發(fā)起了一項名為“開放 X 化身協(xié)作”的新舉措,旨在改變這一現(xiàn)狀。
2023 年,該公司與 34 個研究實驗室,約 150 名研究人員合作,收集了 22 種不同機器人的數(shù)據(jù),其中也包括 Hello robot 的 Stretch 機器人。
由此得到的數(shù)據(jù)集于 2023 年 10 月發(fā)布,里面的機器人展示了 527 種技能,如拿起東西、推動和移動。
(來源:TOYOTA RESEARCH INSTITUTE)
早期跡象表明,更多的數(shù)據(jù)正在催生更智能的機器人。研究人員為機器人構(gòu)建了兩個版本的模型,稱為 RT-X,可以在各個實驗室的計算機上本地運行,也可以通過網(wǎng)絡(luò)訪問。
更大的、可通過網(wǎng)絡(luò)訪問的模型是用互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的,以從大型語言和圖像模型中發(fā)展“視覺常識”,或?qū)κ澜绲幕纠斫狻?/p>
當研究人員在許多不同的機器人上運行 RT-X 模型時,他們發(fā)現(xiàn)這些機器人學(xué)習(xí)技能的成功率比每個實驗室正在開發(fā)的系統(tǒng)高出 50%。
支持:Ren
運營/排版:何晨龍