在AI技術飛速發(fā)展的今天,人形機器人正從科幻走向現(xiàn)實。當下最火爆機器人初創(chuàng)公司之一的Figure,正在其創(chuàng)始人Brett Adcock的帶領下,正在人形機器人領域掀起一場前所未有的技術革命。這位有“小馬斯克”之稱的創(chuàng)始人,在近期的訪談中,分享了Figure在人形機器人領域的突破性進展,以及他對未來科技發(fā)展的深刻見解。
Adcock表示,人形機器人是通用人工智能(AGI)的最佳載體,不僅能執(zhí)行復雜任務,還能通過自然交互融入人類生活。他指出,如果AGI只能存在于服務器中,那么它將永遠無法真正融入物理世界。
他認為,人形機器人正在迎來類似智能手機的“iPhone時刻”,成為人類生活中不可或缺的工具。他預測,未來幾年內(nèi),人形機器人的價格將大幅下降,而性能大幅提升,最終實現(xiàn)大規(guī)模普及。
Adcock還預測,在未來五年內(nèi),人形機器人領域需要實現(xiàn)三個關鍵突破:首先,開發(fā)出高度復雜且可靠的硬件,使其能夠在真實環(huán)境中穩(wěn)定運行;其次,通過神經(jīng)網(wǎng)絡賦予機器人類似人類的學習和模仿能力,這在人形機器人上尚未實現(xiàn);最后,解決機器人領域的“圣杯”問題泛化能力,即讓機器人能夠通過語音指令理解并執(zhí)行從未見過的任務,實現(xiàn)端到端的自主操作。
見聞總結要點如下:
人形機器人領域正在發(fā)生類似iPhone時刻的事情,這將是一個巨大的突破。人形機器人即將成為現(xiàn)實。問題是,我們只需要沿著這條曲線繼續(xù)推進,讓它更快地進入家庭。我相信,這將在本世紀發(fā)生。在未來幾年內(nèi),你會看到人形機器人通過語音控制進入家庭,能夠長時間工作而無需任何提示。
如果我們解決了AGI,但它只是存在于某個服務器中,比所有人都更聰明,最終,如果它想在物理世界中做些什么,它將不得不請求人類去做。人形機器人是AGI的終極部署載體。
我們設計的是一種能夠勝任各種任務的機器人,從家庭機器人到遛狗、煮咖啡、洗衣服,再到商業(yè)勞動力大約一半的GDP是人類勞動。這是世界上最大的市場。目標市場規(guī)模是50萬億到60萬億美元。
未來你會看到這些機器人的價格在2萬到3萬美元之間。我們在材料成本方面做了很多工作。如果你從頭開始分解,逐項分析,看看它在大規(guī)模制造中的樣子,系統(tǒng)中目前沒有任何跡象表明這個產(chǎn)品會非常昂貴。
我們需要在接下來的5年左右時間里做到三件從未有人做到的事情。首先,我們需要打造一款極其復雜的人形機器人硬件。其次,你必須通過神經(jīng)網(wǎng)絡,讓機器人像人類一樣學習和模仿。這在人形機器人上從未被解決過......第三,你需要解決一個機器人領域的“圣杯”問題:泛化能力。你需要讓機器人通過語音指令理解它從未見過的任務,并且能夠用一個神經(jīng)網(wǎng)絡完整地執(zhí)行這個任務,從頭到尾。
真正困難的部分是,機器人需要解決家庭環(huán)境中的泛化問題。每個家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會不斷變化。所以,你必須解決這種“語義智能”,也就是人類世界與機器人世界之間的語義連接。
機器人在互相移動時需要進行一定程度的交流。從機器人與人類的互動設計角度來看,這非常重要.....我們需要讓機器人學會人類的表情,就像我們需要它們學會抓取物品一樣。隨著我們大規(guī)模地將機器人引入整個世界,這種能力將變得至關重要。
(人形機器人)有兩個主要的應用方向:勞動力市場和家庭市場。很多人沒有意識到的是,勞動力市場才是最大的市場,它占據(jù)了GDP的一半。機器人在勞動力市場中執(zhí)行的任務大多是重復性的,而家庭市場則像“狂野的西部”,極其復雜。家庭市場的復雜性遠高于勞動力市場。
以下為訪談實錄全文,由AI翻譯
旁白:
非常榮幸能向大家介紹Brett Adcock,F(xiàn)igure的創(chuàng)始人兼首席執(zhí)行官。
主持人:
你們從零開始,在短短31個月內(nèi)就推出了第一臺機器人。
Adcock:
我們每12到18個月設計一個新的硬件平臺。在我提交C公司注冊文件之前,我們的機器人在不到12個月的時間內(nèi)就已經(jīng)能夠行走。我認為在未來幾年,你會看到它通過語音控制被放入家庭中,能夠長時間工作而無需任何提示。人形機器人領域正在發(fā)生類似iPhone時刻的事情,這將是一個巨大的突破。
主持人:
現(xiàn)在,女士們、先生們,這是一個宏偉的目標。我想大多數(shù)人都知道,新聞媒體總是給我們帶來負面消息,因為我們對負面消息的關注度是正面消息的10倍。對我來說,唯一真正值得投入且能影響人類的是科學和技術的使用。這就是我關注的內(nèi)容。每周我都會發(fā)布兩篇博客,一篇關于人工智能和指數(shù)技術,另一篇關于長壽。
好的,讓我們回到這一集。感謝你今天來到這里。是的,謝謝。我知道,你有三個年幼的孩子,還有一個機器人工廠和一個令人難以置信的工程師團隊,你真的很忙。我不會認為這是理所當然的。是的,我唯一的請求是下次我想要一臺Figure機器人。
Adcock:
好的,我明白了。
主持人:
寶馬已經(jīng)預訂了它們的生產(chǎn)線份額。
Adcock:
是的,我們確實有很多。實際上,我們每天都在運行它們。所以,它們今天就在那里運行,就在他們最大的工廠里。
主持人:
為什么你要創(chuàng)辦Figure?我是說,你已經(jīng)取得了令人難以置信的成功,Archer也非常出色。然后你跳進了可能是最難進入的行業(yè)之一。
Adcock:
是的,我認為我們真的需要為AGI找到一種方式來賦予它一個身體。我認為,如果我們解決了AGI,但它只是存在于某個服務器中,比所有人都更聰明,最終,如果它想在物理世界中做些什么,它將不得不請求人類去做。人形機器人是AGI的終極部署載體。你無法用其他東西解決這個問題。你需要某種單一平臺,無需硬件更改就能做人類能做的一切。你還需要某種對神經(jīng)網(wǎng)絡有益的東西。人形機器人中的神經(jīng)網(wǎng)絡可以通過遷移學習實現(xiàn)多任務處理,這非常適合神經(jīng)網(wǎng)絡。因此,我們基本上可以構建一個單一的神經(jīng)網(wǎng)絡基礎模型,為整個機器人提供端到端的全部功能。
主持人:
恭喜你,你們從零開始,在31個月內(nèi)就推出了第一臺機器人,這非常了不起。許多公司在這么長的時間內(nèi)可能只是準備好他們的PPT并籌集了第一筆資金。我將會看到一些機器人,當我上次去北邊拜訪你的時候,向我展示了Figure 1,還有Figure 2,還有Figure 3的設計。
讓我感到真正驚嘆的是你們迭代的速度。你能談談這一點嗎?快速迭代在硬件領域有多重要?因為硬件很難。
Adcock:
是的,這是一個難題。我們必須想出一種從未有人做過的事情。這是一個非常復雜的系統(tǒng),從工程角度來看,它肯定比Archer更復雜,就像建造一架電動飛機一樣。所以,我的經(jīng)驗法則是,第一代或第二代硬件總是會很糟糕。你知道,第一代iPhone并不好。第一次做某事時,你永遠無法一次就做對。硬件就是這樣。你必須能看到五年后的未來,確切地知道產(chǎn)品是什么樣的,然后從第一天起就進行全新的設計。如果你在這些方面犯了錯誤,你可以通過設計過程來修正。你有很長的前置時間、供應鏈,等等。所以,我們每12到18個月設計一個新的硬件平臺。
主持人:
順便說一下,這聽起來真的很令人驚嘆,對吧?每12到18個月就進行一次全新的迭代。
Adcock:
是的,我們在提交C公司注冊文件之前,就已經(jīng)讓Figure 1實現(xiàn)了行走,不到12個月。
主持人:
另一件你們做到的事情是你們實現(xiàn)了完全的垂直整合。
Adcock:
是的,這并不是必要之舉。人形機器人沒有供應鏈。沒有電機供應商,沒有傳感器供應商,沒有電池系統(tǒng)供應商,沒有運動學結構供應商……所有軟件也是如此,相當廣泛。包括固件、嵌入式系統(tǒng)、操作系統(tǒng)、中間件、控制系統(tǒng)。
主持人:
那么,帶我們參觀一下你的工廠吧。你之前已經(jīng)帶我參觀過,但像,設計方面……你是如何從頭開始設計的?
Adcock:
是的,我們從頭開始全新設計所有東西。我們從本質(zhì)上思考產(chǎn)品需要做什么。產(chǎn)品需要能夠與人類交流,并且能夠在沒有任何人類干預的情況下完成任務。它需要能夠出去完成任務。所以,我們設計的是一種能夠勝任各種任務的機器人,從家庭機器人到遛狗、煮咖啡、洗衣服,再到商業(yè)勞動力大約一半的GDP是人類勞動。這是世界上最大的市場。
主持人:
全球GDP是110萬億到120萬億美元。你的目標市場規(guī)模是50萬億到60萬億美元。這很不錯。
Adcock:
是的,這將會成為我們有生之年最大的業(yè)務,遠遠超出其他領域。這個領域……是的,所以,我們從產(chǎn)品需要進入的終端市場開始思考。我們進行所有硬件設計,包括運動學設計、關節(jié)、電機、電池系統(tǒng)、傳感器。我們進行所有軟件設計,包括固件、嵌入式系統(tǒng)、控制系統(tǒng)、所有人工智能工作,端到端。然后我們進行所有測試、制造、集成,并將它們交付給客戶。所以,我們現(xiàn)在有兩家企業(yè)客戶。第一個是寶馬。我們的機器人每天都在那里運行。它們在南卡羅來納州的斯巴達堡,幫助制造汽車。
主持人:
我想我有一些寶馬工廠的視頻,如果我們可以播放背景視頻或重復播放這段視頻。
Adcock:
好的,我們可以播放。我們還有一些機器人在寶馬工廠的視頻。這些機器人基本上是在將金屬板材固定在夾具上。這是世界上每一家大型制造公司都在做的事情。我們的機器人已經(jīng)完全自主地完成了這項任務,達到了我們需要的高性能,沒有人工干預,沒有故障,沒有失敗。
主持人:
沒有藥物測試。沒有病假。沒有休息日。
Adcock:
是的,24/7全天候運行。
主持人:
這很有趣,對吧?讓我跳到另一個問題。從體積上看,我相信我聽到你說過,未來你會看到這些機器人的價格在2萬到3萬美元之間。
Adcock:
是的,我們在材料成本方面做了很多工作。如果你從頭開始分解,逐項分析,看看它在大規(guī)模制造中的樣子,系統(tǒng)中目前沒有任何跡象表明這個產(chǎn)品會非常昂貴。
主持人:
我的計算是,如果我要租一輛3萬美元的車,每月大約是300美元,也就是每天10美元,每小時40美分。所以,我的問題是,如果你每月支付300美元,就能擁有一臺24/7運行、從不抱怨、不會和女朋友或男朋友吵架的機器人,你會想要擁有多少臺呢?我認為,每個人可能都需要擁有多臺。
Adcock:
是的,你會想要一臺的。它們可以在你每天早上醒來時幫助卸下洗碗機,撿起孩子們的玩具。我再也不想做這些事了。你知道,這些事我再也不想做了。我們已經(jīng)很久沒有在家庭中看到創(chuàng)新了,差不多50到70年了。它們是相同的電器,相同的東西。我們需要新的機器人。
主持人:
我們需要舊的,我們現(xiàn)在稱它們?yōu)橄赐霗C。
Adcock:
是的,它們已經(jīng)存在很長時間了。我們?nèi)祟惒坏貌幻刻炫c這些機器打交道。未來你不需要再這樣做了。你只需要和機器人說話,讓它去做。它可以按照時間表工作。你可以隨時呼叫它、發(fā)短信給它、和它說話,讓它去做事,它就會去做。它會比你自己更了解你。
主持人:
我記得幾年前,我很自豪地成為Figure的早期投資者,我把團隊介紹給你。我說,首先,布雷特是一位出色的運營者,有多個成功案例。未來最好的預測器是什么?是一個人在過去做過什么。這確實是未來最好的預測器之一。但我發(fā)現(xiàn)最令人驚嘆的是你組建的團隊。你能談談這一點嗎?因為我認為我們這里有很多觀眾都在關注他們的宏偉目標。這是一個宏偉目標。你退出Archer后,你是如何開始的?你是如何組建團隊的?你能描述一下那個早期時刻嗎?
Adcock:
是的,你知道,我在一生中并沒有創(chuàng)辦過很多公司。每次我都會回去思考,我哪里做錯了?哪里做對了?如何讓事情變得更好。
從根本上說,我花時間思考的是,要打造世界上最偉大的產(chǎn)品,你需要世界上最偉大的團隊。然后你需要將這個團隊與共享愿景對齊,每個人都需要對這個愿景負責,理解它。然后你需要弄清楚如何全力加速。
所以,F(xiàn)igure的整個文化,甚至在我創(chuàng)辦Archer并組建最初的團隊時,都是非常有意識的。即使在Figure,如果你現(xiàn)在去左邊,我們有文化手冊,我們有總體規(guī)劃,我們有一些真正獨特的東西。我們在硅谷,但幾乎與硅谷的風格相反。我們必須每天在辦公室工作。我們每周工作五到七天,非常努力,F(xiàn)在很多人不想這樣,這沒關系。只是他們不適合我們。我們現(xiàn)在已經(jīng)聚集了世界上最好的航空航天工程師。沒有人能接近我們所做到的。
主持人:
是的,這真是令人難以置信。
Adcock:
是的,這太不可思議了。我的整個商業(yè)團隊從Archer時期就和我在一起,現(xiàn)在也在Figure。他們都是出色的運營者。他們給了我能力去專注于產(chǎn)品工程,打造最好的產(chǎn)品。他們幫助擴展業(yè)務,這很棒。招聘、人力資源、法律、財務,各個方面都很出色。所以,團隊非常出色。但更重要的是,我們的文化非常精準。就像每個人都知道自己應該做什么。我不需要進行一對一的溝通,因為我們的團隊有一個共同的愿景,那就是推出產(chǎn)品。這就是我們的動力所在,也是我們所有人共同的目標,這真的很好。這是一個非常困難的事情。人形機器人可能是我從事過的最復雜的項目之一。如果沒有這種文化,我們根本無法實現(xiàn)目標。
主持人:
你知道,我們明天會聽到特拉維斯克朗(Travis Klang)的分享,他也會說類似的話你的“巨大變革目標”、清晰的使命和愿景,以及如何圍繞這些目標來組織團隊和文化。這都始于你。你用自己的資金啟動了這個項目,然后開始聯(lián)系其他公司的人。你當時的說辭是什么?是為了籌集資金,還是為了吸引員工加入?不,是為了讓員工加入。
Adcock:
哦,那么你在2022年的說辭是:“我會資助這個項目多年。你知道,這很昂貴。我們在最初的六個月里就達到了每月100萬美元的燒錢速度。但這并不是說沒有風險,我只是從一開始就全力以赴。我非常清楚我們要做什么。
你知道,Archer在某種程度上就像一架飛行機器人。所以我知道如何組建團隊,我知道產(chǎn)品要做什么。我對動力系統(tǒng)、控制系統(tǒng)、軟件和傳感器的技術細節(jié)有深刻的理解。所以我們很快就行動起來了。我的說辭是:“嘿,我會資助這個項目,所以至少在未來幾年內(nèi)不會有資金風險。我們有機會打造下一個‘iPhone時刻’。人形機器人領域即將迎來這樣的時刻,這將是一個巨大的機遇!
主持人:
那么,你告訴他們成功的概率是多少?
Adcock:
成功的概率很低。我們需要在接下來的5年左右時間里做到三件從未有人做到的事情,否則我們肯定會失敗。首先,我們需要打造一款極其復雜的人形機器人硬件。它不能出故障,必須始終正常工作,并且要以人類的速度和靈活性運行。從來沒有人做到過這一點。比如,波士頓動力的機器人雖然可以跳躍、翻跟頭,但還無法做到像人類一樣靈活地操作物體。這是一個硬件系統(tǒng)的巨大挑戰(zhàn),可能和制造噴氣發(fā)動機一樣復雜。
其次,這是一個神經(jīng)網(wǎng)絡問題,而不是控制問題。你不能通過編寫代碼來解決這個問題。你不能雇傭一堆博士,讓他們?yōu)闄C器人編寫程序來解決每一個問題。你必須通過神經(jīng)網(wǎng)絡,讓機器人像人類一樣學習和模仿。這在人形機器人上從未被解決過,因為這是一個高維度的系統(tǒng),而不是像桌上的機械臂那樣簡單,后者大多數(shù)都沒有人工智能。
第三,你需要解決一個機器人領域的“圣杯”問題:泛化能力。你需要讓機器人通過語音指令理解它從未見過的任務,并且能夠用一個神經(jīng)網(wǎng)絡完整地執(zhí)行這個任務,從頭到尾。
我們需要在2022年解決這些問題。如果我們能做到,我們就會在這個十年內(nèi)取得成功,打造出人形機器人領域的“iPhone時刻”。我們已經(jīng)全面啟動了。但在2022年,這些看起來幾乎是不可能完成的任務。當時,波士頓動力的機器人雖然可以做很多動作,但還遠遠達不到進入家庭所需的靈活性和操作能力。現(xiàn)在,我們可以說我們已經(jīng)在這些方面取得了實質(zhì)性進展。
主持人:
這太令人驚嘆了。
所以,去年有一個關鍵的時刻,你說OpenAI是一個重要的投資者,你們原本計劃使用OpenAI的AI系統(tǒng),但你最終決定自己開發(fā)內(nèi)部的AI系統(tǒng)Helix。你能談談這個決定嗎?我想展示一段關于Figure在家庭中應用的視頻。
Adcock:
好的。你看到的是Helix,這是我們內(nèi)部開發(fā)的大型AI系統(tǒng),它是一個視覺-語言-動作模型。這段視頻是公開的,可以在YouTube上找到?评铮–orey)是Helix團隊的負責人,他給出的指令是“把雜貨放在桌子上”。
但機器人并沒有被告知這些雜貨應該放在哪里,也沒有被告知它們是什么。實際上,我們在訓練中故意沒有讓機器人接觸過這些物品。所以,這是機器人第一次通過自己的攝像頭和傳感器看到這些物品。真正困難的部分是,機器人需要解決家庭環(huán)境中的泛化問題。每個家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會不斷變化。所以,你必須解決這種“語義智能”,也就是人類世界與機器人世界之間的語義連接。
Helix能夠通過單個神經(jīng)網(wǎng)絡在每個機器人之間進行通信,并且能夠將這些物品正確地放置到位。這可能是機器人歷史上最重要的AI更新。未來所有能動的物體都將是機器人,它們將由像這樣的AI代理驅動。這個系統(tǒng)是用非常少的數(shù)據(jù)訓練的,只有500小時的數(shù)據(jù)。
主持人:
我非常喜歡他們互相看著對方以確認的方式,比如“是的,我明白了”,或者“哦,把那個東西放在那里是個好主意”。
Adcock:
是的,這確實很有趣。部分原因是這種行為是從訓練中自然產(chǎn)生的。當機器人進行物品交接時,它們實際上會互相看一眼,這是一種信號,表明它們應該在何時松開或抓住物品,以防止物品掉落。這種行為是從訓練中自然產(chǎn)生的,非常有趣。另一個原因是,機器人在互相移動時需要進行一定程度的交流。從機器人與人類的互動設計角度來看,這非常重要。你不想走進一個房間,看到機器人只是呆呆地站著,不看你,也不做出任何反應。人類會通過眼神交流、點頭和手勢來進行溝通。所有這些對于機器人來說都是非常重要的,因為我們需要讓機器人學會這些人類的表情,就像我們需要它們學會抓取物品一樣。隨著我們大規(guī)模地將機器人引入整個世界,這種能力將變得至關重要。
主持人:
我有一千個問題想問你。讓我快速地提幾個。好的,那我們開始吧。Figure 3什么時候能展示出來?我看到了它的設計。Figure 3什么時候能公開展示?
Adcock:
你會一直問我們這個問題。你覺得它好看嗎?我認為你已經(jīng)看到了它。
主持人:
它的設計非常出色。我認為人們還不明白這有多么令人驚嘆。
Adcock:
因為我們還沒有公開展示,所以他們不知道。你知道,F(xiàn)igure 1是我們在視頻中展示的機器人,那是第一代機器人。你可以看到,F(xiàn)igure 1有點粗糙,外面還露著電線,設計得更快速,以便讓我們的工程師能夠盡快開始進行實際的用例測試。
Figure 2是一個功能完備的機器人,它幾乎可以完成人類能做的所有事情。我們還沒有公開談論太多,但我們現(xiàn)在已經(jīng)完成了Figure 3的設計。我想我們可能會在下周展示一個更新版本。雖然這次更新可能不會涉及太多技術細節(jié),但Figure 3相比前代產(chǎn)品是一個巨大的飛躍。從Figure 1到Figure 2,已經(jīng)是一個巨大的飛躍,從一個大學宿舍項目的原型到一個相當不錯的機器人。而Figure 3的飛躍同樣巨大。我們花了18個月從頭開始設計它。從高層來看,它比前代產(chǎn)品便宜了90%,更小、更輕,配備了更好的傳感器。它的手部、頭部和腳部的設計完全為神經(jīng)網(wǎng)絡優(yōu)化。這可以說是我職業(yè)生涯中最自豪的工程成就之一。我們計劃今年開始量產(chǎn)Figure 3,并將其推向市場。
這就是我們希望推向全世界的機器人。我們希望它成本低廉,功能強大,并且在幾乎所有方面都更優(yōu)秀。我們很快會發(fā)布更多關于它的更新。這就是我們希望推向家庭和勞動力市場的機器人。
主持人:
關于未來三到四年的生產(chǎn)計劃,以及我什么時候能在家里看到它?
Adcock:
我們有兩個主要的應用方向:勞動力市場和家庭市場。很多人沒有意識到的是,勞動力市場才是最大的市場,它占據(jù)了GDP的一半。我們可以在家庭市場收取更高的價格,但家庭市場也更復雜。機器人在勞動力市場中執(zhí)行的任務大多是重復性的,而家庭市場則像“狂野的西部”,極其復雜。我們面臨巨大的安全挑戰(zhàn),例如確保機器人不會撞到人或引發(fā)危險,比如打翻蠟燭引發(fā)火災。家庭市場的復雜性遠高于勞動力市場。
目前,我們在勞動力市場的需求非常旺盛。我們的前兩個商業(yè)客戶寶馬和其他一家大型物流公司已經(jīng)對我們的機器人表現(xiàn)出極高的興趣。如果今天有10萬臺機器人可用,這些客戶會立刻購買。我們還與50家財富100強公司進行了接觸,他們都對我們的產(chǎn)品表示了強烈的興趣。勞動力市場的需求幾乎是無限的,因為全球人口結構的變化導致勞動力短缺,尤其是在制造業(yè)和物流領域。
我們計劃在家庭市場進行內(nèi)部測試,最早可能在今年開始。我們的目標是讓機器人能夠通過語音指令完成各種家務任務,比如收拾餐具、照顧孩子、做家務等。我們相信,隨著Helix的不斷進步,機器人將能夠在家庭環(huán)境中自主學習和執(zhí)行任務,而不需要人類的持續(xù)指導。
我們面臨的最大挑戰(zhàn)仍然是語義智能,即機器人需要理解它所處的環(huán)境并正確執(zhí)行任務。我們相信,通過增加訓練數(shù)據(jù)量,Helix將能夠更好地理解家庭環(huán)境。目前,Helix的訓練數(shù)據(jù)量還比較有限,只有大約500小時。我們計劃在未來幾個月內(nèi)大幅增加數(shù)據(jù)量,以提升機器人的性能。
目前,Helix的訓練數(shù)據(jù)量還比較有限,只有大約500小時。我們在網(wǎng)站上提到Helix時,展示了一個小實驗:把一些奇怪的小物件放在機器人面前,比如從孩子房間里拿出來的仙人掌玩具,然后告訴它“撿起那個沙漠物品”,它會把仙人掌識別為一種沙漠植物。它能夠識別并撿起這些物品。所有這些都存儲在它的權重中,它有一個很大的語言模型作為支撐。因此,它真的理解了世界的語義基礎。
我們覺得,現(xiàn)在Helix只是數(shù)據(jù)受限。如果我們把訓練Helix的數(shù)據(jù)集增加幾個數(shù)量級,它可能會表現(xiàn)得更好。目前,Helix已經(jīng)能夠識別并撿起我們放在它面前的幾乎所有小物件。比如,我們放了一個會唱歌、會動的玩具仙人掌,它識別出了這是一個“沙漠物品”,并將其撿起。所有這些都存儲在它的權重中,它有一個很大的語言模型作為支撐。所以,它真的理解了世界的語義基礎。
我們只需要更多的數(shù)據(jù),這基本上是目前的瓶頸。我們覺得,只要增加Helix訓練的數(shù)據(jù)量,它就能更好地理解家庭環(huán)境。目前,Helix已經(jīng)能夠很好地完成任務,比如識別并撿起我們放在它面前的物品。它甚至可以通過語義理解來完成任務,比如當我們說“把那個沙漠物品撿起來”,它會把仙人掌識別為與“沙漠”相關的物品并撿起它。所有這些都表明,Helix已經(jīng)具備了很強的語義理解能力。
我認為,我們已經(jīng)開始看到一些突破性的進展,這在歷史上從未有過。人形機器人即將成為現(xiàn)實。問題是,我們只需要沿著這條曲線繼續(xù)推進,讓它更快地進入家庭。我相信,這將在本世紀發(fā)生。在未來幾年內(nèi),你會看到人形機器人通過語音控制進入家庭,能夠長時間工作而無需任何提示。
主持人:
好的,感謝大家收聽本期節(jié)目。這是我最喜歡分享的內(nèi)容。每周我都會發(fā)布兩篇博客,很多內(nèi)容都來自這里,這些是我的個人筆記,記錄了我關于人工智能、長壽以及正改變我們世界的前沿技術的學習和思考。下周我們再見!
本文來自華爾街見聞,歡迎下載APP查看更多