與 OpenAI 官宣「分手」后,人形機器人公司 Figure 在 X 平臺放出狂言,宣稱其內部 AI 模型取得重大突破,將在接下來的 30 天內展示前所未見的創(chuàng)新成果。這一天的到來沒有讓我們等太久,F(xiàn)igure 深夜正式發(fā)布通用具身智能模型 Helix。Figure 創(chuàng)始人 Brett Adcock 在 X 平臺發(fā)文稱,Helix 團隊的目標是攻克通用機器人技術讓每個家庭都能擁有一臺機器人,雖然還有很長的路要走,但目前的成果已經初見成效。
「介紹 Helix,我們最新的 AI,它的思維方式更接近人類。要讓機器人真正走進家庭,我們需要能力上的巨大飛躍。Helix 能夠適應并操作任何家居物品!咕唧w來說,Helix 是一種通用的視覺-語言-行動(VLA)模型,它融合了感知、語言理解和學習控制能力,旨在解決機器人技術中長期存在的多個難題。按照 Figure 的說法,Helix 在多個方面實現(xiàn)了行業(yè)首創(chuàng):Helix 是首個能夠對整個人形機器人上半身進行高速連續(xù)控制的 VLA,包括手腕、軀干、頭部以及單個手指。Helix 是首個能夠同時運行在兩臺機器人上的 VLA,使它們能夠協(xié)作完成一個共享的長時任務,即便面對的是從未見過的物品。配備 Helix 的 Figure 機器人現(xiàn)在幾乎可以拾取任何小型家用物品,包括成千上萬種它們以前從未接觸過的物品,只需遵循自然語言指令即可完成操作。與以往的方法不同,Helix 僅使用一組神經網絡權重來學習所有行為從拾取和放置物品,到使用抽屜和冰箱,再到跨機器人交互無需針對特定任務進行額外微調。Helix 是首個完全運行在嵌入式低功耗 GPU 上的 VLA,意味著它已具備直接商業(yè)化部署的能力。
比技術報告更直擊人心當屬 Figure 官方發(fā)布的演示視頻。還是熟悉的家庭場景,畫面中的男人三言兩語就給兩個 Figure 02 機器人交代了任務運用 Helix AI 模型,推理眼前這些第一次看到的物品所屬的位置,然后協(xié)作收拾好。這對機器人搭檔收拾家務主打一個行云流水,當機器人遞過來一個蘋果,另一個機器人秒 Get 同伴的心思,主動遞過去一個黑色大碗,搭配暗黑色調,賽博朋克風格拉滿。
分類冷藏,這對機器人搭檔分工明確,配合默契,整理完還不忘關上冰箱門,比一些真人室友還要靠譜。
一個遞,一個放,手腳相當麻利。
腦子也很靈活,讓其撿起眼前「沙漠物品」,它二話不說就能在眾多物品中準確揀出仙人掌玩偶。
一些 X 網友甚至將這一成果比作「人形機器人領域的 iPhone 時刻」。
雖然這種評價有些夸大其詞,但 Helix 確實解決了家用機器人領域長期以來的一個核心難題,在理想的家庭場景中,你可以簡單地告訴機器人做某事,它就會去做。但與標準化的工業(yè)環(huán)境不同,家庭場景復雜多變,衣物可能皺皺巴巴地散落在各處,餐具可能有著不同的形狀和材質,甚至每天都會出現(xiàn)全新的物品,這對家庭機器人的適應能力提出了極高的要求。
傳統(tǒng)的解決方案往往需要投入大量資源。一種是請博士級專家花費大量時間為每個具體任務編寫專門的程序;另一種是通過數(shù)千次反復示范來訓練機器人學習特定動作。顯而易見,這些方法不僅耗時費力,而且成本高昂,難以在家用機器人領域大規(guī)模普及。基于此,F(xiàn)igure 團隊提出了一個新的解題思路。
既然 AI 在圖像識別、語言理解等領域已經展現(xiàn)出強大的學習能力和即時泛化能力,那為什么不利用視覺語言模型(VLM)中積累的豐富語義知識來指導機器人行為,特別是這些模型通過對互聯(lián)網大規(guī)模數(shù)據的學習,已經積累了大量關于物體、場景和行為的常識性知識。點子有了,但路還沒有走通。如何從 VLM 中提取這些常識性知識,并將其轉化為可泛化的機器人控制?而這正是打造 Helix 的核心目標讓機器人能真正理解和執(zhí)行各種復雜任務,使其具備更強的適應能力。與傳統(tǒng)機器人系統(tǒng)相比,Helix 最大的優(yōu)勢在于無需繁瑣的任務演示或復雜的編程,就能自主完成從簡單的物品抓取到復雜的協(xié)作任務等多樣化操作。作為評價機器人智能水平的關鍵指標,機器人能否自主處理未見過的場景和物品,將決定其實用價值。憑借強大的泛化能力,F(xiàn)igure 機器人能夠通過自然語言指令,識別和操作數(shù)千種不同形狀、大小、顏色和材質的家居用品,即使是從未見過的物品也能準確處理。
技術層面上,Helix 的運作依賴于兩個緊密配合的系統(tǒng)。一個是負責高層語義理解的 System 2(S2,7B 參數(shù)),另一個是負責實時控制的 System 1(S1,80M 參數(shù))。用更通俗的話來說,S2 負責「思考」,S1 負責「行動」。其中,S2 系統(tǒng)以 7-9Hz 的頻率運行,持續(xù)處理機器人攝像頭拍攝的畫面和接收到的語言指令,將其轉化為機器人可以理解的行為指令。而 S1 系統(tǒng)則以 200Hz 高頻率運行,基于 S2 的指令和實時環(huán)境數(shù)據,精確控制機器人的每個動作。為了支持這種高效運算,每臺配備 Helix 的 Figure 機器人都裝有雙低功耗嵌入式 GPU,通過高效的并行計算實現(xiàn)流暢的控制效果。
在實際應用場景中,F(xiàn)igure 02 不僅能精確控制每一個手指的動作、手臂的運動軌跡、頭部的轉向和身體姿態(tài),更重要的是實現(xiàn)了實時整體協(xié)調效果。執(zhí)行任務時,F(xiàn)igure 02 機器人能像人類一樣自然地移動雙手,同時調整頭部和身體位置,以獲得最佳的操作視角和活動范圍。據 Figure 官方介紹,這種全身協(xié)調的精準控制在機器人領域是一個重大突破,因為身體各部位的移動會相互影響,形成復雜的連鎖反應,傳統(tǒng)技術往往很難解決這個問題。Helix 的另一個重大突破則是實現(xiàn)了真正的多機器人協(xié)作。在測試中,兩臺 Figure 機器人共享同一套模型權重,無需為每臺機器人單獨訓練或進行多階段訓練,僅通過簡單的語言指令就能默契配合。比如,當系統(tǒng)收到「把餅干袋遞給右邊的機器人」,接著「將餅干袋放入抽屜」這樣的連續(xù)指令時,兩臺機器人能完美配合完成任務,即使是首次遇到的物品也能手拿把掐。
降低訓練成本是推動機器人普及的關鍵。通過采用端到端的訓練方法,Helix 能夠直接從原始像素和文本命令映射到連續(xù)動作。據悉,Helix 僅使用了約 500 小時的高質量監(jiān)督數(shù)據(僅為傳統(tǒng)方案的 5%),卻實現(xiàn)了更強的泛化能力。而且,Helix 還通過梯度反向傳播和時間偏移機制,讓訓練成果能夠順利地應用到實際場景中。
「這僅僅是 Helix 潛力的冰山一角,」Figure 公司表示,「如果將 Helix 規(guī)模擴大 1000 倍,當它能夠驅動數(shù)百萬個機器人時,將為人類社會帶來巨大的改變!辜夹g突破的背后有著資本市場的強力支持。Figure 在月初的時候表示,公司已與寶馬制造公司以及一家未透露姓名的美國大客戶達成合作。Adcock 透露,這些合作關系將為「未來四年內實現(xiàn) 10 萬臺機器人」奠定基礎。去年,這家人形機器人公司完成了 6.75 億美元的 B 輪融資,投資方包括 OpenAI、微軟、英偉達和 Jeff Bezos,融資后估值達到 26 億美元。據報道,該公司正洽談再籌集 15 億美元融資,若成功,其估值將升至 395 億美元。科技巨頭對人形機器人領域的密集投資,或許預示著這個市場可能即將迎來拐點,家用機器人市場有望迎來類似智能手機的爆發(fā)期。