優(yōu)必選人形機(jī)器人正在疊衣服
優(yōu)必選人形機(jī)器人Walker S接入文心一言大模型后,不僅掌握了疊衣服的動作,還能為用戶提供穿搭建議;經(jīng)過ChatGPT訓(xùn)練的人形機(jī)器人Figure 01,可以從桌面上一堆物品中準(zhǔn)確挑出唯一的食物蘋果……
如果說去年人形機(jī)器人企業(yè)喜歡秀“肌肉”展示機(jī)器人的行動能力,而進(jìn)入2024年,這些企業(yè)迫切地秀起了“智商”展示人形機(jī)器人經(jīng)過生成式人工智能(AIGC)訓(xùn)練后的聰明勁兒。
AIGC為人形機(jī)器人增智
人形機(jī)器人Figure 01與實驗者互動
人形機(jī)器人與AIGC的融合應(yīng)用吸引了科技巨頭“真金白銀”的青睞美國人形機(jī)器人公司Figure AI在3月宣布獲得6.75億美元融資,微軟、Open AI、英偉達(dá)、亞馬遜工業(yè)創(chuàng)新基金、英特爾投資等科技大廠赫然出現(xiàn)在投資方之列。
行業(yè)人士判斷,F(xiàn)igure 01在AI大模型訓(xùn)練后能力快速進(jìn)化,成為獲得科技企業(yè)青睞的主要原因。今年1月,F(xiàn)igure 01通過端到端神經(jīng)網(wǎng)絡(luò),僅經(jīng)過10小時訓(xùn)練就掌握了制作咖啡的技能。1個月后,F(xiàn)igure 01已學(xué)會搬運(yùn)箱子,并掌握了運(yùn)送至傳送帶的新技能。3月,F(xiàn)igure 01不僅能夠與人進(jìn)行對話交互,理解人類的意圖,還能夠進(jìn)行推理、自行識別、計劃和執(zhí)行任務(wù)。
對于AIGC讓人形機(jī)器人“變聰明”的具體原理,產(chǎn)業(yè)專家告訴《中國電子報》記者:“可以理解為通過算法模擬人腦的運(yùn)行機(jī)制,根據(jù)一定規(guī)模的數(shù)據(jù)和算力,實現(xiàn)人腦類似的智力。”專家解釋道,經(jīng)過AI大模型訓(xùn)練,機(jī)器人也能通過學(xué)習(xí)樣本數(shù)據(jù),像人類一樣識別文字、圖像和聲音,了解和學(xué)習(xí)新事物,以幫助人類在復(fù)雜環(huán)境中執(zhí)行復(fù)雜任務(wù)。
“大模型具備像‘思維鏈’這樣一些復(fù)雜的能力,在面對復(fù)雜任務(wù)的時候知道如何拆分和理解,包括通過知識的引入來實現(xiàn)符合物理常識的規(guī)劃。”中國人形機(jī)器人百人會副理事長、科大訊飛副總裁劉聰解釋道。
人形機(jī)器人公司優(yōu)必選相關(guān)負(fù)責(zé)人在接受《中國電子報》記者采訪時,從研發(fā)角度解釋了大模型對人形機(jī)器人研發(fā)的積極作用。他表示,AIGC讓人形機(jī)器人的交互體驗更加自然。在研發(fā)方面,AI大模型也作出了巨大貢獻(xiàn):一方面,生成式人工智能可以提升人形機(jī)器人的研發(fā)效率,自動生成特定目標(biāo)的基礎(chǔ)代碼,節(jié)約工程師人力資源;另一方面,人形機(jī)器人可以借助大模型自動生成代碼并完成既定目標(biāo),省去研發(fā)過程中非常細(xì)節(jié)的指令,使運(yùn)動規(guī)劃變得更加便捷。
北京理工華匯智能科技有限公司研發(fā)的人形機(jī)器人匯童
北京理工華匯智能科技有限公司團(tuán)隊提出了機(jī)器人生成與技能基元庫融合的學(xué)習(xí)方法,研究基于機(jī)器人生成式的長程任務(wù)分解方法,提高機(jī)器人自主任務(wù)能力。該公司相關(guān)負(fù)責(zé)人表示,人形機(jī)器人可以通過其自研的機(jī)器人GPT分解長程任務(wù)指令,生成短程任務(wù)指令并匹配機(jī)器人技能庫生成交互行為,構(gòu)成決策回路。
具身智能的最佳范式
盡管AIGC讓人形機(jī)器人具備了邏輯、分析思考及完成簡單任務(wù)的能力,但是產(chǎn)業(yè)界一致認(rèn)為,兩者的關(guān)系不能簡單理解為“AIGC讓人形機(jī)器人更聰明”。
“ChatGPT等大模型展現(xiàn)出了處理多模態(tài)數(shù)據(jù)和滿足人類需求的交互能力,但這種交互仍局限于數(shù)字世界。”中國工程院院士蔣昌俊在中國具身智能大會上表示,要實現(xiàn)真正的通用人工智能,需要賦予AI在真實物理世界中交互的能力。這意味著要讓AI擁有實體,像人類一樣具備感知、思考和行動能力。
相較于被行業(yè)專家稱為“離身智能”的ChatGPT、Sora等依靠互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型,“具身智能”則強(qiáng)調(diào)有物理身體的智能體與物理環(huán)境進(jìn)行交互的能力。根據(jù)中國計算機(jī)學(xué)會的闡述,具身智能是指支持感覺和運(yùn)動能力的物理智能體,像人類一樣通過視覺、聽覺、觸覺等感官,以及語言、運(yùn)動、交互等行為,完成一系列智能任務(wù)的能力。
簡而言之,現(xiàn)階段AI大模型可以幫助人們處理文字、圖片和視頻問題,卻無法為人們解決物理生活中的問題……倒一杯水、做一餐飯、打掃房間的衛(wèi)生,這樣的任務(wù)需要具身智能來完成。而人形機(jī)器人被產(chǎn)業(yè)界視為具身智能的最理想范式。
“人形機(jī)器人像人一樣有手有腳,有無窮的延展性。可以把具身智能最大的潛能發(fā)揮出來。”中國人形機(jī)器人百人會副秘書長、星動紀(jì)元創(chuàng)始人陳建宇詳細(xì)解釋了人形機(jī)器人作為具身智能的三點優(yōu)勢:一是可以最大程度地適配人類環(huán)境,人形機(jī)器人可以上下樓梯,直接使用門把手和桌子、椅子、杯子,無須改變根據(jù)人類的使用習(xí)慣設(shè)計的工具和環(huán)境;二是人形機(jī)器人可以直接搬運(yùn)和采用人類的行為數(shù)據(jù);三是人形機(jī)器人具備與人類相似的形態(tài),更能滿足人類的情感和審美訴求,特別適合在偏服務(wù)類的場景中應(yīng)用。
黃仁勛與多個人形機(jī)器人同臺亮相
“人工智能的下一個浪潮將是具身智能,即能理解、推理并與物理世界互動的智能系統(tǒng)。”英偉達(dá)首席執(zhí)行官黃仁勛曾公開表示,“為通用人形機(jī)器人建立基礎(chǔ)模型是當(dāng)今人工智能領(lǐng)域最令人興奮的問題之一。”
谷歌、英偉達(dá)、微軟、亞馬遜等科技企業(yè)火速瞄準(zhǔn)“具身智能”賽道,從各個維度切入人形機(jī)器人領(lǐng)域。Open AI為一家挪威人形機(jī)器人公司1X Technologies提供技術(shù)支持。亞馬遜投資了美國機(jī)器人公司Agility Robotics,其人形機(jī)器人Digit已經(jīng)在美國得克薩斯州的倉庫搬運(yùn)塑料箱。谷歌發(fā)布新型機(jī)器人Transformer架構(gòu),通過動態(tài)分配計算資源,跳過非必要計算,提高訓(xùn)練效率和推理速度。英偉達(dá)發(fā)布人形機(jī)器人通用基礎(chǔ)模型Project GR00T,旨在進(jìn)一步推動其在機(jī)器人和具身智能方面的突破。還有消息稱,蘋果公司正在組建機(jī)器人團(tuán)隊。
聰明的大腦要搭配發(fā)達(dá)的四肢
在AIGC加持下的人形機(jī)器人會疊衣、泡茶、搬運(yùn)的種種表現(xiàn),也讓人們開始暢想人形機(jī)器人作為勞動力的未來。對此,業(yè)內(nèi)專家紛紛呼吁,人形機(jī)器人產(chǎn)業(yè)仍處于發(fā)展初期,切莫片面追逐AIGC的能力,讓人形機(jī)器人誤入“思想上的巨人、行動上的矮子”的歧途。理想的具身智能體不僅需要聰明的大腦作決策,還需要發(fā)達(dá)的四肢執(zhí)行任務(wù)。
“硬件工程師一直在忙碌,軟件工程師和算法工程師一直在等待。”中國人形機(jī)器人百人會副理事長、上海人形機(jī)器人中心董事長、中國北方車輛研究所所長劉勇表示,如今人形機(jī)器人能夠與AI順利融合發(fā)展,建立在機(jī)械本體數(shù)十年不斷進(jìn)化的基礎(chǔ)上,例如傳感器、執(zhí)行器、新能源電池等關(guān)鍵器件的功能和成本都在不斷優(yōu)化。
中國人形機(jī)器人百人會專家委員會成員,香港大學(xué)機(jī)器人研究所所長席寧認(rèn)為,AIGC不能幫人形機(jī)器人完成所有工作。他說,人形機(jī)器人完成工作需要解決四個維度的問題邏輯關(guān)系、時序關(guān)系、空間關(guān)系和互動關(guān)系。席寧表示:“AI大模型能解決的是第一個維度邏輯關(guān)系的問題,機(jī)器人可以根據(jù)語言命令分析問題和做好任務(wù)規(guī)劃。但是對于機(jī)器人怎么抓物品、移動速度多快、如何定位目標(biāo)等,AI大模型就無能為力了。”
工信部去年11月印發(fā)的《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》中指出,以大模型等人工智能技術(shù)突破為引領(lǐng),在機(jī)器人已有成熟技術(shù)基礎(chǔ)上,重點在人形機(jī)器人“大腦”和“小腦”、“肢體”關(guān)鍵技術(shù)、技術(shù)創(chuàng)新體系等領(lǐng)域取得突破。
美國工程院院士李飛飛團(tuán)隊研發(fā)的靈巧手可以完成剪紙等復(fù)雜動作
“關(guān)節(jié)和靈巧手是人形機(jī)器人機(jī)械本體進(jìn)化的重要部件,靈巧手到底該怎樣設(shè)計,怎樣兼顧它的靈巧性和成本,這些都是需要探索的重要問題。”陳建宇表示。
在場景探索方面,研發(fā)團(tuán)隊紛紛結(jié)合具體應(yīng)用場景進(jìn)行研發(fā),面向工業(yè)制造、災(zāi)害救援、危險作業(yè)、智慧物流、安防巡邏、服務(wù)娛樂等具體場景針對性地開發(fā)了人形機(jī)器人。例如,北京理工華匯智能科技有限公司研發(fā)的人形機(jī)器人“匯童”可以在火災(zāi)等災(zāi)害發(fā)生時,作為消防員替身自主進(jìn)入極端環(huán)境實施救援工作,執(zhí)行搜尋和搬運(yùn)等具體任務(wù)。
除了提高關(guān)鍵部件性能、切合應(yīng)用場景訓(xùn)練,行業(yè)專家還呼吁完善人形機(jī)器人供應(yīng)鏈體系,降低本體成本。在專家看來,在“木桶效應(yīng)”之下,任何短板都會成為人形機(jī)器大規(guī)模商業(yè)化進(jìn)程的阻礙。