劃重點
01人形機器人領域的發(fā)展面臨諸多挑戰(zhàn),包括運動控制、人工智能融合、數據獲取等。
02專家趙明國認為,未來機器人應結合人工智能發(fā)展,將其作為一種新的模式,提高自身技術水平。
03另一方面,趙明國強調仿生學在人形機器人領域的應用,建議工程師把握最基本的機理,實現(xiàn)更接近生物系統(tǒng)的控制。
04除此之外,趙明國指出,人形機器人應用場景包括工廠、養(yǎng)老、家庭服務等,但當前尚無明確的應用場景。
05最后,趙明國建議大型企業(yè)和國家隊攻克技術難題,組建合適的團隊,逐步實現(xiàn)工業(yè)應用場景。
以上內容由大模型生成,僅供參考
人工智能的卓越發(fā)展
源于對技術與產業(yè)本質的洞察
機器之心視頻欄目「智者訪談」
邀請領域專家,洞悉核心趨勢
深化行業(yè)認知,激發(fā)創(chuàng)新思考
與智者同行,共創(chuàng) AI 未來
2024 年,人形機器人領域迎來爆發(fā)式增長。特斯拉 Optimus 的持續(xù)迭代、OpenAI 對 1X 的戰(zhàn)略投資,眾多初創(chuàng)公司異軍突起,以及包括 Mobile ALOHA 在內學術界的不斷創(chuàng)新,共同描繪出一幅激動人心的未來圖景。
技術進步的浪潮固然令人振奮,但保持清醒和冷靜,在開放探索的基礎上,審慎選擇最符合時代需求和技術發(fā)展規(guī)律的路徑,才是引領人形機器人走向成熟的關鍵。
本期機器之心《智者訪談》邀請到清華大學自動化系研究員、機器人控制實驗室主任趙明國教授,從運動控制的視角看人形機器人發(fā)展。趙明國教授在機器人控制領域有二十多年的研究與實踐,他認為當前人形機器人領域呈現(xiàn)出如春秋戰(zhàn)國般多元化的發(fā)展態(tài)勢,這既是蓬勃發(fā)展的象征,也潛藏著方向迷失的風險。
趙明國教授強調,「智能人形機器人」不能只是「智能」和「人形機器人」的簡單疊加,而應當是一個全新的研究主題和技術范疇,需要機器人學和人工智能兩個領域更深層次的融合,制造能夠在復雜環(huán)境中自主適應和學習的智能體。
對大模型技術在機器人控制領域的應用,趙教授認為單純依賴「大腦」解決運動控制問題并不合理。人類的運動控制是一個復雜的多層次系統(tǒng),涉及本體反射、中樞控制和大腦控制等多個層面。我們需要更深入地研究生物系統(tǒng)的運動控制機理,重新思考機器人控制系統(tǒng)的架構,并探索更有效的學習和優(yōu)化方法。
趙教授主張技術的先進性并不等同于實用性,只有與時代需求和經濟發(fā)展相匹配的技術,才能真正落地生根,開花結果。例如,維納控制論中的很多思想因為過于超前而未能對早期的計算機和人工智能起到重大的推動作用。
那么,究竟什么樣的技術路線才能最終勝出?人形機器人的未來又將如何演變?點擊觀看視頻,讓我們一同探索。
訪談鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941398&idx=1&sn=df7c01e0ecac1cca3dcca11df7166a48&chksm=84e7e3a8b3906abeb08e93ae9eec4c1aacae8c0a5b82d508c2c85668ab6aac561440a634e47f&token=1043832113&lang=zh_CN#rd
訪談文字整理
機器之心:趙明國教授好,非常高興您做客機器之心的《智者訪談》。近年來,隨著具身智能和大語言模型的迅速發(fā)展,公眾對于如何實現(xiàn)智能機器人的討論熱度空前。今天我們很高興能與您從運動控制的視角探討人形機器人的發(fā)展前景。
談及人形機器人,人們往往會聯(lián)想到幾家著名企業(yè),比如專注于機器人運動控制和硬件設計的波士頓動力,以及憑借在人工智能和大數據方面的優(yōu)勢進軍人形機器人領域的特斯拉。
趙明國:事實上,在波士頓動力之前,日本本田公司就已經在人形機器人領域做出了開創(chuàng)性的貢獻。波士頓動力主要專注于提升機器人的運動控制能力,而特斯拉則依托其在自動駕駛技術和先進器件方面的優(yōu)勢,更多從制造業(yè)和供應鏈的角度切入,為人形機器人的發(fā)展帶來了全新的思路。這種方法讓許多人認為,如果未來機器人要實現(xiàn)大規(guī)模應用,特斯拉的路線可能更符合當前技術發(fā)展的趨勢,因此也有不少企業(yè)選擇追隨特斯拉的發(fā)展路徑。
然而,這并不意味著波士頓動力或本田的技術路線就失去了重要性。我認為這些不同路線都有其價值,因為技術的進步是一個漸進的過程,需要一代又一代的積累和發(fā)展。除了企業(yè)的努力,學術界也在不斷提出新的理論和方法。目前,許多公司,包括一些創(chuàng)業(yè)團隊,正在嘗試將學術界的研究成果與本田、波士頓動力和特斯拉等公司的技術應用相結合,探索新的發(fā)展方向。
當前人形機器人領域的發(fā)展狀況,可以比作春秋戰(zhàn)國時期,雖然存在幾個主流的技術路線,但更多呈現(xiàn)出百花齊放的局面。
01、白馬非馬:智能人形機器人不只是
智能與人形機器人的簡單疊加
機器之心:眾所周知,運動控制是建立在明確的運動學和力學原理基礎之上,在數學和工程方面具有嚴謹性。相比之下,人工智能具備自適應和自學習能力,尤其在處理復雜問題時,AI 常能發(fā)現(xiàn)人類難以想到的解決方案。然而,這種特性也帶來了可解釋性的挑戰(zhàn)。
波士頓動力的機器人在運動控制方面表現(xiàn)卓越,同時也展現(xiàn)了高度的智能。例如,配備機械臂的 Spot 機器人在物體識別和抓取方面表現(xiàn)出色。另一方面,以 AI 技術見長的特斯拉在硬件領域也投入了大量資源。您一直強調將運動控制與人工智能相結合的重要性,在發(fā)展人形機器人方面,我們可以從這些公司的實踐中獲得哪些啟示?
趙明國:人形機器人與人工智能的結合可以采取多種方式。其中一種是兩個領域各自發(fā)展,然后將各自的優(yōu)勢整合。但除此之外,還存在其他途徑。以波士頓動力為例,他們曾強調專注于運動控制而不涉足人工智能,但實際上他們也運用了一些智能的方法。不過,他們的核心在于解決運動控制問題,如行走、奔跑和跳躍等,只不過在解決這些問題時,他們采用的方法可以是傳統(tǒng)的運動控制技術,也可以是智能的方法。
同樣,專注于人工智能的公司在解決智能問題時,也會使用機器人作為載體。例如,進行對話交互時,可以選擇人形機器人,也可以選擇智能音箱,這對智能本身的影響并不顯著,核心問題在于能否實現(xiàn)順暢的人機交互。
然而,要將人工智能與人形機器人真正深度融合,就像「白馬非馬」這個哲學命題一樣,需要創(chuàng)造出一個全新的事物。智能人形機器人必然不同于傳統(tǒng)意義上的智能系統(tǒng),也不同于常規(guī)的人形機器人,而是一個更深層次融合后的獨立存在。
我認為「具身智能」這個概念較為貼合這種場景。在這種情況下,我們期望機器人能展現(xiàn)出行為層面的智能,不僅能夠在各種復雜地形上行走,還能在面對干擾時完成任務,表現(xiàn)出智能化的行為。例如,機器人應該能夠避開障礙物,在動態(tài)環(huán)境中規(guī)劃路徑,比如開門這個典型案例,包括應對不同形狀、不同類型的門,同時能制定策略繞過中間的障礙物,或者在有其他人同時開門時做出規(guī)避或讓步等行為。在手部操作方面,這樣的例子更為豐富,因為人類大部分操作都是通過手來完成的。
這是一個全新的研究主題如何讓機器人展現(xiàn)智能。這需要機器人學和人工智能兩個領域進行更深層次的融合,而不僅僅是一個領域借用另一個領域的技術來提升自身。我們需要將兩者有機結合,創(chuàng)造出一個全新的技術范疇。
機器之心:您的觀點非常具有啟發(fā)性,但似乎目前很少有人從這個角度來探討這個問題。
趙明國:這實際上取決于不同的視角,我只是試圖將問題闡述得更加清晰。無論采用何種方法,要開發(fā)出這種新型機器人,我們需要考慮幾個關鍵。
首先是腿部的智能;其次是手部的智能,包括手指和手臂的智能,手臂負責運動,手指負責實際的抓取和操作。在進行手部操作時,腿部通常也在運動,這需要手足協(xié)調。除此之外,還有一些全身性的智能,如騎自行車、攀巖,以及前面提到的開門,這些活動強調全身的協(xié)調。從運動能力的角度來看,有些智能機器人可能更側重于腿部功能,有些更注重手部功能,還有一些可能側重全身運動,也可能是這三個領域的不同組合。
在早期階段,我認為可以為這三個領域分別選取一些典型案例作為代表,用它們來推動技術發(fā)展,并作為標準測試平臺。如果一個機器人能夠完成特定任務,就意味著相關技術已經取得突破,能夠實現(xiàn)某些功能了。我們可以從一個領域開始,逐步擴展到兩個,最終實現(xiàn)三個領域的突破,然后再考慮實際應用。
當然,也有團隊選擇直接從應用需求出發(fā),通過反向推導來進行開發(fā)。目前業(yè)界還沒有形成共識,各種方法都有人在嘗試。但從最基本的邏輯看,無非就是這三個領域的不同組合。
02、雙足運動控制難點:
學習與優(yōu)化的結合
機器之心:您在仿人機器人雙足步態(tài)控制領域擁有 20 余年的研究實踐和經驗,見證了技術的幾代變遷。雙足控制一直是機器人研究中的一個難點,您認為目前該領域面臨的主要技術瓶頸是什么?
趙明國:這個領域確實經歷了一個漫長的發(fā)展過程。傳統(tǒng)上,研究者傾向于從仿生角度來解決這個問題,但由于仿生機理尚未完全掌握,最初出現(xiàn)的是一些簡化模型。這些模型雖與人體某些運動相關,但并不完全相同,它們借鑒了人體生理學的某些特征,如倒立擺模型。這些簡化模型雖然維度較低,但在當時的計算機水平下能夠實時完成計算,因此在那個時期是較為有效的選擇。
我們現(xiàn)在使用的許多方法,如模型預測控制(Model-Predictive Control,MPC)和全身控制(Whole-Body Control,WBC),都源自上世紀。我認為真正的突破在于 MPC,它引入了對未來進行預測這一非常重要的概念。這一點在人工智能領域也很重要,即基于某些知識對未來進行預測,兩個領域在這一點上是共通的。
近期,由于強化學習的突破,我們能夠在仿真環(huán)境中進行強化學習,然后將獲得的策略遷移到實體機器人上。這一路徑已被證明是可行的,我認為這是一個相當重要的貢獻,F(xiàn)在通過強化學習方法,大多數初創(chuàng)團隊能在幾個月內讓機器人完成多種復雜任務,比如運動恢復和粗糙地面行走,這些任務在過去需要大量時間和資源才能攻克。
目前的仿真技術能夠支持大部分運動學和動力學的仿真。然而,對于視覺和其他多種傳感器的仿真,還無法達到與人類感知相媲美的真實程度。對環(huán)境的仿真,尤其是彈性物體的仿真,仍有待改進。如果這些方面能夠得到顯著提升,這些工具將大大加速整個研發(fā)過程。
就人形機器人而言,如果僅關注運動能力,數據獲取可能不是特別困難,或者說運動類數據具有其特殊性。我個人認為,小規(guī)模數據集可能已經足夠。但現(xiàn)在面臨的挑戰(zhàn)是,究竟需要什么樣的小規(guī)模數據集?這個問題每個研究者的看法都不盡相同,我認為這在很大程度上取決于具體的任務需求。
2024 年初引發(fā)廣泛關注的 Mobile ALOHA 項目,沒有使用仿真,而是通過遙操作來獲取真實場景數據,直接解決了對齊和許多中間環(huán)節(jié)的技術問題。在這個方向上,研究者會開發(fā)出多種方法來快速有效地獲取數據,這是一個非常明確的發(fā)展趨勢。
另一種可能的方向是利用積累的大量視頻資源。如果能直接從視頻中獲得機器人運動控制所需的數據,將會是非常有價值的。舉例來說,中學生學習打籃球時,很多人會模仿喬丹或科比,他們通過觀看視頻來學習,盡管喬丹和科比并未親自指導他們,他們也沒有這些球星的任何詳細數據。然而,由于機器的能力水平還無法像人類那樣從視頻中學習,我們不得不通過仿真或遙操作來獲取數據。不過,對于完成人形機器人的某些復雜運動來說,遙操作方法可能與完成簡單任務(如刷盤子)還有所不同,需要綜合考慮視覺等多個方面。
機器之心:您提到機器的能力還無法像人類那樣從視頻中學習,具體是指哪些能力呢?
趙明國:我主要指的是處理數據的能力。目前,機器的視覺分析能力還不足以從單目相機拍攝的普通視頻中直接分析出人的準確三維坐標,或者將其轉換為所需的數據格式。
在人形機器人領域,目前的重點依然是從仿真中獲取數據。在仿真的潛力沒有被完全挖掘或達到瓶頸之前,研究者肯定會集中精力在仿真方面深入探索。但是,當任務發(fā)生變化時,仿真的局限性就會顯現(xiàn)出來,而目前又無法直接從視頻中獲取所需的數據。在這種情況下,像 Mobile ALOHA 使用的方法就非常巧妙,因為它解決了數據獲取的難題。然而,如果要讓機器人完成諸如踢足球、打籃球或攀巖等復雜運動,遙操作的方法可能就不太適用了。隨著研究的不斷深入,我相信還會出現(xiàn)許多新的技術手段,最終很可能會發(fā)展到能夠直接利用視頻數據。
體育院校積累了大量運動數據,如何有效利用這些數據也是一個值得探討的問題。我認為這在很大程度上受到數據采集和分析手段以及算法的影響。但最終的核心問題仍然是如何獲得高質量的數據,以及如何有效利用這些數據。這兩個問題都在不斷發(fā)展,但核心邏輯仍然是進行學習和訓練,獲取數據,然后利用數據進行訓練,這兩個基本步驟沒有改變,但在具體實施細節(jié)上會發(fā)生許多技術上的變革。目前,技術發(fā)展速度非?,甚至在一周之內就可能產生一些新的突破性結果。