當(dāng)前位置：人工智能實(shí)驗室> 機(jī)器人 > 從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-04 13:13:09 瀏覽：0次

導(dǎo)讀：文｜白鴿編｜王一粟2024年，具身智能可以說是AI領(lǐng)域最火熱的賽道之一。所謂具身智能，可以理解為人工智能和機(jī)器人技術(shù)深度結(jié)合的產(chǎn)物，是“長了身體的智能”，能夠直接與物理世界進(jìn)行交互。目前業(yè)內(nèi)普遍認(rèn)為，人形機(jī)器人是具身智能落地的最佳硬件載體。也正因此，以機(jī)器人為主體的具身智能在全球徹底火了，機(jī)器人公司如雨后春筍般出現(xiàn)，具身智能領(lǐng)域的投融資也非�；馃�。據(jù)公 ......

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝

文｜白鴿

編｜王一粟

2024年，具身智能可以說是AI領(lǐng)域最火熱的賽道之一。

所謂具身智能，可以理解為人工智能和機(jī)器人技術(shù)深度結(jié)合的產(chǎn)物，是“長了身體的智能”，能夠直接與物理世界進(jìn)行交互。目前業(yè)內(nèi)普遍認(rèn)為，人形機(jī)器人是具身智能落地的最佳硬件載體。

也正因此，以機(jī)器人為主體的具身智能在全球徹底火了，機(jī)器人公司如雨后春筍般出現(xiàn)，具身智能領(lǐng)域的投融資也非�；馃�。

據(jù)公開資料顯示，2024年上半年做具身智能機(jī)器人的公司可能已超過70家，其中，華為等大廠也開始布局該賽道，創(chuàng)企們則頻頻獲得融資，甚至產(chǎn)品尚未落地，就已經(jīng)估值數(shù)十億元。

今年11月5日，成立不到一年，致力于“將通用人工智能帶入物理世界”具身大模型企業(yè)Physical Intelligence宣布新一輪4億美元融資，估值達(dá)到24億美元。9月，李飛飛老師創(chuàng)立的空間智能公司W(wǎng)orld Labs在完成1億美元融資后，兩個月內(nèi)又完成了新一輪2.3億美元融資；7月，致力于“開發(fā)扎根于物理世界的通用人工智能（AGI）”企業(yè)Skild AI宣布完成3億美元A輪融資，估值達(dá)到15億美金。

那么，在這一輪具身智能賽道中，創(chuàng)業(yè)企業(yè)究竟該如何走出差異化競爭優(yōu)勢？具身智能背后的技術(shù)發(fā)展路徑又是如何？未來機(jī)器人時代到底將會在什么時間到來？

近期，我們與具身智能新銳企業(yè)智澄AI創(chuàng)始人兼CEO胡魯輝進(jìn)行了一場深度交流，這位行業(yè)大咖對具身智能的技術(shù)發(fā)展和行業(yè)趨勢，給出了自己的思考和解法。

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝

智澄AI創(chuàng)始人兼CEO胡魯輝

“我們是一家通用人工智能公司，核心技術(shù)是理解物理的世界模型，對標(biāo)斯坦福李飛飛老師的公司�！焙斴x如此說道，“但是我們產(chǎn)品形態(tài)并非是模型，而是具身智能機(jī)器人。”

在胡魯輝看來，世界模型和主流的多模態(tài)大模型主要有兩方面不同之處，一是世界模型主要通過包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息，相比于多模態(tài)大模型，其輸入的數(shù)據(jù)形式以實(shí)時感知的外部環(huán)境為主，而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。

另一方面，世界模型輸出的結(jié)果，更多的是時間序列數(shù)據(jù)（TSD），并通過這個數(shù)據(jù)可以直接控制機(jī)器人。而多模態(tài)大模型輸出的結(jié)果仍是以信息為主。同時物理智能需要與世界進(jìn)行實(shí)時交互，其對時效性要求較高，而多模態(tài)大模型更多是與人交互，對時效性要求較低。

也正因此，世界模型也被行業(yè)人士看做是邁向AGI（通用人工智能）的必經(jīng)之路。

作為曾在微軟、亞馬遜、華為美國研究院、Meta這樣的頂尖科技巨頭擔(dān)任高管的行業(yè)專家，胡魯輝其實(shí)早就意識到AI能夠與物理世界結(jié)合，并一直尋找合適的創(chuàng)業(yè)機(jī)會。

2024年年初，智澄AI正式成立。胡魯輝對公司的整體發(fā)展規(guī)劃，也分為兩部分：一是以打造世界模型為核心，持續(xù)進(jìn)行技術(shù)創(chuàng)新和研發(fā)突破；二則是要真正的實(shí)現(xiàn)產(chǎn)品落地應(yīng)用，“我們現(xiàn)階段也在與客戶進(jìn)行深度合作，今年將以產(chǎn)品升級迭代為主，明年將開始真正落地商業(yè)化應(yīng)用�！�

據(jù)悉，今年5月開始，智澄AI的人工智能機(jī)器人原型一（TR1）、原型二(TR2)相繼完成。胡魯輝將智澄AI的人工智能機(jī)器人命名為TR，即Transforming Robot（即意為“改變機(jī)器人”）。

“雖然世界模型的研發(fā)是個持續(xù)的過程，但我們產(chǎn)品迭代和商業(yè)落地速度很快，現(xiàn)在基本上兩個月一次迭代�！焙斴x說道。

事實(shí)上，當(dāng)前具身智能行業(yè)發(fā)展的關(guān)鍵挑戰(zhàn)之一，就是機(jī)器人的泛化能力。

畢竟，在硬件相差不大的情況下，機(jī)器人的抓取能力和動作靈活性完全依賴于“大腦”的智能化程度。只有擁有強(qiáng)大的泛化能力，機(jī)器人才能適應(yīng)各種任務(wù)場景，具備真正的“可用性”。

胡魯輝也表示，應(yīng)對當(dāng)前挑戰(zhàn)，智澄AI的泛化能力主要體現(xiàn)在三方面：

任務(wù)泛化：機(jī)器人既能夠做這個任務(wù)，也能夠做別的任務(wù)。

環(huán)境泛化：典型場景類似無人駕駛，需要識別理解不同路況環(huán)境，對機(jī)器人而言能夠適應(yīng)不同的環(huán)境。

本體泛化：同一個模型既能驅(qū)動這類機(jī)器人本體，也能夠用另外一類機(jī)器人本體。

“對具身智能來說，只有具備任務(wù)、環(huán)境和本體三種泛化能力，才能夠真正推動機(jī)器人時代到來。”胡魯輝說道，“但想要實(shí)現(xiàn)三種能力的泛化，以目前的多模態(tài)大模型技術(shù)來說很難突破。我們將打造澄靈世界模型，分三個階段，花費(fèi)2-3年時間，逐步推進(jìn)物理世界模型，使其能夠?qū)崿F(xiàn)像人一樣的泛化能力�！�

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝

不過，在邁向通用人工智能的道路上，目前面臨著諸多挑戰(zhàn)，包括算法、數(shù)據(jù)、算力等多方面，除了應(yīng)對上述挑戰(zhàn)之外，胡魯輝認(rèn)為，智能工程和模型架構(gòu)是另外兩個更為關(guān)鍵的要素，而智澄AI創(chuàng)始團(tuán)隊在這兩個方面有多年國際領(lǐng)先的實(shí)戰(zhàn)經(jīng)驗。

面對日新月異的技術(shù)和產(chǎn)業(yè)變化，胡魯輝也表示，智澄AI將堅持以物理智能為核心技術(shù)，不斷加強(qiáng)自身技術(shù)能力的迭代，積極擁抱行業(yè)變化，推動機(jī)器人時代的到來。

以下為光錐智能與智澄AI CEO胡魯輝詳細(xì)對話內(nèi)容（經(jīng)光錐智能編輯整理）：

01 每2個月迭代一次，明年將實(shí)現(xiàn)產(chǎn)品商業(yè)化落地

Q：從模型算法到智能機(jī)器人的落地，有哪些難點(diǎn)需要克服？我們用了多久實(shí)現(xiàn)了從模型算法到智能機(jī)器人的落地？

A：整體挑戰(zhàn)還是蠻多的，主要是模型架構(gòu)、智能工程和產(chǎn)品落地三個方面。智澄AI模型架構(gòu)是端到端智能原生的世界模型，從智能工程，包括數(shù)據(jù)的采集、模型的訓(xùn)練和發(fā)布等等，產(chǎn)品落地是結(jié)合泛化能力和實(shí)際的客戶需求快速迭代。2024年4月初公開創(chuàng)業(yè)方向，也差不多是這個時候開始做產(chǎn)品研發(fā)，產(chǎn)品名稱為TR（Transforming Robot），基本上每2個月實(shí)現(xiàn)一次產(chǎn)品迭代，現(xiàn)有多款人工智能機(jī)器人產(chǎn)品在進(jìn)行研發(fā)。

Q：最新兩代產(chǎn)品基本完成，智澄AI后續(xù)的產(chǎn)品研發(fā)及市場落地策略如何？

A：我們的整個戰(zhàn)略方針是兩條腿走路，一方面不斷進(jìn)行技術(shù)創(chuàng)新和研發(fā)突破，另一方面進(jìn)行產(chǎn)品落地，我們現(xiàn)在和多家行業(yè)頭部客戶進(jìn)行深度合作，計劃今年主要以技術(shù)產(chǎn)品迭代為主，明年開始產(chǎn)品落地和商業(yè)化應(yīng)用。

Q：您大概是從什么時候決定做智澄AI這樣的公司？了解到咱們團(tuán)隊具備國際領(lǐng)先的AI模型與數(shù)據(jù)能力，這次創(chuàng)業(yè)為什么選擇具身智能賽道？

A：在2022年底，我已經(jīng)在思考這個事情，當(dāng)時ChatGPT剛剛出來。其實(shí)更早之前我還寫了一篇關(guān)于生成式人工智能的文章，這篇文章被廣泛引用，當(dāng)時AIGC還沒有火起來，結(jié)論就是AI是能夠跟物理智能結(jié)合。從科技角度，現(xiàn)在是移動互聯(lián)網(wǎng)時代，下一個時代是機(jī)器人時代，想改變機(jī)器人現(xiàn)狀，推動機(jī)器人時代的到來，核心技術(shù)是人工智能，而我和智澄AI部分核心團(tuán)隊在人工智能基礎(chǔ)模型及關(guān)鍵大數(shù)據(jù)等方面深耕多年。

Q：因為其實(shí)近一年具身智能火爆，有很多企業(yè)加入到賽道當(dāng)中，包括初創(chuàng)企業(yè)和一些大廠。在競爭激烈的環(huán)境下，智澄AI作為創(chuàng)業(yè)團(tuán)隊，未來有哪些核心競爭優(yōu)勢？以及該如何去突破？

A：主要兩方面，一方面我們堅持以理解物理世界、實(shí)現(xiàn)通用人工智能為愿景，不管外界變化如何，以物理智能為核心技術(shù)，推動機(jī)器人時代的到來。另一方面，我們不斷加強(qiáng)技術(shù)產(chǎn)品的迭代，同時結(jié)合產(chǎn)業(yè)理解和技術(shù)創(chuàng)新，持續(xù)推出匹配市場需求的產(chǎn)品。

Q：特斯拉在10月份“We,Robot”發(fā)布會上展示了人形機(jī)器人Optimus2，說成本會到2-3萬美金價格區(qū)間，您是如何看待這一定價的，以及您認(rèn)為未來機(jī)器人的價格會到什么區(qū)間，才能夠?qū)崿F(xiàn)真正的普惠于民？

A：在特斯拉的帶動下，現(xiàn)在人形機(jī)器人確實(shí)比較火。另外我們生活的世界其實(shí)是圍繞人類習(xí)慣而構(gòu)建的，因此很多場景，人形機(jī)器人會更合適。但我們最終目的是服務(wù)于人，幫助人解決問題，所以要思考做什么樣機(jī)器人，而不僅僅只是說要像人。比如說未來汽車也是一種機(jī)器人，但不能說讓車變成人的形態(tài)背著你跑，現(xiàn)在汽車形態(tài)，是比較舒服的形式，所以沒必要做成人形。

對于價格，則是相對的，現(xiàn)在一輛汽車能夠賣到20萬人民幣，就是一個普遍能夠接受的價格，而賣到4-5萬人民幣，也是可行的，因為面對的是不同的需求和不同的受眾群體。因為本身場景就不太一樣，我覺得價格本身不是很關(guān)鍵。

Q：之前在制造業(yè)中，已經(jīng)有很多雙臂機(jī)器人進(jìn)行應(yīng)用，能夠滿足工廠的生產(chǎn)需求，智澄AI的雙臂機(jī)器人，會率先落地制造業(yè)，那這與上一代機(jī)器人，在實(shí)際應(yīng)用上，會有哪些明顯感知的區(qū)別？以及對制造業(yè)工廠而言，會產(chǎn)生哪些更有價值的效益？

A：我們圍繞具身智能，做人工智能機(jī)器人，主要目的還是做事情干活，幫助人解決問題，所以也是從人類的角度思考出發(fā)。因為人做事情的主要部位是雙手，所以我們率先從手開始，即單臂機(jī)器人到雙臂機(jī)器人。我們的機(jī)器人是基于AI原生模型，相比傳統(tǒng)機(jī)器人控制系統(tǒng)，有本質(zhì)的變化。傳統(tǒng)的MPC/WBC本質(zhì)還是基于規(guī)則的控制系統(tǒng)，優(yōu)勢比較明顯，即可以實(shí)現(xiàn)精準(zhǔn)控制操作，缺點(diǎn)就在于類似于自動駕駛這種強(qiáng)化學(xué)習(xí)，泛化能力比較差，稍微調(diào)整一下，就需要重新開始編程，過程比較繁瑣，類似于自動化系統(tǒng)應(yīng)用。而且，因為這種可擴(kuò)展性差，也會導(dǎo)致其開發(fā)和工程成本比較高。

智澄AI的模型則類似于人腦，已具備一定的泛化能力，最終目標(biāo)是其有很強(qiáng)的泛化能力，能夠很好的適應(yīng)環(huán)境，不會因為環(huán)境的變化或任務(wù)的變化而重新來過。我們的技術(shù)以及解決方案，將真正推動機(jī)器人時代的到來。

移動互聯(lián)網(wǎng)作為上個時代影響全球數(shù)十億用戶的核心技術(shù)浪潮，當(dāng)下已基本進(jìn)入存量市場，機(jī)器人作為AI在物理世界的硬件載體，有望進(jìn)入十億級用戶的日常生產(chǎn)及生活之中，我認(rèn)為將是下一波科技浪潮中更大的增量市場。

雖然逐步優(yōu)化產(chǎn)品成本是讓機(jī)器人快速普及的推動方式之一，但僅降本很難真正改變行業(yè)現(xiàn)狀，所以我們更多要做的是讓一個模型不僅僅驅(qū)動一種本體更實(shí)用，而是使得不同型號、不同性能的機(jī)器人本體都能具備更高的功能實(shí) 用性，推動本體智能化水平實(shí)用、大規(guī)模的量產(chǎn)的同時也大幅降低成本。

02 從交互形式、輸出結(jié)果來看，多模態(tài)大模型與世界模型的本質(zhì)區(qū)別？

Q：多模態(tài)大模型如GPT和我們想做的物理世界大模型，本質(zhì)的區(qū)別是什么？

A：目前多模態(tài)大模型主要是信息智能（輸入和輸出都是文字、音頻、圖像等信息），以信息交互為主，我們做的事情是物理智能，物理智能可以有很多的應(yīng)用方向，我們主要是聚焦具身智能/機(jī)器人方向的應(yīng)用，幫助機(jī)器人更好的理解物理世界。

從實(shí)時性來講，物理智能的輸入是對外界的直接感知，不是靜態(tài)信息輸入的形式，通過傳感器直接感知帶有時間序列的外界環(huán)境信息，輸出的則是時間序列數(shù)據(jù)（TSD），物理智能需要跟現(xiàn)實(shí)世界實(shí)時、高頻交互。而多模態(tài)大模型的信息往往是過往一段時間的靜態(tài)沉淀信息。

Q：自動駕駛汽車也需要與物理世界實(shí)時交互，與家庭/工作場景的機(jī)器人在技術(shù)實(shí)現(xiàn)難度有什么異同之處？

A：自動駕駛汽車也是機(jī)器人的應(yīng)用場景之一，自動駕駛汽車的自由度或者說控制指令相對簡單（如方向、剎車、油門等），其挑戰(zhàn)的地方是車的速度更快，即便出現(xiàn)小概率的失誤也可能造成重大的損失。

相對于“汽車機(jī)器人”來說，如果在家用、生產(chǎn)、危險等場景的替代或服務(wù)人類勞動機(jī)器人，其動作復(fù)雜度及任務(wù)控制指令相對來說也許會更復(fù)雜，但機(jī)器人執(zhí)行一般的生產(chǎn)或服務(wù)工作可接受的失誤容忍度相對自動駕駛來說更寬松，即便偶然出現(xiàn)一次如杯子掉落等問題，損失相對可控。

Q：我們的機(jī)器人模型在實(shí)際工作中，如何克服可能出現(xiàn)的長尾問題？從而提高泛化性

A：當(dāng)前強(qiáng)化學(xué)習(xí)技術(shù)路徑在無人駕駛領(lǐng)域被廣泛使用，但至今仍未讓車真正實(shí)現(xiàn)無人駕駛上路。我們的世界模型核心是解決泛化性問題，并沒有從強(qiáng)化學(xué)習(xí)的獎勵機(jī)制出發(fā)，而是從端到端神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn)，這是本質(zhì)性的區(qū)別。

同時機(jī)器人在理解物理世界的時候，也需要像人一樣，具備一定的預(yù)測能力，才能夠?qū)]被訓(xùn)練過的事情有一定的應(yīng)對能力。一方面因為永遠(yuǎn)有長尾問題存在，另一方面物理世界本身也是在不斷變化的，所以我們的物理世界模型希望實(shí)現(xiàn)機(jī)器人能夠像人一樣具備思考、推斷、舉一反三的能力。

Q：未來物理世界大模型發(fā)展軌跡是否會與GPT在過去幾年的迭代發(fā)展有相通之處？

A：從未來的發(fā)展預(yù)判來看，就像GPT一樣，它也會是一個階段一個階段的發(fā)展過來。現(xiàn)階段世界模型已經(jīng)表現(xiàn)出很不錯的能力了，例如我們已經(jīng)可以實(shí)現(xiàn)了用單個模型控制實(shí)現(xiàn)多個任務(wù)、也可以實(shí)現(xiàn)在不同光線場景條件下完成任務(wù)的泛化能力。

從另一個層面來說，多模態(tài)大模型其舉一反三能力、自監(jiān)督學(xué)習(xí)等能力，這些技術(shù)、特性也會被引入到世界模型開發(fā)改進(jìn)中，來幫助世界模型快速發(fā)展。

03 具身大模型只有具備任務(wù)、環(huán)境、本體三重泛化能力，才能真正推動機(jī)器人時代到來

Q：如何理解機(jī)器人的泛化能力？是從一個固定場景訓(xùn)練升級，然后泛化應(yīng)用到其他場景中嗎？

A：現(xiàn)階段深度強(qiáng)化學(xué)習(xí)雖然不能夠解決長尾場景問題，但在實(shí)際的生產(chǎn)線中（如汽車生產(chǎn)線的某一部分），通過強(qiáng)化某一任務(wù)的技能，效果反而會更好一些。但如果汽車生產(chǎn)線伴隨柔性生產(chǎn)的趨勢需要定期變化，強(qiáng)化學(xué)習(xí)路徑的可擴(kuò)展性有限，需要重新采集數(shù)據(jù)進(jìn)行學(xué)習(xí)。

而物理世界模型則可以很快適應(yīng)這種調(diào)整，不需要針對任務(wù)變化重新訓(xùn)練一遍，而是可以基于原來的基礎(chǔ)馬上調(diào)整，適用于新任務(wù)。另外在跨場景中，世界模型也可以實(shí)現(xiàn)輕松的遷移。

打個比方，現(xiàn)階段世界模型有點(diǎn)像一顆小樹苗，雖然當(dāng)前與其他樹苗在外觀差異不大，未來潛力巨大，更有機(jī)會長成參天大樹。

Q：世界模型有一個很好的泛化能力，您覺得這種泛化的能力，主要來自哪個技術(shù)能力的突破？

A：一方面是很強(qiáng)的理解物理世界的能力，就像人一樣，在能感知到環(huán)境的情況下，能夠做出實(shí)時的決策判斷。機(jī)器人操作也好，無人車運(yùn)行也好，都是不斷地進(jìn)行決策。

另一方面物理世界大模型與多模態(tài)大模型的涌現(xiàn)很類似，能夠舉一反三，在物理世界的任務(wù)上有很強(qiáng)的泛化推理能力。但也需要避免多模態(tài)大模型會出現(xiàn)的幻覺問題，而物理世界的機(jī)器人我們希望能夠真正可靠（不存在幻覺問題），我們將分成幾個階段逐步優(yōu)化模型，從而使其能夠既可靠，又能夠具備泛化能力。

Q：智澄AI的大模型訓(xùn)練是否會面臨算力成本的問題？如何解決這一難題？

A：算力也是重點(diǎn)投入的方向之一，我們會隨著模型分階段的訓(xùn)練目標(biāo)持續(xù)投入。同時由于我們具備深厚的模型架構(gòu)及工程化能力，模型體量會遠(yuǎn)小于當(dāng)前多模態(tài)大語言模型，算力需求也相對可控。

上一篇：小米汽車自動駕駛產(chǎn)品技術(shù)負(fù)責(zé)人劉方離職創(chuàng)業(yè)，布局具身智能

下一篇：被字節(jié)起訴攻擊模型訓(xùn)練的實(shí)習(xí)生，獲人工智能頂會最佳論文

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-04 13:13:09 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-04 13:13:09 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

從語言模型到世界模型，讓機(jī)器人真正理解物理世界 | 對話智澄AI胡魯輝
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-04 13:13:09 瀏覽：0次