作者:張雅琦
來(lái)源:硬AI
機(jī)器人即將迎來(lái)“ChatGPT時(shí)刻”?英偉達(dá)在CES 2025重磅發(fā)布Cosmos世界基礎(chǔ)模型平臺(tái),或掀起“物理AI”革命。
這個(gè)平臺(tái)被稱為加速“物理AI”發(fā)展的關(guān)鍵一步,目標(biāo)是推動(dòng)自動(dòng)駕駛汽車和機(jī)器人領(lǐng)域邁向更高水平。
物理AI賦予機(jī)器人更強(qiáng)的環(huán)境感知、理解和交互能力。物理AI的進(jìn)步將極大地推動(dòng)自動(dòng)駕駛和機(jī)器人等對(duì)物理場(chǎng)景要求較高的產(chǎn)業(yè)發(fā)展。黃仁勛在CES大會(huì)上表示,物理AI將徹底改變價(jià)值50萬(wàn)億美元的制造業(yè)和物流業(yè),從汽車、卡車到工廠、倉(cāng)庫(kù),所有移動(dòng)的事物都將實(shí)現(xiàn)機(jī)器人化,并由AI驅(qū)動(dòng)。
據(jù)英偉達(dá)官網(wǎng)介紹,物理AI體系包含以O(shè)mniverse、Cosmos、Isaac Sim等關(guān)鍵組成部分。其中Cosmos平臺(tái)利用了超過(guò)2000萬(wàn)小時(shí)的視頻訓(xùn)練數(shù)據(jù),旨在“教會(huì)AI理解物理世界”。
什么是物理AI?
物理AI,也稱為生成式物理AI,是一種使自主機(jī)器(如機(jī)器人、自動(dòng)駕駛汽車等)能夠在真實(shí)物理世界中感知、理解和執(zhí)行復(fù)雜操作的技術(shù)。
它擴(kuò)展了傳統(tǒng)的生成式AI,使其能夠理解3D世界的空間關(guān)系和物理行為。通俗地理解,就是人工智能反饋的內(nèi)容要符合物理規(guī)律。
例如,文生圖或者文生視頻模型,如果不考慮物理,那生成的內(nèi)容就缺乏了重力、光學(xué)等細(xì)節(jié),在加入物理知識(shí)后,生成的內(nèi)容將更加逼真。
黃仁勛早在今年早些時(shí)候就強(qiáng)調(diào)過(guò),“AI的新一波浪潮是物理AI”。
物理AI將賦予機(jī)器人更強(qiáng)的環(huán)境感知、理解和交互能力。傳統(tǒng)的機(jī)器人只能按照預(yù)設(shè)程序執(zhí)行任務(wù),而搭載物理AI的機(jī)器人則能夠更好地理解周圍環(huán)境,并根據(jù)物理規(guī)律做出相應(yīng)的反應(yīng)。它們可以更好地識(shí)別物體、預(yù)測(cè)運(yùn)動(dòng)軌跡、并在復(fù)雜環(huán)境中進(jìn)行導(dǎo)航和操作。
“物理AI將徹底改變價(jià)值50萬(wàn)億美元的制造業(yè)和物流業(yè),”黃仁勛在本次CES國(guó)際消費(fèi)電子展上表示:
“從汽車、卡車到工廠、倉(cāng)庫(kù),所有移動(dòng)的事物都將實(shí)現(xiàn)機(jī)器人化,并由AI驅(qū)動(dòng)。英偉達(dá)的Omniverse數(shù)字孿生操作系統(tǒng)和Cosmos物理AI是推動(dòng)全球?qū)嶓w產(chǎn)業(yè)數(shù)字化的基石。”
英偉達(dá)構(gòu)建了一個(gè)完整的物理AI生態(tài)系統(tǒng)。據(jù)英偉達(dá)官網(wǎng)介紹,物理AI體系包含以O(shè)mniverse、Cosmos、Isaac Sim等關(guān)鍵組成部分。
Omniverse:加速3D內(nèi)容創(chuàng)作和物理仿真
Omniverse是一個(gè)開(kāi)放平臺(tái),用于構(gòu)建和連接3D世界。它提供了一系列工具、API和SDK,使開(kāi)發(fā)者能夠輕松地創(chuàng)建高保真、基于物理的虛擬環(huán)境,用于訓(xùn)練和測(cè)試AI模型。
Omniverse的核心是通用場(chǎng)景描述(OpenUSD),它允許不同3D工具之間的數(shù)據(jù)互操作性。Omniverse在此次發(fā)布中也得到了進(jìn)一步的擴(kuò)展,例如通過(guò)NVIDIA Edify SimReady生成式AI模型,可以自動(dòng)為現(xiàn)有3D資產(chǎn)添加物理效果或材質(zhì)等屬性,大大加速了3D內(nèi)容的創(chuàng)建和準(zhǔn)備過(guò)程。
申萬(wàn)宏源表示,英偉達(dá)的未來(lái)設(shè)想中,機(jī)器人技術(shù)的發(fā)展依賴于三臺(tái)核心計(jì)算機(jī)。
一臺(tái)用于訓(xùn)練AI,一臺(tái)用于控制物理仿真環(huán)境中的測(cè)試AI,以及一臺(tái)安裝在機(jī)器人或智能汽車內(nèi)部的模擬環(huán)境計(jì)算機(jī),支持物理AI算法。
目前正在應(yīng)用的場(chǎng)景之一在于仿真環(huán)境中驗(yàn)證程序邏輯的可靠性;第二個(gè)就是獲取難以從真實(shí)世界獲得的數(shù)據(jù)以持續(xù)訓(xùn)練AI模型,目前許多大廠都在采用這種方式,從軟件角度,仿真領(lǐng)域的優(yōu)勢(shì)企業(yè)Ansys,其仿真產(chǎn)品也可以通過(guò)英偉達(dá)的Omniverse進(jìn)行訪問(wèn),憑借Ansys面向攝像頭、激光雷達(dá)和雷達(dá)傳感器的物理求解器,增強(qiáng)NVIDIA DRIVE的高保真和可擴(kuò)展的3D環(huán)境,這對(duì)于自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)至關(guān)重要。
通過(guò)這種方式,未來(lái)行駛過(guò)程中的所有數(shù)據(jù)都可以實(shí)時(shí)反饋,用于決策制定,同時(shí)生成更多類似數(shù)據(jù)以模擬更多場(chǎng)景,加速訓(xùn)練效果的提升,突破了數(shù)據(jù)獲取的瓶頸。
申萬(wàn)宏源認(rèn)為,英偉達(dá)對(duì)Omniverse的大量投入預(yù)示著其算力未來(lái)的方向主要集中在大模型AI生成、機(jī)器人和智能駕駛領(lǐng)域。
Cosmos WFMs:讓AI理解物理世界的關(guān)鍵一步
物理AI的開(kāi)發(fā)極為復(fù)雜,需要海量的真實(shí)世界數(shù)據(jù)和長(zhǎng)時(shí)間的測(cè)試,開(kāi)發(fā)成本高昂。
而英偉達(dá)的Cosmos平臺(tái)正是為了解決這一痛點(diǎn),通過(guò)其生成式世界基礎(chǔ)模型提供物理仿真數(shù)據(jù)生成能力。Cosmos WFMs讓開(kāi)發(fā)者能夠快速生成基于真實(shí)物理規(guī)律的高仿真數(shù)據(jù),降低依賴昂貴現(xiàn)實(shí)數(shù)據(jù)的需求。
黃仁勛在主題演講中指出,Cosmos平臺(tái)利用了超過(guò)2000萬(wàn)小時(shí)的視頻訓(xùn)練數(shù)據(jù),旨在“教會(huì)AI理解物理世界”。
這些模型通過(guò)將文本、圖像、視頻以及機(jī)器人傳感器數(shù)據(jù)結(jié)合,生成多樣化的物理環(huán)境場(chǎng)景,比如雪地駕駛、擁擠倉(cāng)庫(kù)等,從而為自動(dòng)駕駛和機(jī)器人開(kāi)發(fā)提供關(guān)鍵支持。
Cosmos使用了英偉達(dá)的NeMo Curator框架以及CUDA加速數(shù)據(jù)處理流水線,在14天內(nèi)即可完成對(duì)2000萬(wàn)小時(shí)視頻的處理工作,而這一任務(wù)在傳統(tǒng)CPU環(huán)境下需要3.4年。
Cosmos Tokenizer作為一種最先進(jìn)的視覺(jué)標(biāo)記器,能夠?qū)D像和視頻轉(zhuǎn)化為高效的視覺(jué)標(biāo)記,處理速度提升12倍,壓縮效率提升8倍。
黃仁勛表示:“機(jī)器人領(lǐng)域的‘ChatGPT時(shí)刻’即將到來(lái)!和大語(yǔ)言模型(LLMs)推動(dòng)自然語(yǔ)言處理一樣,Cosmos WFMs被認(rèn)為是機(jī)器人和自動(dòng)駕駛發(fā)展的基礎(chǔ)性工具:
“我們創(chuàng)建 Cosmos是為了讓物理AI民主化,讓每個(gè)開(kāi)發(fā)人員都能接觸到通用機(jī)器人技術(shù)!
可以說(shuō),Cosmos的發(fā)布,補(bǔ)全了英偉達(dá)物理AI體系中“理解世界”的重要一環(huán)。
多家行業(yè)巨頭擁抱Cosmos
多家領(lǐng)先企業(yè)已經(jīng)成為Cosmos的首批用戶,包括1X、Agile Robots、Waabi、Uber等。這些企業(yè)正在利用Cosmos平臺(tái)推動(dòng)機(jī)器人與自動(dòng)駕駛技術(shù)的進(jìn)步。
以Uber為例,通過(guò)整合其豐富的駕駛數(shù)據(jù)與Cosmos平臺(tái)和NVIDIA DGX Cloud的功能,Uber正與英偉達(dá)合作加速開(kāi)發(fā)安全且可擴(kuò)展的自動(dòng)駕駛解決方案。
Uber 首席執(zhí)行官Dara Khosrowshahi表示:
“生成式人工智能將為未來(lái)的出行提供動(dòng)力,這需要豐富的數(shù)據(jù)和非常強(qiáng)大的計(jì)算能力。通過(guò)與英偉達(dá)合作,我們相信我們能夠幫助加速行業(yè)安全且可擴(kuò)展的自動(dòng)駕駛解決方案的開(kāi)發(fā)!
Agility首席技術(shù)官Pras Velagapudi在一份聲明中表示:
“數(shù)據(jù)稀缺性和多變性是機(jī)器人環(huán)境中成功學(xué)習(xí)的關(guān)鍵挑戰(zhàn)。Cosmos的文本、圖像和視頻到世界功能使我們能夠在各種任務(wù)中生成和增強(qiáng)逼真的場(chǎng)景,我們可以使用這些場(chǎng)景來(lái)訓(xùn)練模型,而無(wú)需花費(fèi)大量昂貴的真實(shí)世界數(shù)據(jù)捕獲。”
目前,Cosmos WFMs已通過(guò)英偉達(dá)NGC和Hugging Face平臺(tái)開(kāi)放下載,開(kāi)發(fā)者可使用這些模型及其微調(diào)框架。此外,Cosmos還將通過(guò)英偉達(dá)的DGX Cloud實(shí)現(xiàn)快速部署,并為企業(yè)用戶提供全面支持。
本文來(lái)自華爾街見(jiàn)聞,歡迎下載APP查看更多