前陣子,老黃在 CES 上又狠狠秀了波肌肉。
不過呢大多數(shù)人,基本都被全新的 RTX 50 系顯卡給吸住了,世超這兩天研究了下發(fā)現(xiàn),那些被咱 “ 冷落 ” 的新技術(shù)里,一個兩個其實也都憋著大招。
就拿 Cosmos 世界基礎(chǔ)模型平臺來說,這可是個讓 AI 能夠理解物理世界的好東西。
根據(jù)官方的說法, Cosmos 平臺是一個專門為物理人工智能開發(fā)者設(shè)計的平臺。
這又是物理人工智能,又是開發(fā)者,打眼一看,好像跟咱也沒啥太大關(guān)系。
但大伙兒先別著急,這次 Cosmos 一發(fā)布,技術(shù)報告一甩,有些報道的標(biāo)題已經(jīng)用上了 “ 開啟物理 AI 大時代 ” 這樣的字眼,連老黃都說 “ 機(jī)器人的 ChatGPT 時刻即將到來 ” 。
而世超也去翻了翻 Cosmos 的技術(shù)報告,這么說吧, Cosmos 就好比物理 AI ( 機(jī)器人、無人車等 )的 “ 黃埔軍校 ” ,咱們以后能不能指望機(jī)器人養(yǎng)老,它說不定能幫上大忙。
咱們可以簡單把 Cosmos 平臺,當(dāng)成一個工具箱,里邊兒大概集成了世界基礎(chǔ)模型 ( WFM ) 、高級分詞器、安全護(hù)欄以及加速數(shù)據(jù)處理管道這么幾個 “ 工具 ” 。
后面那幾個專業(yè)名詞沒聽說過不要緊,但模型總該知道是啥吧。
這次,英偉達(dá)一口氣在 Cosmos 上發(fā)布了 8 個世界基礎(chǔ)模型,而且都是基于 2000 萬小時的視頻訓(xùn)練出來的,參數(shù)量從 40 億到 140 億不等,根據(jù)不同場景的應(yīng)用需求,還可以分為 Nano 、 Super 和 Ultra 三種。
看著唬人,但世界基礎(chǔ)模型,跟咱們熟悉的圖像、視頻生成模型差不多,是生成式 AI 模型。
只不過它生成的東西并不是視頻那么簡單,更準(zhǔn)確的說,當(dāng)你輸入文本、圖像、視頻或者運(yùn)動數(shù)據(jù)以后,世界基礎(chǔ)模型生成的是有物理規(guī)律的 “ 場景 ” 、 “ 環(huán)境 ” 。
本質(zhì)上,就是合成出高度仿真的數(shù)據(jù),來實現(xiàn)物理 AI 跟虛擬環(huán)境的交互。
至于其他的什么高級分詞器、安全護(hù)欄和加速數(shù)據(jù)處理管道,咱了解個大概就行。像高級分詞器可以把復(fù)雜的數(shù)據(jù)簡化,給數(shù)據(jù)劃重點。安全護(hù)欄就更好理解了,就是防止有害的輸出,保護(hù)隱私。
另外, Cosmos 還用到了一個 “ 先預(yù)訓(xùn)練再后訓(xùn)練 ” 的法子。
大概意思是,預(yù)訓(xùn)練階段先給模型喂大規(guī)模的真實視頻數(shù)據(jù),起碼要讓模型知道物理世界到底是咋運(yùn)轉(zhuǎn)的。
接著,后訓(xùn)練階段再具體問題具體分析,對預(yù)訓(xùn)練模型進(jìn)行微調(diào),滿足特定任務(wù)的需求。
總之就是, Cosmos 平臺通過各種技術(shù)手段,為物理 AI 構(gòu)建出了一個跟現(xiàn)實物理世界類似的空間和交互環(huán)境。
不過說了這么半天,可能有差友還是沒太明白,這玩意兒到底能用來干啥。
其實這個問題,老黃已經(jīng)在發(fā)布會上講得很清楚了,就是機(jī)器人和自動駕駛汽車。
拿機(jī)器人行業(yè)來說,為啥這么多年了一直沒啥大突破,很重要的一個原因就是缺數(shù)據(jù)。
跟大語言模型不太一樣,機(jī)器人訓(xùn)練需要的數(shù)據(jù)不只是文字、圖像那么簡單,因為機(jī)器人要感知這個世界,還要跟這個世界產(chǎn)生交互,所以它就得學(xué)習(xí)物理規(guī)律、動態(tài)變化。
但這些數(shù)據(jù),恰恰是最難收集的。
還是拿機(jī)器人洗碗舉例,看似動作很簡單,但機(jī)器人想學(xué)會你得有視覺數(shù)據(jù),比如餐具的形狀大小、油污程度,還有抓放碗的力度、用多大力氣擦洗這些力學(xué)數(shù)據(jù),當(dāng)然,洗碗過程中手臂移動、抓取角度的調(diào)整,包括一些復(fù)雜的動態(tài)因素,也需要收集、標(biāo)注數(shù)據(jù)。
像之前的斯坦福 Aloha 家務(wù)機(jī)器人,還是開發(fā)者通過親身示范 “ 遙控 ” 機(jī)器人完成指定動作,來收集數(shù)據(jù)。
所以這個時候, Cosmos 就派上用場了。
模擬出一個洗碗環(huán)境,不就相當(dāng)于,提前給機(jī)器人預(yù)習(xí)了一遍現(xiàn)實世界,等模型出師了,再放到現(xiàn)實世界去實操。
這樣一來,訓(xùn)練效率上去了,成本也能控制住。
按照英偉達(dá)官方的介紹,現(xiàn)在已經(jīng)有一部分機(jī)器人和自動駕駛公司用上了 Cosmos 。
OpenAI 投的那家 1X ,用 Cosmos 來給機(jī)器人做動態(tài)規(guī)劃。
小鵬也用 Cosmos 來合成各種天氣和路況的數(shù)據(jù),訓(xùn)練自動駕駛算法。
當(dāng)然了,精準(zhǔn)模擬現(xiàn)實世界只是理想狀態(tài)下的 Cosmos ,包括技術(shù)報告里也提到,現(xiàn)階段的世界基礎(chǔ)模型還比較早期,生成的視頻并不完全符合物理規(guī)律。
該說不說,世超現(xiàn)在也覺得走世界模型這條路,確實有搞頭。
如果有一天, AI 能對現(xiàn)實世界進(jìn)行模擬甚至是一比一復(fù)刻,并像咱們?nèi)艘粯永斫馐澜纭⒆龀鰶Q策,這才更貼近咱們?nèi)祟悓τ谌斯ぶ悄艿钠谕?br/>
去年,包括 Lecun 、李飛飛這些 AI 大拿,還有谷歌 Deepmind ,其實都在研究世界模型。世超盲猜一波,今年在世界模型和機(jī)器人領(lǐng)域里,可能會出現(xiàn)突破性的進(jìn)展。
但不管成與不成,擅長 “ 賣鏟子 ” 的英偉達(dá),都是那個最大贏家。