展會信息港展會大全

大模型覺醒空間意識?李飛飛、謝賽寧再敘空間智能
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-23 20:28:20   瀏覽:219次  

導(dǎo)讀:《科創(chuàng)板日報》12月23日訊(編輯 宋子喬) 有著“AI教母”之稱的斯坦福大學(xué)教授李飛飛又有新發(fā)現(xiàn)盡管空間推理能力依然薄弱,但多模態(tài)大模型已經(jīng)能夠記住和回憶空間,甚至內(nèi)部已經(jīng)形成了局部世界模型,表現(xiàn)出了空間意識。來自紐約大學(xué)、耶魯大學(xué)、斯坦福大學(xué)的研究者引入了VSI-Bench,這是一個用于評估多模態(tài)大模型視覺空間智能能力的工具。VSI-Bench包含了超過5000個問答對,這 ......

《科創(chuàng)板日報》12月23日訊(編輯 宋子喬) 有著“AI教母”之稱的斯坦福大學(xué)教授李飛飛又有新發(fā)現(xiàn)盡管空間推理能力依然薄弱,但多模態(tài)大模型已經(jīng)能夠記住和回憶空間,甚至內(nèi)部已經(jīng)形成了局部世界模型,表現(xiàn)出了空間意識。

來自紐約大學(xué)、耶魯大學(xué)、斯坦福大學(xué)的研究者引入了VSI-Bench,這是一個用于評估多模態(tài)大模型視覺空間智能能力的工具。VSI-Bench包含了超過5000個問答對,這些問答對來源于288個真實(shí)視頻。這些視頻包括居住空間、專業(yè)場所(例如,辦公室、實(shí)驗(yàn)室)和工業(yè)場所(例如,工廠)以及多個地理區(qū)域。VSI-Bench的質(zhì)量很高,經(jīng)過迭代審查以最小化問題的歧義,并移除了從源數(shù)據(jù)集中傳播的錯誤注釋。

通過5000多個問答對,研究人員發(fā)現(xiàn)多模態(tài)大模型表現(xiàn)出了有競爭性的視覺空間智能(盡管仍然低于人類)人類評估者的平均準(zhǔn)確率達(dá)到79%,比最佳模型高出33%,在配置和時空任務(wù)上的表現(xiàn)接近完美(94%-100%)。

哪些模型的空間智能能力更強(qiáng)?

在專有模型中,Gemini-1.5 Pro脫穎而出,盡管只在2D數(shù)字?jǐn)?shù)據(jù)上進(jìn)行訓(xùn)練,但它大大超過了機(jī)會基線,并在絕對距離和房間大小估計等任務(wù)中接近人類表現(xiàn);表現(xiàn)最佳的開源模型,如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B,取得了有競爭力的結(jié)果,僅落后Gemini-1.5 Pro 4%-5%。然而,大多數(shù)開源模型(7/12)都低于機(jī)會基線,暴露出視覺空間智能的明顯缺陷。

大模型覺醒空間意識?李飛飛、謝賽寧再敘空間智能

在最新研究中,研究人員還給出了提升大模型空間智能能力的潛在路徑。

這項(xiàng)研究系統(tǒng)評估了多模態(tài)大模型的視覺空間智能后發(fā)現(xiàn),思維鏈、思維樹、自洽性等常用的語言提示技術(shù)不僅沒有提升模型在空間任務(wù)上的表現(xiàn),反而會使性能下降,而問答過程中明確生成認(rèn)知地圖則會增強(qiáng)多模態(tài)大模型的空間距離能力使用認(rèn)知地圖輔助空間推理,可使模型在空間任務(wù)上的準(zhǔn)確率提升了10個百分點(diǎn)。

相關(guān)論文已發(fā)布,合著作者中不僅有李飛飛,還有紐約大學(xué)計算機(jī)科學(xué)助理教授、CV大牛謝賽寧。

大模型覺醒空間意識?李飛飛、謝賽寧再敘空間智能

謝賽寧表示,視覺空間智能在現(xiàn)實(shí)世界中的應(yīng)用,比以往任何時候都更近了。比如AI眼鏡,它可以向我們顯示去過的地方,還能定位、導(dǎo)航。

李飛飛也表示,在2025年,空間智能的界限很可能會再次突破,“這項(xiàng)名為“Thinking in Space”的研究,是對大模型在空間推理方面表現(xiàn)的評估,而空間推理對人類智能至關(guān)重要!

大模型覺醒空間意識?李飛飛、謝賽寧再敘空間智能

視頻理解能力無疑是AI大模型的下一個待攻關(guān)高地。當(dāng)前的多模態(tài)大模型在2D空間的推理能力不斷增強(qiáng),可以較好地處理語言對話任務(wù)和視頻圖像任務(wù),但在空間認(rèn)知和理解方面的能力仍未得到充分研究。

空間智能對于模型理解物理世界而言至關(guān)重要。

李飛飛對空間智能的定義是:空間智能是機(jī)器在3D空間和時間中感知、推理和行動的能力。

在她看來,空間智能是AI領(lǐng)域的下一個前沿技術(shù)方向,是她的下一個“北極星”。

李飛飛此前表示,實(shí)現(xiàn)AGI(通用人工智能)的關(guān)鍵一環(huán)是“空間智能”,盡管OpenAI的Sora模型可以文生視頻,但就本質(zhì)而言,它仍屬平面二維模型,沒有三維立體理解能力,只有通過空間智能,才能看到世界、感知世界、理解世界并讓機(jī)器人做事,從而形成良性閉環(huán)。

今年9月份,在成功融資2.3億美元后,李飛飛創(chuàng)辦的空間智能公司W(wǎng)orld Labs正式啟動。據(jù)介紹,World Labs的目標(biāo)是開發(fā)一種能夠理解實(shí)體世界的模型。今年7月,有消息稱在完成兩輪融資后,World Labs的估值已超過10億美元,該公司的投資機(jī)構(gòu)可以說是耳熟能詳,包括安德森霍羅威茨(Andreessen Horowitz,又名a16z)、Adobe、AMD、Databricks、英偉達(dá)、AI基金Radical Ventures等。

(科創(chuàng)板日報 宋子喬)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港