草莓视频ios在线下载,欧美巨大黑人精品videos,新版天堂在线www中文在线

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:28:20 瀏覽：219次

導(dǎo)讀：《科創(chuàng)板日報》12月23日訊（編輯宋子喬）有著“AI教母”之稱的斯坦福大學(xué)教授李飛飛又有新發(fā)現(xiàn)盡管空間推理能力依然薄弱，但多模態(tài)大模型已經(jīng)能夠記住和回憶空間，甚至內(nèi)部已經(jīng)形成了局部世界模型，表現(xiàn)出了空間意識。來自紐約大學(xué)、耶魯大學(xué)、斯坦福大學(xué)的研究者引入了VSI-Bench，這是一個用于評估多模態(tài)大模型視覺空間智能能力的工具。VSI-Bench包含了超過5000個問答對，這 ......

《科創(chuàng)板日報》12月23日訊（編輯宋子喬） 有著“AI教母”之稱的斯坦福大學(xué)教授李飛飛又有新發(fā)現(xiàn)盡管空間推理能力依然薄弱，但多模態(tài)大模型已經(jīng)能夠記住和回憶空間，甚至內(nèi)部已經(jīng)形成了局部世界模型，表現(xiàn)出了空間意識。

來自紐約大學(xué)、耶魯大學(xué)、斯坦福大學(xué)的研究者引入了VSI-Bench，這是一個用于評估多模態(tài)大模型視覺空間智能能力的工具。VSI-Bench包含了超過5000個問答對，這些問答對來源于288個真實(shí)視頻。這些視頻包括居住空間、專業(yè)場所（例如，辦公室、實(shí)驗(yàn)室）和工業(yè)場所（例如，工廠）以及多個地理區(qū)域。VSI-Bench的質(zhì)量很高，經(jīng)過迭代審查以最小化問題的歧義，并移除了從源數(shù)據(jù)集中傳播的錯誤注釋。

通過5000多個問答對，研究人員發(fā)現(xiàn)多模態(tài)大模型表現(xiàn)出了有競爭性的視覺空間智能（盡管仍然低于人類）人類評估者的平均準(zhǔn)確率達(dá)到79%，比最佳模型高出33%，在配置和時空任務(wù)上的表現(xiàn)接近完美（94%-100%）。

哪些模型的空間智能能力更強(qiáng)？

在專有模型中，Gemini-1.5 Pro脫穎而出，盡管只在2D數(shù)字?jǐn)?shù)據(jù)上進(jìn)行訓(xùn)練，但它大大超過了機(jī)會基線，并在絕對距離和房間大小估計等任務(wù)中接近人類表現(xiàn)；表現(xiàn)最佳的開源模型，如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B，取得了有競爭力的結(jié)果，僅落后Gemini-1.5 Pro 4%-5%。然而，大多數(shù)開源模型（7/12）都低于機(jī)會基線，暴露出視覺空間智能的明顯缺陷。

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能

在最新研究中，研究人員還給出了提升大模型空間智能能力的潛在路徑。

這項(xiàng)研究系統(tǒng)評估了多模態(tài)大模型的視覺空間智能后發(fā)現(xiàn)，思維鏈、思維樹、自洽性等常用的語言提示技術(shù)不僅沒有提升模型在空間任務(wù)上的表現(xiàn)，反而會使性能下降，而問答過程中明確生成認(rèn)知地圖則會增強(qiáng)多模態(tài)大模型的空間距離能力使用認(rèn)知地圖輔助空間推理，可使模型在空間任務(wù)上的準(zhǔn)確率提升了10個百分點(diǎn)。

相關(guān)論文已發(fā)布，合著作者中不僅有李飛飛，還有紐約大學(xué)計算機(jī)科學(xué)助理教授、CV大牛謝賽寧。

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能

謝賽寧表示，視覺空間智能在現(xiàn)實(shí)世界中的應(yīng)用，比以往任何時候都更近了。比如AI眼鏡，它可以向我們顯示去過的地方，還能定位、導(dǎo)航。

李飛飛也表示，在2025年，空間智能的界限很可能會再次突破，“這項(xiàng)名為“Thinking in Space”的研究，是對大模型在空間推理方面表現(xiàn)的評估，而空間推理對人類智能至關(guān)重要�！�

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能

視頻理解能力無疑是AI大模型的下一個待攻關(guān)高地。當(dāng)前的多模態(tài)大模型在2D空間的推理能力不斷增強(qiáng)，可以較好地處理語言對話任務(wù)和視頻圖像任務(wù)，但在空間認(rèn)知和理解方面的能力仍未得到充分研究。

空間智能對于模型理解物理世界而言至關(guān)重要。

李飛飛對空間智能的定義是：空間智能是機(jī)器在3D空間和時間中感知、推理和行動的能力。

在她看來，空間智能是AI領(lǐng)域的下一個前沿技術(shù)方向，是她的下一個“北極星”。

李飛飛此前表示，實(shí)現(xiàn)AGI（通用人工智能）的關(guān)鍵一環(huán)是“空間智能”，盡管OpenAI的Sora模型可以文生視頻，但就本質(zhì)而言，它仍屬平面二維模型，沒有三維立體理解能力，只有通過空間智能，才能看到世界、感知世界、理解世界并讓機(jī)器人做事，從而形成良性閉環(huán)。

今年9月份，在成功融資2.3億美元后，李飛飛創(chuàng)辦的空間智能公司W(wǎng)orld Labs正式啟動。據(jù)介紹，World Labs的目標(biāo)是開發(fā)一種能夠理解實(shí)體世界的模型。今年7月，有消息稱在完成兩輪融資后，World Labs的估值已超過10億美元，該公司的投資機(jī)構(gòu)可以說是耳熟能詳，包括安德森霍羅威茨(Andreessen Horowitz，又名a16z)、Adobe、AMD、Databricks、英偉達(dá)、AI基金Radical Ventures等。

（科創(chuàng)板日報宋子喬）

相關(guān)熱詞： 李飛飛謝賽寧視覺空間智能智能模型

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:28:20 瀏覽：219次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:28:20 瀏覽：219次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

大模型覺醒空間意識？李飛飛、謝賽寧再敘空間智能
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:28:20 瀏覽：219次