自偷自拍亚洲综合精品,成在线人午夜剧场免费无码

李飛飛：理解世界運(yùn)作方式是AI的下一步，我們需要從大語言模型轉(zhuǎn)向大世界模型

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-26 08:07:20 瀏覽：43次

導(dǎo)讀：圖片來源：Princeton University語言中充滿了視覺格言。比如，“眼見為實(shí)”，“一幅畫勝過千言萬語”，“眼不見，心不煩”等等。這是因?yàn)槲覀內(nèi)祟悘囊曈X中獲取了很多意義。但并不是一直都具備視覺能力。直到大約 5.4 億年前，所有生物都生活在水面以下，且它們都無法看見。只有隨著三葉蟲的出現(xiàn)，動(dòng)物們才能第一次感知到周圍陽光的豐富。接下來發(fā)生的事情是非凡的。在接下來的 ......

李飛飛：理解世界運(yùn)作方式是AI的下一步，我們需要從大語言模型轉(zhuǎn)向大世界模型

圖片來源：Princeton University

語言中充滿了視覺格言。比如，“眼見為實(shí)”，“一幅畫勝過千言萬語”，“眼不見，心不煩”等等。這是因?yàn)槲覀內(nèi)祟悘囊曈X中獲取了很多意義。但并不是一直都具備視覺能力。直到大約 5.4 億年前，所有生物都生活在水面以下，且它們都無法看見。只有隨著三葉蟲的出現(xiàn)，動(dòng)物們才能第一次感知到周圍陽光的豐富。接下來發(fā)生的事情是非凡的。在接下來的 1 千萬到 1.5 千萬年中，視覺的能力開啟了一個(gè)被稱為寒武紀(jì)大爆發(fā)的時(shí)期，在這個(gè)時(shí)期，大多數(shù)現(xiàn)代動(dòng)物的祖先出現(xiàn)了。今天，我們正在經(jīng)歷人工智能（AI）的現(xiàn)代寒武紀(jì)大爆發(fā)。似乎每周都有一種新的、令人驚嘆的工具問世。最初，生成式AI革命是由像 ChatGPT這樣的巨大語言模型推動(dòng)的，它們模仿人類的語言智能。但我相信，基于視覺的智能我稱之為空間智能更為根本。語言很重要，但作為人類，我們理解和與世界互動(dòng)的能力在很大程度上基于我們所看到的。一個(gè)被稱為計(jì)算機(jī)視覺的AI子領(lǐng)域長(zhǎng)期以來一直致力于教會(huì)計(jì)算機(jī)擁有與人類相同或更好的空間智能。過去 15 年，該領(lǐng)域迅速發(fā)展。并且，在以AI以人為本的核心信念指導(dǎo)下，我將我的職業(yè)生涯奉獻(xiàn)給了這一領(lǐng)域。沒有人教孩子如何看。孩子們通過經(jīng)驗(yàn)和例子來理解世界。他們的眼睛就像生物相機(jī)，每秒拍攝五張“照片”。到三歲時(shí)，孩子們已經(jīng)看過數(shù)億張這樣的照片。我們需要從大型語言模型轉(zhuǎn)向大型世界模型我們知道，經(jīng)過數(shù)十年的研究，視覺的一個(gè)基本元素是物體識(shí)別，因此我們開始教計(jì)算機(jī)這種能力。這并不容易。將一只貓的三維（3D）形狀呈現(xiàn)為二維（2D）圖像的方式是無窮無盡的，這取決于視角、姿勢(shì)、背景等。為了讓計(jì)算機(jī)在圖片中識(shí)別出一只貓，它需要擁有大量信息，就像一個(gè)孩子一樣。這一切直到 2000 年代中期才成為可能。那時(shí)，被稱為卷積神經(jīng)網(wǎng)絡(luò)的算法，經(jīng)過數(shù)十年的發(fā)展，遇到了現(xiàn)代 GPU 的強(qiáng)大能力以及“大數(shù)據(jù)”的可用性來自互聯(lián)網(wǎng)、數(shù)碼相機(jī)等的數(shù)十億張圖像。我的實(shí)驗(yàn)室為這一融合貢獻(xiàn)了“大數(shù)據(jù)”元素。在 2007 年，我們?cè)谝粋€(gè)名為 ImageNet 的項(xiàng)目中創(chuàng)建了一個(gè)包含 1500 萬張標(biāo)記圖像的數(shù)據(jù)庫，涵蓋 22000 個(gè)物體類別。然后，我們和其他研究人員使用圖像及其相應(yīng)的文本標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，使得模型能夠用簡(jiǎn)單的句子描述之前未見過的照片。利用 ImageNet 數(shù)據(jù)庫創(chuàng)建的這些圖像識(shí)別系統(tǒng)的意外快速進(jìn)展，幫助引發(fā)了現(xiàn)代AI熱潮。隨著技術(shù)的進(jìn)步，基于變換器架構(gòu)和擴(kuò)散等技術(shù)的新一代模型帶來了生成性AI工具的曙光。在語言領(lǐng)域，這使得像 ChatGPT這樣的聊天機(jī)器人成為可能。在視覺方面，現(xiàn)代系統(tǒng)不僅能夠識(shí)別，還可以根據(jù)文本提示生成圖像和視頻。結(jié)果令人印象深刻，但仍然僅限于2D。為了讓計(jì)算機(jī)具有人類的空間智能，它們需要能夠建模世界、推理事物和地點(diǎn)，并在時(shí)間和3D空間中進(jìn)行互動(dòng)。簡(jiǎn)而言之，我們需要從大型語言模型轉(zhuǎn)向大型世界模型。我們已經(jīng)在學(xué)術(shù)界和工業(yè)界的實(shí)驗(yàn)室中看到了這一點(diǎn)的初步跡象。借助最新的 AI 模型，這些模型使用來自機(jī)器人傳感器和執(zhí)行器的文本、圖像、視頻和空間數(shù)據(jù)進(jìn)行訓(xùn)練，我們可以通過文本提示來控制機(jī)器人例如，要求它們拔掉手機(jī)充電器或制作一個(gè)簡(jiǎn)單的三明治�；蛘�，給定一張 2D 圖像，該模型可以將其轉(zhuǎn)化為用戶可以探索的無限數(shù)量的合理 3D 空間。應(yīng)用是無窮無盡的。想象一下，能夠在普通家庭中導(dǎo)航并照顧老人的機(jī)器人；為外科醫(yī)生提供不知疲倦的額外幫助；或者在模擬、培訓(xùn)和教育中的應(yīng)用。這是真正以人為中心的人工智能，空間智能是它的下一個(gè)前沿。人類進(jìn)化了數(shù)億年所取得的成果，現(xiàn)在在計(jì)算機(jī)中僅需幾十年就能出現(xiàn)。而我們?nèi)祟悓⑹鞘芤嬲�。本文翻譯自：The Economist, https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai編譯：ChatGPT

相關(guān)熱詞： 李飛飛語言模型計(jì)算機(jī) 大世界智能

李飛飛：理解世界運(yùn)作方式是AI的下一步，我們需要從大語言模型轉(zhuǎn)向大世界模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-26 08:07:20 瀏覽：43次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

李飛飛：理解世界運(yùn)作方式是AI的下一步，我們需要從大語言模型轉(zhuǎn)向大世界模型 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-26 08:07:20 瀏覽：43次