圖片來源:Princeton University
語言中充滿了視覺格言。比如,“眼見為實(shí)”,“一幅畫勝過千言萬語”,“眼不見,心不煩”等等。這是因?yàn)槲覀內(nèi)祟悘囊曈X中獲取了很多意義。但并不是一直都具備視覺能力。直到大約 5.4 億年前,所有生物都生活在水面以下,且它們都無法看見。只有隨著三葉蟲的出現(xiàn),動(dòng)物們才能第一次感知到周圍陽光的豐富。接下來發(fā)生的事情是非凡的。在接下來的 1 千萬到 1.5 千萬年中,視覺的能力開啟了一個(gè)被稱為寒武紀(jì)大爆發(fā)的時(shí)期,在這個(gè)時(shí)期,大多數(shù)現(xiàn)代動(dòng)物的祖先出現(xiàn)了。今天,我們正在經(jīng)歷人工智能(AI)的現(xiàn)代寒武紀(jì)大爆發(fā)。似乎每周都有一種新的、令人驚嘆的工具問世。最初,生成式AI革命是由像 ChatGPT這樣的巨大語言模型推動(dòng)的,它們模仿人類的語言智能。但我相信,基于視覺的智能我稱之為空間智能更為根本。語言很重要,但作為人類,我們理解和與世界互動(dòng)的能力在很大程度上基于我們所看到的。一個(gè)被稱為計(jì)算機(jī)視覺的AI子領(lǐng)域長(zhǎng)期以來一直致力于教會(huì)計(jì)算機(jī)擁有與人類相同或更好的空間智能。過去 15 年,該領(lǐng)域迅速發(fā)展。并且,在以AI以人為本的核心信念指導(dǎo)下,我將我的職業(yè)生涯奉獻(xiàn)給了這一領(lǐng)域。沒有人教孩子如何看。孩子們通過經(jīng)驗(yàn)和例子來理解世界。他們的眼睛就像生物相機(jī),每秒拍攝五張“照片”。到三歲時(shí),孩子們已經(jīng)看過數(shù)億張這樣的照片。我們需要從大型語言模型轉(zhuǎn)向大型世界模型我們知道,經(jīng)過數(shù)十年的研究,視覺的一個(gè)基本元素是物體識(shí)別,因此我們開始教計(jì)算機(jī)這種能力。這并不容易。將一只貓的三維(3D)形狀呈現(xiàn)為二維(2D)圖像的方式是無窮無盡的,這取決于視角、姿勢(shì)、背景等。為了讓計(jì)算機(jī)在圖片中識(shí)別出一只貓,它需要擁有大量信息,就像一個(gè)孩子一樣。這一切直到 2000 年代中期才成為可能。那時(shí),被稱為卷積神經(jīng)網(wǎng)絡(luò)的算法,經(jīng)過數(shù)十年的發(fā)展,遇到了現(xiàn)代 GPU 的強(qiáng)大能力以及“大數(shù)據(jù)”的可用性來自互聯(lián)網(wǎng)、數(shù)碼相機(jī)等的數(shù)十億張圖像。我的實(shí)驗(yàn)室為這一融合貢獻(xiàn)了“大數(shù)據(jù)”元素。在 2007 年,我們?cè)谝粋(gè)名為 ImageNet 的項(xiàng)目中創(chuàng)建了一個(gè)包含 1500 萬張標(biāo)記圖像的數(shù)據(jù)庫,涵蓋 22000 個(gè)物體類別。然后,我們和其他研究人員使用圖像及其相應(yīng)的文本標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,使得模型能夠用簡(jiǎn)單的句子描述之前未見過的照片。利用 ImageNet 數(shù)據(jù)庫創(chuàng)建的這些圖像識(shí)別系統(tǒng)的意外快速進(jìn)展,幫助引發(fā)了現(xiàn)代AI熱潮。隨著技術(shù)的進(jìn)步,基于變換器架構(gòu)和擴(kuò)散等技術(shù)的新一代模型帶來了生成性AI工具的曙光。在語言領(lǐng)域,這使得像 ChatGPT這樣的聊天機(jī)器人成為可能。在視覺方面,現(xiàn)代系統(tǒng)不僅能夠識(shí)別,還可以根據(jù)文本提示生成圖像和視頻。結(jié)果令人印象深刻,但仍然僅限于2D。為了讓計(jì)算機(jī)具有人類的空間智能,它們需要能夠建模世界、推理事物和地點(diǎn),并在時(shí)間和3D空間中進(jìn)行互動(dòng)。簡(jiǎn)而言之,我們需要從大型語言模型轉(zhuǎn)向大型世界模型。我們已經(jīng)在學(xué)術(shù)界和工業(yè)界的實(shí)驗(yàn)室中看到了這一點(diǎn)的初步跡象。借助最新的 AI 模型,這些模型使用來自機(jī)器人傳感器和執(zhí)行器的文本、圖像、視頻和空間數(shù)據(jù)進(jìn)行訓(xùn)練,我們可以通過文本提示來控制機(jī)器人例如,要求它們拔掉手機(jī)充電器或制作一個(gè)簡(jiǎn)單的三明治;蛘,給定一張 2D 圖像,該模型可以將其轉(zhuǎn)化為用戶可以探索的無限數(shù)量的合理 3D 空間。應(yīng)用是無窮無盡的。想象一下,能夠在普通家庭中導(dǎo)航并照顧老人的機(jī)器人;為外科醫(yī)生提供不知疲倦的額外幫助;或者在模擬、培訓(xùn)和教育中的應(yīng)用。這是真正以人為中心的人工智能,空間智能是它的下一個(gè)前沿。人類進(jìn)化了數(shù)億年所取得的成果,現(xiàn)在在計(jì)算機(jī)中僅需幾十年就能出現(xiàn)。而我們?nèi)祟悓⑹鞘芤嬲。本文翻譯自:The Economist, https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai編譯:ChatGPT