在人工智能(AI)領域,斯坦福大學教授李飛飛被稱為“AI 教母”。
她在深度學習革命中發(fā)揮了重要作用,多年來一直致力于創(chuàng)建 ImageNet 數據集和競賽,該數據集和競賽要求人工智能系統(tǒng)識別 1000 個類別的物體和動物。2012年,一個名為 AlexNet 的神經網絡在 ImageNet 競賽中獲得了冠軍,其出色的表現震驚了整個人工智能研究界。
從那時起,神經網絡在互聯網上提供的大量免費訓練數據和可提供前所未有計算能力的 GPU 的推動下,開始取得突破。
在 ImageNet 出現之后的 13 年里,計算機視覺研究人員掌握了物體識別技術,并開始研究圖像和視頻生成技術。李飛飛與他人共同創(chuàng)建了斯坦福以人為本人工智能研究院(HAI),并繼續(xù)推動計算機視覺的發(fā)展。就在今年,她創(chuàng)辦了一家初創(chuàng)公司--World Labs,該公司可以生成用戶可以探索的 3D 場景。World Labs 致力于賦予人工智能“空間智能”,即生成 3D 世界、在 3D 世界中進行推理并與之互動的能力。
昨天,李飛飛在人工智能頂會 NeurIPS 上發(fā)表了題為“From Seeing to Doing: Ascending the Ladder of Visual Intelligence”的主旨演講,闡述了她對機器視覺的愿景。
主旨演講鏈接:
https://neurips.cc/virtual/2024/invited-talk/101127
在演講前,李飛飛接受了 IEEE Spectrum 高級編輯 Eliza Strickland 的專訪。內容如下:
Eliza Strickland:為什么將演講題目定為“攀登視覺智能的階梯”(Ascending the Ladder of Visual Intelligence)?
李飛飛:我認為,直觀地說,智能有不同程度的復雜性和先進性。在演講中,我想表達的是,在過去的幾十年里,尤其是深度學習革命的十多年里,我們在視覺智能方面所學到的東西令人驚訝。我們的技術能力越來越強。Judea Pearl 提出的“因果關系階梯”也給了我啟發(fā)。
演講還有一個副標題,“從看到做”。人們對這一點還不夠了解:無論是動物還是 AI 智能體,“看”都與互動和“做”密切相關。這和語言是不同的。語言從根本上說是一種交流工具,用來傳遞思想。在我看來,這些都是非;パa但同樣影響深刻的智能模態(tài)。
ES:你的意思是說,我們會本能地對某些景象做出反應?
李飛飛:我說的不僅僅是本能。如果你看一下感知的進化和動物智能的進化,就會發(fā)現這兩者之間有著深刻的聯系。每當我們能夠從環(huán)境中獲得更多信息時,進化的力量就會推動能力和智能的發(fā)展。如果你不能感知環(huán)境,你與世界的關系就會非常被動;你是吃還是被吃,都是非常被動的行為。但是,一旦你能夠通過感知從環(huán)境中獲取線索,進化的壓力就會真正增大,從而推動智能的發(fā)展。
ES:你認為這就是我們創(chuàng)造更深入的機器智能的方式嗎?讓機器感知更多環(huán)境?
李飛飛:我不知道“深入”是不是我想用的形容詞。我認為我們正在創(chuàng)造更多的能力。我認為它正變得越來越復雜,越來越有能力。我認為,解決空間智能問題是邁向全面智能化的基礎和關鍵一步,我對這一點深信不疑。
ES:我看過 World Labs 的演示。你為什么想研究空間智能并構建這些 3D 世界?
李飛飛:我認為空間智能是視覺智能的發(fā)展方向。如果我們真的要解決視覺問題,并將其與做某些事聯系起來,有一個非常簡單、一目了然的事實:世界是 3D 的。我們生活的世界不是平面的。我們的物理智能體,無論是機器人還是設備,都將生活在 3D 世界中。就連虛擬世界也變得越來越 3D 化。如果你與藝術家、游戲開發(fā)者、設計師、建筑師和醫(yī)生交談,即使他們是在虛擬世界中工作,其中大部分也是 3D 的。如果你能靜下心來,認清這個簡單而深刻的事實,那么毫無疑問,破解 3D 智能問題就是根本所在。
ES:我很好奇 World Labs 展示的場景是如何保持物體的持久性和遵守物理定律的。這感覺像是一個令人興奮的進步,因為像 Sora 這樣的視頻生成工具仍然在摸索這些東西。
李飛飛:一旦你認同了世界的 3D 性,很多事情就自然而然地發(fā)生了。例如,在我們發(fā)布在社交媒體上的一個視頻中,籃球被投放到一個場景中。因為它是 3D 的,所以你可以擁有這種能力。如果場景只是 2D 生成的像素,籃球將無處可去。
ES:或者,就像在 Sora 中一樣,它可能會出現在某個地方,但隨后就消失了。在嘗試推進這項技術的過程中,你們面臨的最大技術挑戰(zhàn)是什么?
李飛飛:沒有人解決過這個問題,對吧?這非常非常難。在 World Labs 的演示視頻中,你可以看到我們用一幅梵高的畫,以統(tǒng)一的風格生成了它周圍的整個場景:藝術風格、燈光,甚至街區(qū)會有什么樣的建筑。如果你轉過身去,它就變成了摩天大樓,那就完全沒有說服力了。它必須是 3D 的。你必須在其中導航。因此,它不僅僅是像素。
ES:你能說說你用來訓練它的數據嗎?
李飛飛:很多。
ES:你在算力負擔方面是否面臨技術挑戰(zhàn)?
李飛飛:算力需求很大。這是公共部門無法負擔的。這也是我很高興能夠以私營部門的方式來做這件事的部分原因。這也是我一直推動公共部門算力訪問的部分原因,我的親身經歷強調了創(chuàng)新與充足資源的重要性。
ES:如果能賦予公共部門權力就更好了,因為公共部門通常更愿意為自己和人類的利益而獲得知識。
李飛飛:知識的發(fā)現需要資源的支持。在伽利略時代,是最好的望遠鏡讓天文學家觀測到了新的天體。是胡克(Robert Hooke)意識到放大鏡可以改進成顯微鏡,并發(fā)現了細胞。每當有新的技術工具出現,都有助于知識的探尋。而現在,在人工智能時代,技術工具涉及算力和數據。對于公共部門來說,我們必須認識到這一點。
ES:假設我們可以讓人工智能系統(tǒng)真正理解 3D 世界,這將給我們帶來什么?
李飛飛:它將為人們釋放大量的創(chuàng)造力和生產力。我想用一種更高效的方式來設計我的房子。我知道很多醫(yī)學用途都涉及到理解一個非常特殊的 3D 世界,也就是人體。我們總是在談論未來人類將創(chuàng)造機器人來幫助我們,但機器人在 3D 世界中導航,它們需要空間智能作為大腦的一部分。我們還討論了虛擬世界,它將允許人們參觀地方、學習概念或娛樂。這些都使用 3D 技術,尤其是混合技術,我們稱之為 AR。我想著一副眼鏡穿過公園,它能告訴我關于樹木、小路和云的信息。我也想通過空間智能學習不同的技能。
ES:什么樣的技能?
李飛飛:我舉一個簡單的例子,如果我在高速公路上爆胎了,我該怎么辦?現在,我需要打開一個“如何換輪胎”的視頻。但如果我能戴上眼鏡,看到我的車發(fā)生了什么,然后在指導下完成這個過程,那就太酷了。你還可以考慮烹飪,你可以考慮雕刻有趣的事情。
ES:你認為在我們有生之年,我們還能在這方面走多遠?
李飛飛:我認為這將在我們的有生之年發(fā)生,因為技術進步的步伐非?。你們已經看到了過去 10 年帶來的變化。這無疑預示著接下來會發(fā)生什么。
訪談鏈接:
https://spectrum.ieee.org/fei-fei-li-world-labs
原文作者:Eliza Strickland,IEEE Spectrum 高級編輯,主要報人工智能、生物醫(yī)學工程等主題。