展會(huì)信息港展會(huì)大全

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-16 15:13:42   瀏覽:144次  

導(dǎo)讀:AI Pioneers 專欄投稿作者:BV百度風(fēng)投 Han、軻迪通用語(yǔ)言模型率先起跑,但通用視覺(jué)模型似乎遲到了一步。究其原因,語(yǔ)言中蘊(yùn)含大量序列信息,能做更深入的推理;而視覺(jué)模型的輸入內(nèi)容更加多元、復(fù)雜,輸出的任務(wù)要求多種多樣,需要對(duì)物體在時(shí)間、空間上的連續(xù)性有完善的感知,傳統(tǒng)的學(xué)習(xí)方法數(shù)據(jù)量大、經(jīng)濟(jì)屬性上也不理性...... 還沒(méi)有一套統(tǒng)一的算法來(lái)解決計(jì)算機(jī)對(duì)空間信息的 ......

AI Pioneers 專欄投稿

作者:BV百度風(fēng)投 Han、軻迪

通用語(yǔ)言模型率先起跑,但通用視覺(jué)模型似乎遲到了一步。

究其原因,語(yǔ)言中蘊(yùn)含大量序列信息,能做更深入的推理;而視覺(jué)模型的輸入內(nèi)容更加多元、復(fù)雜,輸出的任務(wù)要求多種多樣,需要對(duì)物體在時(shí)間、空間上的連續(xù)性有完善的感知,傳統(tǒng)的學(xué)習(xí)方法數(shù)據(jù)量大、經(jīng)濟(jì)屬性上也不理性...... 還沒(méi)有一套統(tǒng)一的算法來(lái)解決計(jì)算機(jī)對(duì)空間信息的理解。

2023 年,Meta AI 發(fā)布了首個(gè) "Segment Anything Model" (SAM),該模型無(wú)需專門(mén)的類(lèi)別標(biāo)注,而是通過(guò)交互的方式對(duì)真實(shí)世界中動(dòng)態(tài)的任意物體進(jìn)行分割。其分割方法通用,可對(duì)不熟悉的物體和圖像進(jìn)行零樣本泛化,體現(xiàn)了對(duì)空間信息的處理和理解能力。這項(xiàng)工作獲得了 ICCV 2023 Best Paper Honorable Mention。

來(lái)自加州大學(xué)伯克利人工智能實(shí)驗(yàn)室 (BAIR) 的肖特特博士是該項(xiàng)工作的主要參與者之一。他評(píng)價(jià)說(shuō):“以往我們通過(guò)增加類(lèi)別來(lái)提升模型效果,但 SAM 放棄了舊時(shí)代的很多枷鎖,放棄了特定的類(lèi)別標(biāo)注的方式,提升了模型對(duì)空間的理解能力!

這為 CV 新時(shí)代打開(kāi)了一道門(mén)。

而不同于上一代視覺(jué)智能,新時(shí)代下產(chǎn)生的空間智能最大的場(chǎng)景體現(xiàn)在具身智能的應(yīng)用上,它讓機(jī)器人、自動(dòng)駕駛、無(wú)人機(jī)等硬件設(shè)備擁有像人類(lèi)的眼睛一樣,感知世界,并產(chǎn)生與世界互動(dòng)的行動(dòng)力。

這就是 “看見(jiàn)不只是看見(jiàn),更是理解到行動(dòng)” 的智能產(chǎn)生鏈條。

肖特特于 2015 年以優(yōu)異成績(jī)(summa cum laude)獲得了北京大學(xué)智能科學(xué)專業(yè)的理學(xué)學(xué)士學(xué)位,后于 2019 年在加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,并曾在 Facebook AI 研究院從事研究工作。作為年輕一代人工智能學(xué)者的代表樣本,他的多篇重要工作發(fā)表在包括《Science Robotics》、CVPR、ICCV、ECCV 和 NeurIPS 等主要期刊和會(huì)議上。

他認(rèn)為,未來(lái) 5-10 年 CV 要解決的是真實(shí)世界的問(wèn)題,讓 AI 有人類(lèi)一樣對(duì)物理空間的感知能力。

2023 年,特特沒(méi)有繼續(xù)留在 Meta,而是選擇了人生新路徑,成立 PromptAI,致力于打造通用視覺(jué)智能平臺(tái),為機(jī)器賦予類(lèi)人的視覺(jué)感知能力。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

成立一年時(shí)間,PromptAI 獲得來(lái)自 UC Bekerley Pieter Abbeel 的投資與 Trevor Darrell 的技術(shù)支持。兩位教授同為伯克利人工智能實(shí)驗(yàn)室(BAIR)聯(lián)合主任,Trevor Darrell 教授在計(jì)算機(jī)視覺(jué)領(lǐng)域極大推動(dòng)了大規(guī)模感知的創(chuàng)新研究,而 Pieter Abbeel 教授是深度強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人領(lǐng)域的先驅(qū)人物。

公司其他成員都是十分年輕的 AI 研究員與工程師,在算法架構(gòu)、產(chǎn)品運(yùn)營(yíng)、工程管理上擁有杰出經(jīng)驗(yàn)。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

而追問(wèn) What's next 的精神,是 PromptAI 這群年輕的 AI 科學(xué)家找到問(wèn)題答案的關(guān)鍵。

永遠(yuǎn)在提問(wèn) What’s next?

BV:PromptAI 在解決什么問(wèn)題?

特特:發(fā)明創(chuàng)造跟人一樣有感知能力的空間智能模型,讓機(jī)器和算法成為人類(lèi)額外的眼睛。

BV:為什么是 “發(fā)明創(chuàng)造”?很少聽(tīng)到這個(gè)詞。

特特:“發(fā)明創(chuàng)造” 一定是技術(shù)驅(qū)動(dòng),但技術(shù)驅(qū)動(dòng)的東西不一定是 “發(fā)明創(chuàng)造”。舉個(gè)例子,在互聯(lián)網(wǎng)時(shí)代,我們可以用已有的互聯(lián)網(wǎng)技術(shù)來(lái)降本增效,這中間產(chǎn)生很多行業(yè)機(jī)會(huì)。這受到新技術(shù)的驅(qū)動(dòng),但并不是 “發(fā)明創(chuàng)造”。

而目前在計(jì)算機(jī)視覺(jué)領(lǐng)域,新的方式還沒(méi)有出現(xiàn),我們希望發(fā)明創(chuàng)造下一代視覺(jué)技術(shù),并定義新的人與機(jī)器交互的方式。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

圖片來(lái)源:公司官網(wǎng)

BV:是什么時(shí)候產(chǎn)生創(chuàng)業(yè)想法的?

特特:我們看到了 AI 給人類(lèi)社會(huì)帶來(lái)的這個(gè)機(jī)會(huì):人類(lèi)能看到的東西,計(jì)算機(jī)也能看到。計(jì)算機(jī)能把人類(lèi)從繁瑣無(wú)聊的工作、任務(wù)中解脫出來(lái),擁有更多的時(shí)間和自由去做更喜歡、更擅長(zhǎng)的事情。

我覺(jué)得 AI 在成熟,它可以變成我們額外的眼睛幫助我們更高效、更快樂(lè)地生活。這是我們創(chuàng)業(yè)開(kāi)始時(shí),在社會(huì)應(yīng)用上的 insights,當(dāng)然,除此之外還有技術(shù)變革上的 insights。

BV:那技術(shù)上推動(dòng)你創(chuàng)業(yè)的原因是什么?

特特:在 PhD 后期,看到視覺(jué)領(lǐng)域從 MAE(注:《Masked Autoencoders》,這項(xiàng)工作來(lái)自 Meta AI,采用無(wú)監(jiān)督學(xué)習(xí)的方式,提高模型的泛化能力和魯棒性。)到 SAM(注:《Segment Anything Model》)的變化,用通用視覺(jué)模型去解決大量不同問(wèn)題是可行的。谷歌的前 CEO 埃里克·施密特在《How Google Works》中,就曾強(qiáng)調(diào)技術(shù)洞見(jiàn)的重要性,這是產(chǎn)品開(kāi)發(fā)和公司成長(zhǎng)的源動(dòng)力。

帶著應(yīng)用和技術(shù)上的想法,我找到我在 UC Bekerley 的導(dǎo)師 Trevor Darrell 教授聊,他很認(rèn)可也很支持。后來(lái)又吸納了更多團(tuán)隊(duì)成員,大家都共享一個(gè)理念:新一代視覺(jué)技術(shù)的應(yīng)用機(jī)會(huì)以及由此產(chǎn)生的空間智能對(duì)人類(lèi)社會(huì)的價(jià)值

BV:是什么驅(qū)使你想到這種新范式?

特特:往回看,研究者總是在問(wèn):What’s next?這是個(gè)非常自然而發(fā)的問(wèn)題。

What’s next 問(wèn)的內(nèi)容有很多種,一種是目前現(xiàn)有的技術(shù)能解決哪些任務(wù),帶來(lái)哪些能力上的提升。比如視覺(jué)分類(lèi)研究中,現(xiàn)在能做到準(zhǔn)確率 95%,我能不能推到 97%?推到 99%?

而另一種是,下一代技術(shù)是什么樣子?我們利用下一代技術(shù)能夠做什么事情?比如對(duì)數(shù)據(jù)集來(lái)說(shuō),原來(lái)只能看到 20 類(lèi)物體,后來(lái) 80 類(lèi),后來(lái) 200 類(lèi),再往后,能否看到他們其他維度的特性?看到材質(zhì)、結(jié)構(gòu)、組成部分?因?yàn)楹茈y定義類(lèi)別,能否干脆用自然語(yǔ)言描述物體?這是在研究中水到渠成會(huì)思考到的問(wèn)題。

這兩種問(wèn)題一定是交織進(jìn)行、同時(shí)發(fā)生的。當(dāng)前技術(shù)的深挖是很有必要的,不然很難看到他的影響力的擴(kuò)散。但有時(shí)候這個(gè)技術(shù)不一定是最優(yōu)解,這個(gè)時(shí)候就需要我們跳出來(lái),去問(wèn)問(wèn)有沒(méi)有新的解決方案。

而通用視覺(jué)模型,就是面對(duì) CV1.0 時(shí)代中的各種問(wèn)題而提出的新的解決方案。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

肖特特參加 2024 智源大會(huì),分享《A Real-World Approach to Intelligence》

BV:這種 What’s next 既可以問(wèn)是否加速了過(guò)去的應(yīng)用,也可以問(wèn)是否創(chuàng)造了新的范式。

特特:是的。偉大的公司都想要知道 “what's next”,比如 Google 用了新的技術(shù)方式去管理世界上五花八門(mén)的知識(shí);Apple 創(chuàng)造了新的人與計(jì)算機(jī)交互的方式,讓個(gè)人電腦走進(jìn)我們的生活里;英偉達(dá)實(shí)現(xiàn)了加速計(jì)算,用新的硬件形態(tài)去解決計(jì)算領(lǐng)域的問(wèn)題。

在研究和創(chuàng)業(yè)中,一旦停下對(duì)未來(lái)技術(shù)的追問(wèn),做的事情就會(huì)變得平庸,囿于目前已經(jīng)掌握到的技術(shù),只解決眼前有限的問(wèn)題,而無(wú)法找到下一代技術(shù),解決更多問(wèn)題。

這種追問(wèn)的精神,就是我們的團(tuán)隊(duì)信仰。

CV 變革,智能產(chǎn)生:1.0-2.0

BV:什么是 CV1.0 ?解決了哪些任務(wù)?

特特:CV1.0 解決專一的、特定的任務(wù),它在經(jīng)濟(jì)屬性上并不是很理性。

2012 年出現(xiàn) AlexNet,這個(gè)機(jī)器學(xué)習(xí)范式,對(duì)圖片識(shí)別的能力大大超過(guò)了其它技術(shù)路線,可以用在自然語(yǔ)言處理、推薦系統(tǒng)、計(jì)算機(jī)視覺(jué)等多個(gè)方向上,瞬間激發(fā)了 AI 的應(yīng)用價(jià)值。互聯(lián)網(wǎng)產(chǎn)品可以利用這種范式來(lái)學(xué)習(xí)圖片、視頻當(dāng)中的特質(zhì),來(lái)更好地提升用戶體驗(yàn);醫(yī)療上會(huì)利用機(jī)器學(xué)習(xí)來(lái)做診斷;工廠里可以做各種質(zhì)量檢測(cè);城市管理當(dāng)中還可以分析人的軌跡、流向。

但這些任務(wù)之間不能互通,比如說(shuō),A 工廠生產(chǎn)手機(jī)屏幕,需要一套針對(duì)劃痕檢測(cè)這個(gè)單一任務(wù)的視覺(jué)系統(tǒng);而 B 工廠生產(chǎn)汽車(chē),也需要一套檢測(cè)劃痕的視覺(jué)系統(tǒng)。但此劃痕非彼劃痕,這是兩套完全不一樣的檢測(cè)系統(tǒng)。

總結(jié)下來(lái),我們一直在解決同一個(gè)問(wèn)題,就是感知。這個(gè)大問(wèn)題在應(yīng)用中會(huì)被細(xì)分為無(wú)數(shù)細(xì)分問(wèn)題,比如檢測(cè)材質(zhì)、大小、位置、組成部分等等。在 CV1.0 時(shí)代,這些問(wèn)題非常細(xì),并且每個(gè)場(chǎng)景對(duì)智能的需求是有限的,我們解決了一個(gè)子問(wèn)題,卻沒(méi)有能力解決另一個(gè)子問(wèn)題;氐絼澓蹤z測(cè)問(wèn)題,就算有一個(gè)模型能夠識(shí)別世界上所有的劃痕,但你卻識(shí)別不了世界上所有的杯子。如此以往,這個(gè)模型就非常的單一、不完善,實(shí)現(xiàn)難度也很大,經(jīng)濟(jì)投入也會(huì)很多。

BV:這種方法跟人類(lèi)感知物體的方式是不一樣的。這是不是也回答了:為什么過(guò)去的 CV 技術(shù)沒(méi)有出現(xiàn)很多解決通用行業(yè)問(wèn)題的產(chǎn)品?

特特:是的。

另外,CV1.0 與人類(lèi)智能相比,“數(shù)據(jù)輸入” 的模式也并不相通。打個(gè)比方,對(duì) CV1.0 來(lái)說(shuō),需要標(biāo)注很多數(shù)據(jù),讓計(jì)算機(jī)知道這個(gè)杯子是不銹鋼的,另一個(gè)是玻璃的。如果我再加一類(lèi)塑料杯,那就又要標(biāo)注成千上萬(wàn)的這類(lèi)數(shù)據(jù)。

但是回過(guò)頭想,難道我真的需要 “見(jiàn)到” 成千上萬(wàn)的玻璃杯,才能知道這個(gè)是玻璃杯嗎?人類(lèi)并不是這樣做判斷的,我們用過(guò)玻璃杯,或者是見(jiàn)過(guò)玻璃制品,在不需要眾多 “數(shù)據(jù)輸入” 的情況下就可以推斷出來(lái)。

BV:正因?yàn)檫@樣,我們需要大模型的能力。

特特:大模型的目的不是把模型做大,價(jià)值并不在于加參數(shù);氐絼偛抛R(shí)別三種杯子的例子,你可以做出一個(gè)上億級(jí)參數(shù)的模型來(lái)完成這個(gè)任務(wù),但仍存在無(wú)法解決更多任務(wù)的瓶頸。

Foundation Model 和 Pre-training 的好處是,把不同的信息源都學(xué)習(xí)進(jìn)來(lái),我們可能并不知道模型從哪里學(xué)到的關(guān)于 “玻璃” 的概念,但當(dāng)它習(xí)得這個(gè)概念之后,會(huì)把這個(gè)概念抽象出來(lái),并且能把這個(gè)知識(shí)運(yùn)用到未來(lái)的預(yù)測(cè)和感知當(dāng)中。這個(gè)是大模型和過(guò)去的技術(shù)不一樣的地方。

BV:CV 2.0 有哪些不同?

特特:區(qū)別在于,第一是讓 AI 具備和人一樣感知世界的智能,解決真實(shí)世界的問(wèn)題;第二是解決開(kāi)放世界中通用任務(wù)問(wèn)題;第三是具有人的常識(shí)能力。

BV:從 CV1.0 到 2.0 的分水嶺有哪些?

特特:第一個(gè)關(guān)鍵節(jié)點(diǎn),是 2021 年 OpenAI 的 CLIP 工作(《Learning Transferable Visual Models From Natural Language Supervision》),它講的是如何 “以語(yǔ)言作為監(jiān)督” 學(xué)習(xí)視覺(jué)信息。過(guò)去,如果我們用預(yù)定類(lèi)別的方式來(lái)做識(shí)別,這個(gè)過(guò)程跟語(yǔ)言是沒(méi)有關(guān)系的。而這篇工作提到,不同的概念在語(yǔ)義上有相關(guān)性,我們可以從人類(lèi)的語(yǔ)言中獲得這種相關(guān)性。思路就是,讓模型去學(xué)習(xí)圖片對(duì)應(yīng)的描述,學(xué)習(xí)圖片的視覺(jué)語(yǔ)義信息。

但這個(gè) idea 即使在當(dāng)時(shí)來(lái)看也并不新鮮,它獨(dú)特性在于,用更大的數(shù)據(jù)量和計(jì)算量,用幾百個(gè) million 的數(shù)據(jù)來(lái)做訓(xùn)練,并且這些數(shù)據(jù)能很容易從互聯(lián)網(wǎng)上獲取。之所以有這個(gè)想法,是因?yàn)檫@項(xiàng)工作來(lái)自 OpenAI,當(dāng)時(shí)已經(jīng)開(kāi)始做 GPT,他們看到了 scale 后模型的變化和影響,這徹底改變了我們對(duì)視覺(jué)和語(yǔ)言之間的認(rèn)知。

再往后,2023 年 Meta AI 發(fā)布的 SAM(《Segment Anything Model》)相關(guān)工作也是這個(gè)轉(zhuǎn)變過(guò)程中的 milestone。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

SAM 是 CV 舊時(shí)代的最后一篇工作,新時(shí)代的第一篇工作。原因是,它要解決的是傳統(tǒng)的視覺(jué)分割問(wèn)題,這是一個(gè)舊問(wèn)題。高等生命的視覺(jué)系統(tǒng)都有對(duì)物體分割的能力,這個(gè)能力非常重要,但實(shí)現(xiàn) AGI 不會(huì)通過(guò)完美解決分割問(wèn)題而實(shí)現(xiàn)。

盡管如此,SAM 放棄了舊時(shí)代的很多枷鎖,放棄了特定的類(lèi)別,解決了通用物體分割的問(wèn)題。以椅子舉例,椅子里有很多零部件,零部件里面可能還有細(xì)分的零部件,那么到底什么才是這個(gè)椅子呢?在 SAM 中,我們無(wú)需對(duì)椅子及其零部件進(jìn)行標(biāo)注,而是通過(guò)交互的方式對(duì)任意物體進(jìn)行分割,找到我們希望得到的部分。

這為我們指明了一個(gè)方向:在一個(gè)模型下,一個(gè)通用的視覺(jué)模型去解決大量不同問(wèn)題是可行的。這就是為什么我相信這項(xiàng)工作是為 CV 新時(shí)代開(kāi)了一道門(mén)的原因。

比如,分割人像和分割文字,是兩套系統(tǒng)。但在 SAM 中,是一套系統(tǒng)中需要解決的兩個(gè)任務(wù)。那么思路打開(kāi)之后,這套系統(tǒng)能解決的問(wèn)題就很多了,有些人用它來(lái)去分割衛(wèi)星的圖像,有人其實(shí)用它來(lái)分割古書(shū)籍里面的一些文字,還可以去分割微生物體...... 這個(gè)模型完全沒(méi)有見(jiàn)過(guò)古書(shū)字,但依靠良好的泛化性,可以再零樣本情況下取得很好的效果。

BV:那下一個(gè) 10 年 CV 要去解決哪些問(wèn)題?

特特:未來(lái) 5-10 年 CV 要解決的是真實(shí)世界的問(wèn)題,讓 AI 像人一樣有感知世界的能力。但我們的真實(shí)世界是連續(xù)的視覺(jué)信息,不是單幀的,為了感知更多真實(shí)世界的內(nèi)容,我們需要更強(qiáng)的視頻理解能力。這里也有很多難題,比如說(shuō)如何去表征一個(gè)視頻?如何讓模型去理解時(shí)間的概念?理解動(dòng)作在時(shí)間上的連續(xù)性?理解物體在空間中的具體位置、遠(yuǎn)近大。

假如有一個(gè)人經(jīng)過(guò)一個(gè)障礙物,在單幀系統(tǒng)中,計(jì)算機(jī)就會(huì)感知不到被擋住的人;但如果是視頻系統(tǒng),就會(huì)捕捉到人經(jīng)過(guò)障礙物前后的信息,“看” 到人在障礙物后面。

計(jì)算機(jī)視覺(jué)的金標(biāo)準(zhǔn)是人的感知能力。這個(gè)不光是學(xué)術(shù)領(lǐng)域的下一代問(wèn)題,也是工業(yè)界下一代 AI 的經(jīng)濟(jì)價(jià)值所在的地方。

BV:感知和 “世界模型” 的聯(lián)系是什么?“世界模型” 的本質(zhì)是什么?

特特:當(dāng)有了對(duì)真實(shí)世界更多的理解之后,對(duì)感知到的信息做未來(lái)的預(yù)測(cè),這一套系統(tǒng)就是 “世界模型”。“世界模型” 是推理的一種形式,這種推理不僅包括邏輯推理,還包括一些 low-level (比如在像素上)的推理。例如,如果我推了球一下,這個(gè)球下一秒在視頻里會(huì)顯示成什么樣子?對(duì)球的運(yùn)動(dòng)的推理,就是 “世界模型” 的體現(xiàn)。

這樣的 “世界模型” 固然理想,但它很難構(gòu)建,甚至人也不會(huì)用這樣的推理方式來(lái)完成任務(wù)。

其實(shí)世界模型不是一個(gè)全新的概念,麥卡錫、明斯基和香農(nóng)等科學(xué)家在 1956 年達(dá)特茅斯會(huì)議上談?wù)撊斯ぶ悄荛_(kāi)端的時(shí)候,就提到了 Abstraction(注:抽象指的是 AI 系統(tǒng)對(duì)現(xiàn)實(shí)世界的簡(jiǎn)化和概念化表示,這種表示使得 AI 能夠進(jìn)行狀態(tài)估計(jì)、預(yù)測(cè)、模擬、推理和決策,從而更好地與外部環(huán)境互動(dòng))。Abstraction 是比世界模型更廣泛的定義,世界模型是實(shí)現(xiàn) Abstraction 的一種構(gòu)想,但不會(huì)是唯一的一種方案。我認(rèn)為它甚至大概率不是未來(lái)成功實(shí)現(xiàn)智能的方式  智能體對(duì)常識(shí)的推理能力應(yīng)該是涌現(xiàn)的。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

達(dá)特茅斯會(huì)議主要參與者及議題

BV:當(dāng) AI 能更好地理解視頻、建立 “世界模型”,是否就擁有了空間上的智能能力?

特特:這個(gè)問(wèn)題的關(guān)鍵在于,理解是智能的原因還是智能的現(xiàn)象?

如果理解是智能的現(xiàn)象的話,我們看到一個(gè)智能體,它就應(yīng)該具有理解世界的能力;但如果理解是智能產(chǎn)生的原因,那么只有它學(xué)會(huì)了對(duì)世界的預(yù)測(cè)、掌握了世界模型之后,它才能成為智能體。

生物進(jìn)化是一個(gè)很復(fù)雜的過(guò)程,智能的出現(xiàn)在進(jìn)化的角度是一個(gè)相輔相成的過(guò)程。理解能力越強(qiáng),智能體就越強(qiáng)大,智能體越強(qiáng)大,它在進(jìn)化上就更占優(yōu)勢(shì),就會(huì)有更好地理解能力。

下一代 AI 一定是對(duì)世界有理解、推理和搭建 “世界模型” 的能力的,但下一代的 AI 未必會(huì)因?yàn)閷W(xué)習(xí) “世界模型” 而產(chǎn)生。

BV:如果學(xué)習(xí)推理未必產(chǎn)生智能,那么智能如何產(chǎn)生?

特特:把 AI 部署到真實(shí)世界中去,在與世界的互動(dòng)中獲得空間智能。

如果一套系統(tǒng)只存活在數(shù)字世界,沒(méi)有辦法在真實(shí)世界中一覽天下,那它不一定會(huì)成為真正的智能體。

就像具身智能機(jī)器人,從多模態(tài)環(huán)境里學(xué)到各種各樣的常識(shí),獲得預(yù)測(cè)能力。比如踩到了石頭會(huì)摔倒,從手中掉了的杯子可能會(huì)摔碎。我們很難只通過(guò)訓(xùn)練世界模型的方式產(chǎn)生下一代智能,所以我們要像滾雪球一樣,讓智能體學(xué)到越來(lái)越多的常識(shí),做更多的任務(wù)。說(shuō)不定有一天智能體可以把自己送到月球上去,自己干活工作,然后回來(lái)告訴你它干了什么事情。

BV:智能是在智能體跟環(huán)境的交互過(guò)程中產(chǎn)生、涌現(xiàn)。這樣來(lái)看,空間智能的產(chǎn)生路徑就很清楚了。

特特:是的,第一步是通過(guò)傳感器觀察、理解物理世界,如果沒(méi)有辦法觀察物理世界,就沒(méi)有辦法理解物理世界。

第二步,跟物理世界做交互,知道如何做抓取、走路、避障、操作物體。

因此,我們需要通用視覺(jué)模型來(lái)更好地理解感知世界,理解時(shí)間上、空間上的運(yùn)動(dòng)性等特征;另一個(gè)就是 Embodied AI,讓機(jī)器跟環(huán)境交互,在多模態(tài)的真實(shí)世界里產(chǎn)生智能。

比如,在與 Ilija Radosavovic 合作的《Real-World Robot Learning with Masked Visual Pre-training》中,我們通過(guò)在大規(guī)模真實(shí)世界圖像和視頻數(shù)據(jù)上進(jìn)行自監(jiān)督視覺(jué)預(yù)訓(xùn)練,預(yù)訓(xùn)練后需要在實(shí)際的任務(wù)中做小規(guī)模 finetune,使機(jī)器人在現(xiàn)實(shí)世界任務(wù)中學(xué)習(xí)到豐富的視覺(jué)表示,幫助機(jī)器人更好地理解和感知現(xiàn)實(shí)世界中的三維空間信息,并在復(fù)雜環(huán)境中做出合理的決策和行動(dòng)。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

做 AI 的人怎么看藝術(shù)生成?

BV:生成呢?在智能產(chǎn)生的過(guò)程中,生成到底以什么形式出現(xiàn)?

特特:這個(gè)是目前大家沒(méi)有定論的事情。這與人的想象是不同的,人的想象是抽象地去想象可能會(huì)發(fā)生的事情;而現(xiàn)在的生成式 AI,更多是以在細(xì)節(jié)上、以像素級(jí)別的水準(zhǔn),把內(nèi)容給生成出來(lái)。

大多數(shù)人都不是畫(huà)家,我的畫(huà)畫(huà)的藝術(shù)能力極為落后,但我還是有藝術(shù)上欣賞的能力。

回到達(dá)特茅斯會(huì)議上大家對(duì)人工智能的憧憬。大家認(rèn)為生成其實(shí)是 creativity and randomness,計(jì)算機(jī)不是完全按照既定的程序去執(zhí)行每一個(gè)指令。就像人類(lèi)一樣,無(wú)論是我們的思維還是動(dòng)作,都不一定是在執(zhí)行一個(gè)特定的指令,因?yàn)槲覀冇袆?chuàng)造力和想象力。所以我覺(jué)得生成是智能的一個(gè)重點(diǎn),但是具體能不能像畫(huà)家一樣把它的藝術(shù)性畫(huà)出來(lái),就是另一回事。

BV:“熱愛(ài)藝術(shù)人” 和 “搞技術(shù)的人” 這兩個(gè)標(biāo)簽的疊加下,讓你對(duì) “AI 是否能創(chuàng)造藝術(shù)” 這個(gè)話題有什么不同的感受?

特特:音樂(lè)、美術(shù)、電影,這些在我的生命中是不可或缺的。

第一,藝術(shù)是關(guān)于未來(lái)的,不是關(guān)于過(guò)去的,無(wú)法用過(guò)去已有的信息來(lái)訓(xùn)練 “生成” 藝術(shù)。藝術(shù)需要經(jīng)歷和感受,是人對(duì)外在世界和內(nèi)在世界的抽象理解。

目前,AI 的價(jià)值更多的體現(xiàn)在生產(chǎn)工具的屬性上,我們可以通過(guò) AI 來(lái)讓生活更便捷、安全、理想,解放我們的時(shí)間和生產(chǎn)力。但 AI 沒(méi)有感情經(jīng)歷,沒(méi)有生活經(jīng)歷,跟人類(lèi)的悲喜并不相通,所以 AI 很難去感受藝術(shù),也就很難生成藝術(shù)。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

法國(guó)印象派代表人物克勞德·莫奈《日出印象》

回過(guò)頭來(lái)看,藝術(shù)之所以是藝術(shù),很多時(shí)候是跟觀察者有關(guān)系的,一千個(gè)人里有一千個(gè)不同的哈姆雷特。當(dāng)人們欣賞畫(huà)作、音樂(lè)的時(shí)候,會(huì)從中得到共鳴,感受到新的東西。

第二,藝術(shù)和內(nèi)容制作很難區(qū)分開(kāi)來(lái)。藝術(shù)是一個(gè)復(fù)雜的過(guò)程,其中包括創(chuàng)造 idea 部分,也包括制作內(nèi)容部分。

比如說(shuō),畫(huà)家畫(huà)畫(huà),雕塑家雕刻作品,劇作家創(chuàng)作劇本,我們很難把創(chuàng)造 idea 和制作內(nèi)容區(qū)分開(kāi)來(lái)。這些藝術(shù)行為不僅是一個(gè)靈感想法的產(chǎn)生,更重要的是要把靈感想法串起來(lái)、表現(xiàn)出來(lái)、制作出來(lái),這中間需要很多 “體力活”。比如羅丹的每一個(gè)雕塑作品,都經(jīng)歷了藝術(shù)家大量繪畫(huà),試驗(yàn),和完善。當(dāng)我們用寫(xiě) prompt 的方式去生成一個(gè)內(nèi)容,我們只是利用 AI 制作了內(nèi)容,不一定是創(chuàng)造了藝術(shù)。

第三,我們也要把藝術(shù)和娛樂(lè)也要區(qū)分開(kāi)來(lái)。當(dāng)我們聽(tīng)到一段旋律或是看到一段影像,覺(jué)得很好看、很過(guò)癮,但不代表它激發(fā)我產(chǎn)生了認(rèn)知上的改變、情緒上的共鳴、對(duì)世界新的理解。

目前 AI 更多是在生成娛樂(lè),而不是藝術(shù)。

故事另一面

BV:科研路上,哪些人給你帶來(lái)技術(shù)上的啟發(fā)?

特特:2018 年,我在孫劍老師的指導(dǎo)下參加 COCO 競(jìng)賽(注:Common Objects in Context),題目就是如何做出更強(qiáng)大的物體檢測(cè)器。我們用了 256 張 GPU 去訓(xùn)練這個(gè)模型,這個(gè)數(shù)量級(jí)的 GPU 讓模型的收斂速度非?,但卻很 “非主流”。因?yàn)楫?dāng)時(shí)的主流觀點(diǎn)是模型并非越大越好,而我們的方案甚至早于第一代 GPT。孫劍老師問(wèn)我們:這個(gè)東西的邊界、上限在哪里?模型效果好的背后原因到底是什么?

這個(gè)啟發(fā)非常重要:你要不停的問(wèn)為什么是這樣,而不是那樣?傳統(tǒng)的方式就一定是對(duì)的嗎?有沒(méi)有下一代解決方案?授人以魚(yú)不如授人以漁,總有問(wèn)題是老師解決不了的,總有問(wèn)題是需要年輕的頭腦去思考的。而這些思考對(duì)剛?cè)腴T(mén)的年輕科研者來(lái)說(shuō)是非常重要的一課,能讓我們的工作做的更扎實(shí)。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

圖中左三為肖特特,右二為孫劍老師

BV:伯克利人工智能實(shí)驗(yàn)室(BAIR)給你留下什么印象?

特特:BAIR 不是一個(gè) lab,而是一個(gè)很多方向的 super lab 聯(lián)合體。整個(gè)科研樓還挺擠挺小的,很多教授就擠在角落里沒(méi)有窗戶的辦公室里搞科研。

BAIR 有很多方向,在計(jì)算機(jī)視覺(jué)領(lǐng)域有傳統(tǒng)感知,有 3D 重建,也有圖片和視頻生成,還有視覺(jué)和語(yǔ)言中間的 understanding。其他還有 NLP、robotics、AI 倫理、AI for Science 等領(lǐng)域方向。BAIR 成立的背景,就是希望學(xué)生們從不同的方向上做交流,在學(xué)科內(nèi)交叉領(lǐng)域相互碰撞。理解、感知、思考、推理、操作、運(yùn)動(dòng)這些都是 AI 的一部分,更廣一點(diǎn)來(lái)看,我們跟心理學(xué)、神經(jīng)科學(xué)、行為科學(xué)也都有關(guān)系。

我的教授 Trevor Darrell 是 BAIR 的 co-founder 和 Founding Director。Trevor Darrell 教授最大的特點(diǎn)就是包容,在一個(gè)有很大變化的研究領(lǐng)域,研究者需要自由的空間去探索感興趣的問(wèn)題。很多時(shí)候我們的發(fā)現(xiàn)發(fā)明不一定是大家都認(rèn)可的技術(shù)路線,但我們要有空間去追逐這樣不被認(rèn)可的技術(shù)想法。

在 BAIR Lab,從 2021 年開(kāi)始,我與 Ilija Radosavovic 合作了多篇工作,從《Masked Visual Pre-training for Motor Control》到《Real-World Robot Learning with Masked Visual Pre-training》,以及《Real-world Humanoid Locomotion with Reinforcement Learning》。

我們?cè)瓉?lái)都是學(xué)習(xí)計(jì)算機(jī)視覺(jué)的,但都認(rèn)為如果沒(méi)有機(jī)器在真實(shí)世界的部署,AI 的發(fā)展就會(huì)陷入瓶頸。之后我們放棄了原有的研究舒適圈,進(jìn)入到?jīng)]接觸過(guò)的 robotics 領(lǐng)域,希望探索下一代通用人工智能。

對(duì)話肖特特:從伯克利到PromptAI創(chuàng)業(yè),發(fā)明創(chuàng)造下一代視覺(jué)智能

圖片來(lái)源:Berkeley Artificial Intelligence Research 官網(wǎng),首排左四為肖特特

BV:創(chuàng)業(yè)之后一定有很多團(tuán)隊(duì)建設(shè)上的思考。組建團(tuán)隊(duì)是否是在找 CEO 的 “復(fù)制粘貼”?

特特:我們團(tuán)隊(duì)非常多元。有剛從學(xué)校出來(lái)的 PhD,也有工業(yè)界工作 20 多年的成員,還有大學(xué)輟學(xué)自學(xué)設(shè)計(jì)來(lái)做產(chǎn)品的成員。我們?cè)诮M建團(tuán)隊(duì)的時(shí)候,并不是看這個(gè)人跟我的經(jīng)歷背景、技術(shù)觀點(diǎn)、對(duì)未來(lái)的想法 “有多像”,而是看他是否能獨(dú)立地帶來(lái)不同的觀點(diǎn),提出不同的聲音。因?yàn)槲覀円鲆粋(gè)新的東西,既然是新的,那它就沒(méi)有對(duì)錯(cuò)之分。

Debate 是我們的團(tuán)隊(duì)文化之一。Debate 的價(jià)值不是輸贏,不見(jiàn)得每一個(gè)技術(shù)想法我們都需要達(dá)成一致。而越是不一致,我們就可以去討論更多的 corner cases。

我也很鼓勵(lì)大家在職業(yè)早期到創(chuàng)業(yè)公司經(jīng)歷一番,鍛煉自己定義問(wèn)題的能力,以及在小團(tuán)隊(duì)工作承擔(dān)更多責(zé)任的能力。

BV:如今,AI 領(lǐng)域涌現(xiàn)出新一代年輕有為的創(chuàng)始人?臻g智能是下一代 AI 創(chuàng)業(yè)者的機(jī)會(huì)嗎?

特特:我相信所有的新的技術(shù)都會(huì)帶來(lái)新的改變,不只是空間智能。而新一代創(chuàng)業(yè)者只是對(duì)新一代技術(shù)的理解會(huì)更深刻一些。

但是更重要的是,新一代創(chuàng)業(yè)者有沒(méi)有去創(chuàng)造新事物的激情,有沒(méi)有對(duì)舊世界、舊方法體系的不甘,有沒(méi)有問(wèn)出 what's next 的勇氣。

BV:看到你朋友圈有分享過(guò)一句歌詞:What shall be our legacy?What will our children see?你更希望留給世界、留給下一代技術(shù)人些什么呢?

特特:我覺(jué)得每一代的人都有每一代人的責(zé)任。

個(gè)體的總和就是世界。我覺(jué)得各行各業(yè)的人應(yīng)該對(duì)工作有熱情,因?yàn)槲覀兊墓ぷ骶褪菍?duì)理想世界的塑造,都會(huì)最終對(duì)世界產(chǎn)生影響。

同時(shí),我們技術(shù)人就像是新世界的守門(mén)人,也要保護(hù)技術(shù)不被濫用。開(kāi)發(fā)和保護(hù),是相輔相成的。這不是兩撥人的責(zé)任,是同一撥人的責(zé)任。

BV:那最后一個(gè)問(wèn)題:為什么叫 PromptAI?

特特:Maybe leave it for the future. 大家現(xiàn)在都不知道蘋(píng)果公司的蘋(píng)果為什么少了一塊,對(duì)吧。永遠(yuǎn)不滿足于目前的定義,永遠(yuǎn)在提出下一個(gè)問(wèn)題的路上。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港