當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人物報(bào)道 > 對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 15:13:42 瀏覽：144次

導(dǎo)讀：AI Pioneers 專欄投稿作者：BV百度風(fēng)投 Han、軻迪通用語(yǔ)言模型率先起跑，但通用視覺(jué)模型似乎遲到了一步。究其原因，語(yǔ)言中蘊(yùn)含大量序列信息，能做更深入的推理；而視覺(jué)模型的輸入內(nèi)容更加多元、復(fù)雜，輸出的任務(wù)要求多種多樣，需要對(duì)物體在時(shí)間、空間上的連續(xù)性有完善的感知，傳統(tǒng)的學(xué)習(xí)方法數(shù)據(jù)量大、經(jīng)濟(jì)屬性上也不理性...... 還沒(méi)有一套統(tǒng)一的算法來(lái)解決計(jì)算機(jī)對(duì)空間信息的 ......

AI Pioneers 專欄投稿

作者：BV百度風(fēng)投 Han、軻迪

通用語(yǔ)言模型率先起跑，但通用視覺(jué)模型似乎遲到了一步。

究其原因，語(yǔ)言中蘊(yùn)含大量序列信息，能做更深入的推理；而視覺(jué)模型的輸入內(nèi)容更加多元、復(fù)雜，輸出的任務(wù)要求多種多樣，需要對(duì)物體在時(shí)間、空間上的連續(xù)性有完善的感知，傳統(tǒng)的學(xué)習(xí)方法數(shù)據(jù)量大、經(jīng)濟(jì)屬性上也不理性...... 還沒(méi)有一套統(tǒng)一的算法來(lái)解決計(jì)算機(jī)對(duì)空間信息的理解。

2023 年，Meta AI 發(fā)布了首個(gè) "Segment Anything Model" (SAM)，該模型無(wú)需專門(mén)的類(lèi)別標(biāo)注，而是通過(guò)交互的方式對(duì)真實(shí)世界中動(dòng)態(tài)的任意物體進(jìn)行分割。其分割方法通用，可對(duì)不熟悉的物體和圖像進(jìn)行零樣本泛化，體現(xiàn)了對(duì)空間信息的處理和理解能力。這項(xiàng)工作獲得了 ICCV 2023 Best Paper Honorable Mention。

來(lái)自加州大學(xué)伯克利人工智能實(shí)驗(yàn)室 (BAIR) 的肖特特博士是該項(xiàng)工作的主要參與者之一。他評(píng)價(jià)說(shuō)：“以往我們通過(guò)增加類(lèi)別來(lái)提升模型效果，但 SAM 放棄了舊時(shí)代的很多枷鎖，放棄了特定的類(lèi)別標(biāo)注的方式，提升了模型對(duì)空間的理解能力�！�

這為 CV 新時(shí)代打開(kāi)了一道門(mén)。

而不同于上一代視覺(jué)智能，新時(shí)代下產(chǎn)生的空間智能最大的場(chǎng)景體現(xiàn)在具身智能的應(yīng)用上，它讓機(jī)器人、自動(dòng)駕駛、無(wú)人機(jī)等硬件設(shè)備擁有像人類(lèi)的眼睛一樣，感知世界，并產(chǎn)生與世界互動(dòng)的行動(dòng)力。

這就是 “看見(jiàn)不只是看見(jiàn)，更是理解到行動(dòng)” 的智能產(chǎn)生鏈條。

肖特特于 2015 年以優(yōu)異成績(jī)（summa cum laude）獲得了北京大學(xué)智能科學(xué)專業(yè)的理學(xué)學(xué)士學(xué)位，后于 2019 年在加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)系獲得博士學(xué)位，并曾在 Facebook AI 研究院從事研究工作。作為年輕一代人工智能學(xué)者的代表樣本，他的多篇重要工作發(fā)表在包括《Science Robotics》、CVPR、ICCV、ECCV 和 NeurIPS 等主要期刊和會(huì)議上。

他認(rèn)為，未來(lái) 5-10 年 CV 要解決的是真實(shí)世界的問(wèn)題，讓 AI 有人類(lèi)一樣對(duì)物理空間的感知能力。

2023 年，特特沒(méi)有繼續(xù)留在 Meta，而是選擇了人生新路徑，成立 PromptAI，致力于打造通用視覺(jué)智能平臺(tái)，為機(jī)器賦予類(lèi)人的視覺(jué)感知能力。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

成立一年時(shí)間，PromptAI 獲得來(lái)自 UC Bekerley Pieter Abbeel 的投資與 Trevor Darrell 的技術(shù)支持。兩位教授同為伯克利人工智能實(shí)驗(yàn)室（BAIR）聯(lián)合主任，Trevor Darrell 教授在計(jì)算機(jī)視覺(jué)領(lǐng)域極大推動(dòng)了大規(guī)模感知的創(chuàng)新研究，而 Pieter Abbeel 教授是深度強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人領(lǐng)域的先驅(qū)人物。

公司其他成員都是十分年輕的 AI 研究員與工程師，在算法架構(gòu)、產(chǎn)品運(yùn)營(yíng)、工程管理上擁有杰出經(jīng)驗(yàn)。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

而追問(wèn) What's next 的精神，是 PromptAI 這群年輕的 AI 科學(xué)家找到問(wèn)題答案的關(guān)鍵。

永遠(yuǎn)在提問(wèn) What’s next？

BV：PromptAI 在解決什么問(wèn)題？

特特：發(fā)明創(chuàng)造跟人一樣有感知能力的空間智能模型，讓機(jī)器和算法成為人類(lèi)額外的眼睛。

BV：為什么是 “發(fā)明創(chuàng)造”？很少聽(tīng)到這個(gè)詞。

特特：“發(fā)明創(chuàng)造” 一定是技術(shù)驅(qū)動(dòng)，但技術(shù)驅(qū)動(dòng)的東西不一定是 “發(fā)明創(chuàng)造”。舉個(gè)例子，在互聯(lián)網(wǎng)時(shí)代，我們可以用已有的互聯(lián)網(wǎng)技術(shù)來(lái)降本增效，這中間產(chǎn)生很多行業(yè)機(jī)會(huì)。這受到新技術(shù)的驅(qū)動(dòng)，但并不是 “發(fā)明創(chuàng)造”。

而目前在計(jì)算機(jī)視覺(jué)領(lǐng)域，新的方式還沒(méi)有出現(xiàn)，我們希望發(fā)明創(chuàng)造下一代視覺(jué)技術(shù)，并定義新的人與機(jī)器交互的方式。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

圖片來(lái)源：公司官網(wǎng)

BV：是什么時(shí)候產(chǎn)生創(chuàng)業(yè)想法的？

特特：我們看到了 AI 給人類(lèi)社會(huì)帶來(lái)的這個(gè)機(jī)會(huì)：人類(lèi)能看到的東西，計(jì)算機(jī)也能看到。計(jì)算機(jī)能把人類(lèi)從繁瑣無(wú)聊的工作、任務(wù)中解脫出來(lái)，擁有更多的時(shí)間和自由去做更喜歡、更擅長(zhǎng)的事情。

我覺(jué)得 AI 在成熟，它可以變成我們額外的眼睛幫助我們更高效、更快樂(lè)地生活。這是我們創(chuàng)業(yè)開(kāi)始時(shí)，在社會(huì)應(yīng)用上的 insights，當(dāng)然，除此之外還有技術(shù)變革上的 insights。

BV：那技術(shù)上推動(dòng)你創(chuàng)業(yè)的原因是什么？

特特：在 PhD 后期，看到視覺(jué)領(lǐng)域從 MAE（注：《Masked Autoencoders》，這項(xiàng)工作來(lái)自 Meta AI，采用無(wú)監(jiān)督學(xué)習(xí)的方式，提高模型的泛化能力和魯棒性。）到 SAM（注：《Segment Anything Model》）的變化，用通用視覺(jué)模型去解決大量不同問(wèn)題是可行的。谷歌的前 CEO 埃里克·施密特在《How Google Works》中，就曾強(qiáng)調(diào)技術(shù)洞見(jiàn)的重要性，這是產(chǎn)品開(kāi)發(fā)和公司成長(zhǎng)的源動(dòng)力。

帶著應(yīng)用和技術(shù)上的想法，我找到我在 UC Bekerley 的導(dǎo)師 Trevor Darrell 教授聊，他很認(rèn)可也很支持。后來(lái)又吸納了更多團(tuán)隊(duì)成員，大家都共享一個(gè)理念：新一代視覺(jué)技術(shù)的應(yīng)用機(jī)會(huì)以及由此產(chǎn)生的空間智能對(duì)人類(lèi)社會(huì)的價(jià)值。

BV：是什么驅(qū)使你想到這種新范式？

特特：往回看，研究者總是在問(wèn)：What’s next？這是個(gè)非常自然而發(fā)的問(wèn)題。

What’s next 問(wèn)的內(nèi)容有很多種，一種是目前現(xiàn)有的技術(shù)能解決哪些任務(wù)，帶來(lái)哪些能力上的提升。比如視覺(jué)分類(lèi)研究中，現(xiàn)在能做到準(zhǔn)確率 95%，我能不能推到 97%？推到 99%？

而另一種是，下一代技術(shù)是什么樣子？我們利用下一代技術(shù)能夠做什么事情？比如對(duì)數(shù)據(jù)集來(lái)說(shuō)，原來(lái)只能看到 20 類(lèi)物體，后來(lái) 80 類(lèi)，后來(lái) 200 類(lèi)，再往后，能否看到他們其他維度的特性？看到材質(zhì)、結(jié)構(gòu)、組成部分？因?yàn)楹茈y定義類(lèi)別，能否干脆用自然語(yǔ)言描述物體？這是在研究中水到渠成會(huì)思考到的問(wèn)題。

這兩種問(wèn)題一定是交織進(jìn)行、同時(shí)發(fā)生的。當(dāng)前技術(shù)的深挖是很有必要的，不然很難看到他的影響力的擴(kuò)散。但有時(shí)候這個(gè)技術(shù)不一定是最優(yōu)解，這個(gè)時(shí)候就需要我們跳出來(lái)，去問(wèn)問(wèn)有沒(méi)有新的解決方案。

而通用視覺(jué)模型，就是面對(duì) CV1.0 時(shí)代中的各種問(wèn)題而提出的新的解決方案。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

肖特特參加 2024 智源大會(huì)，分享《A Real-World Approach to Intelligence》

BV：這種 What’s next 既可以問(wèn)是否加速了過(guò)去的應(yīng)用，也可以問(wèn)是否創(chuàng)造了新的范式。

特特：是的。偉大的公司都想要知道 “what's next”，比如 Google 用了新的技術(shù)方式去管理世界上五花八門(mén)的知識(shí)；Apple 創(chuàng)造了新的人與計(jì)算機(jī)交互的方式，讓個(gè)人電腦走進(jìn)我們的生活里；英偉達(dá)實(shí)現(xiàn)了加速計(jì)算，用新的硬件形態(tài)去解決計(jì)算領(lǐng)域的問(wèn)題。

在研究和創(chuàng)業(yè)中，一旦停下對(duì)未來(lái)技術(shù)的追問(wèn)，做的事情就會(huì)變得平庸，囿于目前已經(jīng)掌握到的技術(shù)，只解決眼前有限的問(wèn)題，而無(wú)法找到下一代技術(shù)，解決更多問(wèn)題。

這種追問(wèn)的精神，就是我們的團(tuán)隊(duì)信仰。

CV 變革，智能產(chǎn)生：1.0-2.0

BV：什么是 CV1.0 ？解決了哪些任務(wù)？

特特：CV1.0 解決專一的、特定的任務(wù)，它在經(jīng)濟(jì)屬性上并不是很理性。

2012 年出現(xiàn) AlexNet，這個(gè)機(jī)器學(xué)習(xí)范式，對(duì)圖片識(shí)別的能力大大超過(guò)了其它技術(shù)路線，可以用在自然語(yǔ)言處理、推薦系統(tǒng)、計(jì)算機(jī)視覺(jué)等多個(gè)方向上，瞬間激發(fā)了 AI 的應(yīng)用價(jià)值。互聯(lián)網(wǎng)產(chǎn)品可以利用這種范式來(lái)學(xué)習(xí)圖片、視頻當(dāng)中的特質(zhì)，來(lái)更好地提升用戶體驗(yàn)；醫(yī)療上會(huì)利用機(jī)器學(xué)習(xí)來(lái)做診斷；工廠里可以做各種質(zhì)量檢測(cè)；城市管理當(dāng)中還可以分析人的軌跡、流向。

但這些任務(wù)之間不能互通，比如說(shuō)，A 工廠生產(chǎn)手機(jī)屏幕，需要一套針對(duì)劃痕檢測(cè)這個(gè)單一任務(wù)的視覺(jué)系統(tǒng)；而 B 工廠生產(chǎn)汽車(chē)，也需要一套檢測(cè)劃痕的視覺(jué)系統(tǒng)。但此劃痕非彼劃痕，這是兩套完全不一樣的檢測(cè)系統(tǒng)。

總結(jié)下來(lái)，我們一直在解決同一個(gè)問(wèn)題，就是感知。這個(gè)大問(wèn)題在應(yīng)用中會(huì)被細(xì)分為無(wú)數(shù)細(xì)分問(wèn)題，比如檢測(cè)材質(zhì)、大小、位置、組成部分等等。在 CV1.0 時(shí)代，這些問(wèn)題非常細(xì)，并且每個(gè)場(chǎng)景對(duì)智能的需求是有限的，我們解決了一個(gè)子問(wèn)題，卻沒(méi)有能力解決另一個(gè)子問(wèn)題�；氐絼澓蹤z測(cè)問(wèn)題，就算有一個(gè)模型能夠識(shí)別世界上所有的劃痕，但你卻識(shí)別不了世界上所有的杯子。如此以往，這個(gè)模型就非常的單一、不完善，實(shí)現(xiàn)難度也很大，經(jīng)濟(jì)投入也會(huì)很多。

BV：這種方法跟人類(lèi)感知物體的方式是不一樣的。這是不是也回答了：為什么過(guò)去的 CV 技術(shù)沒(méi)有出現(xiàn)很多解決通用行業(yè)問(wèn)題的產(chǎn)品？

特特：是的。

另外，CV1.0 與人類(lèi)智能相比，“數(shù)據(jù)輸入” 的模式也并不相通。打個(gè)比方，對(duì) CV1.0 來(lái)說(shuō)，需要標(biāo)注很多數(shù)據(jù)，讓計(jì)算機(jī)知道這個(gè)杯子是不銹鋼的，另一個(gè)是玻璃的。如果我再加一類(lèi)塑料杯，那就又要標(biāo)注成千上萬(wàn)的這類(lèi)數(shù)據(jù)。

但是回過(guò)頭想，難道我真的需要 “見(jiàn)到” 成千上萬(wàn)的玻璃杯，才能知道這個(gè)是玻璃杯嗎？人類(lèi)并不是這樣做判斷的，我們用過(guò)玻璃杯，或者是見(jiàn)過(guò)玻璃制品，在不需要眾多 “數(shù)據(jù)輸入” 的情況下就可以推斷出來(lái)。

BV：正因?yàn)檫@樣，我們需要大模型的能力。

特特：大模型的目的不是把模型做大，價(jià)值并不在于加參數(shù)�；氐絼偛抛R(shí)別三種杯子的例子，你可以做出一個(gè)上億級(jí)參數(shù)的模型來(lái)完成這個(gè)任務(wù)，但仍存在無(wú)法解決更多任務(wù)的瓶頸。

Foundation Model 和 Pre-training 的好處是，把不同的信息源都學(xué)習(xí)進(jìn)來(lái)，我們可能并不知道模型從哪里學(xué)到的關(guān)于 “玻璃” 的概念，但當(dāng)它習(xí)得這個(gè)概念之后，會(huì)把這個(gè)概念抽象出來(lái)，并且能把這個(gè)知識(shí)運(yùn)用到未來(lái)的預(yù)測(cè)和感知當(dāng)中。這個(gè)是大模型和過(guò)去的技術(shù)不一樣的地方。

BV：CV 2.0 有哪些不同？

特特：區(qū)別在于，第一是讓 AI 具備和人一樣感知世界的智能，解決真實(shí)世界的問(wèn)題；第二是解決開(kāi)放世界中通用任務(wù)問(wèn)題；第三是具有人的常識(shí)能力。

BV：從 CV1.0 到 2.0 的分水嶺有哪些？

特特：第一個(gè)關(guān)鍵節(jié)點(diǎn)，是 2021 年 OpenAI 的 CLIP 工作（《Learning Transferable Visual Models From Natural Language Supervision》），它講的是如何 “以語(yǔ)言作為監(jiān)督” 學(xué)習(xí)視覺(jué)信息。過(guò)去，如果我們用預(yù)定類(lèi)別的方式來(lái)做識(shí)別，這個(gè)過(guò)程跟語(yǔ)言是沒(méi)有關(guān)系的。而這篇工作提到，不同的概念在語(yǔ)義上有相關(guān)性，我們可以從人類(lèi)的語(yǔ)言中獲得這種相關(guān)性。思路就是，讓模型去學(xué)習(xí)圖片對(duì)應(yīng)的描述，學(xué)習(xí)圖片的視覺(jué)語(yǔ)義信息。

但這個(gè) idea 即使在當(dāng)時(shí)來(lái)看也并不新鮮，它獨(dú)特性在于，用更大的數(shù)據(jù)量和計(jì)算量，用幾百個(gè) million 的數(shù)據(jù)來(lái)做訓(xùn)練，并且這些數(shù)據(jù)能很容易從互聯(lián)網(wǎng)上獲取。之所以有這個(gè)想法，是因?yàn)檫@項(xiàng)工作來(lái)自 OpenAI，當(dāng)時(shí)已經(jīng)開(kāi)始做 GPT，他們看到了 scale 后模型的變化和影響，這徹底改變了我們對(duì)視覺(jué)和語(yǔ)言之間的認(rèn)知。

再往后，2023 年 Meta AI 發(fā)布的 SAM（《Segment Anything Model》）相關(guān)工作也是這個(gè)轉(zhuǎn)變過(guò)程中的 milestone。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

SAM 是 CV 舊時(shí)代的最后一篇工作，新時(shí)代的第一篇工作。原因是，它要解決的是傳統(tǒng)的視覺(jué)分割問(wèn)題，這是一個(gè)舊問(wèn)題。高等生命的視覺(jué)系統(tǒng)都有對(duì)物體分割的能力，這個(gè)能力非常重要，但實(shí)現(xiàn) AGI 不會(huì)通過(guò)完美解決分割問(wèn)題而實(shí)現(xiàn)。

盡管如此，SAM 放棄了舊時(shí)代的很多枷鎖，放棄了特定的類(lèi)別，解決了通用物體分割的問(wèn)題。以椅子舉例，椅子里有很多零部件，零部件里面可能還有細(xì)分的零部件，那么到底什么才是這個(gè)椅子呢？在 SAM 中，我們無(wú)需對(duì)椅子及其零部件進(jìn)行標(biāo)注，而是通過(guò)交互的方式對(duì)任意物體進(jìn)行分割，找到我們希望得到的部分。

這為我們指明了一個(gè)方向：在一個(gè)模型下，一個(gè)通用的視覺(jué)模型去解決大量不同問(wèn)題是可行的。這就是為什么我相信這項(xiàng)工作是為 CV 新時(shí)代開(kāi)了一道門(mén)的原因。

比如，分割人像和分割文字，是兩套系統(tǒng)。但在 SAM 中，是一套系統(tǒng)中需要解決的兩個(gè)任務(wù)。那么思路打開(kāi)之后，這套系統(tǒng)能解決的問(wèn)題就很多了，有些人用它來(lái)去分割衛(wèi)星的圖像，有人其實(shí)用它來(lái)分割古書(shū)籍里面的一些文字，還可以去分割微生物體...... 這個(gè)模型完全沒(méi)有見(jiàn)過(guò)古書(shū)字，但依靠良好的泛化性，可以再零樣本情況下取得很好的效果。

BV：那下一個(gè) 10 年 CV 要去解決哪些問(wèn)題？

特特：未來(lái) 5-10 年 CV 要解決的是真實(shí)世界的問(wèn)題，讓 AI 像人一樣有感知世界的能力。但我們的真實(shí)世界是連續(xù)的視覺(jué)信息，不是單幀的，為了感知更多真實(shí)世界的內(nèi)容，我們需要更強(qiáng)的視頻理解能力。這里也有很多難題，比如說(shuō)如何去表征一個(gè)視頻？如何讓模型去理解時(shí)間的概念？理解動(dòng)作在時(shí)間上的連續(xù)性？理解物體在空間中的具體位置、遠(yuǎn)近大�。�

假如有一個(gè)人經(jīng)過(guò)一個(gè)障礙物，在單幀系統(tǒng)中，計(jì)算機(jī)就會(huì)感知不到被擋住的人；但如果是視頻系統(tǒng)，就會(huì)捕捉到人經(jīng)過(guò)障礙物前后的信息，“看” 到人在障礙物后面。

計(jì)算機(jī)視覺(jué)的金標(biāo)準(zhǔn)是人的感知能力。這個(gè)不光是學(xué)術(shù)領(lǐng)域的下一代問(wèn)題，也是工業(yè)界下一代 AI 的經(jīng)濟(jì)價(jià)值所在的地方。

BV：感知和 “世界模型” 的聯(lián)系是什么？“世界模型” 的本質(zhì)是什么？

特特：當(dāng)有了對(duì)真實(shí)世界更多的理解之后，對(duì)感知到的信息做未來(lái)的預(yù)測(cè)，這一套系統(tǒng)就是 “世界模型”。“世界模型” 是推理的一種形式，這種推理不僅包括邏輯推理，還包括一些 low-level （比如在像素上）的推理。例如，如果我推了球一下，這個(gè)球下一秒在視頻里會(huì)顯示成什么樣子？對(duì)球的運(yùn)動(dòng)的推理，就是 “世界模型” 的體現(xiàn)。

這樣的 “世界模型” 固然理想，但它很難構(gòu)建，甚至人也不會(huì)用這樣的推理方式來(lái)完成任務(wù)。

其實(shí)世界模型不是一個(gè)全新的概念，麥卡錫、明斯基和香農(nóng)等科學(xué)家在 1956 年達(dá)特茅斯會(huì)議上談?wù)撊斯ぶ悄荛_(kāi)端的時(shí)候，就提到了 Abstraction（注：抽象指的是 AI 系統(tǒng)對(duì)現(xiàn)實(shí)世界的簡(jiǎn)化和概念化表示，這種表示使得 AI 能夠進(jìn)行狀態(tài)估計(jì)、預(yù)測(cè)、模擬、推理和決策，從而更好地與外部環(huán)境互動(dòng)）。Abstraction 是比世界模型更廣泛的定義，世界模型是實(shí)現(xiàn) Abstraction 的一種構(gòu)想，但不會(huì)是唯一的一種方案。我認(rèn)為它甚至大概率不是未來(lái)成功實(shí)現(xiàn)智能的方式 智能體對(duì)常識(shí)的推理能力應(yīng)該是涌現(xiàn)的。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

達(dá)特茅斯會(huì)議主要參與者及議題

BV：當(dāng) AI 能更好地理解視頻、建立 “世界模型”，是否就擁有了空間上的智能能力？

特特：這個(gè)問(wèn)題的關(guān)鍵在于，理解是智能的原因還是智能的現(xiàn)象？

如果理解是智能的現(xiàn)象的話，我們看到一個(gè)智能體，它就應(yīng)該具有理解世界的能力；但如果理解是智能產(chǎn)生的原因，那么只有它學(xué)會(huì)了對(duì)世界的預(yù)測(cè)、掌握了世界模型之后，它才能成為智能體。

生物進(jìn)化是一個(gè)很復(fù)雜的過(guò)程，智能的出現(xiàn)在進(jìn)化的角度是一個(gè)相輔相成的過(guò)程。理解能力越強(qiáng)，智能體就越強(qiáng)大，智能體越強(qiáng)大，它在進(jìn)化上就更占優(yōu)勢(shì)，就會(huì)有更好地理解能力。

下一代 AI 一定是對(duì)世界有理解、推理和搭建 “世界模型” 的能力的，但下一代的 AI 未必會(huì)因?yàn)閷W(xué)習(xí) “世界模型” 而產(chǎn)生。

BV：如果學(xué)習(xí)推理未必產(chǎn)生智能，那么智能如何產(chǎn)生？

特特：把 AI 部署到真實(shí)世界中去，在與世界的互動(dòng)中獲得空間智能。

如果一套系統(tǒng)只存活在數(shù)字世界，沒(méi)有辦法在真實(shí)世界中一覽天下，那它不一定會(huì)成為真正的智能體。

就像具身智能機(jī)器人，從多模態(tài)環(huán)境里學(xué)到各種各樣的常識(shí)，獲得預(yù)測(cè)能力。比如踩到了石頭會(huì)摔倒，從手中掉了的杯子可能會(huì)摔碎。我們很難只通過(guò)訓(xùn)練世界模型的方式產(chǎn)生下一代智能，所以我們要像滾雪球一樣，讓智能體學(xué)到越來(lái)越多的常識(shí)，做更多的任務(wù)。說(shuō)不定有一天智能體可以把自己送到月球上去，自己干活工作，然后回來(lái)告訴你它干了什么事情。

BV：智能是在智能體跟環(huán)境的交互過(guò)程中產(chǎn)生、涌現(xiàn)。這樣來(lái)看，空間智能的產(chǎn)生路徑就很清楚了。

特特：是的，第一步是通過(guò)傳感器觀察、理解物理世界，如果沒(méi)有辦法觀察物理世界，就沒(méi)有辦法理解物理世界。

第二步，跟物理世界做交互，知道如何做抓取、走路、避障、操作物體。

因此，我們需要通用視覺(jué)模型來(lái)更好地理解感知世界，理解時(shí)間上、空間上的運(yùn)動(dòng)性等特征；另一個(gè)就是 Embodied AI，讓機(jī)器跟環(huán)境交互，在多模態(tài)的真實(shí)世界里產(chǎn)生智能。

比如，在與 Ilija Radosavovic 合作的《Real-World Robot Learning with Masked Visual Pre-training》中，我們通過(guò)在大規(guī)模真實(shí)世界圖像和視頻數(shù)據(jù)上進(jìn)行自監(jiān)督視覺(jué)預(yù)訓(xùn)練，預(yù)訓(xùn)練后需要在實(shí)際的任務(wù)中做小規(guī)模 finetune，使機(jī)器人在現(xiàn)實(shí)世界任務(wù)中學(xué)習(xí)到豐富的視覺(jué)表示，幫助機(jī)器人更好地理解和感知現(xiàn)實(shí)世界中的三維空間信息，并在復(fù)雜環(huán)境中做出合理的決策和行動(dòng)。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

做 AI 的人怎么看藝術(shù)生成？

BV：生成呢？在智能產(chǎn)生的過(guò)程中，生成到底以什么形式出現(xiàn)？

特特：這個(gè)是目前大家沒(méi)有定論的事情。這與人的想象是不同的，人的想象是抽象地去想象可能會(huì)發(fā)生的事情；而現(xiàn)在的生成式 AI，更多是以在細(xì)節(jié)上、以像素級(jí)別的水準(zhǔn)，把內(nèi)容給生成出來(lái)。

大多數(shù)人都不是畫(huà)家，我的畫(huà)畫(huà)的藝術(shù)能力極為落后，但我還是有藝術(shù)上欣賞的能力。

回到達(dá)特茅斯會(huì)議上大家對(duì)人工智能的憧憬。大家認(rèn)為生成其實(shí)是 creativity and randomness，計(jì)算機(jī)不是完全按照既定的程序去執(zhí)行每一個(gè)指令。就像人類(lèi)一樣，無(wú)論是我們的思維還是動(dòng)作，都不一定是在執(zhí)行一個(gè)特定的指令，因?yàn)槲覀冇袆?chuàng)造力和想象力。所以我覺(jué)得生成是智能的一個(gè)重點(diǎn)，但是具體能不能像畫(huà)家一樣把它的藝術(shù)性畫(huà)出來(lái)，就是另一回事。

BV：“熱愛(ài)藝術(shù)人” 和 “搞技術(shù)的人” 這兩個(gè)標(biāo)簽的疊加下，讓你對(duì) “AI 是否能創(chuàng)造藝術(shù)” 這個(gè)話題有什么不同的感受？

特特：音樂(lè)、美術(shù)、電影，這些在我的生命中是不可或缺的。

第一，藝術(shù)是關(guān)于未來(lái)的，不是關(guān)于過(guò)去的，無(wú)法用過(guò)去已有的信息來(lái)訓(xùn)練 “生成” 藝術(shù)。藝術(shù)需要經(jīng)歷和感受，是人對(duì)外在世界和內(nèi)在世界的抽象理解。

目前，AI 的價(jià)值更多的體現(xiàn)在生產(chǎn)工具的屬性上，我們可以通過(guò) AI 來(lái)讓生活更便捷、安全、理想，解放我們的時(shí)間和生產(chǎn)力。但 AI 沒(méi)有感情經(jīng)歷，沒(méi)有生活經(jīng)歷，跟人類(lèi)的悲喜并不相通，所以 AI 很難去感受藝術(shù)，也就很難生成藝術(shù)。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

法國(guó)印象派代表人物克勞德·莫奈《日出印象》

回過(guò)頭來(lái)看，藝術(shù)之所以是藝術(shù)，很多時(shí)候是跟觀察者有關(guān)系的，一千個(gè)人里有一千個(gè)不同的哈姆雷特。當(dāng)人們欣賞畫(huà)作、音樂(lè)的時(shí)候，會(huì)從中得到共鳴，感受到新的東西。

第二，藝術(shù)和內(nèi)容制作很難區(qū)分開(kāi)來(lái)。藝術(shù)是一個(gè)復(fù)雜的過(guò)程，其中包括創(chuàng)造 idea 部分，也包括制作內(nèi)容部分。

比如說(shuō)，畫(huà)家畫(huà)畫(huà)，雕塑家雕刻作品，劇作家創(chuàng)作劇本，我們很難把創(chuàng)造 idea 和制作內(nèi)容區(qū)分開(kāi)來(lái)。這些藝術(shù)行為不僅是一個(gè)靈感想法的產(chǎn)生，更重要的是要把靈感想法串起來(lái)、表現(xiàn)出來(lái)、制作出來(lái)，這中間需要很多 “體力活”。比如羅丹的每一個(gè)雕塑作品，都經(jīng)歷了藝術(shù)家大量繪畫(huà)，試驗(yàn)，和完善。當(dāng)我們用寫(xiě) prompt 的方式去生成一個(gè)內(nèi)容，我們只是利用 AI 制作了內(nèi)容，不一定是創(chuàng)造了藝術(shù)。

第三，我們也要把藝術(shù)和娛樂(lè)也要區(qū)分開(kāi)來(lái)。當(dāng)我們聽(tīng)到一段旋律或是看到一段影像，覺(jué)得很好看、很過(guò)癮，但不代表它激發(fā)我產(chǎn)生了認(rèn)知上的改變、情緒上的共鳴、對(duì)世界新的理解。

目前 AI 更多是在生成娛樂(lè)，而不是藝術(shù)。

故事另一面

BV：科研路上，哪些人給你帶來(lái)技術(shù)上的啟發(fā)？

特特：2018 年，我在孫劍老師的指導(dǎo)下參加 COCO 競(jìng)賽（注：Common Objects in Context），題目就是如何做出更強(qiáng)大的物體檢測(cè)器。我們用了 256 張 GPU 去訓(xùn)練這個(gè)模型，這個(gè)數(shù)量級(jí)的 GPU 讓模型的收斂速度非�？�，但卻很 “非主流”。因?yàn)楫?dāng)時(shí)的主流觀點(diǎn)是模型并非越大越好，而我們的方案甚至早于第一代 GPT。孫劍老師問(wèn)我們：這個(gè)東西的邊界、上限在哪里？模型效果好的背后原因到底是什么？

這個(gè)啟發(fā)非常重要：你要不停的問(wèn)為什么是這樣，而不是那樣？傳統(tǒng)的方式就一定是對(duì)的嗎？有沒(méi)有下一代解決方案？授人以魚(yú)不如授人以漁，總有問(wèn)題是老師解決不了的，總有問(wèn)題是需要年輕的頭腦去思考的。而這些思考對(duì)剛?cè)腴T(mén)的年輕科研者來(lái)說(shuō)是非常重要的一課，能讓我們的工作做的更扎實(shí)。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

圖中左三為肖特特，右二為孫劍老師

BV：伯克利人工智能實(shí)驗(yàn)室（BAIR）給你留下什么印象？

特特：BAIR 不是一個(gè) lab，而是一個(gè)很多方向的 super lab 聯(lián)合體。整個(gè)科研樓還挺擠挺小的，很多教授就擠在角落里沒(méi)有窗戶的辦公室里搞科研。

BAIR 有很多方向，在計(jì)算機(jī)視覺(jué)領(lǐng)域有傳統(tǒng)感知，有 3D 重建，也有圖片和視頻生成，還有視覺(jué)和語(yǔ)言中間的 understanding。其他還有 NLP、robotics、AI 倫理、AI for Science 等領(lǐng)域方向。BAIR 成立的背景，就是希望學(xué)生們從不同的方向上做交流，在學(xué)科內(nèi)交叉領(lǐng)域相互碰撞。理解、感知、思考、推理、操作、運(yùn)動(dòng)這些都是 AI 的一部分，更廣一點(diǎn)來(lái)看，我們跟心理學(xué)、神經(jīng)科學(xué)、行為科學(xué)也都有關(guān)系。

我的教授 Trevor Darrell 是 BAIR 的 co-founder 和 Founding Director。Trevor Darrell 教授最大的特點(diǎn)就是包容，在一個(gè)有很大變化的研究領(lǐng)域，研究者需要自由的空間去探索感興趣的問(wèn)題。很多時(shí)候我們的發(fā)現(xiàn)發(fā)明不一定是大家都認(rèn)可的技術(shù)路線，但我們要有空間去追逐這樣不被認(rèn)可的技術(shù)想法。

在 BAIR Lab，從 2021 年開(kāi)始，我與 Ilija Radosavovic 合作了多篇工作，從《Masked Visual Pre-training for Motor Control》到《Real-World Robot Learning with Masked Visual Pre-training》，以及《Real-world Humanoid Locomotion with Reinforcement Learning》。

我們?cè)瓉?lái)都是學(xué)習(xí)計(jì)算機(jī)視覺(jué)的，但都認(rèn)為如果沒(méi)有機(jī)器在真實(shí)世界的部署，AI 的發(fā)展就會(huì)陷入瓶頸。之后我們放棄了原有的研究舒適圈，進(jìn)入到?jīng)]接觸過(guò)的 robotics 領(lǐng)域，希望探索下一代通用人工智能。

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能

圖片來(lái)源：Berkeley Artificial Intelligence Research 官網(wǎng)，首排左四為肖特特

BV：創(chuàng)業(yè)之后一定有很多團(tuán)隊(duì)建設(shè)上的思考。組建團(tuán)隊(duì)是否是在找 CEO 的 “復(fù)制粘貼”?

特特：我們團(tuán)隊(duì)非常多元。有剛從學(xué)校出來(lái)的 PhD，也有工業(yè)界工作 20 多年的成員，還有大學(xué)輟學(xué)自學(xué)設(shè)計(jì)來(lái)做產(chǎn)品的成員。我們?cè)诮M建團(tuán)隊(duì)的時(shí)候，并不是看這個(gè)人跟我的經(jīng)歷背景、技術(shù)觀點(diǎn)、對(duì)未來(lái)的想法 “有多像”，而是看他是否能獨(dú)立地帶來(lái)不同的觀點(diǎn)，提出不同的聲音。因?yàn)槲覀円鲆粋€(gè)新的東西，既然是新的，那它就沒(méi)有對(duì)錯(cuò)之分。

Debate 是我們的團(tuán)隊(duì)文化之一。Debate 的價(jià)值不是輸贏，不見(jiàn)得每一個(gè)技術(shù)想法我們都需要達(dá)成一致。而越是不一致，我們就可以去討論更多的 corner cases。

我也很鼓勵(lì)大家在職業(yè)早期到創(chuàng)業(yè)公司經(jīng)歷一番，鍛煉自己定義問(wèn)題的能力，以及在小團(tuán)隊(duì)工作承擔(dān)更多責(zé)任的能力。

BV：如今，AI 領(lǐng)域涌現(xiàn)出新一代年輕有為的創(chuàng)始人�？臻g智能是下一代 AI 創(chuàng)業(yè)者的機(jī)會(huì)嗎？

特特：我相信所有的新的技術(shù)都會(huì)帶來(lái)新的改變，不只是空間智能。而新一代創(chuàng)業(yè)者只是對(duì)新一代技術(shù)的理解會(huì)更深刻一些。

但是更重要的是，新一代創(chuàng)業(yè)者有沒(méi)有去創(chuàng)造新事物的激情，有沒(méi)有對(duì)舊世界、舊方法體系的不甘，有沒(méi)有問(wèn)出 what's next 的勇氣。

BV：看到你朋友圈有分享過(guò)一句歌詞：What shall be our legacy？What will our children see？你更希望留給世界、留給下一代技術(shù)人些什么呢？

特特：我覺(jué)得每一代的人都有每一代人的責(zé)任。

個(gè)體的總和就是世界。我覺(jué)得各行各業(yè)的人應(yīng)該對(duì)工作有熱情，因?yàn)槲覀兊墓ぷ骶褪菍?duì)理想世界的塑造，都會(huì)最終對(duì)世界產(chǎn)生影響。

同時(shí)，我們技術(shù)人就像是新世界的守門(mén)人，也要保護(hù)技術(shù)不被濫用。開(kāi)發(fā)和保護(hù)，是相輔相成的。這不是兩撥人的責(zé)任，是同一撥人的責(zé)任。

BV：那最后一個(gè)問(wèn)題：為什么叫 PromptAI？

特特：Maybe leave it for the future. 大家現(xiàn)在都不知道蘋(píng)果公司的蘋(píng)果為什么少了一塊，對(duì)吧。永遠(yuǎn)不滿足于目前的定義，永遠(yuǎn)在提出下一個(gè)問(wèn)題的路上。

相關(guān)熱詞： 肖特特肖特伯克利機(jī)器人智能

上一篇：AI產(chǎn)業(yè)加速發(fā)展，中信建投看好三大投資方向

下一篇：中國(guó)AI深度學(xué)習(xí)框架加速追趕美國(guó)，昇思開(kāi)源4年份額達(dá)30%

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 15:13:42 瀏覽：144次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 15:13:42 瀏覽：144次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

對(duì)話肖特特：從伯克利到PromptAI創(chuàng)業(yè)，發(fā)明創(chuàng)造下一代視覺(jué)智能
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-16 15:13:42 瀏覽：144次