在人工智能領(lǐng)域,很少有人比Bob McGrew更引人注目。作為OpenAI的前首席研究官,McGrew在過去六年半中一直是AI技術(shù)實現(xiàn)突破的關(guān)鍵人物。周三,在離開OpenAI一個多月后,McGrew罕見接受了外界的采訪。
當(dāng)?shù)貢r間18日,Bob McGrew在RedPoint AI播客中,討論了AI的未來,包括大模型是否遇到了瓶頸,機(jī)器人、AI視頻未來如何發(fā)展等問題。
McGrew首先回應(yīng)了當(dāng)前關(guān)于大模型的能力是否達(dá)到極限的爭論,他認(rèn)為,大模型還有非常大的進(jìn)步空間,但這是一個緩慢的、需要數(shù)年來完善的過程。
他指出,外界對于模型能力的看法與實驗室內(nèi)部的看法存在較大差異。對于外界來說,大模型的發(fā)展似乎是一個快速的過程,但對于實驗室內(nèi)部人士來說,每一個進(jìn)步都需要投入巨大的計算資源。比如,從GPT-3到GPT-4,計算能力增加了100倍,這種增長不僅來自于增加更多的芯片和數(shù)據(jù)中心,還包括算法的改進(jìn)。
McGrew強(qiáng)調(diào),預(yù)訓(xùn)練的進(jìn)步需要巨大的計算量,這通常涉及到建造新的數(shù)據(jù)中心,而這又是一個緩慢的過程。他提到,從GPT-4進(jìn)化到GPT-5的過程中,GPT的能力可能只出現(xiàn)了10倍的增長。
McGrew還預(yù)測,未來視頻模型的質(zhì)量將得到顯著提升,完全由AI生成的、足以獲獎的電影可能會在兩年內(nèi)出現(xiàn),而且成本將大幅下降。
在討論機(jī)器人技術(shù)時,McGrew表現(xiàn)出了非常高的熱情。他相信機(jī)器人技術(shù)將在五年內(nèi)得到普及,認(rèn)為現(xiàn)在是一個創(chuàng)建機(jī)器人公司的好時機(jī),因為基礎(chǔ)模型在快速啟動和泛化方面取得了突破性進(jìn)展。
McGrew還認(rèn)為,AGI(通用人工智能)可能不會有一個明確的轉(zhuǎn)折點,而是一系列漸近的發(fā)展。他預(yù)測,隨著AI的進(jìn)步,我們將進(jìn)入一個智能無處不在且免費的世界,到那時能動性將是最稀缺的資源之一。
華爾街見聞?wù)砹吮敬卧L談的亮點觀點:
從GPT-2到GPT-3,或者從GPT-3到GPT-4,有效的計算量增加了100倍。這就是這種增量所代表的意義。你可以通過增加浮點運算次數(shù)、增加芯片、擴(kuò)大數(shù)據(jù)中心和改進(jìn)算法來實現(xiàn)這一點。算法改進(jìn)可以帶來一些收益50%、2倍或3倍就已經(jīng)很了不起了。但從根本上說,你必須等待新的數(shù)據(jù)中心建成。
從根本上說,這是一個非常緩慢的、需要數(shù)年時間的過程。事實上,在你看到完整的代際過渡,比如從 GPT-4 到 GPT-5 之前,你將會看到一些只有10倍提升的東西。人們常常忘記,我們是從 GPT-3 到 GPT-3.5 再到 GPT-4 的。
我認(rèn)為我們必須等待,看看下一代模型何時發(fā)布。如果你看看像O1這樣的東西,我們已經(jīng)能夠利用強(qiáng)化學(xué)習(xí)取得進(jìn)展。通過各種指標(biāo)來看,O1代表著比GPT-4高100倍的計算量。有些人可能沒有意識到這一點,因為決定將其命名為O1而不是GPT-5。然而,實際上,這是一個新一代的模型。
所以如果我考慮一下今天的視頻模型和兩年后的視頻模型之間的差異,首先是質(zhì)量會更好。現(xiàn)在的瞬時質(zhì)量已經(jīng)非常好了。另一方面,另一個類比是,我實際上認(rèn)為它會非常像大型語言模型,如果你想要一個GPT-3質(zhì)量的token,它比GPT-3剛出現(xiàn)時便宜100倍。Sora的情況也會如此,你將能夠看到這些非常漂亮、逼真的視頻,而且它們的成本幾乎為零。
(AI生成電影)贏得一個獎項某種程度上來說門檻太低了,對吧?我想有很多頒獎典禮......我覺得我們會在兩年后看到它,但它實際上會比我剛才說的更沒那么令人印象深刻,因為你想看它的原因不是因為視頻本身,而是因為有一位導(dǎo)演擁有創(chuàng)意愿景,并使用視頻模型來實現(xiàn)他的創(chuàng)意愿景。
我相信機(jī)器人技術(shù)將在五年后得到廣泛應(yīng)用,盡管會有一些限制。因此,我認(rèn)為現(xiàn)在是創(chuàng)辦一家機(jī)器人公司的好時機(jī)。我不會預(yù)測機(jī)器人何時進(jìn)入家庭,但我認(rèn)為你會看到它被廣泛應(yīng)用。
我很難理解AGI的概念。而且,我認(rèn)為,如果說有什么的話,我對AGI有一個很深的批判,那就是不存在一個明確的轉(zhuǎn)折時刻,實際上,這些問題是分形的。而且,我們將看到越來越多的事物被自動化。但不知怎么的,我們我不知道。我有一種感覺,它會變得非常平庸,不知何故,我們都會開著自動駕駛汽車去辦公室,在那里指揮著人工智能大軍。然后我們會覺得,哦,這有點無聊。感覺仍然像在辦公室,我的老板仍然是個白癡。這大概就是我們AGI的未來。
我們正在從一個智能可能是社會中最稀缺資源的時代,過渡到一個智能將無處不在且免費的時代。那么,稀缺的生產(chǎn)要素又是什么呢?我猜是能動性。你需要提出什么正確的問題?你需要追求哪些正確的項目?我認(rèn)為這些類型的問題對于人工智能來說很難為我們解決。我認(rèn)為這些將是人類需要弄清楚的核心問題。
以下是本次訪談的文字實錄全文(由AI翻譯):
主持人Jacob:
Bob McGrew 在 OpenAI 擔(dān)任首席研究官六年半。他最近在幾個月前離職,我們有幸能在“無監(jiān)督學(xué)習(xí)”播客上成為他首次亮相的播客之一。因此,我們有機(jī)會向他詢問關(guān)于人工智能未來的一切。我們討論了模型是否已經(jīng)觸及瓶頸,還討論了機(jī)器人模型、視頻模型、計算機(jī)使用模型,以及 Bob 預(yù)見的未來時間線和能力。我們談到了 OpenAI 獨特的文化以及是什么使其研究如此有效,以及一些關(guān)鍵的決策點和經(jīng)歷這些決策的感受。我們探討了為什么 AGI 可能感覺和今天沒什么不同,Bob 還分享了他離開 OpenAI 的原因以及下一步的計劃。我認(rèn)為大家會非常喜歡這一期節(jié)目。話不多說,下面是 Bob。Bob,非常感謝你來參加播客。謝謝邀請,我很期待這次對話。真的很高興你能來。我知道我們會談?wù)摵芏嗖煌脑掝}。我想我們不妨從一個我覺得現(xiàn)在大家最關(guān)心的問題開始,也就是關(guān)于模型能力是否已經(jīng)觸及瓶頸的激烈辯論。我們很想聽聽你對此的看法,以及你覺得預(yù)訓(xùn)練方面還有多少潛力可挖。
Bob McGrew: 好的,我覺得這可能是外界觀察者和大型實驗室內(nèi)部人員看法分歧最大的地方。我認(rèn)為,如果從外界來看,很多人最初開始關(guān)注人工智能是因為 ChatGPT。然后過了六個月,GPT-4 就出現(xiàn)了。感覺一切都在快速加速,并且正在取得進(jìn)展。然而,GPT-4 是一年半前發(fā)布的,而且大家都知道它在此之前就已經(jīng)訓(xùn)練好了。那么,現(xiàn)在發(fā)生了什么?為什么沒有新的東西出現(xiàn),對吧?
內(nèi)部的看法截然不同。在外面,人們想知道,我們是不是遇到了數(shù)據(jù)瓶頸?到底發(fā)生了什么?但你必須記住,要取得預(yù)訓(xùn)練的進(jìn)展,特別是,需要大幅增加計算量。從 GPT-2 到 GPT-3,或者從 GPT-3 到 GPT-4,有效的計算量增加了 100 倍。這就是這種增量所代表的意義。你可以通過增加浮點運算次數(shù)、增加芯片、擴(kuò)大數(shù)據(jù)中心和改進(jìn)算法來實現(xiàn)這一點。算法改進(jìn)可以帶來一些收益50%、2倍或 3倍就已經(jīng)很了不起了。但從根本上說,你必須等待新的數(shù)據(jù)中心建成。
正在建設(shè)的新數(shù)據(jù)中心并不少。你只要看看新聞就能發(fā)現(xiàn),像 Meta、X 和其他前沿實驗室也在建立新的數(shù)據(jù)中心,即使這些新聞并不總是登上頭條。但從根本上說,這是一個非常緩慢的、需要數(shù)年時間的過程。事實上,在你看到完整的代際過渡,比如從 GPT-4 到 GPT-5 之前,你將會看到一些只有 10 倍提升的東西。人們常常忘記,我們是從 GPT-3 到 GPT-3.5 再到 GPT-4 的。
現(xiàn)在有趣的是,預(yù)訓(xùn)練正在進(jìn)行中。我認(rèn)為我們必須等待,看看下一代模型何時發(fā)布。如果你看看像 O1 這樣的東西,我們已經(jīng)能夠利用強(qiáng)化學(xué)習(xí)取得進(jìn)展。通過各種指標(biāo)來看,O1 代表著比 GPT-4 高 100 倍的計算量。有些人可能沒有意識到這一點,因為決定將其命名為 O1 而不是 GPT-5。然而,實際上,這是一個新一代的模型。
當(dāng)下一代,假設(shè)的 GPT-4.5 被訓(xùn)練出來時,有趣的問題是,這種預(yù)訓(xùn)練的進(jìn)展如何與強(qiáng)化學(xué)習(xí)過程相比較?我認(rèn)為,我們只能拭目以待,看看會發(fā)布什么消息。
主持人Jordan: 這就引出了一個問題,考慮到進(jìn)入 2025 年的多年過程,你認(rèn)為明年人工智能的進(jìn)展會像去年一樣多嗎,還是你認(rèn)為事情會開始放緩?
Bob McGrew: 嗯,我認(rèn)為會有進(jìn)展。我認(rèn)為這會是不同的進(jìn)展。一件事是,當(dāng)你進(jìn)入任何下一代時,你總是會遇到在前一代中沒有看到的問題。因此,即使數(shù)據(jù)中心已經(jīng)建好,人們也需要時間來解決問題并完成模型的訓(xùn)練。
我們用來訓(xùn)練 O1 的強(qiáng)化學(xué)習(xí)過程,也就是 OpenAI 用來訓(xùn)練 O1 的過程,創(chuàng)建了一個更長、更連貫的思維鏈,有效地將更多的計算量融入到答案中。所以,你知道,如果一個模型需要幾秒鐘才能生成答案,而另一個模型需要,比如說,幾個小時才能生成答案,那么如果你能真正利用它,那就是 10000 倍的計算量,對吧?
老實說,我們從大約 2020 年就開始思考如何使用測試時間計算。最后,我認(rèn)為這實際上是如何做到這一點的真正答案,即如何在不浪費大量計算資源的情況下做到這一點。這樣做的好處是它不需要新的數(shù)據(jù)中心。在這里,有很多改進(jìn)的空間,因為這是一種剛剛開始的新技術(shù),并且有很多算法增強(qiáng)的機(jī)會。
從理論上講,沒有理由說用于使 O1 從幾秒鐘,比如 GPT-4 可以在幾秒鐘內(nèi)完成的事情,到 O1 花費 30 秒、1 分鐘或幾分鐘來思考的相同基本原理和想法不能擴(kuò)展到幾個小時甚至幾天。就像從 GPT-3 到 GPT-4 一樣,沒有基礎(chǔ)的新技術(shù);兩者都以大致相同的方式進(jìn)行訓(xùn)練,但擴(kuò)展是非常困難的。
所以這實際上是問題的核心:你真的能進(jìn)行擴(kuò)展嗎?我認(rèn)為這將是我們將會看到的進(jìn)步類型,并且它會是最令人興奮的。
主持人Jacob: 是的,在 2025 年?紤]到對測試時間計算的關(guān)注以及當(dāng)前使用的 O1,我認(rèn)為思考人們實際上將如何使用這些模型真的很有趣,對吧?我認(rèn)為你最近發(fā)了一條推文,我覺得很有意思,內(nèi)容是關(guān)于你需要這些新的產(chǎn)品形態(tài)(form factor)來解鎖某些模型的功能。所以也許可以稍微展開一下。例如,你有沒有看到任何你覺得在使用這些模型時很有趣的早期產(chǎn)品形態(tài)?
Bob McGrew: 嗯,是的。為了解釋這個問題,聊天機(jī)器人已經(jīng)出現(xiàn)一段時間了。今天人們與聊天機(jī)器人的大多數(shù)互動,GPT-4 級別的模型都能很好地完成這些任務(wù)。你知道,如果你問 ChatGPT,誰是第四位羅馬皇帝?或者我如何加熱印度香米?我們的大多數(shù)日常對話都能很好地處理。
當(dāng)我們考慮發(fā)布 O1 預(yù)覽版時,有很多關(guān)于人們是否會使用它以及他們是否會找到用它來做什么的問題。我認(rèn)為這些問題是正確的。這關(guān)系到理解需要用這個模型做什么才能真正從中獲得價值。編程是這方面的一個很好的用例,因為它提出了一個結(jié)構(gòu)化的問題,你試圖在很長一段時間內(nèi)取得進(jìn)展,并且它顯著地利用了推理能力。
另一個例子是如果你正在撰寫政策簡報。在這種情況下,你需要撰寫一份需要有意義且具有凝聚力的長篇文檔。事實是,雖然有很多程序員,但大多數(shù)非程序員的人并沒有每天都需要解決這樣的任務(wù)。然而,回到這里潛在的突破,重要的是要有一個連貫的思維鏈和一個結(jié)構(gòu)化的方法來解決問題。
這個過程不僅僅包括思考問題;它還可以包括采取行動和制定行動計劃。對于像 O1 這樣的模型,我最興奮的事情我相信很快會有其他實驗室推出類似的模型是使用它們來實現(xiàn)長期行動,本質(zhì)上是充當(dāng)代理。雖然我認(rèn)為“代理”這個術(shù)語被過度使用了,并且沒有清楚地傳達(dá)我們試圖實現(xiàn)的目標(biāo),但在我的生活中,我有很多任務(wù)希望模型能為我預(yù)訂東西、為我購物,并以涉及與世界其他部分互動的方式來解決問題。
我認(rèn)為這是我們真正需要解決的產(chǎn)品形態(tài):理解它是什么以及我們?nèi)绾斡行У夭渴鹚。就目前而言,我認(rèn)為還沒有人弄清楚這一點。
主持人Jacob: 這太有趣了。我的意思是,這完全說得通。我覺得每個人,你知道的,都會對這些智能體能做什么以及它們能為人們和企業(yè)解決什么問題產(chǎn)生無限遐想。那么,今天實現(xiàn)這一切的最大障礙是什么呢?顯然,你們已經(jīng)看到了早期的一些模型,比如 Anthropic 發(fā)布的計算機(jī)使用模型,而且,我確信其他實驗室也在研究這個。但是,當(dāng)你思考是什么阻礙我們達(dá)到目標(biāo)時,有哪些難題仍然需要解決?
Bob McGrew: 是的,有很多問題。我認(rèn)為最直接的問題是可靠性。所以,你知道的,如果我要求做某事,先拋開動作不談,對吧?如果我要求智能體代表我做某事,即使只是思考或為我編寫一些代碼,而我需要離開五分鐘或一個小時讓它工作,如果它偏離了任務(wù)并犯了錯誤,等我回來時它什么都沒做,那我只是白白浪費了一個小時。這可是個大問題。
現(xiàn)在再加上這個智能體將要在現(xiàn)實世界中執(zhí)行動作。也許它在為我買東西。也許它在提交一個公關(guān)稿。也許它在代表我發(fā)送便條、電子郵件、Slack 消息。如果它做得不好,就會有后果。我至少會感到尷尬,甚至可能會損失一些錢。因此,可靠性就變得比過去更加重要。
我認(rèn)為在考慮可靠性時,有一個經(jīng)驗法則,即從 90% 的可靠性提高到 99% 的可靠性,計算量可能會增加一個數(shù)量級。這是 10 倍的提升。要從 99% 的可靠性提高到 99.9% 的可靠性,則需要再增加一個數(shù)量級的提升。因此,每增加一個“9”,都要求模型性能有巨大的飛躍。這 10 倍的改進(jìn)是顯著的,代表了一兩年時間的工作量。
所以我認(rèn)為這是我們首先要面臨的問題。我認(rèn)為第二個有趣的問題是,到目前為止,我們所談?wù)摰囊磺卸际轻槍οM者的,對吧?你沒有嵌入到企業(yè)中。但是,當(dāng)你在談?wù)撝悄荏w在執(zhí)行任務(wù)時,對于我們很多人來說,那將是我們在工作中做的事情,是嵌入在企業(yè)中的事情。我認(rèn)為這會帶來一系列其他的考慮因素。
主持人Jordan: 這很有趣。我們今天在企業(yè)中看到,許多咨詢公司實際上做得很好,因為目前向企業(yè)部署這些技術(shù)需要很多手把手的指導(dǎo)。你認(rèn)為這種手把手指導(dǎo)以及企業(yè)對幫助的需求會持續(xù)一段時間嗎?還是你認(rèn)為它會變得更加易于使用,企業(yè)將來可以非常容易地部署這些大型語言模型?
Bob McGrew: 是的,我認(rèn)為這是一個非常有趣的問題。而且,我的意思是,即使是開始構(gòu)建,那么在企業(yè)中部署大型語言模型的問題是什么呢?好吧,如果它要為你自動化一個任務(wù)或者做你的工作,它可能需要上下文。因為在消費者領(lǐng)域,沒有太多上下文。好吧,你喜歡紅色,很好。沒什么意思。
主持人Jacob: 感謝你用紅色作為例子(自己的播客叫RedPoint)。
Bob McGrew: 但是,你知道,在企業(yè)中,你知道,你的同事是誰?你正在從事什么項目?你的代碼庫是什么?你知道,人們嘗試過什么?人們喜歡和不喜歡什么?所有這些信息都在企業(yè)中以一種環(huán)境的方式存在。它在你的 Slack 中。它在你的文檔中。你知道,也許它在你的 Figma 或其他什么地方。那么你如何獲得訪問權(quán)限呢?
好吧,你需要自己構(gòu)建一些一次性的東西。我認(rèn)為肯定有一種方法是人們構(gòu)建這些連接器的庫,然后你就可以進(jìn)來做到這一點。這與我們在 Palantir 所做的工作非常相似,Palantir 解決的根本問題是集成企業(yè)中的數(shù)據(jù)。我認(rèn)為這也是為什么像 Palantir 的人工智能平臺 AIP 如此有趣的原因之一。所以我認(rèn)為這是第一條路徑,你有點像在構(gòu)建這些東西的庫?梢曰诖藰(gòu)建整個平臺。
另一個是進(jìn)行計算機(jī)使用(Computer Use)的機(jī)會。所以現(xiàn)在,你不再需要這種非常具體且可能定制的方式來做,你現(xiàn)在擁有一個可以用來處理所有事情的工具。Anthropic 推出了這個;這真的很有趣,我們在 Anthropic 的人在 2020 年離開 OpenAI 之前就已經(jīng)在討論這些計算機(jī)使用的智能體了,Google DeepMind 也發(fā)表了關(guān)于這方面的論文。每個實驗室都考慮過這個問題,并致力于解決這個問題。
計算機(jī)使用的智能體與這些程序化 API 集成不同之處在于,現(xiàn)在,由于你控制的是鼠標(biāo)和鍵盤,你現(xiàn)在采取的行動涉及更多步驟。你可能需要 10 倍甚至 100 倍于使用這些程序化集成所需的令牌數(shù)量。
所以現(xiàn)在,我們又回到了什么?你需要一個具有非常長且連貫的思維鏈的模型,能夠在很長一段時間內(nèi)始終如一地決問題,這正是 O1 所解決的那類問題。我相信還有其他方法可以解決這個問題。但我認(rèn)為這將是我們未來幾年將會看到的一個突破。
主持人Jacob: 明年。你認(rèn)為最終會如何發(fā)展?因為我想一方面,顯然,可以在任何上下文中使用計算機(jī)的通用模型似乎很有吸引力。我想,要達(dá)到 99.999% 的可靠性可能很困難。而且,你知道,在不同的點上可能會有很多步驟出錯。你知道,關(guān)于這如何運作的另一種觀點是,我確信,如果以某種方式開放底層應(yīng)用程序 API,這些問題中的一些可能會被簡化,對吧?或者其他方法,或者你可以為使用 Salesforce 或我不知道的某些特定工具提供特定的模型。如果你可以訪問底層體驗,那么集成最終將成為一個巨大的優(yōu)勢。這樣你就可以在瞬間完成事情,而不是坐在那里看著計算機(jī)在屏幕上做事。
Bob McGrew: 是的,嗯,我的意思是,我認(rèn)為你肯定會看到這些方法的混合使用,其中一些使用這些集成,而另一些,你知道,計算機(jī)使用成為一種備用方案,如果你沒有定制的東西可以使用。然后也許你會看看人們使用哪些東西,如果可行,你會提出更詳細(xì)的集成。
我認(rèn)為關(guān)于你會看到 Salesforce 專用的計算機(jī)使用(Computer Use)智能體的問題,從技術(shù)上講,這對我來說沒有太大的意義,因為我認(rèn)為你從根本上利用的是數(shù)據(jù)。有人出去收集了大量關(guān)于如何使用 Salesforce 的數(shù)據(jù)集。
你可以把這些數(shù)據(jù)扔進(jìn)與 Anthropic、OpenAI 和 Google 分享這些數(shù)據(jù)集對 Salesforce 有利。他們訓(xùn)練自己的模型。我認(rèn)為每個應(yīng)用程序提供商都會希望這是公開的,并且是每個基礎(chǔ)模型的一部分。所以我不認(rèn)為,你知道,對我來說,這似乎沒有理由以這種方式擁有專門的模型。
主持人Jacob: 不,這確實是一個很有說服力的觀點,因為我覺得,當(dāng)你在一個競爭激烈的領(lǐng)域,而你的競爭對手正在公開他們的數(shù)據(jù),并且他們的產(chǎn)品變得更容易使用時,你肯定也希望你的產(chǎn)品是這樣的。
Bob McGrew: 是的,對我來說有點神秘,為什么還沒出現(xiàn)那種人們把數(shù)據(jù)塞進(jìn)大型語言模型的生態(tài)系統(tǒng)。這實際上就相當(dāng)于谷歌的SEO。
主持人Jacob: 這真是個很有趣的觀點。你認(rèn)為我們離計算機(jī)使用的廣泛應(yīng)用還有多遠(yuǎn)?
Bob McGrew: 嗯,我的意思是,我認(rèn)為對于這些事情有一個很好的經(jīng)驗法則,那就是當(dāng)你看到一個演示,它超級有吸引力,但還不太好用。用起來會很痛苦。然后,你知道,給它一年時間,它就會好十倍。而且,這種改進(jìn)是呈對數(shù)線性增長的。所以好十倍,你知道,只是一個級別的改進(jìn)。但一個級別的改進(jìn)已經(jīng)相當(dāng)了不起。你會開始看到它被用于有限的使用場景。然后再給它第二年。到那時,它會出奇地有效,但你不能每次都依賴它。我們現(xiàn)在用聊天機(jī)器人就是這樣,你仍然需要擔(dān)心它們會產(chǎn)生幻覺。那么,采用的問題實際上取決于你要求的可靠性水平。任何可以容忍錯誤的領(lǐng)域都會比那些不能容忍錯誤的領(lǐng)域更快地實現(xiàn)自動化。
主持人Jacob: 所以我想回到喬丹最初的問題,基本上,現(xiàn)在你需要大量的輔助才能集成到正確的數(shù)據(jù)中,并定義定制的防護(hù)措施和工作流程,這是完全有道理的。那么,在“嘿,很棒的計算機(jī)使用模型,企業(yè)準(zhǔn)備簽約”之間,會存在什么樣的中間層呢?這個中間層會是什么樣的?
Bob McGrew: 伙計,我認(rèn)為應(yīng)該有初創(chuàng)公司來定義它。你知道,我認(rèn)為我們還不完全知道答案。我認(rèn)為,當(dāng)你擁有像計算機(jī)使用這樣的一般工具時,你會看到一個有趣的現(xiàn)象,它解決的問題在難度上是分形的,它可以解決很多問題。但隨后你會看到一個真正重要的問題,而你無法完全解決它。然后你會說,好的,現(xiàn)在我們要針對這個做一些非常具體的,也許我們會為此采用一種程序化的方法。所以我認(rèn)為我們會在一段時間內(nèi)看到各種方法的混合。
主持人Jordan: 我很好奇,你顯然一直在研究方面工作,并負(fù)責(zé)一些真正尖端的研究。我們稍微談到了測試時計算。你對其他哪些領(lǐng)域特別感興趣?
Bob McGrew: 嗯,我認(rèn)為我們已經(jīng)談過了預(yù)訓(xùn)練。我們已經(jīng)談過了測試時計算。另一個真正令人興奮的事情是多模態(tài)。多模態(tài)的重要日子。是的,今天發(fā)布了Sora。實際上,這在某種程度上是這個漫長歷程的頂點。大型語言模型,我們假設(shè)是2018年發(fā)明的。很明顯,你可以應(yīng)用Transformer和一些相同的技術(shù)來適應(yīng)其他模態(tài)。所以你包含了視覺,有了圖像輸出、音頻輸入和音頻輸出。
首先,這些東西一開始是作為類似DALLE或Whisper的輔助模型。最終,它們被集成到主模型中。長期以來一直抵制這種做法的模態(tài)是視頻。我認(rèn)為Sora是第一個進(jìn)行演示的;其他公司,如Runway,以及一些其他的模型也相繼出現(xiàn),F(xiàn)在Sora本身已經(jīng)發(fā)布了。我認(rèn)為視頻與其他模態(tài)相比,有兩個真正有趣且不同的地方。
當(dāng)你創(chuàng)建圖像時,你可能真的只想通過一個提示來創(chuàng)建一個圖像。也許你嘗試幾次。如果你是專業(yè)的平面設(shè)計師,你可能會編輯這個圖像中的一些細(xì)節(jié)。但說實話,我們都不是。這里的很多用途是,你需要一些幻燈片嗎?你是否想要一張圖片來搭配你的推文或演示文稿?這是一個非常直接的過程。
然而,對于視頻來說,哇。我的意思是,這是一系列擴(kuò)展的事件。它不是一個提示。所以現(xiàn)在你實際上需要一個完整的用戶界面。你需要考慮如何使這個故事隨著時間的推移而展開。我認(rèn)為這就是我們在Sora發(fā)布中看到的事情之一。Sora在這方面花費了更多的時間思考;產(chǎn)品團(tuán)隊在這方面投入了比其他一些平臺更多的精力。
你還需要考慮的另一件事是,視頻的成本非常高。訓(xùn)練這些模型非常昂貴,運行這些模型的成本也非常高。所以,雖然看到Sora質(zhì)量的視頻很有趣而且我認(rèn)為Sora的質(zhì)量確實更好但你必須稍微注意一下才能看到它的質(zhì)量更好,至少如果你只看一個短暫的片段的話。
現(xiàn)在,任何擁有Plus賬戶的人都可以使用Sora。OpenAI發(fā)布了每月200美元的Pro賬戶,其中包括無限制的Sora慢速生成。當(dāng)你擁有這種水平的質(zhì)量和分發(fā)時,兩個難題已經(jīng)解決了。這將是其他競爭對手難以企及的高門檻。
主持人Jacob:視頻模型在未來幾年的發(fā)展會是什么樣的?我的意思是,顯然在大型語言模型領(lǐng)域,我們已經(jīng)看到了巨大的進(jìn)步,感覺去年的模型現(xiàn)在便宜了十倍,而且速度快得多。你認(rèn)為視頻方面也會有類似的改進(jìn)嗎?
Bob McGrew: 實際上,我認(rèn)為類比非常直接。所以如果我考慮一下今天的視頻模型和兩年后的視頻模型之間的差異,首先是質(zhì)量會更好,F(xiàn)在的瞬時質(zhì)量已經(jīng)非常好了。你可以看到反射。如果你分享一些東西,所有難以解決的難題,你可以指出,哦,看,那里做了反射。有一些煙霧。你知道,困難的是擴(kuò)展的、連貫的生成。
所以SOAR產(chǎn)品團(tuán)隊擁有一個故事板功能,允許你在不同的時間點,比如每五秒或每十秒設(shè)置檢查點,以幫助為生成提供指導(dǎo)。你知道,從根本上說,如果你想從幾秒鐘的視頻變成一個小時的視頻,這是一個非常困難的問題。我認(rèn)為這是你將在下一代模型中看到的東西。
另一方面,另一個類比是,我實際上認(rèn)為它會非常像大型語言模型,如果你想要一個GPT-3質(zhì)量的token,它比GPT-3剛出現(xiàn)時便宜100倍。Sora的情況也會如此,你將能夠看到這些非常漂亮、逼真的視頻,而且它們的成本幾乎為零。
主持人Jacob: 我覺得夢想是有一部由人工智能生成的完整電影,贏得一些獎項之類的,你知道,用一個無恥的播客問題來問,你認(rèn)為我們什么時候會有這樣的電影?
Bob McGrew: 我只能猜一下。哦,天哪。是的。說實話,贏得一個獎項某種程度上來說門檻太低了,對吧?我想有很多頒獎典禮。真的,這是一部你真正想看的電影嗎?是的。我覺得我們會在兩年后看到它,但它實際上會比我剛才說的更沒那么令人印象深刻,因為你想看它的原因不是因為視頻本身,而是因為有一位導(dǎo)演擁有創(chuàng)意愿景,并使用視頻模型來實現(xiàn)他的創(chuàng)意愿景。我認(rèn)為他們這樣做是因為他們可以在這種媒介中做一些他們無法拍攝的東西。我們可以想象一下。我們這里沒有人是導(dǎo)演,但我們都可以想象很多可能性。我們不是平面設(shè)計師,也不是導(dǎo)演,但,是的,未來會是這樣。
主持人Jordan: 沒錯。是的,我們這里有一些非常特定的技能。是的,我們看到很多公司涌現(xiàn)出來,試圖成為人工智能領(lǐng)域的皮克斯。我們總是會問這個問題,什么時候這才是真正可行的?所以聽起來比我們至少預(yù)想的要快得多。
Bob McGrew: 這是我的猜測。一旦事情進(jìn)展到可以演示的階段,之后的進(jìn)展會非?臁T诖酥,進(jìn)展非常緩慢,或者至少它是不可見的。
主持人Jordan: 我想從視頻轉(zhuǎn)向機(jī)器人,你一開始加入 OpenAI 是為了研究很多機(jī)器人方面的東西。我們很想了解你對這個領(lǐng)域的看法,以及我們今天的處境,以及你認(rèn)為它將走向何方。
Bob McGrew: 這確實是一個非常私人的問題。當(dāng)我離開 Palantir 時,我的一個想法是,機(jī)器人將成為深度學(xué)習(xí)變得真實的領(lǐng)域,而不僅僅是某人網(wǎng)站上的一個按鈕。所以,我在 Palantir 和 OpenAI 之間花了一年的時間深入了解機(jī)器人技術(shù),用深度學(xué)習(xí)編寫了一些關(guān)于視覺的早期代碼。這是一個非常具有挑戰(zhàn)性的領(lǐng)域。當(dāng)時,我以為可能還要五年;那是215年,而那是完全錯誤的。但是,我認(rèn)為現(xiàn)在是對的。我相信機(jī)器人技術(shù)將在五年后得到廣泛應(yīng)用,盡管會有一些限制。因此,我認(rèn)為現(xiàn)在是創(chuàng)辦一家機(jī)器人公司的好時機(jī)。
一個相當(dāng)明顯的觀點是,基礎(chǔ)模型在快速啟動和運行機(jī)器人方面取得了巨大突破,使其能夠在重要方面進(jìn)行泛化。這有幾個不同的方面。其中比較明顯的是,利用視覺并將視覺轉(zhuǎn)化為行動計劃的能力,這是基礎(chǔ)模型帶來的。稍微不那么明顯,也許更有趣的方面是整個生態(tài)系統(tǒng)已經(jīng)發(fā)展起來了,F(xiàn)在我已經(jīng)離開了 OpenAI,我花了一些時間和創(chuàng)始人在一起,我和一些機(jī)器人創(chuàng)始人聊過。一位機(jī)器人創(chuàng)始人告訴我,他們實際上已經(jīng)設(shè)置了讓機(jī)器人能夠?qū)υ挕_@真的很酷而且容易得多;你可以告訴機(jī)器人做什么,它會理解大意。它使用一些專門的模型來執(zhí)行操作。以前,寫出你想要的東西很麻煩,你必須坐在電腦前,而不是看著機(jī)器人,F(xiàn)在你只需要和它說話就行了。
我認(rèn)為我們?nèi)匀徊磺宄Y(jié)果的一個主要區(qū)別在于,你是在模擬中學(xué)習(xí)還是在現(xiàn)實世界中學(xué)習(xí)。我們在機(jī)器人領(lǐng)域這兩年的主要貢獻(xiàn)是展示了你可以在模擬器中訓(xùn)練,并使其推廣到現(xiàn)實世界。使用模擬器有很多原因;例如,在生產(chǎn)系統(tǒng)或現(xiàn)實世界中運行是很麻煩的。你可以進(jìn)行免費測試等等。但是,模擬器擅長模擬剛體。如果你正在用堅硬的物體進(jìn)行抓取和放置的任務(wù),那就太好了。但是,世界上的很多東西都是軟綿綿的物體。你必須處理布料,或者,當(dāng)考慮倉庫時,要處理紙板。不幸的是,模擬器在處理這些場景方面做得不是特別好。因此,對于任何想要真正通用的東西,我們現(xiàn)在唯一的方法就是使用現(xiàn)實世界的演示。正如你從最近出現(xiàn)的一些工作中所看到的,這實際上可以產(chǎn)生有希望的結(jié)果。
主持人Jacob: 效果非常好。然后,我想,顯然這在某種程度上是不可知的,比如,你知道的,當(dāng)人們在機(jī)器人技術(shù)中發(fā)現(xiàn)縮放定律,以及人們可能需要多少遠(yuǎn)程操作數(shù)據(jù)時,但是你覺得我們離它很近了嗎?或者,我的意思是,顯然,你知道,在2015年,你認(rèn)為還有五年。你認(rèn)為我們離人們所說的機(jī)器人技術(shù)像 ChatGPT 那樣的時刻還有多遠(yuǎn),人們會說,哦,那真的很棒,那看起來很不一樣而且有效。
Bob McGrew: 關(guān)于預(yù)測,尤其是關(guān)于機(jī)器人技術(shù)的預(yù)測,你真的要考慮這個領(lǐng)域。所以我對機(jī)器人技術(shù)的大規(guī)模消費者采用持相當(dāng)悲觀的態(tài)度,因為在家里有一個機(jī)器人是很可怕的。機(jī)器手臂是致命的。它們可能會殺死你,更重要的是,它們會殺死你的孩子。而且,你知道,你可以使用不同種類的機(jī)器手臂,它們沒有這些缺點,但它們有其他缺點。家是一個非常不受約束的地方。
但我確實認(rèn)為,在各種形式的零售或其他工作環(huán)境中,我認(rèn)為五年后我們會看到這種情況。如果你去亞馬遜的倉庫,你甚至可以看到這種情況;他們已經(jīng)擁有解決了他們移動問題的機(jī)器人。你知道,他們正在研究抓取和放置。我認(rèn)為你會在倉庫環(huán)境中看到大量機(jī)器人推出。
然后,你知道,它將在一段時間內(nèi)以領(lǐng)域為單位逐步推進(jìn)。我不會預(yù)測它何時進(jìn)入家庭,但我認(rèn)為你會看到它被廣泛應(yīng)用。我認(rèn)為在五年后,我們會以一種今天會感覺奇怪的方式在日常生活中與它們互動。
主持人Jacob: 我的意思是,顯然已經(jīng)有一些獨立的機(jī)器人公司。在某種程度上,顯然機(jī)器人技術(shù)利用了基礎(chǔ),你知道,LLM 的進(jìn)步。我很好奇,比如,你知道,這一切是否會融合?顯然有些公司只做視頻模型。有些公司專注于生物、材料科學(xué)。當(dāng)你考慮它的長期發(fā)展方向時,你知道,是否會有一個龐大的模型涵蓋所有這些?
Bob McGrew: 在最前沿的模型規(guī)模上,我認(rèn)為你應(yīng)該繼續(xù)期望這些公司推出一個模型。它將在他們所擁有的每種形式的數(shù)據(jù)的每個維度上做到最好。這是一個重要的警告。
專業(yè)化真正給你帶來的是性價比。在過去的一年里,你已經(jīng)看到最前沿的實驗室在擁有大量智能的小模型方面做得更好,這些模型可以以非常低的成本完成類似聊天機(jī)器人的用例。
如果你是一家公司,在這一點上,一個非常常見的模式是,你弄清楚你希望人工智能為你做什么,然后你使用你喜歡的最前沿的模型來運行它。然后,你生成一個龐大的數(shù)據(jù)庫,并微調(diào)一些更小的模型來執(zhí)行該操作。你知道,這是一個非常常見的做法;OpenAI 提供這項服務(wù),我相信這在每個平臺上都是一個常見的模式。
你可以說,你知道,這非常非常便宜。現(xiàn)在,如果你像這樣訓(xùn)練了一個聊天機(jī)器人,你的客戶服務(wù)聊天機(jī)器人是這樣訓(xùn)練的,如果有人偏離了腳本,它就不會像你原來使用前沿模型那樣好。但這沒關(guān)系;這是人們愿意接受的性價比。
主持人Jacob: 有一件我覺得很有趣的事情,我們之前聊天的時候,你提到了一個關(guān)于人工智能進(jìn)展的宏觀觀點,基本上是在說,在2018年,我們曾預(yù)計,到了2024年,我們會擁有各種模型能力,你會從第一性原理出發(fā)認(rèn)為,這些東西已經(jīng)徹底改變了。就像世界相對于2018年幾乎面目全非。雖然你們確實對更廣闊的世界產(chǎn)生了巨大的影響,但我還不能說人工智能的普及已經(jīng)完全改變了整個世界運作的方式。你認(rèn)為為什么會這樣?
Bob McGrew: 嗯,我只是想稍微重述一下,我覺得,雖然聽起來很奇怪,但關(guān)于人工智能的正確心態(tài)應(yīng)該是深深的悲觀。比如,為什么進(jìn)展如此緩慢?為什么,你知道,有人說人工智能導(dǎo)致了GDP增長了0.1%。但這并不是因為使用人工智能帶來的生產(chǎn)力提升,而是因為建立訓(xùn)練人工智能所需的數(shù)據(jù)中心所產(chǎn)生的資本支出。所以,為什么人工智能在生產(chǎn)力統(tǒng)計數(shù)據(jù)中并不明顯?就像人們在20世紀(jì)90年代談?wù)摶ヂ?lián)網(wǎng)時所說的那樣。
我認(rèn)為這有幾個原因。首先,2018年的那種觀點認(rèn)為,一旦你可以和它對話,它就可以編寫代碼,那么所有人都會立即實現(xiàn)自動化。這和工程師被要求編寫一個功能時的想法是一樣的。你可能會想,“哦,是的,我可以在幾個星期內(nèi)搞定!钡钱(dāng)你開始編寫代碼時,你就會意識到,“哦,實際上,這個功能比我想象的要復(fù)雜得多! 如果你是一個優(yōu)秀的工程師,你可能會估計兩周,但實際上項目可能需要兩個月。如果是一個糟糕的工程師,他們可能會發(fā)現(xiàn)這個功能根本就寫不出來。
我認(rèn)為當(dāng)我們真正深入研究人類如何完成工作時,就發(fā)生了這種情況。是的,你可能會在電話里和他們交談,但這并不意味著他們所做的只是和你交談。其中涉及到真正的工作。從根本上說,人工智能可以自動化的只是一項任務(wù)。然而,一項工作是由許多任務(wù)組成的。當(dāng)你仔細(xì)研究真實的工作時,你會發(fā)現(xiàn),對于大多數(shù)工作來說,有些任務(wù)是無法自動化的。
即使你看看編程,例如,樣板代碼首先被優(yōu)化,而那些更棘手的部分,比如確定你到底想做什么,則是最后才被解決的。所以我認(rèn)為,隨著我們繼續(xù)推廣人工智能,我們將發(fā)現(xiàn)它在自動化人類工作的全部范圍方面存在越來越多的復(fù)雜性和局限性。
主持人Jordan: 那么考慮到這一點,就進(jìn)展而言,你認(rèn)為今天有哪些領(lǐng)域被低估了,應(yīng)該比現(xiàn)在得到更多的關(guān)注?
Bob McGrew: 嗯,好的。這里有一個答案,我真正感興趣的初創(chuàng)公司是那些人們利用人工智能來解決一些非?菰锏膯栴}的公司。
想象一下,你經(jīng)營一家公司,你可以雇傭所有你想要的聰明人去做一些超級枯燥的事情,比如檢查你所有的支出,并確保你進(jìn)行了適當(dāng)?shù)谋葍r。比如,如果你的采購部門都是像埃隆馬斯克那樣的人,他們真的非常仔細(xì)地控制支出,那么你可能會省下很多錢。
沒有人這樣做,因為,你知道,那些真正能省錢的人,他們會覺得無聊。他們會討厭這份工作,對吧?但是人工智能是無限耐心的。
它不必?zé)o限聰明。而且,你知道,我認(rèn)為在任何地方,如果你在經(jīng)營你的業(yè)務(wù),你可以從那些無限耐心的人所做的事情中獲得價值,那么這就是人工智能應(yīng)該自動化的東西。
主持人Jacob: 這很有趣,因為我一直認(rèn)為咨詢師是讓聰明人去解決枯燥問題或在枯燥行業(yè)工作的套利方式。而顯然,有了尖端的人工智能模型,你就可以讓一個智商很高的人去解決你永遠(yuǎn)不可能讓一個聰明人去做的問題。
Bob McGrew: 是的,我的意思是,我第一次聽說有人做了生產(chǎn)力研究,結(jié)果表明人工智能確實帶來了20%到50%的提升。我就想,哇,太棒了。然后我就發(fā)現(xiàn),哦,是咨詢師。嗯,你知道,人工智能非常擅長“扯淡”,而咨詢師的工作就是“扯淡”。所以也許我們不應(yīng)該感到驚訝,生產(chǎn)力的提升首先出現(xiàn)在這里。
主持人Jacob: 是的,我認(rèn)為在表現(xiàn)較差的后一半人中提升幅度也是最大的,對吧?
Bob McGrew: 沒錯。嗯,實際上,我認(rèn)為這有點令人充滿希望。因為如果你看看表現(xiàn)較差的后一半人,你知道,他們擁有人類擁有的、難以自動化的技能,這是這個事情充滿希望的版本。他們知道他們在做什么,但他們不知道如何編寫代碼來實現(xiàn)它。然后模型出現(xiàn)了,它說,哦,我知道如何編寫代碼來實現(xiàn)它,但我不知道我應(yīng)該做什么。所以現(xiàn)在這些表現(xiàn)較差的人實際上可以在他們的工作中得到真正的提升。所以我覺得這非常令人充滿希望。
主持人Jordan: 我想,就表現(xiàn)而言,你曾經(jīng)并且正在與世界上一些最優(yōu)秀的研究人員合作。你認(rèn)為是什么讓一個人工智能研究人員成為最優(yōu)秀的?
Bob McGrew: 有許多不同類型的研究人員做著不同的事情。如果你想到像亞歷克拉德福德這樣的人,他發(fā)明了GPT系列和CLIP,你會發(fā)現(xiàn)他基本上發(fā)明了大型語言模型(LLM),然后繼續(xù)進(jìn)行各種形式的多模態(tài)研究。亞歷克是一個喜歡在深夜的奇怪時間獨自工作的人。相比之下,其他像伊利亞蘇茨克維和雅各布皮喬基這樣的杰出人物,他們分別是OpenAI的第一任和第二任首席科學(xué)家,他們有偉大的想法和愿景。他們幫助其他人解決挑戰(zhàn),并在為公司制定整體路線圖方面發(fā)揮著關(guān)鍵作用。
最優(yōu)秀的科學(xué)家們都有一個共同的關(guān)鍵特征,那就是一定的毅力。我永遠(yuǎn)記得看著阿迪亞拉梅什,他發(fā)明了DALL-E,努力解決生成一張不在訓(xùn)練集中的圖像的問題,以證明神經(jīng)網(wǎng)絡(luò)具有創(chuàng)造力。DALL-E的最初想法是看看它是否能創(chuàng)造一張粉紅色熊貓在冰上滑冰的圖片,阿迪亞確信這張圖片不存在于訓(xùn)練數(shù)據(jù)中。他為此工作了18個月,也許是兩年,試圖實現(xiàn)這個目標(biāo)。
我記得大約一年后,伊利亞過來給我看了一張照片,說:“你看,這是最新一代的。它真的開始起作用了! 我看到的是一片模糊,頂部隱約可見粉紅色,底部是白色只是像素開始聚集在一起。我當(dāng)時還看不出什么,但阿迪亞堅持不懈。這種堅韌是每一個成功的科研人員在解決基礎(chǔ)問題時必須具備的。他們必須把這看作是他們的“最后一戰(zhàn)”,并且決心為此堅持?jǐn)?shù)年,如有必要的話。
主持人Jacob: 為了使其發(fā)揮作用。你從組建這樣一個由這樣一群人組成的研究機(jī)構(gòu)中學(xué)到了什么?
Bob McGrew: 嗯,有趣的是,我能想到的最好的類比實際上來自 Palantir 的 Alex Carp,他總是說工程師是藝術(shù)家。這很有道理。當(dāng)你和一位真正優(yōu)秀的工程師交談時,他們只想創(chuàng)造。他們心中有某種東西。代碼是他們將心中的雕塑變成現(xiàn)實的方式。
在 Palantir,你知道,你必須讓他們修復(fù)bug,但每次你這樣做,他們藝術(shù)家的那一面都會感到悲傷。你必須有一個流程來讓人們協(xié)同工作,但他們藝術(shù)家的那一面會感到悲傷。事實是,工程師是藝術(shù)家,一個 10 倍工程師是 10 倍的藝術(shù)家,而研究員是任何工程師的 100 倍藝術(shù)家。
要建立一個擁有研究人員的組織,需要考慮的事情要多得多。有一種工程管理方式,你會說如果每個人都是可互換的零件,并且你有一個允許他們協(xié)同工作的流程,那就太好了。然而,與研究人員合作是非常需要密切關(guān)注的,因為最關(guān)鍵的是你不能扼殺他們的藝術(shù)性。
正是他們頭腦中對愿景的熱情,使他們愿意承受所有將愿景變?yōu)楝F(xiàn)實的挑戰(zhàn)。
主持人Jordan: 你很幸運曾在 Palantir 和 OpenAI 工作過,而且有很多文章都在討論 Palantir 的文化非常特別。當(dāng)你想起 OpenAI 時,我相信未來也會有很多關(guān)于其文化的文章。你認(rèn)為這些文章會怎么說?
Bob McGrew: 是的。我的意思是,我認(rèn)為其中一點是像我們剛才談到的那樣,與研究人員合作。關(guān)于 OpenAI 另一件瘋狂的事情是它經(jīng)歷了多少次轉(zhuǎn)型,或者我更喜歡把它看作是多次重建。所以當(dāng)我加入 OpenAI 時,它是一個非營利組織。公司的愿景是通過撰寫論文來構(gòu)建 AGI。我們知道這是錯誤的;感覺不太對勁。早期的很多人,Sam、Greg 和我,都是創(chuàng)業(yè)人士,而這條通往 AGI 的道路感覺不對。
幾年后,公司從非營利組織轉(zhuǎn)型為營利組織。這在公司內(nèi)部引起了很大的爭議,部分原因是,我們知道在某個時候我們將不得不與產(chǎn)品互動。我們必須考慮如何賺錢。與微軟的合作成了另一個重建時刻,這也引起了很大爭議。我的意思是,也許賺錢是一回事,但是把它給微軟,給大型科技公司,哇,太糟糕了。
此外,同樣重要的是,我們決定說,好吧,我們不僅要與微軟合作,我們還要使用 API 構(gòu)建自己的產(chǎn)品。最后,通過 ChatGPT 將消費者服務(wù)添加到企業(yè)服務(wù)中。這些都是初創(chuàng)公司會經(jīng)歷的決定性的轉(zhuǎn)型。在 OpenAI,感覺好像每 18 個月或每兩年,我們都在從根本上改變公司的宗旨和在那里工作的人們的身份。
我們從撰寫論文是你的工作的概念,轉(zhuǎn)變?yōu)闃?gòu)建一個世界上每個人都可以使用的模型的想法。真正瘋狂的是,如果你在 2017 年問我們正確的使命是什么,那不會是通過撰寫論文來實現(xiàn) AGI;相反,那會是我們想構(gòu)建一個每個人都可以使用的模型。但是我們不知道如何實現(xiàn)這一目標(biāo),所以我們只能探索并一路找出所有這些事情。
主持人Jacob: 你認(rèn)為是什么讓你們在進(jìn)行這些重大轉(zhuǎn)變時如此成功?
Bob McGrew: 嗯,我的意思是,首先是必要性。這些都不是隨意選擇的,對吧?你有一個非營利組織,你花光了錢,也許你需要找到一種籌集資金的方式;也許為了籌集資金,你必須成為一家營利性公司。你與微軟的合作,也許他們沒有看到你正在創(chuàng)建的模型的價值,所以你需要構(gòu)建一個 API,因為它可能真的有效。然后你可以向他們展示,人們實際上想要這些模型。
ChatGPT,我認(rèn)為這是我們在 GPT-3 之后真正相信的,通過正確的進(jìn)步,正確的形式不僅僅是人們必須通過中介才能與模型對話的 API,而是該模型將是你可以直接與之交談的東西。所以這是我認(rèn)為非常刻意的一件事。但眾所周知,它的發(fā)生方式是一個意外。我們正在研究它。我們實際上已經(jīng)訓(xùn)練了 GPT-4,并且我們希望在模型足夠好,以至于我們每天都使用它時發(fā)布。
我們在 11 月都看了 ChatGPT,我們想,它通過了門檻了嗎?不完全是。領(lǐng)導(dǎo)這個團(tuán)隊的聯(lián)合創(chuàng)始人之一 John Schulman 說,聽著,我真的只想發(fā)布它。我想獲得一些外部經(jīng)驗。我記得當(dāng)時在想,如果有一千人使用它,那將是成功。你知道,我們對成功的標(biāo)準(zhǔn)相當(dāng)?shù)汀N覀冏龀隽艘粋決定,沒有把它放在等待列表之后。
然后,你知道,世界再次迫使我們出手,突然之間,世界上每個人都想使用它。當(dāng)你發(fā)布它時,最初的幾天是什么樣的?哦,我的天啊,那是非常緊張的。起初,人們有些不相信這真的會發(fā)生。有一些焦慮。我們迅速嘗試找出如何獲得 GPU。所以我們暫時把一些研究計算資源轉(zhuǎn)移到了那里。
然后就出現(xiàn)了這個問題,它什么時候會停止?這種情況會繼續(xù)下去還是會成為一種時尚?因為我們幾乎在 DALL-E 上也經(jīng)歷過類似的事情。DALL-E 2 模型曾在互聯(lián)網(wǎng)上引起轟動,然后就消失了。所以人們擔(dān)心 ChatGPT 實際上也會消失。這是我非常堅信它不會消失的地方,它實際上會比 API 更重要。
主持人Jacob: 我的意思是,多么有趣的經(jīng)歷啊。我想其中一件很酷的事情是,你離尖端 AI 研究非常近。我很好奇,在過去的一年中,你在 AI 領(lǐng)域改變了什么想法?
Bob McGrew: 有趣的是,我不認(rèn)為我改變了什么想法。在 GPT-3 之后,進(jìn)入 2020 年、2021 年,如果你身處其中,那么未來四五年需要發(fā)生的事情,很多都感覺是理所當(dāng)然的。我們將擁有這些模型。我們將使模型變得更大,它們將成為多模態(tài)的。即使在 2021 年,我們也在談?wù)撊绾涡枰谡Z言模型上使用 RL,并嘗試找出如何使其工作。而且,2021 年和 2024 年之間的真正區(qū)別不是說需要發(fā)生什么,而是我們能夠讓它發(fā)生這個事實。而且,你知道,我們,整個領(lǐng)域,都能夠讓它發(fā)生。但在某種意義上,我們現(xiàn)在的處境也感覺有點命中注定。
主持人Jacob: 我猜想,展望未來,當(dāng)你考慮擴(kuò)展預(yù)訓(xùn)練和擴(kuò)展測試時計算時,感覺它也像是命中注定要僅憑這兩者就達(dá)到 AGI 嗎?或者,你是如何看待這個問題的?
Bob McGrew: 我很難理解AGI(通用人工智能)的概念。而且,我認(rèn)為,如果說有什么的話,我對AGI有一個很深的批判,那就是不存在一個明確的轉(zhuǎn)折時刻,實際上,這些問題是分形的。而且,我們將看到越來越多的事物被自動化。但不知怎么的,我們我不知道。我有一種感覺,它會變得非常平庸,不知何故,我們都會開著自動駕駛汽車去辦公室,在那里指揮著人工智能大軍。然后我們會覺得,哦,這有點無聊。感覺仍然像在辦公室,我的老板仍然是個白癡。這大概就是我們AGI的未來。我們迫不及待地等待下午五點下班之類的。
更嚴(yán)肅地說,我一直覺得,而且我認(rèn)為這在OpenAI內(nèi)部以及其他前沿實驗室也是一種普遍的觀點,即解決推理是擴(kuò)展到人類水平智能所需的最后一個基本挑戰(zhàn)。你需要解決預(yù)訓(xùn)練,你需要解決故障模態(tài),你需要解決推理。此時,剩下的挑戰(zhàn)就是擴(kuò)展。但這非常重要。
擴(kuò)展非常困難。實際上,根本沒有多少基礎(chǔ)性的想法。幾乎所有的工作都是在如何將它們擴(kuò)展到接受越來越大的計算量。這是一個系統(tǒng)問題。這是一個硬件問題。這是一個優(yōu)化問題。這是一個數(shù)據(jù)問題。這是一個預(yù)訓(xùn)練問題。所有的問題實際上都只是關(guān)于擴(kuò)展。所以,是的,我認(rèn)為在某種程度上,它已經(jīng)是注定的了。這里的工作是擴(kuò)展它,但這很難。大量的工作。
主持人Jacob: 顯然,我認(rèn)為人們在談?wù)撨@些模型擴(kuò)展其能力的社會影響。我認(rèn)為我們?nèi)匀惶幱谶@種討論的早期階段,可能有很多不同的對話需要進(jìn)行。但對哪些方面特別感興趣和充滿熱情,您認(rèn)為我們應(yīng)該談?wù)撃男┓矫妫?br/>
Bob McGrew: 是的。我認(rèn)為最有趣的是,我們正在從一個智能可能是社會中最稀缺資源的時代,過渡到一個智能將無處不在且免費的時代。那么,稀缺的生產(chǎn)要素又是什么呢?而且,我認(rèn)為我們不知道。我猜是能動性。也就是說,你可以去完成事情。你需要提出什么正確的問題?你需要追求哪些正確的項目?我認(rèn)為這些類型的問題對于人工智能來說很難為我們解決。我認(rèn)為這些將是人類需要弄清楚的核心問題。而且,并非每個人都擅長這一點。所以,我認(rèn)為我們需要思考的是,我們?nèi)绾伟l(fā)展那種讓我們能夠與之合作的能動性。
主持人Jordan: 您認(rèn)為這是現(xiàn)在,還是未來?
Bob McGrew: 我認(rèn)為它會感覺非常連續(xù)。這是一條指數(shù)曲線。而指數(shù)曲線的特點是,它們沒有記憶。你總是感覺,你總是在以相同的速度、相同的節(jié)奏前進(jìn)。
主持人Jacob: 這些模型最終不會也弄清楚,我的意思是,如果你考慮一下弄清楚要做什么或項目目標(biāo),你剛剛提到了幾次?例如,你可以想象,在未來最基本的層次上,對模型說,嘿,建立一家好公司,或者創(chuàng)作一件有趣的藝術(shù)作品,或者制作一部電影,等等。隨著這些模型變得更強(qiáng)大,這種能動性,我想,也許可以談?wù)勥@一點。
Bob McGrew: 是的,我的意思是,你能否直接要求人工智能解決所有問題?好吧,我認(rèn)為你可以,而且你會得到一些結(jié)果。但我們以Sora為例。如果你在制作一個視頻,你給它一個非常模糊的提示,它會完全為你創(chuàng)建一個視頻。也許它會是一個非?岬囊曨l。也許它會比你能想到的最酷的視頻還要好。但它可能不是你想要的視頻。
因此,你也可以與它互動,你給它一個非常詳細(xì)的提示,你說,我對我想看到的視頻做了這些具體的選擇。這讓你能夠創(chuàng)建讓你自己或你的觀眾滿意的視頻。
我認(rèn)為這種張力將持續(xù)存在,無論人工智能多么先進(jìn),因為你如何填充空白將決定最終產(chǎn)品的很多內(nèi)容。
主持人Jacob: 您今天是如何使用最先進(jìn)的O1模型的?
Bob McGrew: 我理解模型,并與之交互的首選方法是,我花了很多時間教我八歲的兒子學(xué)習(xí)編程。他喜歡問問題,所以我總是在想如何將他今天感興趣的事情與我想教給他的課程聯(lián)系起來。
例如,有一天他說,“爸爸,什么是網(wǎng)絡(luò)爬蟲?它是如何工作的?”這給了我一個機(jī)會,我說,好吧,我可以用一個簡短的程序來教他網(wǎng)絡(luò)是如何工作的嗎?我嘗試使用一個O1模型,努力創(chuàng)建一個足夠簡短的程序,并且不引入太多我還沒有教過他的新概念。
目標(biāo)是教他關(guān)于網(wǎng)絡(luò)的知識,這是我希望他理解的核心概念,同時確保內(nèi)容對于一個八歲的孩子來說是易于理解的。這花了一些時間來調(diào)整程序,但我相信學(xué)習(xí)過程的一部分是實驗,測試不同的想法是其中一個重要的方面。
主持人Jordan: 我想在測試方面,當(dāng)您從研究測試的角度考慮時,當(dāng)新模型出現(xiàn)時,您通常會進(jìn)行哪些核心評估,并且您最依賴哪些評估?
Bob McGrew: 好吧,我的意思是,這里首先要指出的是,它隨著每一代模型而變化。你知道,當(dāng)我們開發(fā)O1模型時,要看的正確指標(biāo)是GPQA,它代表谷歌證明問題解答。然而,當(dāng)我們準(zhǔn)備發(fā)布時,它不再是一個非常有趣的指標(biāo),因為我們已經(jīng)從一開始幾乎什么都沒做到,到它完全飽和。最后剩下的幾個問題通常是措辭不當(dāng)或不太有趣的問題。因此,你選擇的指標(biāo)很大程度上取決于你在研究中試圖做的工作,我認(rèn)為這是一個普遍的經(jīng)驗。
然而,在過去幾年中一直有用的事情是編程。編程是一項結(jié)構(gòu)化的任務(wù),包括我自己和其他研究人員在內(nèi)的許多人都可以理解,這非常重要。它可以從完成一行代碼擴(kuò)展到編寫整個網(wǎng)站。我們還沒有達(dá)到編程被完全解決的程度,我認(rèn)為我們還有很長的路要走。我相信,在我們可以真正完成一個真正的軟件工程師的工作之前,還有幾個數(shù)量級的差距。
主持人Jacob: 你早期的職業(yè)生涯中有一件事很明顯,你當(dāng)時正在攻讀計算機(jī)科學(xué)博士學(xué)位,而且我記得至少有一部分專注于博弈論。顯然,我認(rèn)為使用這些模型來探索博弈論中的課題有很多有趣的含義。我想問的是,一般來說,你認(rèn)為人工智能將如何改變社會科學(xué)研究、政策制定以及其他相關(guān)領(lǐng)域?如果你今天用這些模型的力量重新審視你之前的工作,你會嘗試做些什么?
Bob McGrew: 首先,我其實對學(xué)術(shù)界非常失望。我認(rèn)為它有一套糟糕的激勵機(jī)制。在某些方面,我把OpenAI的組織設(shè)計成學(xué)術(shù)界的鏡像,創(chuàng)造一個協(xié)作可以蓬勃發(fā)展的地方。
商業(yè)中一個有趣的方面是,很多產(chǎn)品管理的工作都類似于實驗社會科學(xué)。你有一個想法,你想在人類身上測試一下。你希望在采用良好方法的同時,看看它是如何工作的。A/B測試就是一個很好的例子;當(dāng)你這樣做時,你實際上是在進(jìn)行一種社會科學(xué)。
這是我特別興奮的事情之一:如果你在進(jìn)行A/B測試,為什么不把你現(xiàn)在與用戶的所有互動都拿來,用這些數(shù)據(jù)微調(diào)一個模型,然后你就突然有了一個模擬用戶,它的反應(yīng)方式與你的實際用戶一致?這意味著你可以在不投入生產(chǎn)的情況下進(jìn)行A/B測試。也許之后,你可以對其中一個模擬用戶進(jìn)行深入訪談,了解他們的想法。
這在今天可行嗎?我不知道。我還沒有嘗試過,但明天也許就行了。我認(rèn)為這是一個很好的普遍原則:每當(dāng)你發(fā)現(xiàn)自己想讓別人為你做某事時,考慮一下是否可以要求人工智能來做。而且,人工智能可能可以處理數(shù)百個任務(wù),而人類可能只能完成一個任務(wù),而且還很費勁。
主持人Jordan: 是的,我讓雅各布為我做了很多任務(wù),所以。
主持人Jacob: 是的,你應(yīng)該停止那樣做。你應(yīng)該開始問我的模型。感謝你交付了它。你幫我節(jié)省了很多時間。你提到,我想,你設(shè)計了學(xué)術(shù)界現(xiàn)有的激勵機(jī)制,并設(shè)計了與此形成對比的OpenAI組織。能多談?wù)勥@方面嗎?
Bob McGrew: 是的,是的。我的意思是,回想一下2017、2018、2019年。當(dāng)時,人工智能研究實驗室還不是一個大產(chǎn)業(yè)。它們只是研究實驗室。很多參與其中的人來自學(xué)術(shù)界。如果你看看學(xué)術(shù)界的結(jié)構(gòu),就會發(fā)現(xiàn)它有一套激勵機(jī)制,對于其最初的設(shè)計來說是足夠好的。然而,人們非常關(guān)注功勞到底是誰做了這個?論文上的人名按照什么順序排列?這對于具有學(xué)術(shù)背景的人來說非常重要。
也許你不想與他人合作,因為它會沖淡你對結(jié)果的貢獻(xiàn)。如果有兩個人一起解決問題,這通常更像是競爭,而不是一個把工作速度提高一倍的機(jī)會。在這種背景下,我認(rèn)為DeepMind考慮建立一個模仿學(xué)術(shù)界但又在公司框架內(nèi)運作的實驗室,這樣我就可以指導(dǎo)人們,并只專注于深度學(xué)習(xí)。
另一方面,我認(rèn)為Brain最初的目標(biāo)是聚集一些學(xué)者,以一種非常學(xué)術(shù)的方式進(jìn)行探索性研究。我不會強(qiáng)加方向,而是會在外部安排產(chǎn)品經(jīng)理,以便他們可能會抓住這些偉大的想法并將其轉(zhuǎn)化為產(chǎn)品。與此同時,我們是一群創(chuàng)業(yè)人士,以及一些杰出的研究人員,包括像伊利亞這樣的人。我們的觀點是,研究實驗室應(yīng)該像一家初創(chuàng)公司一樣運作。
我們認(rèn)為,在明確前進(jìn)方向的同時,給予人們很多自由非常重要,特別是那些杰出的研究人員其中一些人我們當(dāng)時甚至沒有意識到他們很出色。我們的目標(biāo)是讓他們找到他們愿意“為之奮斗”的“山頭”,以創(chuàng)造他們渴望創(chuàng)造的卓越工作。我們強(qiáng)調(diào)合作,確保人們?yōu)榱艘粋統(tǒng)一的目標(biāo)而共同努力,而不是僅僅專注于發(fā)表大量的論文。
主持人Jacob: 我喜歡這個說法。我想你早先已經(jīng)回顧了OpenAI歷史上一些最著名的決定,從非營利組織到轉(zhuǎn)型,與微軟的合作,發(fā)布ChatGPT的API。有沒有哪個也許不是那么有名,但你認(rèn)為是關(guān)鍵的決策點?或者說,你認(rèn)為哪個決策是很難做出的,或者哪個決策真正改變了組織的走向?
Bob McGrew: 我認(rèn)為我之前沒有談到的一個決定,但當(dāng)時也頗具爭議,那就是決定加倍投入語言建模,并使其真正成為OpenAI的中心焦點。這個決定很復(fù)雜,原因有很多。這樣的改變涉及到重組和調(diào)整結(jié)構(gòu),人們必須改變他們的工作。
再次強(qiáng)調(diào),我們最初的文化鼓勵嘗試各種不同的方法,看看哪些方法奏效。我們第一個重要的重大努力是共同努力玩Dota 2游戲,這延續(xù)了人工智能解決越來越難的游戲的偉大傳統(tǒng)。你從國際象棋到圍棋,然后到Dota 2和星際爭霸,這在某種程度上感覺沒那么酷。然而,我可以向你保證,從數(shù)學(xué)上講,這些游戲真的比圍棋和國際象棋更難,即使它們沒那么優(yōu)雅。
Dota 2項目取得了巨大成功,它教會了我們很多東西。從那次經(jīng)驗中,我們得出了這樣一個信念:你可以通過擴(kuò)大規(guī)模來解決問題,并有一套用于此目的的技術(shù)工具。因此,通過決定關(guān)閉更多探索性項目,例如機(jī)器人團(tuán)隊和游戲團(tuán)隊,并真正將重點重新放在語言模型和通用生成模型上,包括多模態(tài)工作,我相信這是一個非常關(guān)鍵的選擇,盡管當(dāng)時非常痛苦。
主持人Jacob: 我早先注意到一件事,你顯然提到,你在用你八歲的孩子測試這些模型。而且,我想在你做父母的這段時間里,顯然八年前的世界與現(xiàn)在大不相同,這在很大程度上歸功于你在人工智能領(lǐng)域推動的進(jìn)步。我想知道,無論是為了你的生活,還是你養(yǎng)育孩子的方式,你是否基于你對這些模型的力量將在多快的時間內(nèi)顯現(xiàn)在這個世界上而更新的信念,從而改變了什么?
Bob McGrew: 是的,我認(rèn)為事實是我并沒有改變什么。而且我認(rèn)為這可能是我的一個失敗之處,對吧?比如,誰比我更適合去搞清楚孩子們應(yīng)該學(xué)習(xí)什么呢?然而,我認(rèn)為我?guī)缀踹在嘗試教他們和八年前一樣的東西。
當(dāng)ChatGPT可以為他編碼時,我為什么要教我八歲的兒子編碼呢?我認(rèn)為這是一個謎。但是,在某種意義上,未來是注定的,但實際的運作方式的輪廓,我認(rèn)為將是非常神秘的,并且會隨著時間的推移向我們揭示。
因此,我認(rèn)為嘗試那些剛好在你能力邊界上的事情的古老真理非常重要。你要努力學(xué)習(xí)數(shù)學(xué),努力學(xué)習(xí)編碼,寫作,學(xué)習(xí)寫好文章,學(xué)習(xí)廣泛閱讀。我認(rèn)為這些將培養(yǎng)孩子們和坦率地說,成年人需要的技能,無論人工智能最終會做什么。
因為從根本上說,這與編碼無關(guān)。這與數(shù)學(xué)無關(guān)。而是關(guān)于你學(xué)習(xí)如何以結(jié)構(gòu)化的方式思考問題。
主持人Jordan: 好的,這一切都太棒了。我相信我們可以和您再聊上幾個小時。但我們喜歡用一些快速問答來結(jié)束對話。第一個問題是,在當(dāng)今的AI領(lǐng)域,什么是被過度炒作的,什么是被低估的?
Bob McGrew: 哇,好的。嗯,對于什么是過度炒作的,一個簡單的答案是,我認(rèn)為是新的架構(gòu)。市面上有很多新的架構(gòu)。它們看起來很有趣,但往往在規(guī)模化時會崩潰。所以,如果有一個在規(guī);瘯r不會崩潰的架構(gòu),那它就不會被過度炒作。在那之前,它們都是被過度炒作的。至于被低估的,我認(rèn)為是01。我覺得它被炒作得很厲害,但它是否被恰如其分地炒作了呢?沒有。我認(rèn)為它被低估了。
主持人Jacob: 我知道我們的聽眾都會很好奇,所以我會問,但您能否分享一些關(guān)于您在這個時候離開OpenAI的原因?
Bob McGrew: 嗯,事實是,我在那里工作了八年,我真的覺得我完成了當(dāng)初我來這里時想要完成的大部分事情。而且,我宣布辭職的時間是在O1預(yù)覽版發(fā)布之后,這并非巧合。你知道,我們開發(fā)了一個特定的項目,一個研究項目,再次強(qiáng)調(diào),是預(yù)訓(xùn)練,多模態(tài)推理。這些問題都得到了解決。坦率地說,這是一份艱苦的工作。當(dāng)我覺得我已經(jīng)完成了我需要做的事情時,是時候把它交給下一代對這份工作充滿熱情并致力于解決剩余問題的人了。我認(rèn)為他們面臨的問題非常令人興奮。
你對未來有什么打算嗎?我離開Palantir后,在加入OpenAI之前花了兩年時間。我開始籌劃一家機(jī)器人公司,并且嘗試了很多事情。我親自動手制造東西,并與很多人交談。坦率地說,我犯了很多錯誤,但沒有哪個錯誤是真正重要的。在這個過程中,我學(xué)到了很多,并形成了自己關(guān)于什么對世界重要以及技術(shù)進(jìn)步的本質(zhì)是什么的理論。
所有這些經(jīng)歷,我遇到的人,以及我想出的想法都幫助我加入了OpenAI。事實證明,這比我離開Palantir后的前六個月里所能選擇的任何事情都要好得多。所以,我不著急。我將繼續(xù)與人會面并弄清楚事情。我真的很享受思考和學(xué)習(xí)新事物的過程。
主持人Jacob: 既然您現(xiàn)在有更多的時間了,有沒有什么您特別想深入研究的領(lǐng)域,或者是一些您一直想花更多時間但由于日常工作繁忙而無法顧及的事情?
Bob McGrew: 嗯,你知道,有趣的是,我覺得自己好像被困在一個盒子里八年了。這是一個非常酷的盒子。是的,一個非?岬谋焕г诶锩娴暮凶印5峭饷姘l(fā)生了很多事情。而且,就像我說的,我一直在和機(jī)器人領(lǐng)域的創(chuàng)始人交談,看到在OpenAI沒有做機(jī)器人研究的這段時間里發(fā)生了很多很酷的事情。而且,與創(chuàng)始人、研究人員、做有趣事情的人建立聯(lián)系,這真的很有趣,也很吸引人。
主持人Jacob: 嗯,這是一次絕對引人入勝的對話,我知道這對我和喬丹以及我們的聽眾來說都是如此。感謝您來這里并分享這一切。我想把最后的話語權(quán)留給您。有什么人們可以去了解更多關(guān)于您的信息的地方嗎?您想給我們的聽眾留下什么?或者您想號召大家一起探索的,您感興趣的方向?或者隨便說點什么都可以。
Bob McGrew: 是的,嗯,如果你想關(guān)注我正在思考的事情以及我的進(jìn)展,最好的地方是在Twitter上關(guān)注我,賬號是@BobMcGrewAI。我認(rèn)為這里最恰當(dāng)?shù)慕Y(jié)束語是,人工智能的進(jìn)步將繼續(xù)下去。而且這將是非常令人興奮的。它不會放緩,但它會改變。這很有趣。所以我鼓勵大家繼續(xù)努力。
主持人Jacob: 好的,鮑勃,非常感謝。真的,這太引人入勝了。隨時歡迎你再來。
本文來自華爾街見聞,歡迎下載APP查看更多