Ilya Sutskever在NeurIPS炸裂宣判:預(yù)訓(xùn)練將結(jié)束,數(shù)據(jù)壓榨到頭了(全文+視頻)
北京時(shí)間14日,在NeurIPS 2024大會(huì)上,前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya Sutskever發(fā)表演講時(shí)表示,預(yù)訓(xùn)練作為AI模型開發(fā)的第一階段即將結(jié)束。
他將數(shù)據(jù)比作AI發(fā)展的燃料,指出由于我們只有一個(gè)互聯(lián)網(wǎng),數(shù)據(jù)增長已經(jīng)觸頂,AI即將進(jìn)入“后石油時(shí)代”,而這,意味著依賴于海量數(shù)據(jù)的預(yù)訓(xùn)練模型將難以為繼,AI發(fā)展亟待新的突破。
Ilya認(rèn)為,未來AI發(fā)展將聚焦于智能體、合成數(shù)據(jù)和推理時(shí)間計(jì)算。他詳細(xì)解釋了這三個(gè)方向的巨大潛力,例如,合成數(shù)據(jù)可以突破真實(shí)數(shù)據(jù)量的限制,而推理時(shí)間計(jì)算則可以提升AI的效率和可控性。
Sutskever還認(rèn)為,未來的 AI 系統(tǒng)將具備推理能力,不再僅依賴于模式匹配,并且自我意識將在人工智能系統(tǒng)中出現(xiàn)。
進(jìn)一步,Ilya還深入探討了未來的超級智能。他認(rèn)為,超級智能將具備能動(dòng)性、推理能力和自我意識,其行為將難以預(yù)測,呼吁業(yè)界為超級智能的到來做好準(zhǔn)備。
要點(diǎn)如下:
預(yù)訓(xùn)練時(shí)代即將結(jié)束:數(shù)據(jù)是有限的,如同 AI 的化石燃料,我們已經(jīng)達(dá)到了峰值,預(yù)訓(xùn)練之后的未來方向包括智能體、合成數(shù)據(jù)和推理時(shí)間計(jì)算等。
超級智能將是推理的時(shí)代:超級智能將具備真正的能動(dòng)性,強(qiáng)大的推理能力,以及從有限數(shù)據(jù)中學(xué)習(xí)和理解的能力。
超級智能將是不可預(yù)測的未來:這與我們習(xí)慣的,基于人類直覺的深度學(xué)習(xí)截然不同,將帶來全新的機(jī)遇和挑戰(zhàn)。
Sutskever:預(yù)訓(xùn)練時(shí)代落幕,AI模型轉(zhuǎn)向“代理性”
Sutskever指出,預(yù)訓(xùn)練作為AI模型開發(fā)的第一階段即將結(jié)束。這一階段依賴于從大量未標(biāo)記數(shù)據(jù)中學(xué)習(xí)模式,而這些數(shù)據(jù)通常來自互聯(lián)網(wǎng)、書籍等來源。
Sutskever提到,現(xiàn)有的數(shù)據(jù)資源已經(jīng)達(dá)到峰值,未來的模型必須在有限的數(shù)據(jù)中尋找新的發(fā)展方式:
“我們的數(shù)據(jù)已經(jīng)達(dá)到峰值,不會(huì)再有更多了。我們必須處理我們擁有的數(shù)據(jù);ヂ(lián)網(wǎng)只有一個(gè)!
今年11月,他在接受媒體采訪時(shí)表態(tài)稱,大模型預(yù)訓(xùn)練效果正趨于平緩:
"2010年代是擴(kuò)展的時(shí)代,現(xiàn)在我們再次回到了探索和發(fā)現(xiàn)的時(shí)代。每個(gè)人都在尋找下一個(gè)突破。擴(kuò)展正確的東西比以往任何時(shí)候都更重要!
Sutskever還預(yù)言,下一代AI模型將具有真正的“代理性”,能夠自主執(zhí)行任務(wù)、做出決策,并與軟件交互。
他還表示,SSI正在研究一種替代預(yù)訓(xùn)練擴(kuò)展的方法,但是沒有透露更多細(xì)節(jié)。
AI自我意識或?qū)⒄Q生
Sutskever還預(yù)言未來的AI系統(tǒng)將具備推理能力,不再僅依賴于模式匹配,并且自我意識將在人工智能系統(tǒng)中出現(xiàn)。
根據(jù)Sutskever的說法,系統(tǒng)推理得越多,“它就越不可預(yù)測”。他與高級AI在國際象棋中的表現(xiàn)進(jìn)行了比較:
“它們會(huì)從有限的數(shù)據(jù)中理解事物。它們不會(huì)感到困惑!
Sutskever還將AI系統(tǒng)的規(guī)模與進(jìn)化生物學(xué)進(jìn)行了比較。他引用了顯示不同物種大腦與體重關(guān)系的研究,指出人類祖先在這一比例上顯示出與其他哺乳動(dòng)物不同的斜率。
他建議,AI可能會(huì)發(fā)現(xiàn)類似的擴(kuò)展路徑,超越當(dāng)前的預(yù)訓(xùn)練工作方式。
Sutskever:AI發(fā)展方向需要自上而下的監(jiān)管
當(dāng)被問及如何為人類創(chuàng)造合適的激勵(lì)機(jī)制以確保AI的發(fā)展方向時(shí),Sutskever稱,這需要“自上而下的政府結(jié)構(gòu)”,并未給出明確的答案。
“我覺得從某種意義上說,這些是人們應(yīng)該更多地思考的問題。但我對回答這樣的問題沒有信心。”
他表示,如果AI最終選擇與人類共存,并擁有權(quán)利,也許是可行的,盡管他對未來的不可預(yù)測性持謹(jǐn)慎態(tài)度。
以下為演講全文:
Ilya Sutskever:
我首先要感謝組織者選擇我們的論文給予支持,這真是太棒了。同時(shí),我還要感謝我的杰出合作者 Oriol Vignales 和 Kwokli,他們剛才還站在你們面前。
現(xiàn)在你們看到的是一張截圖,來自 10 年前,2014 年在蒙特利爾的 NeurIPS 會(huì)議上我做的類似演講。那時(shí)我們還很天真。照片上是當(dāng)時(shí)的我們(“之前”)。
這是現(xiàn)在的我們(“之后”),F(xiàn)在,我希望我看起來更成熟,更有經(jīng)驗(yàn)。
今天我想談?wù)勥@項(xiàng)工作本身,并進(jìn)行一個(gè) 10 年的回顧。因?yàn)檫@項(xiàng)工作中有很多觀點(diǎn)是正確的,但也有一些不太正確。我們可以回顧一下,看看發(fā)生了什么,以及它是如何逐漸演變成今天的樣子的。
我們先來回顧一下我們當(dāng)時(shí)做了什么。我會(huì)展示 10 年前那次演講的幻燈片?偟膩碚f,我們做了以下三件事:
構(gòu)建了一個(gè)基于文本訓(xùn)練的自回歸模型
使用了一個(gè)大型神經(jīng)網(wǎng)絡(luò)
使用了大型數(shù)據(jù)集
就這么簡單。現(xiàn)在我們深入探討一下細(xì)節(jié)。
深度學(xué)習(xí)的假設(shè)
這是 10 年前的幻燈片,還不錯(cuò)吧?上面寫著“深度學(xué)習(xí)的假設(shè)”。我們當(dāng)時(shí)認(rèn)為,如果有一個(gè)大型神經(jīng)網(wǎng)絡(luò),它包含很多層,那么它就能在不到一秒的時(shí)間內(nèi)完成人類可以完成的任何事情。為什么我們要強(qiáng)調(diào)人類在一秒內(nèi)可以完成的事情?
這是因?yàn),如果你相信深度學(xué)習(xí)的“教條”,認(rèn)為人工神經(jīng)元和生物神經(jīng)元是相似的,或者至少?zèng)]有太大的不同,并且你相信神經(jīng)元是緩慢的,那么任何人類能夠快速完成的事情,只要世界上有一個(gè)人能夠在一秒內(nèi)完成,那么一個(gè) 10 層的神經(jīng)網(wǎng)絡(luò)也能做到。邏輯是這樣的:你只需要提取他們的連接方式,然后將其嵌入到你的人工神經(jīng)網(wǎng)絡(luò)中。
這就是動(dòng)機(jī)。任何人類在一秒內(nèi)可以完成的事情,一個(gè)大型 10 層神經(jīng)網(wǎng)絡(luò)都可以做到。我們當(dāng)時(shí)關(guān)注 10 層神經(jīng)網(wǎng)絡(luò),是因?yàn)槟菚r(shí)我們只知道如何訓(xùn)練 10 層的網(wǎng)絡(luò)。如果層數(shù)能更多,也許能做更多事情。但當(dāng)時(shí)我們只能做到 10 層,所以我們強(qiáng)調(diào)的是人類在一秒內(nèi)能完成的事情。
核心思想:自回歸模型
這是當(dāng)時(shí)演講的另一張幻燈片,上面寫著“我們的核心思想”。你可能認(rèn)出來至少一個(gè)東西:這里正在發(fā)生自回歸的過程。這張幻燈片到底在說什么?它在說,如果你有一個(gè)自回歸模型,它能很好地預(yù)測下一個(gè) token,那么它實(shí)際上會(huì)捕獲、抓住下一個(gè)序列的正確分布。
這在當(dāng)時(shí)是一個(gè)相對較新的想法。這并不是第一個(gè)自回歸神經(jīng)網(wǎng)絡(luò)。
但我認(rèn)為,這是第一個(gè)我們真正相信,如果訓(xùn)練得足夠好,就能得到任何想要的結(jié)果的自回歸神經(jīng)網(wǎng)絡(luò)。在當(dāng)時(shí),我們的目標(biāo)是(現(xiàn)在看來很平常,但當(dāng)時(shí)非常大膽)機(jī)器翻譯。
LSTM:Transformer 之前的技術(shù)
接下來我要展示一些你們很多人可能從未見過的古老歷史:LSTM。對于不熟悉的人來說,LSTM 是在 Transformer 出現(xiàn)之前,可憐的深度學(xué)習(xí)研究人員使用的東西。它基本上是一個(gè)旋轉(zhuǎn)了 90 度的 ResNet。你可以看到它集成了殘差連接(現(xiàn)在被稱為殘差流),但也有一些乘法運(yùn)算。它比 ResNet 稍微復(fù)雜一點(diǎn)。這就是我們當(dāng)時(shí)用的。
并行計(jì)算:管道并行
另一個(gè)我想強(qiáng)調(diào)的特點(diǎn)是并行計(jì)算。我們使用了管道并行,每個(gè) GPU 處理一層。使用管道并行明智嗎?現(xiàn)在看來,管道并行并不明智。但我們當(dāng)時(shí)沒那么聰明。通過使用 8 個(gè) GPU,我們獲得了 3.5 倍的速度提升。
結(jié)論:規(guī);僭O(shè)
可以說是最重要的幻燈片,因?yàn)樗U述了規(guī);僭O(shè)的開端:如果你有非常大的數(shù)據(jù)集,并且訓(xùn)練非常大的神經(jīng)網(wǎng)絡(luò),那么成功就是必然的。如果你愿意往好的方面想,可以說,這確實(shí)就是之后發(fā)生的事情。
核心理念:連接主義
我還想提一個(gè)理念,我認(rèn)為這個(gè)理念經(jīng)受住了時(shí)間的考驗(yàn)。這就是連接主義。核心理念是:
如果你相信人工神經(jīng)元有點(diǎn)像生物神經(jīng)元,那么你就有信心相信大型神經(jīng)網(wǎng)絡(luò)(即使它們不完全像人類大腦那么大)可以被配置來完成我們?nèi)祟愃龅拇蟛糠质虑。?dāng)然還是有差異,因?yàn)槿祟惔竽X會(huì)自我重構(gòu),而我們現(xiàn)在最好的學(xué)習(xí)算法需要大量的數(shù)據(jù)。人類在這方面仍然更勝一籌。
預(yù)訓(xùn)練時(shí)代
我認(rèn)為所有這些都引領(lǐng)了預(yù)訓(xùn)練時(shí)代的到來。GPT-2 模型、GPT-3 模型、縮放法則,我要特別感謝我的前合作者:Alec Radford、Gerrit Kaplan 和 Daria Amodei,他們的工作至關(guān)重要。預(yù)訓(xùn)練是今天我們看到所有進(jìn)步的驅(qū)動(dòng)力。超大型神經(jīng)網(wǎng)絡(luò),在海量數(shù)據(jù)集上訓(xùn)練。
預(yù)訓(xùn)練的終結(jié),但預(yù)訓(xùn)練終將結(jié)束。為什么?因?yàn)殡m然算力在不斷增長,但數(shù)據(jù)并沒有無限增長,因?yàn)槲覀冎挥幸粋(gè)互聯(lián)網(wǎng)。你甚至可以說,數(shù)據(jù)是人工智能的化石燃料。它被創(chuàng)造出來,我們使用它,并且已經(jīng)達(dá)到了數(shù)據(jù)峰值,不會(huì)有更多的數(shù)據(jù)了。我們只能處理現(xiàn)有的數(shù)據(jù)。盡管我們還有很多路要走,但我們只有一個(gè)互聯(lián)網(wǎng)。
下一步是什么?
接下來我將稍微推測一下未來會(huì)發(fā)生什么。當(dāng)然,很多人都在推測。你可能聽說過“智能體”(agents)這個(gè)詞。人們覺得智能體是未來。更具體一點(diǎn),但也有點(diǎn)模糊的是合成數(shù)據(jù)。如何生成有用的合成數(shù)據(jù)仍然是一個(gè)巨大的挑戰(zhàn)。還有推理時(shí)的算力優(yōu)化,以及最近在 o1 模型中看到的,這些都是人們在預(yù)訓(xùn)練之后嘗試探索的方向。
生物學(xué)啟示:不同物種的大腦縮放
我還想提一個(gè)生物學(xué)的例子,我覺得非常有趣。多年前,我也在這個(gè)會(huì)議上看到一個(gè)演講,演講者展示了一個(gè)圖表,顯示哺乳動(dòng)物的身體大小和大腦大小之間的關(guān)系。演講者說,在生物學(xué)中,一切都很混亂,但這里有一個(gè)特例,即動(dòng)物的身體大小和大腦大小之間存在緊密的關(guān)系。
我當(dāng)時(shí)對這個(gè)圖表產(chǎn)生了好奇,并開始在谷歌上搜索。其中一個(gè)圖片結(jié)果是這樣的:你可以看到各種哺乳動(dòng)物,非人類靈長類動(dòng)物也是如此。但接下來是人科動(dòng)物,如尼安德特人,他們和人類的進(jìn)化關(guān)系很近。有趣的是,人科動(dòng)物的腦體縮放指數(shù)具有不同的斜率。
這意味著,生物學(xué)中存在一個(gè)例子,它展示了某種不同的縮放方式。這很酷。另外,我要強(qiáng)調(diào)一下,x 軸是對數(shù)刻度。所以,事物是有可能不同的。我們目前所做的事情,是我們第一個(gè)知道如何進(jìn)行縮放的事情。毫無疑問,這個(gè)領(lǐng)域的所有人都會(huì)找到下一步的方向。
關(guān)于未來的推測
現(xiàn)在我想花幾分鐘推測一下更長遠(yuǎn)的未來,我們都將走向何方?我們正在取得進(jìn)步,這真是太棒了。如果你是 10 年前就入行的,你會(huì)記得當(dāng)時(shí)的技術(shù)有多么不成熟。即便你覺得深度學(xué)習(xí)是理所當(dāng)然的,但親眼看到它取得的進(jìn)步還是令人難以置信。我無法向那些最近兩年才加入這個(gè)領(lǐng)域的人傳達(dá)這種感覺。但我要談?wù)?strong>超級智能,因?yàn)檫@顯然是這個(gè)領(lǐng)域的未來。
超級智能在性質(zhì)上將與我們今天擁有的智能截然不同。我希望在接下來的幾分鐘里,給你一些具體的直覺,讓你感受到這種不同。
現(xiàn)在我們擁有了強(qiáng)大的語言模型,它們是很棒的聊天機(jī)器人,它們甚至能做一些事情,但它們也常常不可靠,有時(shí)會(huì)感到困惑,同時(shí)在某些任務(wù)上又具有超人的表現(xiàn)。如何協(xié)調(diào)這種矛盾目前還不清楚。
但最終,以下情況將會(huì)發(fā)生:
這些系統(tǒng)將真正具有智能體的性質(zhì)。而現(xiàn)在,它們在任何有意義的層面上都不是智能體,或者說只有非常微弱的智能體性質(zhì)。它們會(huì)進(jìn)行真正的推理。
我還要強(qiáng)調(diào)一點(diǎn),關(guān)于推理:
一個(gè)系統(tǒng)越能進(jìn)行推理,就變得越不可預(yù)測。我們現(xiàn)在使用的模型都是可預(yù)測的,因?yàn)槲覀円恢痹谂?fù)制人類的直覺。我們大腦在一秒鐘內(nèi)的反應(yīng),本質(zhì)上就是直覺。所以我們用一些直覺訓(xùn)練了模型。但推理是不可預(yù)測的。原因之一是,好的國際象棋 AI 對人類國際象棋高手來說是不可預(yù)測的。
所以,我們將來要處理的 AI 系統(tǒng)將是高度不可預(yù)測的。它們會(huì)理解有限的數(shù)據(jù),它們不會(huì)感到困惑,這是它們目前存在的巨大局限。我不是說如何做到,也不是說何時(shí)做到,我只是說它將會(huì)發(fā)生。當(dāng)所有這些能力都與自我意識相結(jié)合時(shí)(為什么不呢?自我意識是有用的),我們將擁有與今天截然不同的系統(tǒng)。它們將擁有令人難以置信的能力。但與這些系統(tǒng)相關(guān)的問題將與我們過去習(xí)慣的問題大相徑庭。
預(yù)測未來是不可能的,一切皆有可能。但最后,我還是要以樂觀的態(tài)度結(jié)束我的演講。
以下為問答環(huán)節(jié)實(shí)錄:
問題1: 在 2024 年,是否有其他生物結(jié)構(gòu)在人類認(rèn)知中發(fā)揮作用,您認(rèn)為值得像您之前那樣去探索?
回答: 如果有人對大腦的運(yùn)作方式有獨(dú)特的見解,并且認(rèn)為我們目前的做法是愚蠢的,他們應(yīng)該去探索它。我個(gè)人沒有這樣的想法。也許從更高的抽象層面來看,我們可以說,生物學(xué)啟發(fā)的人工智能是非常成功的,因?yàn)樗械纳窠?jīng)網(wǎng)絡(luò)都是受生物啟發(fā)的,盡管其靈感非常有限,比如我們只是使用了神經(jīng)元。更詳細(xì)的生物靈感很難找到。但如果有特別的見解,也許可以找到有用的方向。
問題2: 您提到推理是未來模型的核心方面。我們看到現(xiàn)在模型中存在幻覺。我們使用統(tǒng)計(jì)分析來判斷模型是否產(chǎn)生幻覺。未來,具有推理能力的模型能否自我糾正,減少幻覺?
回答: 我認(rèn)為你描述的情況是極有可能發(fā)生的。事實(shí)上,有些早期的推理模型可能已經(jīng)開始具備這種能力了。長期來看,為什么不能呢?這就像微軟 Word 中的自動(dòng)更正功能。當(dāng)然,這種功能比自動(dòng)更正要強(qiáng)大得多。但總的來說,答案是肯定的。
問題3: 如果這些新誕生的智能體需要權(quán)利,我們應(yīng)該如何為人類建立正確的激勵(lì)機(jī)制,以確保它們能像人類一樣獲得自由?
回答: 這是一個(gè)值得人們思考的問題。但是我不覺得我有能力回答這個(gè)問題。因?yàn)檫@涉及到建立某種自上而下的結(jié)構(gòu),或者政府之類的東西。我不是這方面的專家。也許可以用加密貨幣之類的東西。如果 AI 只是想與我們共存,并且也想要獲得權(quán)利,也許這樣就挺好。但我認(rèn)為未來太不可預(yù)測了,我不敢輕易評論。但我鼓勵(lì)大家思考這個(gè)問題。
問題4: 您認(rèn)為大型語言模型(LLM)是否能夠進(jìn)行多跳推理的跨分布泛化?
回答: 這個(gè)問題假設(shè)答案是肯定的或者否定的。但這個(gè)問題不應(yīng)該用“是”或“否”來回答,因?yàn)椤翱绶植挤夯笔鞘裁匆馑迹俊胺植純?nèi)”又是什么意思?在深度學(xué)習(xí)之前,人們使用字符串匹配、n-gram 等技術(shù)進(jìn)行機(jī)器翻譯。當(dāng)時(shí),“泛化”意味著,是否使用完全不在數(shù)據(jù)集中的短語?現(xiàn)在,我們的標(biāo)準(zhǔn)已經(jīng)大幅提高。我們可能會(huì)說,一個(gè)模型在數(shù)學(xué)競賽中取得了高分,但也許它只是記住了互聯(lián)網(wǎng)論壇上討論過的相同想法。所以,也許它是在分布內(nèi),也許只是記憶。我認(rèn)為人類的泛化能力要好得多,但現(xiàn)在的模型在某種程度上也能夠做到。這是一個(gè)更合理的答案。