国产在线精品99一区不卡,国产又大又硬又黄又爽视频,国产精品2022不卡在线观看

導(dǎo)讀：劃重點(diǎn) 01圖靈獎(jiǎng)得主Yann LeCun表示，當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向AGI，甚至現(xiàn)在AI的水平還不如一只貓。 02他建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而采用JEPA架構(gòu)和基于能量的模型。 03LeCun認(rèn)為，通用人工智能需要數(shù)年到數(shù)十年才能實(shí)...

劃重點(diǎn)

01圖靈獎(jiǎng)得主Yann LeCun表示，當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向AGI，甚至現(xiàn)在AI的水平還不如一只貓。

02他建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而采用JEPA架構(gòu)和基于能量的模型。

03LeCun認(rèn)為，通用人工智能需要數(shù)年到數(shù)十年才能實(shí)現(xiàn)，機(jī)器將超越人類智力，但處于控制之下。

04為此，他呼吁開源人工智能平臺，以促進(jìn)文化多樣性和民主的保存。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

在 AI 圈里，圖靈獎(jiǎng)得主 Yann Lecun 是一個(gè)典型的異類。當(dāng)眾多技術(shù)專家堅(jiān)信，沿著當(dāng)前的技術(shù)路線，AGI 的實(shí)現(xiàn)只是時(shí)間問題時(shí)，Yann Lecun 卻一再提出異議。在與同行的激烈辯論中，他不止一次表示，當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向 AGI，甚至現(xiàn)在 AI 的水平還不如一只貓。而圖靈獎(jiǎng)得主、Meta 首席 AI 科學(xué)家、紐約大學(xué)教授等等，這些耀眼的頭銜以及沉甸甸的一線實(shí)踐經(jīng)驗(yàn)，卻也讓我們誰也無法忽視這位 AI 專家的見解。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

那么，Yann LeCun 對于 AI 的未來究竟有何看法呢？在最近一次公開演講中，他也再次詳細(xì)闡述了自己的觀點(diǎn)：僅僅依靠文本訓(xùn)練，AI 永遠(yuǎn)無法達(dá)到接近人類水平的智能。部分觀點(diǎn)如下：1.未來，人們將普遍佩戴智能眼鏡或其他類型的智能設(shè)備，這些設(shè)備將內(nèi)置助手系統(tǒng)，形成個(gè)人的智能虛擬團(tuán)隊(duì)，以提高個(gè)人的創(chuàng)造性和效率。2.智能系統(tǒng)的目的不是為了取代人類，而是為了增強(qiáng)人類的智力，使人們能夠更高效地工作。3.即使是寵物貓，其大腦中的模型也比任何 AI 系統(tǒng)能夠構(gòu)建的模型復(fù)雜。4.FAIR 基本上不再專注于語言模型，而是朝向下一代 AI 系統(tǒng)的長期目標(biāo)邁進(jìn)。5.僅僅通過訓(xùn)練文本數(shù)據(jù)，AI 系統(tǒng)無法達(dá)到接近人類水平的智力。6.Yann Lecun 建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而采用 JEPA 架構(gòu)和基于能量的模型，認(rèn)為這些方法更有可能推動(dòng) AI 的發(fā)展。7.雖然機(jī)器最終會超越人類智力，但它們將受到控制，因?yàn)樗鼈兪悄繕?biāo)驅(qū)動(dòng)的。有趣的是，演講開始前還發(fā)生了一段小插曲。主持人在介紹 LeCun 時(shí)，稱他為 Facebook AI 研究院（FAIR）的首席 AI 科學(xué)家。對此，LeCun 在演講開始前澄清，F(xiàn)AIR 中的「F」已經(jīng)不再代表 Facebook，而是「基垂（Fundamental）的意思。關(guān)注 AI 第一新媒體，率先獲取 AI 前沿資訊和洞察

AI 對世界的了解不如你的貓好的，我將談?wù)勅祟愃郊墑e的 AI，以及說我們?nèi)绾螌?shí)現(xiàn)它，以及我們?yōu)楹斡植粫䦟?shí)現(xiàn)它。首先，我們確實(shí)需要人類水平的 AI。因?yàn)槲磥恚幸粋€(gè)是我們大多數(shù)人將佩戴智能眼鏡或其他類型的設(shè)備。我們將與這些設(shè)備進(jìn)行對話，而這些系統(tǒng)將承載助手，可能不止一個(gè)，可能是一整套助手。這將導(dǎo)致我們每個(gè)人基本上都有一支智能虛擬團(tuán)隊(duì)在為我們工作。所以，人人都將成為「老板」，只是這些「員工」不是真正的人類。我們需要構(gòu)建這樣的系統(tǒng)，基本上是為了增強(qiáng)人類的智力，使人們更具創(chuàng)造性和更高效。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

但為此，我們需要機(jī)器能夠理解世界，能夠記住事物，具備直覺和常識，能夠推理和計(jì)劃，達(dá)到與人類相同的水平。盡管你可能聽到過一些支持者說，目前的 AI 系統(tǒng)并不具備這些能力。所以我們需要花時(shí)間學(xué)習(xí)如何建模世界，擁有關(guān)于世界運(yùn)作的心理模型。事實(shí)上，每種動(dòng)物都有這樣的模型。你的貓一定有一個(gè)比任何 AI 系統(tǒng)所能構(gòu)建或設(shè)計(jì)的模型都要復(fù)雜的模型。 圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

我們需要的系統(tǒng)應(yīng)該具有持久記憶的系統(tǒng)，而當(dāng)前的語言模型（LLM）并沒有，能夠規(guī)劃復(fù)雜行動(dòng)序列的系統(tǒng)，而今天的系統(tǒng)無法做到，并且這個(gè)系統(tǒng)應(yīng)該是可控和安全的。因此，我將提出一個(gè)架構(gòu)，稱為目標(biāo)驅(qū)動(dòng)的 AI。我大約兩年前寫了一篇關(guān)于這個(gè)的愿景論文，并發(fā)布了這篇論文。FAIR 的很多人正在努力實(shí)現(xiàn)這個(gè)計(jì)劃。FAIR 過去研究過更多應(yīng)用項(xiàng)目，但 Meta 在一年半前創(chuàng)建了一個(gè)名為生成式 AI（Gen AI）的產(chǎn)品部門，專注于 AI 產(chǎn)品。他們進(jìn)行應(yīng)用研發(fā)，因此現(xiàn)在 FAIR 已經(jīng)被重新引導(dǎo)，朝向下一代 AI 系統(tǒng)的長期目標(biāo)。我們基本上不再專注于語言模型。包括大型語言模型（LLM）在內(nèi)的 AI 成功，尤其是過去 5、6 年中取得的許多其他系統(tǒng)的成功，依賴于一系列技術(shù)，當(dāng)然，包括自監(jiān)督學(xué)習(xí)。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

自監(jiān)督學(xué)習(xí)的核心在于訓(xùn)練一個(gè)系統(tǒng)，不是針對任何特定任務(wù)，而是盡量以良好的方式表示輸入數(shù)據(jù)。實(shí)現(xiàn)這一點(diǎn)的一種方法是通過損壞再重建恢復(fù)。因此，你可以取一段文本，通過去掉一些單詞或改變其他單詞來破壞它。這個(gè)過程可以用于文本、DNA 序列、蛋白質(zhì)或其他任何內(nèi)容，甚至在某種程度上也可以用于圖像。然后你訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)來重建完整的輸入，即未被破壞的版本。這是一個(gè)生成模型，因?yàn)樗噲D重建原始信號。所以，紅色框就像一個(gè)代價(jià)函數(shù)，對吧？它計(jì)算輸入 Y 和重建后的輸出 y 之間的距離，而這就是學(xué)習(xí)過程中要最小化的參數(shù)。在這個(gè)過程中，系統(tǒng)學(xué)習(xí)到了輸入的內(nèi)部表示，可以用于各種后續(xù)任務(wù)。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

當(dāng)然，這可以用于預(yù)測文本中的單詞，這就是自回歸預(yù)測（autoregressive prediction）所做的事情。語言模型是這一點(diǎn)的特例，其中架構(gòu)的設(shè)計(jì)方式是為了預(yù)測一個(gè)項(xiàng)、一個(gè) token 或一個(gè)單詞時(shí)，只能查看其左側(cè)的其他token。它不能查看未來。如果你正確訓(xùn)練一個(gè)系統(tǒng)，給它展示文本，并要求它預(yù)測文本中的下一個(gè)單詞或下一個(gè) token，那么你可以使用該系統(tǒng)來預(yù)測下一個(gè)單詞。然后你將那個(gè)下一個(gè)單詞加入輸入中，再預(yù)測第二個(gè)單詞，并將其加入輸入中，預(yù)測第三個(gè)單詞。這就是自回歸預(yù)測（autoregressive prediction）。這是 LLMs 所做的事情，這并不是一個(gè)新概念，自香農(nóng)（Shannon）時(shí)代以來就存在了，可以追溯到 50 年代，這已經(jīng)很久了，但變化在于我們現(xiàn)在擁有那些龐大的神經(jīng)網(wǎng)絡(luò)架構(gòu)，可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練，并且看起來會從中涌現(xiàn)出一些特性。但這種自回歸預(yù)測有一些主要的局限性，在通常意義上這里并沒有真正的推理存在。還有另一個(gè)局限性是，這僅適用于以離散對象、符號、token、單詞等形式出現(xiàn)的數(shù)據(jù)，基本上是可以離散化的東西。我們在達(dá)到人類水平智力方面仍然缺少一些重要的東西。我在這里并不一定是在談?wù)撊祟愃降闹橇Γ词故悄愕呢埢蚬芬材芡瓿梢恍┊?dāng)前 AI 系統(tǒng)無法企及的驚人壯舉。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

任何 10 歲的小孩都可以一次性學(xué)會清理餐桌并填滿洗碗機(jī)，對吧？根本不需要練習(xí)之類的，對吧？17 歲的人學(xué)會開車大約需要 20 小時(shí)的練習(xí)。我們?nèi)匀粵]有 L5 級自動(dòng)駕駛汽車，當(dāng)然也沒有能夠清理餐桌和填滿洗碗機(jī)的家用機(jī)器人。僅僅通過訓(xùn)練文本，AI 永遠(yuǎn)無法達(dá)到接近人類水平的智力所以我們真的缺少一些重要的東西，否則我們將能夠用 AI 系統(tǒng)完成這些事情。我們不斷碰到一個(gè)叫做莫拉維克悖論（Moravec's Paradox）的東西，即對我們而言看似微不足道、甚至不被認(rèn)為是智能的事情，實(shí)際上用機(jī)器完成起來卻非常困難，而像操縱語言這樣的高級復(fù)雜抽象思維，似乎對機(jī)器來說卻很簡單，像下棋、圍棋之類的事情也是如此。也許其中一個(gè)原因是這樣的。一個(gè)大型語言模型（LLM）通常是在 20 萬億個(gè) token 上進(jìn)行訓(xùn)練的。一個(gè) token 基本上是一個(gè)單詞的四分之三，平均來說。因此，這里總共是 1.5 × 10 的 13 次方個(gè)單詞。每個(gè) token 大約是 3B，通常，這樣就需要 6 × 10 的 13 次方個(gè)字節(jié)。對于我們?nèi)魏我粋€(gè)人來說，讀完這些內(nèi)容大約需要幾十萬年的時(shí)間，對吧？這基本上是互聯(lián)網(wǎng)上所有公開文本的總和。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

但考慮一下一個(gè)孩子，一個(gè)四歲的孩子總共清醒了 16000 小時(shí)。我們有 200 萬個(gè)視神經(jīng)纖維進(jìn)入我們的大腦。每根神經(jīng)纖維大約以每秒 1B 的速度傳輸數(shù)據(jù)，也許是每秒半個(gè)字節(jié)。有些估計(jì)說這可能是每秒 3B。這沒關(guān)系，反正是一個(gè)數(shù)量級。這個(gè)數(shù)據(jù)量大約是 10 的 14 次方個(gè)字節(jié)，差不多與 LLM 的數(shù)量級相當(dāng)。因此，在四年內(nèi)，一個(gè)四歲孩子看到的視覺數(shù)據(jù)與最大的語言模型在整個(gè)互聯(lián)網(wǎng)上公開可用的文本上訓(xùn)練的數(shù)據(jù)量一樣多。以數(shù)據(jù)作為起點(diǎn)，這告訴我們幾個(gè)事情。首先，這告訴我們，僅僅通過訓(xùn)練文本，我們永遠(yuǎn)無法達(dá)到接近人類水平的智力。這是根本不可能發(fā)生的。其次，視覺信息是非常冗余的，每根視神經(jīng)纖維每秒傳輸 1B 的信息，這已經(jīng)比你視網(wǎng)膜中的光感受器壓縮了 100 比 1。我們視網(wǎng)膜中大約有 6000 萬到 1 億個(gè)光感受器。這些光感受器通過視網(wǎng)膜前的神經(jīng)元壓縮為 100 萬個(gè)神經(jīng)纖維。因此，已經(jīng)存在 100 比 1 的壓縮。然后到達(dá)大腦時(shí)，信息被擴(kuò)展了大約 50 倍左右。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，我測量的是壓縮信息，但它仍然非常冗余。而冗余實(shí)際上是自監(jiān)督學(xué)習(xí)所需要的。自監(jiān)督學(xué)習(xí)只會從冗余數(shù)據(jù)中學(xué)習(xí)到有用的東西，如果數(shù)據(jù)高度壓縮，這意味著數(shù)據(jù)變成了隨機(jī)噪聲的，那么你就無法學(xué)習(xí)任何東西。你需要冗余才能學(xué)習(xí)到任何東西。你需要學(xué)習(xí)數(shù)據(jù)的潛在結(jié)構(gòu)。因此，我們需要訓(xùn)練系統(tǒng)，通過觀看視頻或在現(xiàn)實(shí)世界中生活來學(xué)習(xí)常識和物理知識。我說話的順序可能會有些混亂，我主要想告訴你這個(gè)目標(biāo)驅(qū)動(dòng)的人工智能架構(gòu)到底是什么。它與 LLM 或前饋神經(jīng)元有很大不同，因?yàn)橥评磉^程不僅僅是通過神經(jīng)網(wǎng)絡(luò)的一系列層，而實(shí)際上是運(yùn)行一個(gè)優(yōu)化算法。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

從概念上來看，它看起來是這樣的。一種前饋過程是觀察結(jié)果通過感知系統(tǒng)運(yùn)行的過程。例如，如果你有一系列的神經(jīng)網(wǎng)絡(luò)層并產(chǎn)生一個(gè)輸出，那么對于任何單一輸入，你只能有一個(gè)輸出，但在很多情況下，對于一個(gè)感知，可能會有多個(gè)可能的輸出解釋。你需要一種不僅僅計(jì)算功能，而是能夠?yàn)閱我惠斎胩峁┒鄠€(gè)輸出的映射過程。實(shí)現(xiàn)這一點(diǎn)的唯一方法是通過隱函數(shù)�；旧希@個(gè)目標(biāo)框架右側(cè)的紅色框表示一個(gè)函數(shù)，它基本上測量輸入與其提議輸出之間的兼容性，然后通過找到最與輸入兼容的輸出值來計(jì)算輸出。你可以想象這個(gè)目標(biāo)是某種能量函數(shù)，你是在以輸出為變量最小化這個(gè)能量。你可能會有多個(gè)解決方案，并且你可能有某種方法來處理這些多個(gè)解決方案。人類的感知系統(tǒng)確實(shí)如此，如果你對特定的感知有多個(gè)解釋，你的大腦會自發(fā)地在這些解釋之間循環(huán)。因此，有一些證據(jù)表明，這種類型的事情確實(shí)會發(fā)生。但是讓我回到架構(gòu)上來。因此，利用這種通過優(yōu)化推理的原則。如果你愿意，關(guān)于人類思維方式的假設(shè)如下。你在世界中做出觀察。感知系統(tǒng)給你提供了世界當(dāng)前狀態(tài)的概念。但當(dāng)然，它只給你提供了你當(dāng)前能夠感知的世界狀態(tài)的概念。你可能對世界其余部分的狀態(tài)有一些記憶中的想法。這可能與記憶的內(nèi)容結(jié)合在一起，并被輸入到世界模型中。什么是模型？世界模型是你對世界行為的心理模型，因此你可以想象你可能采取的一系列行動(dòng)，而你的世界模型將允許你預(yù)測這些行動(dòng)序列對世界的影響。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，綠色框表示世界模型，你將假設(shè)的一系列行動(dòng)輸入其中，它預(yù)測世界的最終狀態(tài)將是什么，或者你預(yù)測在世界中將要發(fā)生的整個(gè)軌跡。你將其與一組目標(biāo)函數(shù)相結(jié)合。一個(gè)目標(biāo)是測量目標(biāo)實(shí)現(xiàn)的程度，任務(wù)是否完成，也許還有一組其他目標(biāo)，作為安全邊界，基本上測量所遵循的軌跡或采取的行動(dòng)在多大程度上對機(jī)器人或機(jī)器周圍的人沒有危險(xiǎn)，等等。因此，現(xiàn)在的推理過程（我還沒有談?wù)搶W(xué)習(xí)）僅僅是推理，包括尋找最小化這些目標(biāo)的行動(dòng)序列，找到最小化這些目標(biāo)的一系列行動(dòng)。這就是推理過程。因此，這不僅僅是前饋過程。你可以通過搜索離散選項(xiàng)來完成這一點(diǎn)，但這并不高效。更好的方法是確保所有這些框都是可微分的，你可以對它們進(jìn)行反向傳播梯度，然后通過梯度下降更新行動(dòng)序列。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

現(xiàn)在，這個(gè)想法其實(shí)并不新鮮，已經(jīng)存在了超過 60 年，甚至更久。首先，讓我談?wù)勈褂檬澜缒Ｐ瓦M(jìn)行這種推理的優(yōu)勢。優(yōu)勢在于，你可以在不需要任何學(xué)習(xí)的情況下完成新任務(wù)。我們時(shí)常這樣做。我們面臨新情況時(shí)，會考慮它，想象我們行動(dòng)的后果，然后采取將實(shí)現(xiàn)目標(biāo)（無論是什么）的行動(dòng)序列，我們不需要學(xué)習(xí)來完成該任務(wù)，我們可以進(jìn)行規(guī)劃。因此，這基本上是規(guī)劃。你可以將大多數(shù)推理形式歸結(jié)為優(yōu)化。因此，通過優(yōu)化進(jìn)行推理的過程本質(zhì)上比僅僅通過神經(jīng)網(wǎng)絡(luò)的多層運(yùn)行更強(qiáng)大。正如我所說，這種通過優(yōu)化進(jìn)行推理的思想已經(jīng)存在超過 60 年。在優(yōu)化控制理論領(lǐng)域，這被稱為模型預(yù)測控制。你有一個(gè)要控制的系統(tǒng)模型，比如火箭、飛機(jī)或機(jī)器人。你可以想象，利用你的世界模型計(jì)算一系列控制指令的效果。然后你優(yōu)化這一序列，使運(yùn)動(dòng)達(dá)到你想要的結(jié)果。所有經(jīng)典機(jī)器人學(xué)的運(yùn)動(dòng)規(guī)劃都是通過這種方式完成的，這并不是新事物。這里的新意在于，我們將學(xué)習(xí)世界模型，感知系統(tǒng)將提取出適當(dāng)?shù)某橄蟊硎尽，F(xiàn)在，在我進(jìn)入一個(gè)例子之前，說明如何運(yùn)行這個(gè)系統(tǒng)，你可以構(gòu)建一個(gè)整體的 AI 系統(tǒng)，包含所有這些組件：世界模型、可以針對手頭任務(wù)配置的成本函數(shù)、優(yōu)化模塊（即真正優(yōu)化、尋找給定世界模型的最佳動(dòng)作序列的模塊）、短期記憶、感知系統(tǒng)等等。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

那么，這樣是如何工作的呢？如果你的動(dòng)作不是單一動(dòng)作，而是一個(gè)動(dòng)作序列，而你的世界模型實(shí)際上是一個(gè)系統(tǒng)，它告訴你，在時(shí)間 T 的世界狀態(tài)和可能采取的行動(dòng)下，預(yù)測時(shí)間 T+1 的世界狀態(tài)。你想預(yù)測在這種情況下兩個(gè)動(dòng)作的序列將產(chǎn)生什么效果。你可以多次運(yùn)行你的世界模型來實(shí)現(xiàn)這一點(diǎn)。獲取初始世界狀態(tài)表示，輸入對行動(dòng)零的假設(shè)，利用模型預(yù)測下一狀態(tài)，然后進(jìn)行行動(dòng)一，計(jì)算下一狀態(tài)，計(jì)算成本，然后通過反向傳播和基于梯度的優(yōu)化方法，找出將最小化成本的兩個(gè)動(dòng)作。這就是模型預(yù)測控制。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

現(xiàn)在，世界并不是完全確定的，因此你必須使用潛在變量來擬合你的世界模型。潛變量基本上是可以在一組數(shù)據(jù)中切換或從分布中抽取的變量，它們代表世界模型在與觀察兼容的多個(gè)預(yù)測之間的切換。更有趣的是，智能系統(tǒng)目前還無法去做人類乃至動(dòng)物能夠做到的事情，那就是分層規(guī)劃。例如，如果你在計(jì)劃從紐約到巴黎的旅行，你可以使用你對世界、對身體的理解，可能還有你對從這里到巴黎整個(gè)配置的想法，以你的低級肌肉控制來規(guī)劃你的整個(gè)旅行。對吧？如果每十毫秒的肌肉控制步驟數(shù)量，所有這些你在去巴黎之前必須做的事情疊加起來，簡直是巨大的數(shù)字。因此，你所做的就是以分層規(guī)劃的方式進(jìn)行規(guī)劃，你從很高的層面開始說，好吧，要去巴黎，我首先需要去機(jī)場，搭乘飛機(jī)。我如何去機(jī)場？假設(shè)我在紐約市，我必須下樓去叫出租車。我怎么下樓？我必須先從椅子上起來，打開門，走到電梯，按下按鈕，等等。我如何從椅子上站起來？在某個(gè)時(shí)刻，你將不得不將事情表達(dá)為低級肌肉控制動(dòng)作，但我們并不是在以低級別的方式規(guī)劃整個(gè)過程，而是在進(jìn)行分層規(guī)劃。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

如何使用 AI 系統(tǒng)做到這一點(diǎn)仍然是完全未解決的，我們對此毫無頭緒。這似乎是智能行為的一個(gè)重要要求。那么，我們?nèi)绾螌W(xué)習(xí)能夠進(jìn)行層次規(guī)劃的世界模型，能夠在不同抽象層次上工作呢？沒有人展示出任何接近這一點(diǎn)的成果。這是一個(gè)重大挑戰(zhàn)。圖像顯示我剛剛提到的例子。那么，我們現(xiàn)在如何訓(xùn)練這個(gè)世界模型呢？因?yàn)檫@確實(shí)是一個(gè)大問題。我嘗試弄清楚嬰兒在什么年齡學(xué)習(xí)關(guān)于世界的基本概念。他們?nèi)绾螌W(xué)習(xí)直觀的物理學(xué)、物理直覺，以及所有這些內(nèi)容？這些發(fā)生在他們開始學(xué)習(xí)語言和互動(dòng)等事情之前很久。因此，諸如面孔追蹤之類的能力實(shí)際上發(fā)生得非常早。生物運(yùn)動(dòng)，即有生命的物體與無生命物體之間的區(qū)別，也會很早就出現(xiàn)。物體恒常性也是如此，指的是當(dāng)一個(gè)物體被另一個(gè)物體遮擋時(shí)，它依然存在這一事實(shí)。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

而嬰兒是很自然地學(xué)習(xí)的，你不需要給他們事物的名稱。他們會知道椅子、桌子和貓是不同的。而關(guān)于穩(wěn)定性和支持性等概念，比如像重力、慣性、守恒、動(dòng)量這些實(shí)際上大約在九個(gè)月大時(shí)才會出現(xiàn)。這需要很長時(shí)間。因此，如果你向六個(gè)月大的嬰兒展示左邊的情境，即小車在平臺上，你將它推下平臺，它似乎在空中漂福六個(gè)月大的嬰兒會注意到這一點(diǎn)，而十個(gè)月大的嬰兒則會覺得這不應(yīng)該發(fā)生，物體應(yīng)該掉落。當(dāng)發(fā)生意外情況時(shí)，這意味著你的「世界模型」是錯(cuò)誤的。所以你會關(guān)注，因?yàn)檫@可能會要了你的命。因此，這里需要發(fā)生的學(xué)習(xí)類型與我們之前討論的學(xué)習(xí)類型非常相似。獲取輸入，以某種方式破壞它，并訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來預(yù)測缺失的部分。如果你訓(xùn)練一個(gè)系統(tǒng)來預(yù)測視頻中將要發(fā)生的事情，就像我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測文本中將要發(fā)生的事情一樣，也許這些系統(tǒng)將能夠?qū)W習(xí)常識。不幸的是，我們已經(jīng)嘗試了這個(gè)十年了，結(jié)果完全失敗。我們從來沒有接近過能夠通過僅僅試圖預(yù)測視頻中的像素來真正學(xué)習(xí)任何通用知識的系統(tǒng)。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

你可以訓(xùn)練一個(gè)系統(tǒng)來預(yù)測看起來不錯(cuò)的視頻�，F(xiàn)在有許多視頻生成系統(tǒng)的例子，但它們內(nèi)部并不是良好的物理世界模型。我們不能用它們來做這件事。好吧，所以我們將使用生成模型來預(yù)測個(gè)體將要發(fā)生的事情的想法，系統(tǒng)會神奇地理解世界的結(jié)構(gòu)，這完全是失敗的。在過去的十年里，我們嘗試了許多方法。之所以失敗，是因?yàn)橛性S多可能的未來。在像文本這樣的離散空間中，你可以預(yù)測哪個(gè)單詞會跟在一串單詞之后，你可以生成字典中可能單詞的概率分布。但當(dāng)涉及到視頻幀時(shí)，我們沒有好的方法來表示視頻幀的概率分布。實(shí)際上，這個(gè)任務(wù)完全不可能。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

比如，我拍攝這個(gè)房間的視頻，對吧？我拿著相機(jī)拍攝那部分，然后停止視頻。我問系統(tǒng)接下來會發(fā)生什么。它可能會預(yù)測剩下的房間。會有一面墻，會有人坐著，密度可能會和左邊的相似，但絕對不可能在像素級別上準(zhǔn)確預(yù)測你們每個(gè)人的樣子、世界的紋理以及房間的精確大小等所有細(xì)節(jié)。所以，我提出的解決方案為聯(lián)合嵌入預(yù)測架構(gòu)（JEPA）。其理念就是放棄預(yù)測像素，而是學(xué)習(xí)一個(gè)對世界運(yùn)作的抽象表示，然后在這個(gè)表示空間中進(jìn)行預(yù)測。這就是架構(gòu)，聯(lián)合嵌入預(yù)測架構(gòu)。這兩個(gè)嵌入分別取 X（損壞版本）和 Y，經(jīng)過編碼器處理，然后訓(xùn)練系統(tǒng)根據(jù) X 的表示預(yù)測 Y 的表示�，F(xiàn)在的問題是，如果只是用梯度下降、反向傳播來最小化預(yù)測誤差來訓(xùn)練這樣的系統(tǒng)，它將崩潰。它可能會學(xué)習(xí)一個(gè)常量表示，這樣預(yù)測就變得非常簡單，但卻沒有信息量。因此，我希望你記住的的是，生成架構(gòu)試圖重建預(yù)測的自編碼器、生成架構(gòu)、掩碼自編碼器等，與在表示空間中進(jìn)行預(yù)測的聯(lián)合嵌入架構(gòu)之間的區(qū)別。我認(rèn)為未來在于這些聯(lián)合嵌入架構(gòu)，我們有大量的經(jīng)驗(yàn)證據(jù)表明，學(xué)習(xí)良好的圖像表示的最佳方法是使用聯(lián)合編輯架構(gòu)。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

所有嘗試通過重建來學(xué)習(xí)圖像表示的嘗試都很糟糕，效果不好，盡管有很多大型項(xiàng)目聲稱它們有效，但實(shí)際上并不行，最佳性能是通過右邊的架構(gòu)獲得的。現(xiàn)在，如果你仔細(xì)想想，這實(shí)際上就是我們智力的表現(xiàn)：尋找某種現(xiàn)象的良好表示，以便能夠進(jìn)行預(yù)測，這真的就是科學(xué)的本質(zhì)。真的。想想看，如果你想預(yù)測一個(gè)行星的軌跡，行星是一個(gè)非常復(fù)雜的物體，它巨大，具有天氣、溫度和密度等各種特征。雖然它是一個(gè)復(fù)雜的對象，但要預(yù)測行星的軌跡，你只需要知道 6 個(gè)數(shù)字：3 個(gè)位置坐標(biāo)和 3 個(gè)速度向量，僅此而已，你不需要做其他任何事情。這是一個(gè)非常重要的例子，真正展示了預(yù)測能力的本質(zhì)在于找到我們觀察事物的良好表示。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

那么，我們?nèi)绾斡?xùn)練這樣一個(gè)系統(tǒng)呢？所以你想要防止系統(tǒng)崩潰。做到這一點(diǎn)的一種方法是使用某種代價(jià)函數(shù)，測量編碼器輸出的表示的信息內(nèi)容，并盡量最大化信息內(nèi)容，最小化負(fù)信息。你的訓(xùn)練系統(tǒng)要同時(shí)盡可能提取輸入中的信息，同時(shí)最小化在該表示空間中的預(yù)測誤差。系統(tǒng)將找到提取盡可能多的信息與不提取不可預(yù)測信息之間的某種權(quán)衡。你將得到一個(gè)良好的表示空間，在這個(gè)空間中可以進(jìn)行預(yù)測�，F(xiàn)在，你如何測量信息？這就是事情變得有點(diǎn)奇怪的地方。我將跳過這一點(diǎn)。機(jī)器將會超越人類智力，且安全可控實(shí)際上，有一種方法可以通過訓(xùn)練、基于能量的模型和能量函數(shù)從數(shù)學(xué)上理解這一點(diǎn)，但我沒有時(shí)間深入探討。基本上，我在這里告訴你幾件不同的事情：放棄生成模型，轉(zhuǎn)而使用那些 JEPA 架構(gòu)；放棄概率模型，轉(zhuǎn)而使用那些基于能量的模型，放棄對比學(xué)習(xí)方法，還有強(qiáng)化學(xué)習(xí)。這些我已經(jīng)說了 10 年了。而這些都是今天機(jī)器學(xué)習(xí)中最流行的四個(gè)支柱。因此目前我可能不太受歡迎。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

一種方法是估計(jì)信息量，測量來自編碼器的信息內(nèi)容。目前有六種不同的方法來實(shí)現(xiàn)這一點(diǎn)。實(shí)際上，這里有一個(gè)叫做 MCR 的方法，來自我在 NYU 的同事，那就是防止系統(tǒng)崩潰并產(chǎn)生常數(shù)。取出來自編碼器的變量，并確保這些變量具有非零的標(biāo)準(zhǔn)差。你可以將其放入一個(gè)成本函數(shù)中，確保權(quán)重被搜索，變量不會崩潰并變?yōu)槌?shù)。這是比較簡單的。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

現(xiàn)在的問題是，系統(tǒng)可能會「作弊」，使所有變量相等或高度相關(guān)。因此，你需要添加另一個(gè)項(xiàng)，要求最小化這些變量的協(xié)方差矩陣的非對角線項(xiàng)，以確保它們相關(guān)。當(dāng)然，這還不夠，因?yàn)樽兞咳钥赡芤蕾嚕幌嚓P(guān)。因此，我們采用另一種方法，將 SX 的維度擴(kuò)展到更高的維度空間 VX，并在該空間中應(yīng)用方差協(xié)方差正則化，以確保滿足要求。這里還有一個(gè)技巧，因?yàn)槲宜畲蠡氖切畔?nèi)容的上限。我希望實(shí)際的信息內(nèi)容能跟隨我對上限的最大化。我需要的是一個(gè)下限，這樣它會推動(dòng)下限，信息也會隨之增加。不幸的是，我們并沒有信息的下限，或者至少我們不知道如何計(jì)算它們。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

有第二套方法，稱為「蒸餾風(fēng)格方法」。這種方法以神秘的方式運(yùn)作。如果你想清楚了解誰在做什么，你應(yīng)該問坐在這里的 Grill。他在這方面有一篇個(gè)人論文，定義得很好。它的核心思想是只更新模型的一部分，而在另一部分不進(jìn)行梯度的反向傳播，并通過一種有趣的方式共享權(quán)重。關(guān)于這方面也有很多論文。如果你想訓(xùn)練一個(gè)完全自監(jiān)督的系統(tǒng)，以生成良好的圖像表示，這種方法效果很好。圖像的破壞是通過掩蔽進(jìn)行的，最近的一些工作是我們?yōu)橐曨l做的，這樣我們就可以訓(xùn)練一個(gè)系統(tǒng)來提取良好的視頻表示，以便用于下游任務(wù)，如動(dòng)作識別視頻等。你可以看到，給一個(gè)視頻掩蔽掉一大塊，通過這個(gè)過程進(jìn)行預(yù)測，在表示空間中使用這種蒸餾技巧來防止崩潰。這效果很好。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，如果我們在這個(gè)項(xiàng)目中成功，并最終得到能夠推理、計(jì)劃和理解物理世界的系統(tǒng)，未來我們所有的互動(dòng)將會是這樣的。這將需要數(shù)年，甚至可能是十年才能讓一切正常運(yùn)作。馬克扎克伯格一直在問我需要多長時(shí)間。如果我們成功做到這一點(diǎn)，好的，我們將擁有能夠調(diào)解我們與數(shù)字世界所有互動(dòng)的系統(tǒng)。它們將回答我們所有的問題。它們將在很多時(shí)候與我們同在，基本上會構(gòu)成所有人類知識的一個(gè)庫。這感覺像是一個(gè)基礎(chǔ)設(shè)施的東西，就像互聯(lián)網(wǎng)一樣。這并不像是一個(gè)產(chǎn)品，而更像是一種基礎(chǔ)設(shè)施。這些人工智能平臺必須是開源的。IBM 和 Meta 參與了一個(gè)名為人工智能聯(lián)盟的組織，促進(jìn)開源人工智能平臺。我們需要這些平臺是開源的，因?yàn)槲覀冃枰@些人工智能系統(tǒng)的多樣性。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

我們需要它們理解世界上所有的語言、所有的文化、所有的價(jià)值體系，而你不會僅僅從由美國西海岸或東海岸的公司生產(chǎn)的單一系統(tǒng)中獲得這些。這必須是來自全世界的貢獻(xiàn)。當(dāng)然，訓(xùn)練金融模型的成本非常高，因此只有少數(shù)公司能夠做到這一點(diǎn)。如果像 Meta 這樣的公司能夠提供開源的基礎(chǔ)模型，那么全世界都可以為自己的目的對其進(jìn)行微調(diào)。這是 Meta 和 IBM 采用的哲學(xué)。圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，開源人工智能不僅僅是一個(gè)好主意，它對于文化多樣性，甚至可能對于民主的保存都是必要的。訓(xùn)練和微調(diào)將通過眾包進(jìn)行，或者由初創(chuàng)公司和其他公司的生態(tài)系統(tǒng)完成。這正是推動(dòng)人工智能初創(chuàng)生態(tài)系統(tǒng)發(fā)展的原因之一，就是這些開源人工智能模型的可用性。達(dá)到通用人工智能需要多長時(shí)間？我不知道，可能需要數(shù)年到數(shù)十年。 圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

這過程中有很大的變化，還有許多問題需要解決。這幾乎肯定比我們想象的要困難得多。這不會在一天內(nèi)發(fā)生，而是逐步的、漸進(jìn)的演變。所以并不是說某一天我們會發(fā)現(xiàn)通用人工智能的秘密，啟動(dòng)機(jī)器后立刻擁有超智能，而我們都會被超智能所消滅，不，情況并不是這樣的。機(jī)器將會超越人類智力，但它們將處于控制之下，因?yàn)樗鼈兪悄繕?biāo)驅(qū)動(dòng)的。我們給它們設(shè)定目標(biāo)，它們就會完成這些目標(biāo)。就像我們這里的許多人都是行業(yè)或?qū)W術(shù)界的領(lǐng)導(dǎo)者。我們與比我們聰明的人合作，我當(dāng)然也是。有很多人比我聰明，并不意味著他們想要主宰或接管，這就是事情的真相。當(dāng)然這背后確實(shí)也有風(fēng)險(xiǎn)，但我將把這留給后面的討論，非常感謝。

圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-21 08:23:01 瀏覽：2819次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

圖靈獎(jiǎng)得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-21 08:23:01 瀏覽：2819次