新智元報(bào)道
編輯:編輯部 HYZh【新智元導(dǎo)讀】就在剛剛,Verses團(tuán)隊(duì)研發(fā)的Genius智能體,在Pong中超越了人類(lèi)頂尖玩家!而且它僅僅訓(xùn)練2小時(shí),用了1/10數(shù)據(jù),就秒殺了其他頂級(jí)AI模型。最近,Verses團(tuán)隊(duì)在AI領(lǐng)域投下了一枚重磅炸彈,他們自研的Genius智能體,創(chuàng)造了一個(gè)幾乎不可能的奇跡只用10%數(shù)據(jù),訓(xùn)練2小時(shí),就能打造出最強(qiáng)AI智能體!在經(jīng)典游戲Pong中,Genius智能體多次達(dá)到完美的20分,一舉超越了苦練數(shù)天的其他AI,和頂尖的人類(lèi)玩家。更讓人驚掉下巴的是,它的規(guī)模只有SOTA模型IRIS的4%(縮小了96%),直接在搭載M1芯片的MacBook上就能跑。
Genius在「狀態(tài)好」時(shí),甚至能削電腦一個(gè)「禿頭」這啟發(fā)了科學(xué)家們思考,如果能夠模仿大腦的工作方式,是不是就能創(chuàng)造出更聰明、更高效的AI。恰在2023年,這個(gè)大膽的想法,在Nature論文中得到了證實(shí)。
而現(xiàn)在,Verses團(tuán)隊(duì)正將這種生物學(xué)的智慧,轉(zhuǎn)化為現(xiàn)實(shí)。研究團(tuán)隊(duì)表示,這標(biāo)志著首個(gè)超高效貝葉斯智能體在復(fù)雜多維度游戲環(huán)境中,實(shí)現(xiàn)通用解決方案的重要里程碑。打造最強(qiáng)AI智能體,LLM并非良策
目前,所謂的AI智能體,大多數(shù)實(shí)際上只是在大模型基礎(chǔ)上,搭建的簡(jiǎn)單架構(gòu)。正如蘋(píng)果研究團(tuán)隊(duì),在去年10月arXiv論文中,直指現(xiàn)有的LLM,并不具備真正的邏輯推理能力。它們更像是在「記憶」訓(xùn)練數(shù)據(jù)中,所見(jiàn)過(guò)的推理步驟。
論文地址:https://arxiv.org/pdf/2410.05229實(shí)際上,這種局限性嚴(yán)重制約了AI智能體的實(shí)際應(yīng)用潛力。即便是OpenAI推理模型o1,盡管代表著技術(shù)發(fā)展的重要里程碑,但其本質(zhì)仍是將BBF/EfficientZero(強(qiáng)化學(xué)習(xí))和 IRIS(Transformer)兩種方法結(jié)合到CoT推理計(jì)算中。這種方法雖有創(chuàng)新,但其仍未觸及智能體進(jìn)化的核心痛點(diǎn)。那么,什么才是真正的突破口?Verses團(tuán)隊(duì)認(rèn)為答案是,認(rèn)知引擎。Genius就像是智能體的認(rèn)知引擎。它不僅提供了包括認(rèn)知、推理、規(guī)劃、學(xué)習(xí)和決策在內(nèi)的執(zhí)行功能,更重要的是賦予了智能體真正的主動(dòng)性、好奇心和選擇能力。其中,主動(dòng)性正是當(dāng)前基于LLM構(gòu)建的智能體,普遍缺失的的特質(zhì)。我們現(xiàn)在已經(jīng)掌握了一種全新的「仿生方法」來(lái)實(shí)現(xiàn)通用機(jī)器智能,這種方法比上述兩種方法(即使是結(jié)合在一起)都要明顯更好、更快、更經(jīng)濟(jì)。
博客地址:https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence1張A100,訓(xùn)練2小時(shí)
為了與SOTA的機(jī)器學(xué)習(xí)技術(shù)進(jìn)行客觀對(duì)比,在這些初始測(cè)試中,研究者選擇了基于模型的IRIS系統(tǒng)。該系統(tǒng)基于2017年突破性的Transformer架構(gòu)。這種方案能夠最快速地完成部署,從而將精力集中在推進(jìn)自身研究上,而不是復(fù)制他人的工作。值得一提的是,在Atari 100K測(cè)試中表現(xiàn)最優(yōu)的兩個(gè)系統(tǒng)EfficientZero和BBF,都采用了深度強(qiáng)化學(xué)習(xí)技術(shù),這與Deepmind的AlphaZero、AlphaGo和AlphaFold所使用的方法一脈相承。研究者在2小時(shí)內(nèi),用1萬(wàn)步游戲數(shù)據(jù)分別訓(xùn)練了Geniu和IRIS(記為10k/2h)。他們將Genius 10k/2h的性能與IRIS進(jìn)行了對(duì)比,后者使用相同的1萬(wàn)步數(shù)據(jù),但訓(xùn)練時(shí)間為2天(記為10k/2d)。同時(shí),他們還將Genius 10k/2h的性能與使用完整10萬(wàn)步數(shù)據(jù)訓(xùn)練的BBF和EfficientZero的公開(kāi)結(jié)果進(jìn)行了比較。性能評(píng)估采用人類(lèi)標(biāo)準(zhǔn)化得分(HNS)來(lái)衡量,其中HNS 1.0代表人類(lèi)水平的表現(xiàn),具體而言,相當(dāng)于人類(lèi)玩家在2小時(shí)練習(xí)時(shí)間后(約等于10萬(wàn)個(gè)樣本)在「Pong」游戲中對(duì)戰(zhàn)電腦時(shí)獲得的14.6分平均成績(jī)。
訓(xùn)練時(shí)間和模型規(guī)模
基于多次游戲運(yùn)行采樣的定性結(jié)果與Transformer和深度強(qiáng)化學(xué)習(xí)不同,Genius無(wú)需依賴(lài)強(qiáng)大的GPU進(jìn)行訓(xùn)練。然而,為確保比較的公平性,所有測(cè)試均在AWS云平臺(tái)上使用同一張英偉達(dá)A100 GPU進(jìn)行。值得注意的是,無(wú)論訓(xùn)練時(shí)長(zhǎng)如何,IRIS訓(xùn)練后的模型包含800萬(wàn)個(gè)參數(shù),而Genius僅需35萬(wàn)個(gè)參數(shù),模型體積減少了96%。Pong游戲的定性分析在Pong游戲中,IRIS 10k/2h的只會(huì)在角落里「抽搐」,而IRIS 10k/2d展現(xiàn)出一定的游戲能力,HNS在0.0到0.3之間。相比之下,Genius在2小時(shí)1萬(wàn)步訓(xùn)練后(10k/2h),就能達(dá)到超過(guò)HNS 1.0的水平,并在多次測(cè)試中獲得20分滿分。(劃到最右即可看到Genius如何從0比6落后一路實(shí)現(xiàn)反超)
下圖展示了IRIS和Genius在各自訓(xùn)練條件下所能達(dá)到的最高HNS。
需要說(shuō)明的是,Genius的得分僅為初步測(cè)試結(jié)果,尚未經(jīng)過(guò)優(yōu)化鑒于IRIS 10k/2h未能展現(xiàn)有效的游戲能力,研究者主要展示了IRIS 10k/2d和Genius與電腦對(duì)戰(zhàn)的質(zhì)性測(cè)試樣例。這局比賽中,IRIS對(duì)陣電腦時(shí)以6:20落敗,而Genius則以20:6的優(yōu)勢(shì)戰(zhàn)勝了電腦對(duì)手。
下面這段視頻,展示了Genius在學(xué)習(xí)「Pong」游戲過(guò)程中,在漸進(jìn)式在線學(xué)習(xí)方面的卓越表現(xiàn)。在1萬(wàn)步訓(xùn)練過(guò)程中,它依次取得了20:0、20:0、20:1、20:10、14:15的對(duì)戰(zhàn)成績(jī)。特別是在第五局比賽中,當(dāng)訓(xùn)練進(jìn)行到接近9,000步時(shí),盡管電腦以14:3大幅領(lǐng)先,但Genius隨后展現(xiàn)出顯著的學(xué)習(xí)能力,開(kāi)始持續(xù)得分,直至訓(xùn)練步數(shù)耗盡。
Boxing游戲定性分析在「Boxing」拳擊游戲中,玩家控制白色角色,通過(guò)擊打黑色對(duì)手角色來(lái)獲取得分?梢钥吹,只經(jīng)過(guò)2小時(shí)訓(xùn)練的IRIS,開(kāi)局就被電腦各種完虐;而在經(jīng)過(guò)2天的訓(xùn)練之后,基本上可以和電腦「55開(kāi)」了。相比之下,Genius幾乎從一直就處于領(lǐng)先,并在最后以86比63贏得了比賽。
從左到右滑動(dòng):IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2hFreeway游戲定性分析在Freeway游戲測(cè)試中,玩家需要控制小雞穿過(guò)馬路,同時(shí)避開(kāi)來(lái)自不同方向、以不同速度行駛的汽車(chē)。測(cè)試結(jié)果顯示,IRIS 10k/2h和IRIS 10k/2d模型均表現(xiàn)出隨機(jī)性行為,始終未能成功穿越馬路。而Genius則展現(xiàn)出對(duì)游戲?qū)ο蠛蛣?dòng)態(tài)系統(tǒng)的深入理解,能夠持續(xù)且成功地在復(fù)雜車(chē)流中進(jìn)行穿梭。
當(dāng)然研究者也強(qiáng)調(diào),雖然Atari 100k/10k、ARC-AGI能提供參考指標(biāo),但目前還沒(méi)有一個(gè)單一的測(cè)試,能全面衡量AGI在認(rèn)知、物理、社交和情感智能等各個(gè)維度上的表現(xiàn)。同時(shí),也需要警惕模型可能出現(xiàn)的過(guò)擬合現(xiàn)象,即為了在特定基準(zhǔn)測(cè)試中取得高分而進(jìn)行過(guò)度優(yōu)化。這種情況下,就并不能說(shuō)明模型的泛化能力、效率或在現(xiàn)實(shí)應(yīng)用場(chǎng)景中的適用性。因此,需要通過(guò)多樣化的測(cè)試來(lái)衡量給定模型架構(gòu)的適用性、可靠性、適應(yīng)性、可持續(xù)性、可解釋性、可擴(kuò)展性以及其他能力。怎么做到的?
之前Atari 100k挑戰(zhàn)排行榜上的SOTA都是以數(shù)據(jù)為中心,計(jì)算復(fù)雜度很高的方法,如Transformer、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。然而,這些基于深度學(xué)習(xí)和大模型的AI系統(tǒng)都存在一個(gè)共同的弱點(diǎn):它們大多是通過(guò)工程技術(shù)手段構(gòu)建的,缺乏對(duì)智能本質(zhì)的深刻理解。Genius并非僅僅是對(duì)以往SOTA的漸進(jìn)式改進(jìn)。研究者應(yīng)用了Karl Friston教授的自由能量原理、主動(dòng)推斷框架和貝葉斯推理架構(gòu)。Karl Friston近年來(lái)致力于自由能原理與主動(dòng)推理的研究,該理論被認(rèn)為是「自達(dá)爾文自然選擇理論后最包羅萬(wàn)象的思想」,試圖從物理、生物和心智的角度提供智能體感知和行動(dòng)的統(tǒng)一規(guī)律,從第一性原理出發(fā)解釋智能體更新認(rèn)知、探索和改變世界的機(jī)制,對(duì)強(qiáng)化學(xué)習(xí)世界模型、通用AI等前沿方向具有重要啟發(fā)意義。自由能原理認(rèn)為,所有可變的量,只要作為系統(tǒng)的一部分,都會(huì)為最小化自由能而變化。主動(dòng)推理框架基于自由能原理提供了一個(gè)建模感知、學(xué)習(xí)和決策的統(tǒng)一框架。將感知和行動(dòng)都看作是推斷的問(wèn)題。其核心觀點(diǎn)是:生物體認(rèn)知與行為底層都遵循著相同的規(guī)則,即感官觀測(cè)的「意外」最小化。在這里,「意外」被用于衡量智能體當(dāng)前的感官觀測(cè)與偏好的感官觀測(cè)之間的差異。
主動(dòng)推理路線圖這些方法深深植根于生物智能背后的神經(jīng)科學(xué),它將智能系統(tǒng)視為預(yù)測(cè)引擎,而非僅僅被動(dòng)式數(shù)據(jù)處理機(jī)器,這些系統(tǒng)能夠通過(guò)測(cè)量預(yù)期與感知數(shù)據(jù)之間的差異來(lái)實(shí)現(xiàn)高效學(xué)習(xí)。其核心目標(biāo)是持續(xù)降低對(duì)環(huán)境的不確定性,具體方式是學(xué)習(xí)理解所觀察現(xiàn)象背后隱藏的因果動(dòng)態(tài)關(guān)系,從而更好地預(yù)測(cè)結(jié)果并選擇最優(yōu)行動(dòng)。
主動(dòng)推理的框架概覽這條運(yùn)用神經(jīng)科學(xué)方法和生物學(xué)可行技術(shù)來(lái)解決Atari問(wèn)題的另類(lèi)途徑始于2022年。當(dāng)時(shí),F(xiàn)riston教授帶領(lǐng)Cortical Labs開(kāi)發(fā)了一種「微型人類(lèi)大腦」,并命名為DishBrain(培養(yǎng)皿大腦),這個(gè)「大腦」包含了大約80萬(wàn)個(gè)腦細(xì)胞,僅僅用了5分鐘就學(xué)會(huì)了打「乒乓球」的游戲,而AI學(xué)會(huì)這一游戲需要花90分鐘時(shí)間。這一研究證明了神經(jīng)元確實(shí)應(yīng)用了自由能量原理并通過(guò)主動(dòng)推斷進(jìn)行運(yùn)作,并且即使是培養(yǎng)皿中的腦細(xì)胞也可以表現(xiàn)出內(nèi)在的智能,并隨著時(shí)間的推移改變行為。
論文地址:https://www.sciencedirect.com/science/article/pii/S08966273220080662023年,一篇發(fā)表在《自然》上的論文通過(guò)體外培養(yǎng)的大鼠皮層神經(jīng)元網(wǎng)絡(luò)進(jìn)行因果推理,也證實(shí)了自由能原理的定量預(yù)測(cè)。到了2024年初,研究者則更進(jìn)一步,成功將這些在Dishbrain中展示的主動(dòng)推斷機(jī)制純軟件化地應(yīng)用于乒乓球游戲。
主動(dòng)推理及其對(duì)貝葉斯模型和算法的應(yīng)用代表了一種根本不同的AI架構(gòu),從設(shè)計(jì)上講,它比SOTA的ML方法更有效和高效。如今Genius實(shí)現(xiàn)的,就是研究者此前開(kāi)創(chuàng)的貝葉斯推理架構(gòu),它不僅提高了樣本效率和持續(xù)學(xué)習(xí)能力,還能優(yōu)雅地將先驗(yàn)知識(shí)與新數(shù)據(jù)結(jié)合。這一突破帶來(lái)了全新的先進(jìn)機(jī)器智能方法,具有內(nèi)在的可靠性、可解釋性、可持續(xù)性、靈活性和可擴(kuò)展性。在統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和AI領(lǐng)域,貝葉斯推理因其在不確定性下的原則性概率推理方法而被視為一個(gè)強(qiáng)大而優(yōu)雅的框架,但迄今為止,其巨大的計(jì)算需求一直限制著它在玩具問(wèn)題之外的應(yīng)用。而Genius則代表了對(duì)這一障礙的超越,并提供了一個(gè)通用架構(gòu),使我們能夠在此基礎(chǔ)上構(gòu)建眾多高效的智能體,讓它們能夠?qū)W習(xí)并發(fā)展專(zhuān)業(yè)技能。在不久的未來(lái),也許我們?cè)倩厥,就?huì)發(fā)現(xiàn)這不僅標(biāo)志著貝葉斯革命的開(kāi)始,更代表著機(jī)器智能發(fā)展的自然方向。如下圖所示,虛線和漸變軌跡展現(xiàn)了智能體對(duì)已識(shí)別對(duì)象軌跡的概率預(yù)測(cè)可能是球、高速行駛的汽車(chē),或是拳擊手的刺拳。這些不確定性的量化,結(jié)合置信度的計(jì)算,首次展示了智能體的預(yù)測(cè)和決策過(guò)程如何實(shí)現(xiàn)可解釋性。這種系統(tǒng)的透明度和可審計(jì)性,與ML中不透明、難以解釋且無(wú)法量化的內(nèi)部處理過(guò)程形成了鮮明對(duì)比。
Genius智能體在三個(gè)經(jīng)典游戲中的面向?qū)ο箢A(yù)測(cè)能力:圖中的漸變點(diǎn)展示了智能體對(duì)游戲中物體當(dāng)前位置及其未來(lái)軌跡的預(yù)測(cè)推理
從AlphaGo到Atari,AI智能體新標(biāo)準(zhǔn)
現(xiàn)代,游戲已成為衡量機(jī)器智能的有效基準(zhǔn)。1996年,IBM的深藍(lán)擊敗了國(guó)際象棋大師加里卡斯帕羅夫時(shí),整個(gè)世界都為之震撼。這是一個(gè)具有明確規(guī)則和離散狀態(tài)空間的游戲。而深藍(lán)的成功主要依賴(lài)于暴力計(jì)算,通過(guò)評(píng)估數(shù)百萬(wàn)種可能走法做出決策。2016年,谷歌AlphaGo在圍棋比賽中擊敗了李世石,成為另一個(gè)重要的里程碑。
要知道,圍棋的可能棋盤(pán)配置數(shù)量比宇宙中的原子數(shù)量還要多。AlphaGo展示了深度強(qiáng)化學(xué)習(xí)和蒙特卡洛樹(shù)搜索的強(qiáng)大能力,標(biāo)志著AI從暴力計(jì)算向具備模式識(shí)別和戰(zhàn)略規(guī)劃能力的重大跨越。雖然AI在棋類(lèi)游戲中取得了里程碑式的成就,但這些突破也僅局限于「靜態(tài)規(guī)則」的世界。它們并不能模擬現(xiàn)實(shí)世界中的復(fù)雜動(dòng)態(tài),而現(xiàn)實(shí)世界中變化是持續(xù)的,需要適應(yīng)不斷變化的條件甚至變化的規(guī)則。由此,電子游戲已經(jīng)成為測(cè)試智能的新標(biāo)準(zhǔn),因?yàn)樗鼈兲峁┝耸芸氐沫h(huán)境,其規(guī)則需要通過(guò)互動(dòng)來(lái)學(xué)習(xí),而成功的游戲過(guò)程需要戰(zhàn)略規(guī)劃。Atari游戲已成為評(píng)估AI智能體建模和駕馭復(fù)雜動(dòng)態(tài)系統(tǒng)能力的最佳評(píng)估標(biāo)準(zhǔn)。2013年,DeepMind發(fā)布了一篇論文,闡述基于強(qiáng)化學(xué)習(xí)的模型DQN如何能以超越人類(lèi)水平玩Atari游戲,但前提是需要數(shù)億次環(huán)境交互來(lái)完成訓(xùn)練。
論文地址:https://arxiv.org/pdf/1312.56022020年,DeepMind發(fā)表了另一篇基于DRL的Agent57的論文,該系統(tǒng)在57個(gè)Atari游戲中超越了人類(lèi)基準(zhǔn)水平,但它需要訓(xùn)練近800億幀。
論文地址:https://arxiv.org/pdf/2003.13350為了推動(dòng)更高效的解決方案,Atari 100k挑戰(zhàn)賽應(yīng)運(yùn)而生。這一挑戰(zhàn)將訓(xùn)練交互限制在100k次內(nèi),相當(dāng)于2小時(shí)的游戲訓(xùn)練,就能獲得類(lèi)似的游戲能力。直到2024年初,Verses團(tuán)隊(duì)創(chuàng)下新紀(jì)錄展現(xiàn)了由Genius驅(qū)動(dòng)的AI智能體如何能在Atari 100k挑戰(zhàn)賽中,僅用原來(lái)1/10訓(xùn)練數(shù)據(jù),匹配或超越最先進(jìn)方法的表現(xiàn)。不僅如此,它還顯著減少了計(jì)算量,同時(shí)生成的模型大小僅為基于DRL或Transformer構(gòu)建的頂級(jí)模型的一小部分。如果用汽車(chē)來(lái)打比方,DQN和Agent57就像是耗油的悍馬,Atari 100k的方法就像是節(jié)能的普銳斯,而Atari 10k就像是特斯拉,代表著一種高效的革新架構(gòu)。為什么Atari 100k很重要Atari 100k基準(zhǔn)測(cè)試的重要性,體現(xiàn)在哪里?它旨在測(cè)試智能體在有限訓(xùn)練數(shù)據(jù)條件,下在三個(gè)關(guān)鍵領(lǐng)域的表現(xiàn)能力:交互性、泛化性和效率。1.交互性交互性衡量了智能體在動(dòng)態(tài)環(huán)境中學(xué)習(xí)和適應(yīng)的能力,在這種環(huán)境中,智能體的行為直接影響最終結(jié)果。在Atari游戲中,智能體必須實(shí)時(shí)行動(dòng)、響應(yīng)反饋并調(diào)整其行為以取得成功。這種能力正好反映了現(xiàn)實(shí)世界中適應(yīng)性至關(guān)重要的場(chǎng)景。2.泛化性泛化性則評(píng)估了智能體將學(xué)習(xí)到的策略,應(yīng)用于具有不同規(guī)則和挑戰(zhàn)的各種游戲的能力。也就是確保智能體不會(huì)過(guò)擬合單一任務(wù),而是能夠在各種不同領(lǐng)域中都表現(xiàn)出色,展現(xiàn)真正的適應(yīng)性。3.效率效率主要關(guān)注智能體在有限數(shù)據(jù)和計(jì)算資源條件下快速學(xué)習(xí)有效策略的能力。100k步驟的限制突顯了高效學(xué)習(xí)的重要性這對(duì)于現(xiàn)實(shí)世界中數(shù)據(jù)通常稀缺的應(yīng)用場(chǎng)景來(lái)說(shuō)尤為重要。任何開(kāi)發(fā)者都可以編寫(xiě)自定義程序,來(lái)解決游戲和邏輯謎題。而Deepmind的原始DQ 方法和Atari 100k都已證明,通過(guò)足夠的人工干預(yù)和大量的數(shù)據(jù)與計(jì)算資源,傳統(tǒng)機(jī)器學(xué)習(xí)可以被調(diào)整和擬合,以掌握像雅達(dá)利這樣的游。而Genius的亮點(diǎn)在于,它能夠自主學(xué)習(xí)如何玩游戲,而且僅使用了Atari 100k 10%的數(shù)據(jù)量!這,就讓它跟現(xiàn)實(shí)世界中的問(wèn)題更相關(guān)了。因?yàn)樵诂F(xiàn)實(shí)場(chǎng)景中,數(shù)據(jù)往往是稀疏的、不完整的、帶有噪聲的,而且會(huì)實(shí)時(shí)變化。廣泛的商業(yè)應(yīng)用前景
近來(lái),行業(yè)的動(dòng)態(tài)值得令人深思。微軟宣布計(jì)劃重啟三哩島核電站,以支持其AI數(shù)據(jù)中心的發(fā)展規(guī)劃
Meta計(jì)劃在2024年底前部署相當(dāng)于600,000塊H100的算力(每塊售價(jià)3萬(wàn)美元)
據(jù)估計(jì),OpenAI o3單次任務(wù)的成本可能超過(guò)1,000美元
撇開(kāi)不可靠性和不可解釋性不談,訓(xùn)練和運(yùn)行這些超大規(guī)模過(guò)度參數(shù)化(overparameterized)模型的財(cái)務(wù)成本、能源消耗和碳排放,不僅在經(jīng)濟(jì)和環(huán)境上不可持續(xù),更與生物智能的運(yùn)作方式背道而馳。要知道,人類(lèi)大腦僅需要20瓦的能量就能完成復(fù)雜的認(rèn)知任務(wù),相當(dāng)于一個(gè)普通燈泡的功率。更令業(yè)界擔(dān)憂的是,高質(zhì)量訓(xùn)練數(shù)據(jù)正在耗盡。而使用合成數(shù)據(jù)作為替代方案,可能導(dǎo)致「模型崩潰」(model collapse),讓模型性能逐漸退化。
模型崩潰:這組圖像展示了當(dāng)AI模型僅使用合成數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)可能出現(xiàn)的問(wèn)題。從左到右可以觀察到圖像質(zhì)量的持續(xù)劣化過(guò)程,清晰地展示了模型性能逐步降低的現(xiàn)象構(gòu)建有效(可靠)、可信(可解釋?zhuān)┖透咝Вǹ沙掷m(xù))的 智能體,如果能夠通過(guò)單一的可泛化(靈活)架構(gòu)來(lái)實(shí)現(xiàn),其影響可能將達(dá)到改變?nèi)祟?lèi)文明進(jìn)程的規(guī)模。未來(lái)AI發(fā)展方向,或許不應(yīng)該是由少數(shù)科技巨頭控制的幾個(gè)龐大的模型,而是部署數(shù)萬(wàn)億個(gè)低成本、超高效、專(zhuān)業(yè)化的自組織智能體。它們可以在邊緣計(jì)算端和云端協(xié)同運(yùn)作,通過(guò)協(xié)調(diào)與合作,在從個(gè)體到集體的各個(gè)層面都遵循著一個(gè)共同的、表面上看似簡(jiǎn)單的內(nèi)在目標(biāo)追求理解,即降低不確定性。這種新型智能體特別適合處理那些具有持續(xù)變化、數(shù)據(jù)資源受限,同時(shí)要求更智能、更安全、更可持續(xù)的問(wèn)題領(lǐng)域。比如,在金融、醫(yī)療、風(fēng)險(xiǎn)分析、自動(dòng)駕駛、機(jī)器人技術(shù)等多個(gè)領(lǐng)域,應(yīng)用前景廣闊。這場(chǎng)關(guān)于AI未來(lái)的游戲,才剛剛開(kāi)始。參考資料:https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence