當(dāng)前位置：人工智能實驗室> 企業(yè)新聞 > 谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-16 15:12:21 瀏覽：128次

導(dǎo)讀：新智元報道編輯：編輯部 NJY【新智元導(dǎo)讀】谷歌團(tuán)隊發(fā)現(xiàn)了全新Scaling Law！新方法DiLoCo被證明更好、更快、更強(qiáng)，可在多個數(shù)據(jù)中心訓(xùn)練越來越大的LLM。測試時計算之后，谷歌三大團(tuán)隊集眾人之力，發(fā)現(xiàn)了全新的Scaling Law！剛剛，谷歌研究員Zachary Charles宣布：「在越來越大的模型上，分布式訓(xùn)練取得重大突破」。這個核心算法，便是DiLoCo的Scaling Law。新的訓(xùn)練方法無懼模 ......

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

新智元報道

編輯：編輯部 NJY【新智元導(dǎo)讀】谷歌團(tuán)隊發(fā)現(xiàn)了全新Scaling Law！新方法DiLoCo被證明更好、更快、更強(qiáng)，可在多個數(shù)據(jù)中心訓(xùn)練越來越大的LLM。測試時計算之后，谷歌三大團(tuán)隊集眾人之力，發(fā)現(xiàn)了全新的Scaling Law！

剛剛，谷歌研究員Zachary Charles宣布：「在越來越大的模型上，分布式訓(xùn)練取得重大突破」。

這個核心算法，便是DiLoCo的Scaling Law。

新的訓(xùn)練方法無懼模型規(guī)模，未來，在「多個數(shù)據(jù)中心」訓(xùn)練大模型的規(guī)模不再是問題。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

論文得出四大發(fā)現(xiàn)，DiLoCo訓(xùn)練方法的Scaling law，效果遠(yuǎn)超「數(shù)據(jù)并行」：

更穩(wěn)�。℉arder）：在不同模型規(guī)模下，DiLoCo的超參數(shù)依然保持穩(wěn)定且可預(yù)測。

更優(yōu)越（Better）：隨著模型規(guī)模擴(kuò)大，DiLoCo相較于數(shù)據(jù)并行訓(xùn)練的優(yōu)勢進(jìn)一步提升。

更高效（Faster）：DiLoCo所需的帶寬比數(shù)據(jù)并行訓(xùn)練少幾個數(shù)量級。

更強(qiáng)大（Stronger）：DiLoCo能夠容忍比數(shù)據(jù)并行訓(xùn)練大得多的批大小。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

值得一提的是，這篇巨作集結(jié)了谷歌三大團(tuán)隊：谷歌Research、谷歌Search、谷歌DeepMind。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

論文地址：https://arxiv.org/pdf/2503.09799

在固定計算預(yù)算下，研究人員探討了DiLoCo在訓(xùn)練大模型時的Scaling law。

論文中，重點分析了算法因素（如模型副本數(shù)量、超參數(shù)設(shè)置、token預(yù)算）如何影響訓(xùn)練過程，并證明這些影響可通過Scaling law準(zhǔn)確預(yù)測。

結(jié)果表明，DiLoCo在模型規(guī)模增長時，表現(xiàn)出穩(wěn)定且可預(yù)測的擴(kuò)展性。論文合著者Arthur Douillard再次強(qiáng)調(diào)：DiLoCo生效了！

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

智能的未來將是分布式的，而DiLoCo可能正是那個關(guān)鍵的要素

在合理調(diào)優(yōu)的情況下，DiLoCo比數(shù)據(jù)并行訓(xùn)練更具擴(kuò)展優(yōu)勢，即使在小規(guī)模模型上也可能優(yōu)于數(shù)據(jù)并行訓(xùn)練。

這些發(fā)現(xiàn)，揭示了DiLoCo的強(qiáng)大優(yōu)勢：不僅解決了通信瓶頸，還為大規(guī)模模型訓(xùn)練開辟了全新的可能。

有網(wǎng)友驚嘆地表示，「DiLoCo可能會重新定義LLM Scaling的方式！更少的帶寬需求，更高的效率」。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

左右滑動查看

「數(shù)據(jù)并行」訓(xùn)練終結(jié)？

數(shù)據(jù)并行訓(xùn)練在大模型上表現(xiàn)出色，前提是在計算資源集中分散的情況下，才能實現(xiàn)。如果計算分布較廣，通信就可能成為巨大的瓶頸，尤其是當(dāng)模型規(guī)模增長時，問題會更加嚴(yán)重！

機(jī)器學(xué)習(xí)采用的解決方案，例如在聯(lián)邦學(xué)習(xí)和數(shù)據(jù)中心訓(xùn)練中，就是讓多個獨立模型進(jìn)行訓(xùn)練，并定期同步。

隨著機(jī)器學(xué)習(xí)模型規(guī)模的擴(kuò)大，數(shù)據(jù)并行方法固有的頻繁同步需求會導(dǎo)致顯著的性能下降，這對進(jìn)一步擴(kuò)展模型構(gòu)成了關(guān)鍵挑戰(zhàn)。

那么，如何在保持模型質(zhì)量的同時，降低同步需求，以突破這一瓶頸呢？

答案或許就在，DiLoCo（Distributed Low-Communication）這一創(chuàng)新方法中。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

論文鏈接：https://arxiv.org/abs/2311.08105

每個DiLoCo模型副本都會獨立訓(xùn)練H個內(nèi)部優(yōu)化（inner optimization）步驟。

這些模型通過外部優(yōu)化（outer optimization）步驟進(jìn)行同步，通常在外部優(yōu)化步驟之間引入動量機(jī)制。

在下圖中，示例中共有M=4個模型副本。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

DiLoCo的成功已經(jīng)被反復(fù)驗證。它的運作方式與聯(lián)邦學(xué)習(xí)的FedOpt方法類似。

此外，研究人員也多次證明DiLoCo在大模型（LLM）訓(xùn)練中的卓越表現(xiàn)。

那么DiLoCo有什么問題？簡單來說規(guī)模。

DiLoCo與數(shù)據(jù)并行訓(xùn)練不同，它引入了額外的「外部」超參數(shù)，并且實際上的表現(xiàn)和理論上明顯不同。

這正是研究scaling laws的目的！

這次研究從零開始構(gòu)建了DiLoCo和數(shù)據(jù)并行訓(xùn)練的Scaling law，用于預(yù)測它們在大規(guī)模模型上的表現(xiàn)對比。

在數(shù)據(jù)并行訓(xùn)練中，每個訓(xùn)練步長都會處理一個大小為B的數(shù)據(jù)批。

在本研究中，批大小指的是批中的token數(shù)量（而不是序列數(shù)量）。

計算批梯度，并使用學(xué)習(xí)率γ進(jìn)行優(yōu)化。

在DiLoCo訓(xùn)練過程中，每個時間步t處理一個全局批大小為B的數(shù)據(jù)，并在序列級別將其均勻分配到M個DiLoCo副本中。

因此，全局批大小仍然是B，而每個DiLoCo副本的本地批大小為B/M。與數(shù)據(jù)并行訓(xùn)練類似，每個副本都會計算批梯度，并使用學(xué)習(xí)率γ執(zhí)行一次內(nèi)部優(yōu)化（inner optimization）。

但與數(shù)據(jù)并行不同的是，DiLoCo每H步會執(zhí)行一次「外部優(yōu)化」（outer optimization），基于參數(shù)空間計算的外部梯度（outer-gradients），并使用學(xué)習(xí)率η進(jìn)行更新。

一個重要的對比是數(shù)據(jù)并行vs.DiLoCo（M=1）。

雖然它們相似，但并不完全相同。

DiLoCo在M=1的情況下，仍然包含一個外部優(yōu)化器（OuterOpt）步驟，因此它可以被視為Lookahead優(yōu)化器的變體。

而在DiLoCo中，OuterOpt通常使用帶有Nesterov動量的GD，這意味著DiLoCo（M=1）實際上是數(shù)據(jù)并行訓(xùn)練的一個變體，但動量操作僅每H步執(zhí)行一次。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

還進(jìn)行了大量實驗，涵蓋訓(xùn)練過程的各個方面，全面分析了它們的擴(kuò)展行為。

實驗方法

大部分實驗里，研究團(tuán)隊使用C4數(shù)據(jù)集的訓(xùn)練集來訓(xùn)練模型，評估指標(biāo)用C4的驗證集。另外，還在三個下游任務(wù)上算了零樣本評估指標(biāo)：HellaSwag、Piqa和Arc-Easy。模型架構(gòu)：Chinchilla變體研究團(tuán)隊用的是一個類似「Chinchilla」的純解碼器Transformer架構(gòu)，加入了QK-LayerNorm，還使用了z-loss正則化來讓訓(xùn)練更穩(wěn)定。

他們把多個序列打包到每個批里，最大序列長度全程固定為2,048。

所有模型都是從零開始訓(xùn)練的，因為這次主要想研究預(yù)訓(xùn)練階段的規(guī)模規(guī)律。

研究團(tuán)隊訓(xùn)練了一堆模型，調(diào)整了Transformer層數(shù)、注意力頭的數(shù)量、QKV維度和前饋層的隱藏維度。

除非特別說明，他們都用Chinchilla的token預(yù)算，并且對除了最大的兩個模型（4B和10B參數(shù)）外，其他模型都做了大量的超參數(shù)調(diào)整。算法和優(yōu)化器研究團(tuán)隊用AdamW作為數(shù)據(jù)并行（Data-Parallel）的優(yōu)化器，也是DiLoCo的內(nèi)層優(yōu)化器。兩個算法的β1設(shè)為0.9，β2設(shè)為0.99。

訓(xùn)練開始有1000步的預(yù)熱，然后用余弦學(xué)習(xí)率衰減。權(quán)重衰減參數(shù)λ設(shè)為T，其中T是總訓(xùn)練步數(shù)（取決于批大小和token預(yù)算）。到訓(xùn)練結(jié)束時，學(xué)習(xí)率衰減到峰值的5%。

為了訓(xùn)練穩(wěn)定，他們把（內(nèi)層）梯度的全局2范數(shù)剪裁到1，外層梯度不剪裁。

對于DiLoCo，他們用帶Nesterov動量的SGD作為外層優(yōu)化器。動量設(shè)為0.9，外層學(xué)習(xí)率保持不變。

從0構(gòu)建，全新Scaling Law已來

發(fā)現(xiàn)1：規(guī)模DiLoCo的評估損失隨著N的增加，相對于數(shù)據(jù)并行（Data-Parallel）有所改善。

Scaling law預(yù)測，當(dāng)M=2時，DiLoCo在參數(shù)達(dá)到幾十億以上時，損失會比數(shù)據(jù)并行更低。這一現(xiàn)象在研究調(diào)優(yōu)的最大模型以及4B和10B模型的訓(xùn)練中都得到了驗證。

下圖2展示了DiLoCo和Data-Parallel兩種算法在不同模型規(guī)模（N）下的表現(xiàn)對比。

圖(a)顯示，隨著模型規(guī)模從2^25到2^31逐漸增大，DiLoCo（分別在M=1、2、4、8時）和Data-Parallel的評估損失（EvalLoss）都在下降，但DiLoCo的損失下降得更明顯，尤其是在M值較大時。

圖(b)進(jìn)一步展示了DiLoCo相對于Data-Parallel的評估損失的百分比差異，可以看出，隨著模型規(guī)模增加，DiLoCo的損失比Data-Parallel低得越來越多，說明DiLoCo在模型規(guī)模擴(kuò)大時表現(xiàn)更優(yōu)越。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

這個發(fā)現(xiàn)有兩個獨立但相關(guān)的部分：

DiLoCo(M=1)表現(xiàn)更好：就像上面提到的，DiLoCo在M=1時，所有模型規(guī)模的評估損失都比Data-Parallel低。而且隨著模型參數(shù)規(guī)模N增加，Data-Parallel和DiLoCo(M=1)之間的差距越來越大。

DiLoCo(M≥2)的表現(xiàn)：在大多數(shù)模型規(guī)模下，DiLoCo在M≥2時評估損失會更高。不過，如果看DiLoCo和Data-Parallel之間的百分比差異（帶正負(fù)號），會發(fā)現(xiàn)隨著N增大，DiLoCo相對Data-Parallel的表現(xiàn)越來越好，甚至在M=2、N=2.4億參數(shù)時超過了Data-Parallel。

比如，研究團(tuán)隊在下表4中列出了Data-Parallel和DiLoCo在不同模型規(guī)模N下的評估損失�？梢钥闯觯还躆是多少，百分比差異都隨著N增加嚴(yán)格減小。這個趨勢在圖2中也有展示：隨著N增加，DiLoCo的相對評估損失逐漸降低。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

研究團(tuán)隊還通過用縮放法則調(diào)好的超參數(shù)，訓(xùn)練了40億和100億參數(shù)的模型來驗證這一點。雖然圖2顯示的是「插值」范圍的結(jié)果（基于大量實驗掃描），但這些發(fā)現(xiàn)也可以推廣到外推狀態(tài)，能在M=1或2時用DiLoCo訓(xùn)練出評估損失更低的40億和100億參數(shù)模型。下表5展示了用外推超參數(shù)訓(xùn)練的結(jié)果，展示了在較大規(guī)模的4B和10B模型上，DiLoCo和Data-Parallel算法的評估損失對比，表明DiLoCo在更大規(guī)模下整體表現(xiàn)出色。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

發(fā)現(xiàn)2：單副本DiLoCo當(dāng)副本數(shù)M=1時，DiLoCo在不同模型規(guī)模下獲得的評估損失都比Data-Parallel低。下圖3展示了當(dāng)副本數(shù)M=1時，DiLoCo與Data-Parallel在不同模型規(guī)模（35M、550M、1.3B、2.4B）和全局批大小（以token計，從2^16到2^20）下的評估損失和HellaSwag零樣本準(zhǔn)確率對比。圖(a)顯示DiLoCo的評估損失始終低于Data-Parallel，且差距隨著批大小增加而擴(kuò)大；圖(b)表明DiLoCo在HellaSwag零樣本準(zhǔn)確率上也優(yōu)于Data-Parallel，趨勢相似。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

在幾乎所有情況下，在M=1時，DiLoCo不僅評估損失更低，下游任務(wù)的零樣本準(zhǔn)確率也比Data-Parallel高。而且，DiLoCo(M=1)的表現(xiàn)對批大�。╞atch size）的穩(wěn)定性更強(qiáng)：把批大小翻倍或翻四倍，對Data-Parallel的性能影響很大，但對DiLoCo(M=1)幾乎沒啥影響，圖3里畫得很清楚。

發(fā)現(xiàn)3：批大小對性能的影響DiLoCo提高了最佳批大小，而且最佳全局批大小隨著副本數(shù)M的增加而變大。這意味著DiLoCo相比Data-Parallel改善了橫向擴(kuò)展能力。雖然DiLoCo在批大小M>1時，挑選所有超參數(shù)中最好的實驗結(jié)果，評估損失往往略遜一籌，但它在批大小方面的表現(xiàn)顯著提升。Data-Parallel和DiLoCo(M=1)在小批時表現(xiàn)都不錯，但隨著批大小增加，Data-Parallel的性能下降很快。相比之下，不管批大小M是多少，DiLoCo的表現(xiàn)對批大小都穩(wěn)定得多。下圖4展示了評估損失的例子，結(jié)果表明，對于所有M值，DiLoCo的最佳批大小都比Data-Parallel更大，且隨著M的增加，DiLoCo的最佳批大小進(jìn)一步增大。例如，在550M模型中，Data-Parallel的評估損失在批大小較小時最低，而DiLoCo在批大小更大時表現(xiàn)更優(yōu)，類似趨勢在1.3B和2.4B模型中也成立。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

下圖5展示了在HellaSwag數(shù)據(jù)集上的零樣本準(zhǔn)確率。結(jié)果顯示即使在較小的模型規(guī)模下，DiLoCo在M=2時也能在更大的全局批大小下實現(xiàn)更高的準(zhǔn)確率。例如在550M模型中，DiLoCo的準(zhǔn)確率曲線在批大小增加時優(yōu)于Data-Parallel；1.3B和2.4B模型也表現(xiàn)出類似趨勢。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

發(fā)現(xiàn)4：外部學(xué)習(xí)率最佳外部學(xué)習(xí)率基本上與模型規(guī)模N無關(guān)，但會隨著副本數(shù)M的變化而變化。一個重要結(jié)果是，DiLoCo在水平擴(kuò)展上更自然。在所有情況下，token預(yù)算D，只跟模型規(guī)模N有關(guān)。這意味著如果用4倍大的批大小，訓(xùn)練步數(shù)會減少到1/4。對DiLoCo來說，這依然能保持不錯的性能，還能一次性用更多資源，縮短總訓(xùn)練時間。而Data-Parallel似乎更依賴串行訓(xùn)練。這種訓(xùn)練時間的減少還因為通信量降低而加倍明顯。下圖6展示了理想的訓(xùn)練時間（wall-clock time），模擬不同網(wǎng)絡(luò)帶寬下的情況�？梢钥吹剑珼iLoCo對較大批大小的容忍度使其能夠顯著更快地實現(xiàn)與Data-Parallel相當(dāng)?shù)男阅軗p失，而且在低帶寬設(shè)置中這種效果更為明顯。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

發(fā)現(xiàn)5：外部學(xué)習(xí)率如下圖7所示，對于足夠大的模型（N≥3.35億參數(shù)），每個M的最佳η是固定的。M越大，η似乎也越大。這跟之前聯(lián)邦學(xué)習(xí)的研究一致：外層學(xué)習(xí)率應(yīng)該隨著客戶端數(shù)量增加而增加。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

實際上，外部學(xué)習(xí)率僅取決于DiLoCo模型的數(shù)量以及同步的頻率。也就是說，雖然最優(yōu)的內(nèi)層學(xué)習(xí)率會隨模型規(guī)模N變化，但DiLoCo的最優(yōu)外層學(xué)習(xí)率η不依賴N，只跟M有關(guān)。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

DiLoCo同樣有助于解決過度訓(xùn)練的問題！過度訓(xùn)練可能會相當(dāng)昂貴，但是增加了批大小并減少了通信量意味著，通常可以在相同的時間內(nèi)用DiLoCo進(jìn)行4倍的過度訓(xùn)練（OT），而使用數(shù)據(jù)并行訓(xùn)練只能進(jìn)行1倍的過度訓(xùn)練。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

論文中還有更多內(nèi)容。其中包括Scaling law本身，以及甚至提供了預(yù)測最優(yōu)超參數(shù)的方法。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

Scaling law表明，對于參數(shù)超過20億的模型，使用2個模型的DiLoCo優(yōu)于數(shù)據(jù)并行方法更多實驗細(xì)節(jié)和內(nèi)容，請參閱原文。Chinchilla將死？AI 3萬億美元的岔路

DiLoCo使得調(diào)整超參數(shù)和訓(xùn)練模型變得更加簡單。但問題在于，AI模型本身「換湯不換藥」還是Chinchilla那一套。畢竟，過去的預(yù)訓(xùn)練Scaling Law已進(jìn)入尾聲，而新的AI Scaling Law與訓(xùn)練無關(guān)。如今，隨著新型「推理模型」的興起，一個問題浮出水面：如果Chinchilla死了，AI未來會怎樣？大約5年前，OpenAI研究員發(fā)現(xiàn)，將更多的算力、數(shù)據(jù)投入到大規(guī)模訓(xùn)練中，可以顯著提升AI模型的性能。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

幾年后，谷歌研究人員更進(jìn)一步，通過構(gòu)建名為「Chinchilla」的模型證明，增加數(shù)據(jù)量能帶來更好的效果。這種「計算+數(shù)據(jù)」的組合催生了如今的巨型模型，比如GPT-4。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

論文地址：https://arxiv.org/pdf/2203.15556然而，這種策略的成功依賴于巨大的前期投入。海量數(shù)據(jù)被塞進(jìn)復(fù)雜且耗能的預(yù)訓(xùn)練過程，科技大廠瘋狂建造數(shù)據(jù)中心，塞滿了英偉達(dá)GPU。但問題來了：這種砸錢砸數(shù)據(jù)的模式，還能走多遠(yuǎn)？巴克萊資本的頂級分析師Ross Sandler指出，未來可能面臨兩種截然不同的情景：一是，「Chinchilla」繼續(xù)主導(dǎo)，巨額算力和數(shù)據(jù)投入持續(xù)攀升；二是，「停滯」替代方案，新型技術(shù)和模型以更少的資源實現(xiàn)更強(qiáng)性能。

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

這兩種路徑的資本支出差距高達(dá)3萬億美元以上，足以影響整個行業(yè)的走向。

「推理模型」崛起推動這一潛在變革的，是「推理模型」的興起。OpenAI的o1、o3、DeepSeek R1、谷歌Gemini 2.0 Flash Thinking等新模型，采用了一種名為「測試時計算」（test-time compute）的技術(shù)。這種方法將復(fù)雜查詢分解為小任務(wù)，逐一處理，不再依賴長時間的預(yù)訓(xùn)練。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

相較于傳統(tǒng)模型，推理模型可能響應(yīng)稍慢，但它們輸出更準(zhǔn)確，運行成本也更低。更重要的是，它們擺脫了對大規(guī)模預(yù)訓(xùn)練的依賴。DeepSeek R1甚至展示了一種可能：開源推理模型能在短時間內(nèi)實現(xiàn)性能飛躍。這意味著，AI公司可能不再需要花費18-24個月和巨資去打造下一個「巨無霸」模型。此外，混合專家模型（MoE）也成為被廣泛采用的技術(shù)，通過訓(xùn)練多個小型「專家」模型，讓它們與大模型協(xié)同工作，只在需要時調(diào)用部分算力。這種方式，一步降低了基礎(chǔ)設(shè)施需求。

Chinchilla何去何從？過去五年，Chinchilla策略推動了AI供應(yīng)鏈的繁榮，許多公司股價因此飆升。但如今，它的可持續(xù)性正受到質(zhì)疑。克萊分析師指出，「隨著投入成本激增，比如一次預(yù)訓(xùn)練耗資100億美元，性能增益卻可能越來越小，這種模式的性價比正在下降」。谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路

更嚴(yán)峻的是，訓(xùn)練數(shù)據(jù)可能正在枯竭。高質(zhì)量數(shù)據(jù)的供應(yīng)有限，而AI對數(shù)據(jù)的「胃口」卻越來越大。如果沒有足夠的「食物」，Chinchilla還能活多久？甚至，業(yè)內(nèi)一些大佬預(yù)測，像OpenAI這樣的公司，可能會在GPT-5之后停止無休止的規(guī)模Scaling。面對數(shù)據(jù)枯竭，AI行業(yè)將希望寄托于「合成數(shù)據(jù)」。研究者認(rèn)為，這種「自給自足」的反饋循環(huán)能讓模型不斷自我進(jìn)化，推動技術(shù)邁向新高度。Chinchilla們本質(zhì)上可以通過「自我喂養(yǎng)」來生存�！溉绻鸄I行業(yè)在合成數(shù)據(jù)和遞歸自我改進(jìn)方面取得突破，那么我們將重新走上Chinchilla scaling路徑，計算需求將繼續(xù)迅速上升」。Chinchilla死了嗎？這個問題，AI市場會給出最終答案。如果推理模型、MoE技術(shù)成熟，AI可能走向輕量化，高效率的未來，數(shù)萬億美金的基礎(chǔ)設(shè)施投資，或許不再必要。但，如果「合成數(shù)據(jù)」讓Chinchilla重?zé)ㄉ鷻C(jī)，算力競賽將卷土重來。無論哪種未來到來，AI的演進(jìn)都在重塑整個世界。參考資料：https://arxiv.org/pdf/2503.09799https://x.com/MatharyCharles/status/1900593694216253827https://www.businessinsider.com/ai-chinchilla-openai-google-anthropic-compute-demand-capex-scaling-laws-2025-3

相關(guān)熱詞： google transformer 新智元 diloco 算法

上一篇：AI Agent如何重塑未來智能家居的體驗 | 動察

下一篇：文心4.5和X1大模型已至，誰說百度不發(fā)“一言”？

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-16 15:12:21 瀏覽：128次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-16 15:12:21 瀏覽：128次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

谷歌重磅推出全新Scaling Law，搶救Transformer！3萬億美元AI面臨岔路
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-16 15:12:21 瀏覽：128次