還記得 OpenAI 前首席科學(xué)家伊利亞蘇茨克維(Ilya Sutskever)在 2024 年神經(jīng)信息處理系統(tǒng)大會(NeurIPS,Neural Information Processing Systems)上的“預(yù)訓(xùn)練即將終結(jié)”發(fā)言嗎?他之所以這樣說是因為:互聯(lián)網(wǎng)上所有有用數(shù)據(jù)都將被用來訓(xùn)練大模型。
這個過程也被稱為預(yù)訓(xùn)練,包括 ChatGPT 等在內(nèi)的大模型均要經(jīng)過這一步驟才能出爐”。
不過,由于現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)或?qū)⒈幌拇M,因此伊利亞表示這個時代“無疑將結(jié)束”。
但是,大多數(shù)業(yè)界人士并未因此感到恐慌,這是為什么?答案可以先從最近火到大洋彼岸的中國大模型 DeepSeek V3 說起。
圖 | 查理斯內(nèi)爾(Charlie Snell)積極關(guān)注 DeepSeek V3 動態(tài)(來源:X)
曾在谷歌旗下公司 DeepMind 實習(xí)過的美國加州大學(xué)伯克利分校博士生查理斯內(nèi)爾(Charlie Snell)非常關(guān)注 DeepSeek V3,他不僅在 X 上轉(zhuǎn)發(fā)了 DeepSeek V3 的相關(guān)內(nèi)容,還專門問了問 OpenAI 內(nèi)部人士對于 DeepSeek V3 的看法。
OpenAI 內(nèi)部人士告訴斯內(nèi)爾,DeepSeek 團隊可能是第一個復(fù)現(xiàn) OpenAI o1 的團隊,但是 OpenAI 的人也不知道 DeepSeek 是如何實現(xiàn)快速復(fù)現(xiàn)的。
美國科技博客 TechCrunch 的一份報告也顯示,DeepSeek 可能使用了 OpenAI o1 的輸出來訓(xùn)練自己的 AI 模型,更重要的是 DeepSeek V3 在行業(yè)基準測試中表現(xiàn)也十分出色。
這說明,如果 OpenAI o1 模型的輸出優(yōu)于該公司的 GPT-4 模型,那么理論上 o1 的輸出內(nèi)容就能被用于訓(xùn)練新的大模型。
比如說:假設(shè) o1 在特定的 AI 基準上獲得 90% 的分數(shù),如果將這些答案輸入 GPT-4,那么它的分數(shù)也能達到 90%。
假如你有大量的提示詞,那么就能從 o1 中獲得一堆數(shù)據(jù),從而創(chuàng)建大量新的訓(xùn)練示例(數(shù)據(jù)),并能基于此預(yù)訓(xùn)練一個新模型,或者繼續(xù)訓(xùn)練 GPT-4 從而讓它變得更好。
因此,斯內(nèi)爾懷疑 AI 推理模型的輸出已經(jīng)被用于訓(xùn)練新模型,并認為這些合成數(shù)據(jù)很有可能比互聯(lián)網(wǎng)上的已有數(shù)據(jù)更好。
圖 | 查理斯內(nèi)爾(Charlie Snell)
事實上,2024 年 8 月,當(dāng)斯內(nèi)爾還在 DeepMind 實習(xí)的時候,他和合作者發(fā)了一篇題為《擴展模型測試時間計算比擴展模型參數(shù)更有效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)的論文,在這篇論文中斯內(nèi)爾已經(jīng)針對“預(yù)訓(xùn)練即將終結(jié)”的問題給出了解決方案。
研究中,斯內(nèi)爾等人揭示了測試時間計算(test-time compute)這一策略的好處。測試時間計算策略,是一種通過峰值數(shù)據(jù)墻(peak-data wall)來讓大模型得到持續(xù)迭代的潛在方法。
該技術(shù)能將查詢分割成更小的任務(wù),將每個任務(wù)都變成能被大模型處理的新提示。
其中,每一步都需要運行一個新請求,在 AI 領(lǐng)域這被稱為推理階段。在一系列的推理中,問題的每個部分都能得到解決。在沒有得到正確內(nèi)容或沒有得到更好內(nèi)容之前,模型不會進入下一階段。
研究期間,斯內(nèi)爾和合作者將額外測試時間計算(additional test-time compute)的輸出用于提煉基礎(chǔ)模型,從而讓模型實現(xiàn)自我改進,借此發(fā)現(xiàn)新模型在數(shù)學(xué)任務(wù)和具有明確答案的任務(wù)中,表現(xiàn)得比之前的頂級大模型還要好。
因此,假如將這些更高質(zhì)量的輸出作為新的訓(xùn)練數(shù)據(jù),就能讓已有大模型生成更好的結(jié)果,或者直接打造出更好的大模型。
而他當(dāng)初之所以和合作者開展這項研究,也是發(fā)現(xiàn)數(shù)據(jù)供應(yīng)有限這一問題阻礙了預(yù)訓(xùn)練的繼續(xù)擴展。
他表示,如果能讓大模型使用額外的推理時間計算(extra inference-time compute)并提高其輸出,那么這就是讓它生成更好的合成數(shù)據(jù)的一種方式。這就等于開創(chuàng)了一個尋找訓(xùn)練數(shù)據(jù)的新來源,或能解決當(dāng)前的大模型預(yù)訓(xùn)練數(shù)據(jù)瓶頸問題。
(來源:arXiv)
那么,斯內(nèi)爾具體是如何開展這項研究的?研究中,斯內(nèi)爾等人針對擴展測試時間計算的不同方法進行了系統(tǒng)分析,旨在進一步提高擴展測試時間計算的效果。
在擴展測試時間計算這一方法中,最簡單的、也是此前被研究得最深入的方法便是“N 選最佳采樣”,即從基礎(chǔ)大模型中“并行”抽樣 N 個輸出,并根據(jù)學(xué)習(xí)到的驗證器或獎勵模型,選擇得分最高的輸出。
然而,這種方法并不是使用測試時間計算來改進大模型的唯一方法。為了了解擴展測試時間計算的好處,斯內(nèi)爾等人使用專門微調(diào)的 PaLM-2 模型針對難度較高的 MATH 基準開展實驗。
期間他和合作者用到了如下兩個方法:第一個方法是修改不正確的答案,第二個方法是使用基于過程的獎勵模型來驗證答案中各個步驟的正確性。
通過這兩種方法,斯內(nèi)爾等人發(fā)現(xiàn)特定測試時間計算策略的有效性在很大程度上取決于以下兩點:其一,取決于手頭特定問題的性質(zhì);其二,取決于所使用的基礎(chǔ)大模型。
針對測試時間計算擴展策略(test-time compute scaling strategy)加以改進之后,斯內(nèi)爾等人希望了解測試時間計算到底可以在多大程度上替代額外的預(yù)訓(xùn)練。
于是,他和合作者在具有額外測試時間計算的較小模型和預(yù)訓(xùn)練 14 倍大的模型之間進行了浮點運算數(shù)匹配比較。
結(jié)果發(fā)現(xiàn):無論是在簡單問題、中等難度問題還是在高難問題上,額外的測試時間計算策略都比擴展預(yù)訓(xùn)練方法更加可取。
這說明,與其只是關(guān)注擴展預(yù)訓(xùn)練,在某些情況下使用較少的計算針對小模型開展預(yù)訓(xùn)練會更有效,并且可以使用測試時間計算策略來提高模型輸出。
也就是說,擴展測試時間計算已經(jīng)比擴展預(yù)訓(xùn)練更為可取,并且隨著測試時間策略的成熟,只會取得更多的改進。
從長遠來看,這暗示著未來在預(yù)訓(xùn)練期間花費更少的浮點運算數(shù)(算力),而在推理中花費更多的浮點運算數(shù)(算力)。
(來源:arXiv)
無獨有偶,就連微軟 CEO 薩蒂亞納德拉(Satya Nadella)也表達了類似的觀點,他在近期一則視頻播客中將推理時間計算策略描述為“另一個擴展定律(scaling law)”。
納德拉認為這是一種提高大模型能力的好方法:當(dāng)進行預(yù)訓(xùn)練的時候,進行測試時間采樣之后,就能創(chuàng)建可以重新用于預(yù)訓(xùn)練的 tokens,從而能夠創(chuàng)建更強大的模型,進而運行推理。
毫無疑問,2025 年,這種方法將接受更多考驗,至于結(jié)果如何目前還需要從更多大模型身上加以驗證。
參考資料:
https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1
https://medium.com/@EleventhHourEnthusiast/scaling-llm-test-time-compute-optimally-can-be-more-effective-than-scaling-model-parameters-19a0c9fb7c44
https://arxiv.org/pdf/2408.03314
運營/排版:何晨龍