展會(huì)信息港展會(huì)大全

訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-08 08:05:35   瀏覽:158次  

導(dǎo)讀:機(jī)器之心報(bào)道編輯:澤南、陳陳跟大模型說(shuō):要多想。今年 1 月,DeepSeek R1 引爆了全球科技界,它創(chuàng)新的方法,大幅簡(jiǎn)化的算力需求撼動(dòng)了英偉達(dá)萬(wàn)億市值,更引發(fā)了全行業(yè)的反思。在通往 AGI(通用人工智能)的路上,我們現(xiàn)在不必一味擴(kuò)大算力規(guī)模,更高效的新方法帶來(lái)了更多的創(chuàng)新可能。最近一段時(shí)間,全世界的科技公司、研究團(tuán)隊(duì)都在嘗試復(fù)現(xiàn) DeepSeek,但如果這個(gè)時(shí)候有人說(shuō)「 ......

機(jī)器之心報(bào)道編輯:澤南、陳陳跟大模型說(shuō):要多想。

今年 1 月,DeepSeek R1 引爆了全球科技界,它創(chuàng)新的方法,大幅簡(jiǎn)化的算力需求撼動(dòng)了英偉達(dá)萬(wàn)億市值,更引發(fā)了全行業(yè)的反思。在通往 AGI(通用人工智能)的路上,我們現(xiàn)在不必一味擴(kuò)大算力規(guī)模,更高效的新方法帶來(lái)了更多的創(chuàng)新可能。最近一段時(shí)間,全世界的科技公司、研究團(tuán)隊(duì)都在嘗試復(fù)現(xiàn) DeepSeek,但如果這個(gè)時(shí)候有人說(shuō)「我還能大幅改進(jìn) AI 的推理效率」,你會(huì)怎么想?訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

s1 論文作者,斯坦福大學(xué)在讀博士 Niklas Muennighoff 表示,DeepSeek r1 令人興奮,但其缺少 OpenAI 的測(cè)試時(shí)間擴(kuò)展圖并且需要大量數(shù)據(jù)。我們推出的 s1 僅使用 1K 樣本和簡(jiǎn)單的測(cè)試時(shí)間干預(yù)即可重現(xiàn) o1 的預(yù)覽擴(kuò)展和性能。這個(gè)新方法叫 s1。本周,斯坦福大學(xué)、華盛頓大學(xué)等研究機(jī)構(gòu)嘗試了最簡(jiǎn)化實(shí)現(xiàn)測(cè)試時(shí)間擴(kuò)展(test-time scaling)的方法,僅讓模型訓(xùn)練 1000 個(gè)問(wèn)題就獲得了超越 o1 的強(qiáng)推理性能。測(cè)試時(shí)間擴(kuò)展是一種有前途的語(yǔ)言建模新方法,它使用額外的測(cè)試時(shí)間計(jì)算來(lái)提高模型性能。此前,OpenAI 的 o1 模型展示了這種能力,但并未公開(kāi)分享其方法。很多工作都在嘗試復(fù)現(xiàn) o1,這些嘗試包含蒙特卡洛樹(shù)搜索、多智能體等等。今年 1 月開(kāi)源的 DeepSeek R1 成功實(shí)現(xiàn)了 o1 級(jí)別的性能,它是在數(shù)百萬(wàn)個(gè)樣本上通過(guò)多訓(xùn)練階段強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的。在 s1 的新工作中,研究人員尋求最簡(jiǎn)單的方法來(lái)實(shí)現(xiàn)測(cè)試時(shí)間擴(kuò)展。他們構(gòu)建了一個(gè)小型數(shù)據(jù)集 s1K,其中包含 1000 個(gè)問(wèn)題,并根據(jù)三個(gè)標(biāo)準(zhǔn)(難度、多樣性和質(zhì)量)與推理軌跡進(jìn)行配對(duì)。在此基礎(chǔ)上,研究人員開(kāi)發(fā)了「預(yù)算強(qiáng)制」來(lái)控制測(cè)試時(shí)間計(jì)算,方法是強(qiáng)制終止模型的思考過(guò)程,或者在模型試圖結(jié)束時(shí)多次將「等待」附加到模型的生成中以延長(zhǎng)思考。這有可能會(huì)導(dǎo)致模型仔細(xì)檢查其答案,修復(fù)其不正確的推理步驟。在 s1K 上對(duì) Qwen2.5-32B-Instruct 語(yǔ)言模型進(jìn)行監(jiān)督微調(diào)(16 塊 H100 GPU,26 分鐘)并為其設(shè)定預(yù)算強(qiáng)制后,新模型 s1-32B 在競(jìng)賽數(shù)學(xué)問(wèn)題上的表現(xiàn)比 o1-preview 高出 27%(MATH 和 AIME24)。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

s1 性能與其他大模型的對(duì)比。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

論文:《s1: Simple test-time scaling》

論文鏈接:https://arxiv.org/abs/2501.19393

項(xiàng)目鏈接:https://github.com/simplescaling/s1

測(cè)試時(shí)間擴(kuò)展本文將測(cè)試時(shí)間擴(kuò)展方法分為兩類:

序列擴(kuò)展,即后續(xù)計(jì)算依賴于先前的計(jì)算結(jié)果;

并行擴(kuò)展,即計(jì)算獨(dú)立運(yùn)行。

本文專注于序列擴(kuò)展,因?yàn)橹庇^上其具有更好的擴(kuò)展性,因?yàn)楹罄m(xù)計(jì)算可以基于中間結(jié)果進(jìn)行,從而實(shí)現(xiàn)更深層次的推理和迭代優(yōu)化。此外,本文還提出了新的序列擴(kuò)展方法以及對(duì)其進(jìn)行基準(zhǔn)測(cè)試的方式。預(yù)算強(qiáng)制(Budget forcing)。本文提出了一種簡(jiǎn)單的解碼時(shí)間(decoding-time )干預(yù)方法,通過(guò)在測(cè)試時(shí)強(qiáng)制設(shè)定最大或最小思考 token 數(shù)量來(lái)實(shí)現(xiàn)。圖 3 為該方法的一個(gè)示例展示,說(shuō)明了這種簡(jiǎn)單的方法可以引導(dǎo)模型得出更好的答案。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

具體來(lái)說(shuō),本文通過(guò)簡(jiǎn)單地追加思考結(jié)束(end-of-thinking)token 分隔符和「Final Answer:」來(lái)強(qiáng)制設(shè)定最大 token 數(shù)量,從而提前退出思考階段,使模型提供其當(dāng)前的最佳答案。為了強(qiáng)制設(shè)定最小 token 數(shù)量,本文抑制思考結(jié)束 token 分隔符的生成,并選擇性地在模型的當(dāng)前推理軌跡后追加字符串「Wait」,以鼓勵(lì)模型反思其當(dāng)前生成的內(nèi)容;。本文用以下方法對(duì)預(yù)算強(qiáng)制進(jìn)行基準(zhǔn)測(cè)試:(I)條件長(zhǎng)度控制方法,該方法依賴于在提示中告訴模型它應(yīng)該生成多長(zhǎng)時(shí)間。本文按粒度將它們分組為(a)token 條件控制,在提示中指定思考 token 的上限;(b)步驟條件控制,指定思考步驟的上限;(c)類條件控制,編寫兩個(gè)通用提示,告訴模型思考一小段時(shí)間或很長(zhǎng)一段時(shí)間。(II)拒絕采樣,即采樣直到生成符合預(yù)定的計(jì)算預(yù)算。實(shí)驗(yàn)在訓(xùn)練階段。本文使用 s1K 數(shù)據(jù)集對(duì) Qwen2.5-32B-Instruct 進(jìn)行監(jiān)督微調(diào),以獲得本文的模型 s1-32B。微調(diào)是在 16 臺(tái) NVIDIA H100 GPU 上使用 PyTorch FSDP 進(jìn)行的,耗時(shí) 26 分鐘。評(píng)估。本文采用了三個(gè)推理基準(zhǔn)進(jìn)行評(píng)估。

AIME24 包含 30 個(gè)問(wèn)題,這些問(wèn)題來(lái)自 2024 年 1 月 31 日至 2 月 1 日舉行的美國(guó) AIME 數(shù)學(xué)競(jìng)賽。AIME 用來(lái)測(cè)試模型在算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等領(lǐng)域的能力;

MATH500 是一個(gè)包含不同難度競(jìng)賽數(shù)學(xué)問(wèn)題的基準(zhǔn);

GPQA Diamond 包含 198 個(gè)來(lái)自生物學(xué)、化學(xué)和物理學(xué)的博士級(jí)科學(xué)問(wèn)題。

其他模型。本文將 s1-32B 與以下模型進(jìn)行基準(zhǔn)測(cè)試對(duì)比:OpenAI o1 閉源系列模型;DeepSeek r1 開(kāi)源模型;Qwen 的 QwQ-32B-preview 等模型。值得一提的是,s1-32B 是完全開(kāi)源的,包括權(quán)重、推理數(shù)據(jù)和代碼。性能測(cè)試時(shí)間擴(kuò)展。圖 1 展示了 s1-32B 在使用預(yù)算強(qiáng)制技術(shù)后,隨著測(cè)試時(shí)間計(jì)算資源的增加,性能的變化情況。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

圖 4(左)擴(kuò)展了圖 1(中)的圖表,結(jié)果顯示雖然本文可以通過(guò)預(yù)算強(qiáng)制技術(shù)和更多的測(cè)試時(shí)計(jì)算資源提升 AIME24 的性能,但最終在六倍計(jì)算量時(shí)趨于平緩。可以得出過(guò)于頻繁地抑制思考結(jié)束 token 分隔符可能會(huì)導(dǎo)致模型陷入循環(huán)重復(fù),而不是持續(xù)推理。圖 4(右)展示了在對(duì) Qwen2.5-32B-Instruct 進(jìn)行 1,000 個(gè)樣本的訓(xùn)練,從而生成 s1-32B,并為其配備簡(jiǎn)單的預(yù)算強(qiáng)制技術(shù)后,它進(jìn)入了一種不同的擴(kuò)展范式。通過(guò)多數(shù)投票在基礎(chǔ)模型上擴(kuò)展測(cè)試時(shí)間計(jì)算資源無(wú)法趕上 s1-32B 的性能,這驗(yàn)證了這一直覺(jué),即序列擴(kuò)展比并行擴(kuò)展更有效。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

圖 5 提供了 s1-32B 的生成示例。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

樣本效率。圖 2(右)和表 1 將 s1-32B 與其他模型進(jìn)行了比較。結(jié)果顯示, s1-32B 是樣本效率最高的開(kāi)放數(shù)據(jù)推理模型。盡管只在額外的 1000 個(gè)樣本上進(jìn)行訓(xùn)練,但它的表現(xiàn)明顯優(yōu)于基礎(chǔ)模型(Qwen2.5-32B-Instruct)。r1-32B 在僅使用 SFT 的情況下表現(xiàn)出比 s1-32B 更好的性能,但前者是在 800 倍以上的推理樣本上進(jìn)行訓(xùn)練的。僅用 1000 個(gè)樣本是否能達(dá)到這個(gè)性能還是一個(gè)懸而未決的問(wèn)題。s1-32B 在 AIME24 上幾乎與 Gemini 2.0 Thinking 相匹配,因?yàn)?s1-32B 是從 Gemini 2.0 中蒸餾出來(lái)的,這表明本文的蒸餾程序可能是有效的。訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

訓(xùn)練1000樣本就能超越o1,李飛飛等人畫(huà)出AI擴(kuò)展新曲線

最后,本文還進(jìn)行了一系列消融實(shí)驗(yàn),感興趣的讀者,可以查看原論文,了解更多內(nèi)容。THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

贊助本站

相關(guān)熱詞: openai 李飛飛 通用人工智能

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港