自此前發(fā)布了 DeepSeek-V3 和 R1-Preview-Lite 引發(fā)全網(wǎng)關(guān)注之后,DeepSeek 又發(fā)布了一項重磅成果。
1 月 20 日,DeepSeek 發(fā)布了全新的開源推理大模型 DeepSeek-R1,在數(shù)學、編程和推理等多個任務上達到了與 OpenAI o1 相當?shù)谋憩F(xiàn)水平,同時將應用程序編程接口(API,Application Programming Interface)調(diào)用成本降低了 90-95%。
(來源:DeepSeek)
更重要的是,這一模型的實驗性版本 DeepSeek-R1-Zero 證明了僅通過強化學習(RL,Reinforcement Learning),無監(jiān)督式微調(diào)(SFT,Supervised Fine-Tun-ing),大模型也可以有強大的推理能力。
英偉達高級研究科學家 Jim Fan 評價道:“我們正生活在一個特殊的時代:一家非美國公司在真正踐行著 OpenAI 最初的使命開展真正開放的前沿研究,為所有人賦能。這看似不合常理,但最富戲劇性的往往最可能發(fā)生。DeepSeek-R1 不僅開源了大量模型,還公開了所有訓練細節(jié)。
他們可能是首個展示出強化學習飛輪效應,并實現(xiàn)持續(xù)增長的開源項目。影響力的展現(xiàn)不一定要靠‘內(nèi)部實現(xiàn)了 ASI’或‘草莓計劃’這樣神秘的名號,有時候直接公開原始算法和學習曲線同樣可以產(chǎn)生深遠影響。”
圖丨相關(guān)推文(來源:X)
用 1/30 的價格比肩 OpenAI o1
性能評估結(jié)果顯示,通過純強化學習方法訓練得到的 DeepSeek-R1-Zero 以及在此基礎(chǔ)上改進的 DeepSeek-R1,在 2024 年 AIME(美國數(shù)學邀請賽)測試中分別取得了 71.0% 和 79.8% 的成績,與 OpenAI o1 的 79.2% 水平相當。
在 MATH-500 基準測試中,DeepSeek-R1 更是以 97.3% 的成績略微超越了 o1 的 96.4%。在編程領(lǐng)域,該模型在 Codeforces 平臺上獲得了 2029 的評分,超過了 96.3% 的人類程序員,與 o1-1217 的 2061 評分僅有小幅差距。
在通用知識評測方面,DeepSeek-R1 同樣表現(xiàn)出色。在 MMLU(大規(guī)模多任務語言理解)測試中達到 90.8% 的準確率,雖然略低于 o1 的 91.8%,但顯著優(yōu)于其他開源模型。
在 MMLU-Pro 上取得 84.0% 的準確率,在 GPA Diamond 測試中達到 71.5% 的通過率。在創(chuàng)意寫作和問答任務上,模型在 AlpacaEval 2.0 中獲得了 87.6% 的控長勝率,在 ArenaHard 評測中達到 92.3% 的勝率。
圖丨 DeepSeek-R1 與其他代表性模型的比較(來源:DeepSeek)
在 API 定價方面,DeepSeek 展現(xiàn)出極強的性價比優(yōu)勢。其 API 服務對輸入 token 收取 0.55 美元/百萬,輸出 token 收取 2.19 美元/百萬,而 OpenAI o1 的收費分別為 15 美元/百萬和 60 美元/百萬,價格差距接近 30 倍。
純強化學習就能實現(xiàn)強大的推理能力
除了性能方面的出色,R1 的開發(fā)過程也具有多處重要創(chuàng)新,首先是純強化學習訓練策略的突破。
傳統(tǒng)觀點認為,必須先通過大量標注數(shù)據(jù)進行 SFT,才能讓模型具備基礎(chǔ)能力,之后才考慮使用 RL 進行能力提升。然而 DeepSeek 這項研究發(fā)現(xiàn),大模型可以完全依靠強化學習獲得強大的推理能力,無需任何監(jiān)督式微調(diào)。
研究團隊首先開發(fā)了實驗性的 R1-Zero 版本。他們選擇直接在 DeepSeek-V3-base 模型上應用強化學習,完全拋開了傳統(tǒng)的監(jiān)督式微調(diào)環(huán)節(jié)。這個大膽的嘗試產(chǎn)生了驚人的效果:在完全沒有人工標注數(shù)據(jù)的情況下,模型展現(xiàn)出了持續(xù)的自我進化能力。
以 AIME 2024 數(shù)學測試為例,模型的 pass@1 準確率從最初的 15.6% 開始,隨著訓練的深入不斷提升。
每一輪強化學習都讓模型變得更加智能,最終達到了 71.0% 的準確率,使用多數(shù)投票(majority voting)機制后更是提升至 86.7%,已經(jīng)接近 o1-0912 的水平。
圖丨 DeepSeek-R1-Zero 在訓練期間的 AIME 準確率(來源:DeepSeek)
在這個過程中,研究人員觀察到了一個有趣的現(xiàn)象:模型不僅在數(shù)字上有進步,更在行為模式上發(fā)生了質(zhì)的飛躍。
它開始表現(xiàn)出類似人類的思維特征,會主動反思和驗證自己的推理步驟。當發(fā)現(xiàn)當前的解題思路可能存在問題時,模型會停下來,重新審視之前的推理過程,然后嘗試尋找新的解決方案。
這種行為完全是自發(fā)產(chǎn)生的,而不是通過人工設計實現(xiàn)的,研究人員將這一行為稱之為模型的“頓悟時刻”(aha moment)。這表明模型可能已經(jīng)具備了某種程度的“元認知”能力,能夠?qū)ψ陨淼乃季S過程進行監(jiān)控和調(diào)整。
圖丨 DeepSeek-R1-Zero 中間版本的一個“頓悟時刻”(來源:DeepSeek)
支撐這些突破的核心是團隊開發(fā)的 GRPO(Group Relative Policy Optimization)算法框架。傳統(tǒng)方法通常需要維護一個與主模型規(guī)模相當?shù)?Critic 網(wǎng)絡來估計狀態(tài)值,這不僅增加了計算開銷,還容易導致訓練不穩(wěn)定。而 GRPO 則另辟蹊徑,移除了規(guī)模龐大的 Critic 網(wǎng)絡,通過群組相對優(yōu)勢估計來優(yōu)化策略網(wǎng)絡。
當處理一個推理問題時,算法首先從當前策略 πθold 中采樣多個輸出 {o1, o2, ..., oG}。這些輸出共同構(gòu)成一個參考組,然后通過最大化以下目標來優(yōu)化策略模型,其表達如下:
其中 Ai 表示輸出 oi 的優(yōu)勢值,通過歸一化組內(nèi)獎勵計算得到:
至于其獎勵機制則包含三個互補的組件:評估輸出正確性的準確性獎勵、確保推理過程結(jié)構(gòu)化的格式獎勵,以及處理語言一致性的獎勵信號。這三種獎勵通過合理的權(quán)重組合,共同指導模型向著期望的方向演進。
例如,在數(shù)學問題中,準確性獎勵來自答案的驗證結(jié)果,而格式獎勵則確保模型提供清晰的解題步驟。
訓練模板則為整個學習過程提供了結(jié)構(gòu)化的框架。它采用“思考-回答”的雙階段設計,要求模型首先在
這種設計不僅使模型的思維過程變得可追蹤,還為獎勵計算提供了明確的評估基準。無論是處理數(shù)學推理還是開放性問答,這個模板都展現(xiàn)出了良好的適應性。
這三個組成部分緊密配合,共同構(gòu)建了一個有效的學習系統(tǒng)。通過 GRPO 框架的梯度估計,由獎勵機制提供的清晰學習信號,以及訓練模板確保的結(jié)構(gòu)化輸出,模型能夠持續(xù)提升其推理能力,最終達到接近人類專家的水平。
冷啟動下的強化學習
盡管 R1-Zero 在技術(shù)上取得了突破性進展,但它還存在一些問題,例如,DeepSeek-R1-Zero 在可讀性差和語言混合方面存在局限。為了進一步提升模型性能,研究團隊繼續(xù)探索了 DeepSeek-R1,開發(fā)出一個完整的四階段訓練流程。
首先是冷啟動階段。團隊收集了數(shù)千個高質(zhì)量樣本用于初步微調(diào),這些樣本來源廣泛:一部分通過 few-shot 提示獲取,包含詳細的解題思路;另一部分來自 R1-Zero 的優(yōu)質(zhì)輸出,經(jīng)過人工篩選和標注;還有一部分是專門設計的復雜推理案例。這個階段的關(guān)鍵是確保數(shù)據(jù)質(zhì)量而不是數(shù)據(jù)量,為后續(xù)的強化學習奠定良好基礎(chǔ)。
第二階段是面向推理的強化學習。這個階段繼承了 R1-Zero 的訓練框架,但做了重要改進。首先是引入了語言一致性獎勵,這個設計源于一個實際問題:在多語言環(huán)境下,模型容易在推理過程中混用不同語言。通過計算目標語言單詞的比例作為獎勵信號,有效地解決了這個問題。
同時,團隊對推理密集型任務進行了特別優(yōu)化。在數(shù)學問題中,他們設計了基于規(guī)則的驗證機制;在編程任務中,則使用自動化測試來評估代碼質(zhì)量。這些針對性的優(yōu)化顯著提升了模型在專業(yè)領(lǐng)域的表現(xiàn)。
第三階段是拒絕采樣與監(jiān)督微調(diào)。這個階段的創(chuàng)新之處在于使用已訓練的 RL 模型來生成新的訓練數(shù)據(jù)。團隊采用了一個重要的篩選標準:只保留那些不僅答案正確,而且推理過程清晰的樣本。這確保了數(shù)據(jù)的高質(zhì)量,同時也保持了模型的推理能力。
在這個階段,訓練范圍也擴展到了更廣泛的領(lǐng)域,包括寫作、問答、角色扮演等。這種擴展不是簡單的任務堆積,而是經(jīng)過精心設計的能力構(gòu)建過程。團隊發(fā)現(xiàn),通用領(lǐng)域的訓練能夠反過來促進模型的推理能力,形成正向循環(huán)。
最后一個階段是全場景強化學習。這個階段的特點是將不同類型的獎勵機制有機結(jié)合:對于數(shù)學、編程等結(jié)構(gòu)化任務,使用基于規(guī)則的明確獎勵;對于開放式問答、創(chuàng)意寫作等主觀任務,則采用基于模型的評估獎勵。這種靈活的獎勵機制使模型能夠在保持推理能力的同時,提升通用任務的表現(xiàn)。
在整個訓練過程中,團隊還發(fā)現(xiàn)了一個重要現(xiàn)象:大模型通過強化學習獲得的推理能力具有強大的可遷移性。他們使用 R1 生成的 80 萬條訓練數(shù)據(jù)對不同規(guī)模的模型進行知識蒸餾,結(jié)果令人意外。
圖丨 DeepSeek-R1 蒸餾模型與其他可比模型在推理相關(guān)基準上的比較(來源:DeepSeek)
最小的 Qwen-1.5B 模型在 AIME 上也達到了 28.9% 的準確率,這個成績已經(jīng)超過了一些大得多的基礎(chǔ)模型。中等規(guī)模的 Qwen-7B 達到了 55.5% 的準確率,這意味著一個僅有 70 億參數(shù)的模型就能解決相當復雜的數(shù)學問題。
而 Qwen-32B 在 AIME 上更是達到了 72.6% 的準確率,在 MATH-500 上達到了 94.3%,這些成績都接近于原始的 R1 模型。這一發(fā)現(xiàn)具有重要的實踐意義:它證明了我們可以通過知識蒸餾的方式,將大模型的高級能力有效地轉(zhuǎn)移到更小的模型中,這為 AI 技術(shù)的實際應用提供了一條可行的路徑。
目前,DeepSeek 已將模型完整開源,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六個蒸餾模型(參數(shù)規(guī)模分別為 1.5B、7B、8B、14B、32B 和 70B)。這些模型均采用 MIT 許可(MIT License)發(fā)布在 Hugging Face 平臺上(地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb),可以免費商用、允許任意修改和衍生開發(fā)、支持進行二次蒸餾訓練。
參考資料:
1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/
3.https://x.com/DrJimFan/status/1881353126210687089
運營/排版:何晨龍