當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-07 20:37:14 瀏覽：250次

導(dǎo)讀：新智元報(bào)道編輯：alan【新智元導(dǎo)讀】1/10訓(xùn)練數(shù)據(jù)激發(fā)高級(jí)推理能力！近日，來(lái)自清華的研究者提出了PRIME，通過(guò)隱式獎(jiǎng)勵(lì)來(lái)進(jìn)行過(guò)程強(qiáng)化，提高了語(yǔ)言模型的推理能力，超越了SFT以及蒸餾等方法。Tell me and I forget, teach me and I remember, involve me and I learn.告訴我，我會(huì)忘記，教我，我會(huì)記住，讓我參與，我就能學(xué)會(huì)。本杰明富蘭克林打破數(shù)據(jù)墻，我們還能做些什么？近 ......

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

新智元報(bào)道

編輯：alan【新智元導(dǎo)讀】1/10訓(xùn)練數(shù)據(jù)激發(fā)高級(jí)推理能力！近日，來(lái)自清華的研究者提出了PRIME，通過(guò)隱式獎(jiǎng)勵(lì)來(lái)進(jìn)行過(guò)程強(qiáng)化，提高了語(yǔ)言模型的推理能力，超越了SFT以及蒸餾等方法。Tell me and I forget, teach me and I remember, involve me and I learn.

告訴我，我會(huì)忘記，教我，我會(huì)記住，讓我參與，我就能學(xué)會(huì)。

本杰明富蘭克林

打破數(shù)據(jù)墻，我們還能做些什么？

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

近日，來(lái)自清華UIUC等機(jī)構(gòu)的研究者提出了PRIME（Process Reinforcement through IMplicit REwards）：通過(guò)隱式獎(jiǎng)勵(lì)來(lái)進(jìn)行過(guò)程強(qiáng)化。

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

GitHub地址：https://github.com/PRIME-RL/PRIME

這是一種帶有過(guò)程獎(jiǎng)勵(lì)的在線RL開(kāi)源解決方案，可以提高語(yǔ)言模型的推理能力，超越了SFT（監(jiān)督微調(diào)）或者蒸餾等方法。

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

對(duì)比SFT，PRIME讓模型在重要基準(zhǔn)測(cè)試上實(shí)現(xiàn)了巨大提升：平均提高了16.7%，在AMC和AIME中都提高了20%以上。

Eurus-2-7B-PRIME與Qwen2.5-Math-7B-Instruct，使用了相同的base model（Qwen-2.5-Math-7B），但在上表的6項(xiàng)測(cè)試中，5項(xiàng)都超越了instruct版本，同時(shí)也超越了GPT-4o。

而這個(gè)成績(jī)只用了Qwen Math 1/10的數(shù)據(jù)資源（230K SFT + 150K RL）！

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

作者發(fā)布了本研究中使用的所有模型和數(shù)據(jù)，感興趣的讀者請(qǐng)見(jiàn)文后鏈接。

過(guò)程獎(jiǎng)勵(lì)模型

熱身階段（SFT）如前所述，選擇Qwen2.5-Math-7B-Base作為起點(diǎn)，然后上點(diǎn)難度，采用競(jìng)賽級(jí)別的數(shù)學(xué)和編程基準(zhǔn)，包括AIME 2024、AMC、MATH-500、Minerva Math、OlympiadBench、LeetCode和LiveCodeBench（v2）。

首先對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)，以獲得RL的入門(mén)模型（教模型學(xué)習(xí)某些推理模式）。

為此，研究人員設(shè)計(jì)了一個(gè)以動(dòng)作為中心的鏈?zhǔn)酵评砜蚣�，策略模型在每個(gè)步驟中選擇7個(gè)動(dòng)作中的一個(gè)，并在執(zhí)行每個(gè)動(dòng)作后停止。

為了構(gòu)建SFT數(shù)據(jù)集，研究者從幾個(gè)開(kāi)源數(shù)據(jù)集中收集了推理指令。

值得注意的是，對(duì)于許多具有真實(shí)答案的數(shù)據(jù)集，作者選擇將其保留用于之后的RL訓(xùn)練，目的是讓SFT和RL使用不同的數(shù)據(jù)集，以使RL中的探索多樣化，并且作者認(rèn)為在PL中真實(shí)標(biāo)簽更加重要。

作者用LLaMA-3.1-70B-Instruct來(lái)回答指令，并使用系統(tǒng)提示要求模型執(zhí)行以動(dòng)作為中心的思維鏈。

隱式PRM下面接入過(guò)程獎(jiǎng)勵(lì)模型（PRM），這里采用隱式PRM，只需要在響應(yīng)級(jí)別標(biāo)簽上訓(xùn)練ORM。

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

過(guò)程獎(jiǎng)勵(lì)模型簡(jiǎn)單理解就是對(duì)每個(gè)推理步驟進(jìn)行評(píng)分，舉個(gè)例子：

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

PRM是以這種粒度來(lái)評(píng)價(jià)響應(yīng)的。

在本文的隱式PRM中，可以使用以下方式免費(fèi)獲得過(guò)程獎(jiǎng)勵(lì)：

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

通過(guò)簡(jiǎn)單地收集響應(yīng)水平數(shù)據(jù)和訓(xùn)練ORM來(lái)獲得PRM，而無(wú)需注釋步驟標(biāo)簽。

這與ORM訓(xùn)練目標(biāo)的具體選擇無(wú)關(guān)，比如使用交叉熵?fù)p失來(lái)實(shí)例化隱式PRM，就可以替換成：

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

強(qiáng)化學(xué)習(xí)本文的目標(biāo)是廣泛利用強(qiáng)化學(xué)習(xí)（RL）來(lái)提高推理能力。針對(duì)這種資源有限的情況，作者總結(jié)了一些最佳實(shí)踐：

從Ground Truth驗(yàn)證器和高質(zhì)量數(shù)據(jù)開(kāi)始：作者進(jìn)行了嚴(yán)格的數(shù)據(jù)收集和清理，以獲得可驗(yàn)證的RL數(shù)據(jù)，并發(fā)現(xiàn)僅使用結(jié)果驗(yàn)證器足以構(gòu)建強(qiáng)大的基線。

作者比較了不同的RL算法得出結(jié)論，無(wú)價(jià)值模型的REINFORCE類(lèi)方法足夠有效。

使用「mid-difficulty」問(wèn)題進(jìn)行穩(wěn)定訓(xùn)練：作者提出了一種名為在線提示過(guò)濾器的機(jī)制，通過(guò)過(guò)濾掉困難和簡(jiǎn)單的問(wèn)題，在很大程度上穩(wěn)定了RL訓(xùn)練。

使用PRM進(jìn)行強(qiáng)化學(xué)習(xí)將PRM集成到在線強(qiáng)化學(xué)習(xí)中并非易事，這里有幾個(gè)需要解決的關(guān)鍵挑戰(zhàn)。

如何為強(qiáng)化學(xué)習(xí)提供密集獎(jiǎng)勵(lì)？

獎(jiǎng)勵(lì)稀疏性一直是強(qiáng)化學(xué)習(xí)中長(zhǎng)期存在的問(wèn)題。到目前為止，我們?nèi)匀粵](méi)有特別好的解決方案來(lái)為L(zhǎng)LM的在線強(qiáng)化學(xué)習(xí)構(gòu)建密集獎(jiǎng)勵(lì)。

以前的方法主要是為密集獎(jiǎng)勵(lì)建立一個(gè)額外的價(jià)值模型，眾所周知，這樣的模型很難訓(xùn)練，而且性能提升不大。

根據(jù)前文對(duì)隱式PRM的介紹，使用

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

可以免費(fèi)從隱式PRM中獲得token級(jí)別的過(guò)程獎(jiǎng)勵(lì)。

這種方式可以直接取代PPO中的價(jià)值模型，非常容易與任何優(yōu)勢(shì)估計(jì)函數(shù)和結(jié)果獎(jiǎng)勵(lì)相結(jié)合。在實(shí)踐中，作者將過(guò)程獎(jiǎng)勵(lì)與REINFORCE、RLOO、GRPO、ReMax和PPO集成在一起，并進(jìn)行了細(xì)微的修改。

如何設(shè)置一個(gè)好的PRM來(lái)啟動(dòng)RL？

即使我們找到了在RL中使用過(guò)程獎(jiǎng)勵(lì)的途徑，訓(xùn)練好的PRM也并非易事：需要收集大規(guī)模（過(guò)程）獎(jiǎng)勵(lì)數(shù)據(jù)（很貴），并且模型應(yīng)該在泛化和分布偏移之間取得良好的平衡。

隱式PRM本質(zhì)上是一種語(yǔ)言模型。因此從理論上講，可以使用任何語(yǔ)言模型作為PRM。在實(shí)踐中，作者發(fā)現(xiàn)最初的策略模型本身就是的一個(gè)很好的選擇。

如何在線更新PRM以防止獎(jiǎng)勵(lì)黑客攻擊？

在線RL中，避免RM被過(guò)度優(yōu)化或被黑客入侵至關(guān)重要，這需要RM與策略模型一起不斷更新。然而，鑒于步驟標(biāo)簽的成本很高，在RL訓(xùn)練期間很難更新PRM，可擴(kuò)展性和泛化問(wèn)題。

但是，本文的隱式PRM僅要求更新結(jié)果標(biāo)簽。也就是說(shuō)，使用結(jié)果驗(yàn)證器即可在訓(xùn)練期間輕松更新PRM。

此外，還可以進(jìn)行雙重轉(zhuǎn)發(fā)：首先使用策略部署更新PRM，然后使用更新的PRM重新計(jì)算過(guò)程獎(jiǎng)勵(lì)，從而提供更準(zhǔn)確的獎(jiǎng)勵(lì)估算。

PRIME算法下圖表示PRIME算法的整個(gè)循環(huán)：

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

策略模型和PRM都使用SFT模型進(jìn)行初始化。對(duì)于每個(gè)RL迭代，策略模型首先生成輸出。然后，隱式PRM和結(jié)果驗(yàn)證器對(duì)輸出進(jìn)行評(píng)分，隱式PRM在輸出時(shí)通過(guò)結(jié)果獎(jiǎng)勵(lì)進(jìn)行更新。最后，將結(jié)果獎(jiǎng)勵(lì)ro和過(guò)程獎(jiǎng)勵(lì)rp組合在一起，用于更新策略模型。

以下是算法的偽代碼：

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

實(shí)驗(yàn)默認(rèn)情況下，使用SFT模型初始化隱式PRM，并保留SFT模型作為參考對(duì)數(shù)探測(cè)器。超參數(shù)方面，策略模型的學(xué)習(xí)率固定為5e-7，PRM學(xué)習(xí)率為1e-6，使用AdamW優(yōu)化器，mini batchsize大小為256，micro batchsize為8。

rollout階段收集256個(gè)提示，每個(gè)提示采樣4個(gè)響應(yīng)。PRM訓(xùn)練時(shí)β=0.05，所有實(shí)驗(yàn)中將KL系數(shù)設(shè)置為0。

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

將PRIME與僅帶有結(jié)果驗(yàn)證器（OV）的RLOO進(jìn)行比較，與稀疏獎(jiǎng)勵(lì)相比，PRIME將RL訓(xùn)練加速了2.5倍，并將最終獎(jiǎng)勵(lì)提高了6.9%，且方差更低。在下游任務(wù)上，PRIME的性能也始終優(yōu)于OV。

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

下面展示PRM在線更新的重要性。比較兩種設(shè)置：在線PRM使用Eurus-2-7B-SFT初始化，離線PRM使用EurusPRM-Stage1初始化。

從下圖中可以看出，在線PRM在訓(xùn)練集和測(cè)試集上的性能都大大優(yōu)于離線PRM。

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

參考資料：https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fhttps://the-decoder.com/ai-learns-math-better-with-new-approach-that-uses-a-fraction-of-the-data/

上一篇：英偉達(dá)為什么要收購(gòu)初創(chuàng)公司Run:ai？

下一篇：盤(pán)點(diǎn)5G-A 2024：從“樣板房”到“商品房”爆發(fā)驚人勢(shì)能！

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-07 20:37:14 瀏覽：250次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-07 20:37:14 瀏覽：250次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過(guò)程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-07 20:37:14 瀏覽：250次