當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 13:15:07 瀏覽：229次

導(dǎo)讀：新智元報(bào)道編輯：LRS【新智元導(dǎo)讀】Allen Institute for AI（AI2）發(fā)布了Tülu 3系列模型，一套開源的最先進(jìn)的語(yǔ)言模型，性能與GPT-4o-mini等閉源模型相媲美。Tülu 3包括數(shù)據(jù)、代碼、訓(xùn)練配方和評(píng)估框架，旨在推動(dòng)開源模型后訓(xùn)練技術(shù)的發(fā)展。只進(jìn)行過(guò)「預(yù)訓(xùn)練」的模型是沒(méi)辦法直接使用的，存在輸出有毒、危險(xiǎn)信息的風(fēng)險(xiǎn)，也無(wú)法有效遵循人類指令，所以通常還需要進(jìn)行后訓(xùn)練（p ......

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

新智元報(bào)道

編輯：LRS

【新智元導(dǎo)讀】Allen Institute for AI（AI2）發(fā)布了Tülu 3系列模型，一套開源的最先進(jìn)的語(yǔ)言模型，性能與GPT-4o-mini等閉源模型相媲美。Tülu 3包括數(shù)據(jù)、代碼、訓(xùn)練配方和評(píng)估框架，旨在推動(dòng)開源模型后訓(xùn)練技術(shù)的發(fā)展。

只進(jìn)行過(guò)「預(yù)訓(xùn)練」的模型是沒(méi)辦法直接使用的，存在輸出有毒、危險(xiǎn)信息的風(fēng)險(xiǎn)，也無(wú)法有效遵循人類指令，所以通常還需要進(jìn)行后訓(xùn)練（post-train），如「指令微調(diào)」和「從人類反饋中學(xué)習(xí)」，以使模型為各種下游用例做好準(zhǔn)備。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

早期的后訓(xùn)練工作主要遵循InstructGPT等模型的標(biāo)準(zhǔn)方案，如指令調(diào)整（instruction tuning）和偏好微調(diào)（preference finetuning），不過(guò)后訓(xùn)練仍然充滿玄學(xué)，比如在提升模型編碼能力的同時(shí)，可能還會(huì)削弱模型寫詩(shī)或遵循指令的能力，如何獲得正確的「數(shù)據(jù)組合」和「超參數(shù)」，使模型在獲得新知識(shí)的同時(shí)，而不失去其通用能力，仍然很棘手。

為了解決后訓(xùn)練難題，各大公司都提升了后訓(xùn)練方法的復(fù)雜性，包括多輪訓(xùn)練、人工數(shù)據(jù)加合成數(shù)據(jù)、多訓(xùn)練算法和目標(biāo)等，以同時(shí)實(shí)現(xiàn)專業(yè)知識(shí)和通用功能，但這類方法大多閉源，而開源模型的性能又無(wú)法滿足需求，在LMSYS的ChatBotArena上，前50名模型都沒(méi)有發(fā)布其訓(xùn)練后數(shù)據(jù)。

最近，Allen Institute for AI（AI2）發(fā)布了一系列完全開放、最先進(jìn)的訓(xùn)練后模型Tülu 3，以及所有數(shù)據(jù)、數(shù)據(jù)混合、配方、代碼、基礎(chǔ)設(shè)施和評(píng)估框架，其突破了訓(xùn)練后研究的界限，縮小了開源模型和閉源模型微調(diào)配方之間的性能差距。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

論文鏈接：https://allenai.org/papers/tulu-3-report.pdf

TLU 3-70B：https://hf.co/allenai/Llama-3.1-Tulu-3-70B

TLU 3-8B：https://hf.co/allenai/Llama-3.1-Tulu-3-8B

TLU 3 數(shù)據(jù)：https://hf.co/collections/allenai/tulu-3-datasets673b8df14442393f7213f372

TLU 3 代碼：https://github.com/allenai/open-instruct

TLU 3 評(píng)估：https://github.com/allenai/olmes

Demo：https://playground.allenai.org/

模型訓(xùn)練算法包括有監(jiān)督式微調(diào)（SFT）、直接偏好優(yōu)化（DPO）以及可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）

TLU 3基于Llama 3.1的基礎(chǔ)模型構(gòu)建，其性能超越了Llama 3.1-instruct、Qwen 2.5、Mistral，甚至超越了如GPT-4o-mini和Claude 3.5-Haiku等模型。

TLU 3的訓(xùn)練過(guò)程結(jié)合了強(qiáng)化學(xué)習(xí)的新算法、前沿的基礎(chǔ)設(shè)施和嚴(yán)格的實(shí)驗(yàn)，構(gòu)造數(shù)據(jù)，優(yōu)化不同訓(xùn)練階段的數(shù)據(jù)混合、方法和參數(shù)，主要包括四個(gè)階段。

第一階段：數(shù)據(jù)構(gòu)造

研究人員主要關(guān)注模型在知識(shí)召回（knowledge recall）、推理、數(shù)學(xué)、編程、指令遵循、普通聊天和安全性等核心通用技能，然后根據(jù)目標(biāo)需求來(lái)收集人工數(shù)據(jù)和合成數(shù)據(jù)。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

第二階段：監(jiān)督微調(diào)（SFT）

研究人員在精心選擇的提示和完成內(nèi)容上執(zhí)行監(jiān)督式微調(diào)（SFT），首先確定了在使用Llama 3.1模型訓(xùn)練在TLU 2數(shù)據(jù)集上作為基準(zhǔn)時(shí)，哪些技能落后于最先進(jìn)的模型，然后有針對(duì)性地收集高質(zhì)量的公開數(shù)據(jù)集和合成數(shù)據(jù)集。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

通過(guò)一個(gè)完善的實(shí)驗(yàn)，確定了最終SFT數(shù)據(jù)和訓(xùn)練超參數(shù)，以增強(qiáng)目標(biāo)核心技能，同時(shí)不會(huì)顯著影響其他技能的性能。

關(guān)鍵的數(shù)據(jù)實(shí)驗(yàn)包括：

1. 多樣化的聊天數(shù)據(jù)：主要來(lái)自WildChat，如果移除該數(shù)據(jù)集，可以看到大多數(shù)技能都有小幅但明顯的下降，尤其是在Alpaca Eval上，凸顯了「多樣化真實(shí)世界數(shù)據(jù)」的重要性。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

2. 安全性是獨(dú)立的：移除特定安全數(shù)據(jù)集后，可以看到大多數(shù)技能的結(jié)果大致保持不變；添加對(duì)比提示，如CoCoNot，有助于防止模型過(guò)度拒絕安全提示。

3. 新的Persona Data，主要針對(duì)數(shù)學(xué)、編程和指令遵循進(jìn)行構(gòu)建，移除后，HumanEval(+)、GSM8K、MATH和IFEval的性能都會(huì)顯著下降。

4. 針對(duì)特定技能（Targeting Specific Skills），移所有數(shù)學(xué)相關(guān)數(shù)據(jù)后，GSM8K和MATH都有顯著下降。

5. 智能體訓(xùn)練數(shù)據(jù)的數(shù)量，可以發(fā)現(xiàn)，在不斷增加數(shù)據(jù)集規(guī)模時(shí)，模型平均性能持續(xù)提高，增加到完整混合數(shù)據(jù)集后，GSM8K等指標(biāo)上的性能大幅提升，但TruthfulQA的性能下降了。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

第三階段：偏好調(diào)整

研究人員主要使用直接偏好優(yōu)化（DPO），針對(duì)新構(gòu)造的、基于策略的合成偏好數(shù)據(jù)，以及從選定提示中獲得的離策略數(shù)據(jù)。與SFT階段一樣，我們通過(guò)徹底的實(shí)驗(yàn)確定了最佳的偏好數(shù)據(jù)混合，揭示了哪些數(shù)據(jù)格式、方法或超參數(shù)能帶來(lái)改進(jìn)。

在TLU 3項(xiàng)目中，研究人員探索了多種偏好微調(diào)方法，目標(biāo)是提升整個(gè)評(píng)估套件的性能；并研究了多種訓(xùn)練算法，從直接偏好優(yōu)化（DPO）及其衍生算法到強(qiáng)化學(xué)習(xí)算法，比如近端策略優(yōu)化（PPO）。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

研究人員通過(guò)改進(jìn)和擴(kuò)展UltraFeedback流程，從提示中創(chuàng)建了策略內(nèi)偏好數(shù)據(jù)（包括輸入、兩個(gè)輸出選項(xiàng)和標(biāo)簽），使用大型語(yǔ)言模型（LLM）作為裁判，構(gòu)造「偏好的、被拒絕的」數(shù)據(jù)對(duì)，主要包括三個(gè)階段：

1. 提示選擇

除了數(shù)據(jù)構(gòu)造階段的提示外，還包括了其他來(lái)源的提示，比如沒(méi)有TruthfulQA實(shí)例的Ultrafeedback版本，或者通過(guò)在提示中添加新的IF約束。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

2. 生成回復(fù)

對(duì)于給定的提示，從模型池中隨機(jī)抽取四個(gè)模型來(lái)生成回復(fù)，再通過(guò)從TLU SFT模型中抽樣完成情況來(lái)包括策略內(nèi)數(shù)據(jù)。其中一個(gè)回應(yīng)是由策略內(nèi)模型生成的，另一個(gè)回應(yīng)是由策略外模型生成的。

3. 偏好標(biāo)注

在為每個(gè)提示生成四個(gè)回復(fù)后，使用一個(gè)大型語(yǔ)言模型（LLM）作為裁判（GPT-4o-2024-0806），然后根據(jù)四個(gè)不同的方面（有幫助性、遵循指令、誠(chéng)實(shí)性和真實(shí)性）對(duì)每個(gè)回復(fù)從1到5進(jìn)行評(píng)分。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

第四階段：可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)

研究人員引入了一種名為可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）的新型方法，用于訓(xùn)練語(yǔ)言模型完成具有可驗(yàn)證結(jié)果的任務(wù)，比如數(shù)學(xué)問(wèn)題解決和指令遵循。

RLVR基于現(xiàn)有的強(qiáng)化學(xué)習(xí)人類反饋（RLHF）目標(biāo)，但將獎(jiǎng)勵(lì)模型替換為驗(yàn)證函數(shù)，當(dāng)應(yīng)用于具有可驗(yàn)證答案的領(lǐng)域，其在GSM8K等基準(zhǔn)測(cè)試上顯示出針對(duì)性的改進(jìn)，同時(shí)還能保持其他任務(wù)的性能。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

RLVR可以看作是現(xiàn)有引導(dǎo)語(yǔ)言模型推理的方法的簡(jiǎn)化形式，或者是一種更簡(jiǎn)單的強(qiáng)化學(xué)習(xí)形式，其中使用答案匹配或約束驗(yàn)證作為二元信號(hào)來(lái)訓(xùn)練模型。

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

RLVR數(shù)據(jù)主要包括兩個(gè)領(lǐng)域（數(shù)學(xué)、精確指令遵循），評(píng)估數(shù)據(jù)集為GSM8k, MATH和IFEval

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini

為了提升效率，RLVR的實(shí)現(xiàn)細(xì)節(jié)主要包括：

1. 用通用獎(jiǎng)勵(lì)模型來(lái)初始化價(jià)值模型；

2. 禁用dropout，在獎(jiǎng)勵(lì)模型和強(qiáng)化學(xué)習(xí)訓(xùn)練期間，將dropout概率設(shè)置為0，確保在策略模型和參考模型的前向傳遞過(guò)程中，token的對(duì)數(shù)概率可以確定性地計(jì)算，從而更準(zhǔn)確地估計(jì)KL懲罰。此外，PPO在滾動(dòng)階段和學(xué)習(xí)階段計(jì)算token的對(duì)數(shù)概率，重要的是要確保這兩個(gè)階段的token對(duì)數(shù)概率相匹配，如果使用dropout，對(duì)數(shù)概率差異會(huì)很大，導(dǎo)致裁剪后梯度為零。

3. 使用智能體訓(xùn)練數(shù)據(jù)集并在周期之間隨機(jī)，PPO可以訓(xùn)練的周期數(shù)超過(guò)可用提示的總數(shù)，有效地進(jìn)行多個(gè)周期的訓(xùn)練。在我們的RLVR消融實(shí)驗(yàn)中，我們大約訓(xùn)練了13個(gè)周期。我們?cè)谥芷谥g對(duì)提示進(jìn)行洗牌。對(duì)于我們的最終運(yùn)行，我們每40-100步檢查一次模型檢查點(diǎn)，并選擇在我們開發(fā)評(píng)估集上表現(xiàn)最佳的檢查點(diǎn)。

4. 非序列結(jié)束（EOS）懲罰：在訓(xùn)練期間，PPO通常采樣固定數(shù)量的最大token。如果采樣的回復(fù)沒(méi)有以EOS token結(jié)束，給予-10的懲罰。

5. 優(yōu)勢(shì)歸一化：先減去均值然后除以其標(biāo)準(zhǔn)差來(lái)歸一化優(yōu)勢(shì)（advantages）。

研究人員首先將一個(gè)直接偏好優(yōu)化（DPO）模型作為初始模型，然后進(jìn)行了一系列消融實(shí)驗(yàn)：

1. 單獨(dú)任務(wù)。分別在GSM8K、MATH和IFEval任務(wù)上應(yīng)用了RLVR方法，并遍歷了一系列beta值。在評(píng)估時(shí)，關(guān)注可驗(yàn)證的獎(jiǎng)勵(lì)、KL散度和回應(yīng)長(zhǎng)度。

2. 價(jià)值模型初始化消融實(shí)驗(yàn)。嘗試從一個(gè)通用獎(jiǎng)勵(lì)模型和錨定的DPO模型初始化PPO的價(jià)值模型，并在GSM8K任務(wù)上遍歷一系列beta值。通用獎(jiǎng)勵(lì)模型是使用UltraFeedback數(shù)據(jù)集訓(xùn)練的。在評(píng)估時(shí)，檢查GSM8K測(cè)試評(píng)估得分和所有評(píng)估的平均得分。

3. 從獎(jiǎng)勵(lì)模型得分的消融實(shí)驗(yàn)。在獎(jiǎng)勵(lì)模型的得分基礎(chǔ)上增加可驗(yàn)證的獎(jiǎng)勵(lì)，并在GSM8K任務(wù)上使用了一系列beta值進(jìn)行實(shí)驗(yàn)。

4. 從性能較弱的模型開始。模型的基礎(chǔ)能力也是一個(gè)干擾因素，使用平均得分較低的SFT模型進(jìn)行另一組實(shí)驗(yàn)。

TLU 3評(píng)估

在后續(xù)訓(xùn)練方法中，建立清晰的性能目標(biāo)和評(píng)估工具非常關(guān)鍵。

研究人員發(fā)布了一個(gè)統(tǒng)一的標(biāo)準(zhǔn)化評(píng)估套件和一個(gè)工具包，以指導(dǎo)開發(fā)和評(píng)估最終模型，并對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行凈化，以符合評(píng)估基準(zhǔn)，主要目標(biāo)包括：

1. 評(píng)估過(guò)程應(yīng)該是可復(fù)現(xiàn)的；

2. 應(yīng)該評(píng)估模型對(duì)未見(jiàn)任務(wù)的泛化能力，而不僅僅是我們用于開發(fā)的特定基準(zhǔn)測(cè)試。

3. 評(píng)估設(shè)置（例如，提示的模板和策略）對(duì)各種模型公平。

開放語(yǔ)言模型評(píng)估系統(tǒng)（OLMES）

為了使評(píng)估更加標(biāo)準(zhǔn)化和可復(fù)現(xiàn)，研究人員開源了Open Language Model Evaluation System，其支持更廣泛的模型集合和任務(wù)、可以對(duì)每個(gè)任務(wù)進(jìn)行靈活配置、直接訪問(wèn)任務(wù)描述、分析模型預(yù)測(cè)、置信度等的詳細(xì)實(shí)例級(jí)的數(shù)據(jù)。

比如說(shuō)，要復(fù)現(xiàn)Llama-3.1-8B-Instruct在MMLU-Pro上的結(jié)果，只需簡(jiǎn)單運(yùn)行類似「olmes task mmlu_pro::tulu3 model llama3.1-8b-instruct」的命令。

參考資料：

https://venturebeat.com/ai/ai2-closes-the-gap-between-closed-source-and-open-source-post-training/

https://allenai.org/blog/tulu-3?includeDrafts

相關(guān)熱詞： 高質(zhì)量tülu 3 ai2 AI大模型 GPT-4 模型算法新智元開源

上一篇：OpenAI最大“期貨”Sora開放使用，面臨近20個(gè)競(jìng)爭(zhēng)對(duì)手挑戰(zhàn)

下一篇：谷歌發(fā)布跨時(shí)代量子芯片，5分鐘頂超算10²⁵年，馬斯克奧特曼點(diǎn)贊

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 13:15:07 瀏覽：229次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 13:15:07 瀏覽：229次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI2發(fā)布高質(zhì)量Tülu 3系列模型，拉平閉源差距，比肩GPT-4o mini
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-11 13:15:07 瀏覽：229次