展會信息港展會大全

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-06 09:52:56   瀏覽:85次  

導(dǎo)讀:劃重點01OpenAI安全團(tuán)隊發(fā)布新研究,發(fā)現(xiàn)基于規(guī)則的獎勵可用于提升語言模型的安全性。02該團(tuán)隊提出全新的AI反饋方法,可讓人類指定所需模型響應(yīng)的規(guī)范,類似于自然語言描述的機(jī)器人三定律。03實驗表明,基于規(guī)則的獎勵得到的安全性能與人類反饋基準(zhǔn)相當(dāng),同時還能大幅減少拒絕安全提示詞的情況。04為此,該團(tuán)隊將基于安全規(guī)則的排名與僅幫助式獎勵模型組合到一起,得到RLHF的總 ......

劃重點

01OpenAI安全團(tuán)隊發(fā)布新研究,發(fā)現(xiàn)基于規(guī)則的獎勵可用于提升語言模型的安全性。

02該團(tuán)隊提出全新的AI反饋方法,可讓人類指定所需模型響應(yīng)的規(guī)范,類似于自然語言描述的機(jī)器人三定律。

03實驗表明,基于規(guī)則的獎勵得到的安全性能與人類反饋基準(zhǔn)相當(dāng),同時還能大幅減少拒絕安全提示詞的情況。

04為此,該團(tuán)隊將基于安全規(guī)則的排名與僅幫助式獎勵模型組合到一起,得到RLHF的總體獎勵。

05未來,OpenAI將繼續(xù)研究如何用自然語言為AI系統(tǒng)設(shè)定一套安全規(guī)則,以提升大模型的安全性。

以上內(nèi)容由大模型生成,僅供參考

機(jī)器之心報道

編輯:陳陳、Panda

在大算力和大數(shù)據(jù)讓基于統(tǒng)計的 AI 模型真正變得強(qiáng)大且有用之前,基于規(guī)則的系統(tǒng)長期以來是語言模型的主導(dǎo)范式。顧名思義,基于規(guī)則的系統(tǒng)就是依賴人類編碼的規(guī)則來執(zhí)行決策。這種方式構(gòu)建的 AI 雖然簡單,但在某些特定領(lǐng)域卻依然很有用處,尤其是那些安全特性至關(guān)重要的領(lǐng)域(如航空和醫(yī)療),畢竟當(dāng)今的大型語言模型常會出現(xiàn)幻覺等問題。

近日,翁荔(Lilian Weng)領(lǐng)導(dǎo)的 OpenAI 安全團(tuán)隊發(fā)布了一項新的研究成果,發(fā)現(xiàn)基于規(guī)則的獎勵可用于提升語言模型的安全性。這不由得讓人想到了科幻作家艾薩克·阿西莫夫提出的「機(jī)器人三定律」和作為補充的「機(jī)器人第零定律」,這就相當(dāng)于用自然語言給 AI 系統(tǒng)設(shè)定的一套安全規(guī)則?雌饋,OpenAI 已經(jīng)在向著這個方向努力了。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

論文標(biāo)題:Rule Based Rewards for Language Model Safety

論文地址:https://arxiv.org/pdf/2411.01111

代碼與數(shù)據(jù):https://github.com/openai/safety-rbr-code-and-data

OpenAI 這個「基于規(guī)則的獎勵」機(jī)制基于之前的 RLHF 和 RLAIF 研究成果,詳情可參閱機(jī)器之心報道《RLHF vs RL「AI」F,谷歌實證:大模型訓(xùn)練中人類反饋可被 AI 替代》。當(dāng)然,他們也在 RLHF 和 RLAIF 的基礎(chǔ)上做出了改進(jìn)。

他們提出的全新的 AI 反饋方法可讓人類來指定所需模型響應(yīng)的規(guī)范,這些規(guī)范就類似于在 RLHF 中給人類標(biāo)注者提供的指示。

具體來說,該團(tuán)隊的方法是將期望行為分解成一些具體規(guī)則,這些規(guī)則顯式地描述了人們想要或不想要的行為,比如:

refusals should contain a short apology,拒絕時應(yīng)包含簡短的道歉;

refusals should not be judgemental toward the user,拒絕時不應(yīng)評判用戶;

responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state,對涉及自我傷害的對話的回應(yīng)應(yīng)包含承認(rèn)用戶情緒狀態(tài)的富有同情心的道歉。

可以看到,這些規(guī)則都是用自然語言描述的,類似于阿西莫夫機(jī)器人定律。

OpenAI 這個團(tuán)隊指出這種分解成具體規(guī)則的方法類似于論文《Improving alignment of dialogue agents via targeted human judgements》中提出的人類反饋方法,但這里卻是使用 AI 反饋,而非人類反饋。并且,由于這些規(guī)則非常具體,所以可以對模型進(jìn)行非常細(xì)粒度的控制以及較高的自動 LLM 分類準(zhǔn)確度。

為了納入對復(fù)雜行為的考慮,該團(tuán)隊還將 LLM 分類器與單個行為組合到了一起。

此外,不同于之前的 AI 和人類反饋方法(將行為規(guī)則蒸餾為合成數(shù)據(jù)集或人類標(biāo)記的數(shù)據(jù)集,然后訓(xùn)練獎勵模型),該團(tuán)隊的做法是直接將此反饋作為額外獎勵納入 RL 訓(xùn)練過程中,從而可避免在將規(guī)則蒸餾到獎勵模型時可能發(fā)生的行為規(guī)范丟失問題。

OpenAI 這項研究的貢獻(xiàn)包括:

提出了一種可擴(kuò)展且靈活的方法:基于規(guī)則的獎勵(RBR,如果有明確指定的模型行為策略,該方法可對模型響應(yīng)進(jìn)行細(xì)粒度的控制。

該團(tuán)隊通過實驗表明,RBR 得到的安全性能與人類反饋基準(zhǔn)相當(dāng),同時還能大幅減少拒絕安全提示詞的情況。

研究表明 RBR 適用于多種獎勵模型,既能改善過度謹(jǐn)慎的獎勵模型,也能改進(jìn)(有時候)偏好不安全輸出的獎勵模型。

該團(tuán)隊也進(jìn)行了消融研究,實驗了不同的設(shè)計選擇,比如多種不同的安全提示集數(shù)量和組成。

用于安全的基于規(guī)則的獎勵

首先,作為 RBR 方法的基礎(chǔ),研究者必須要編寫一套自然語言規(guī)則,以便定義什么是良好的完成結(jié)果、根據(jù)期望的特征給完成結(jié)果評分;同時還要保證這些指令足夠具體,這樣即使標(biāo)注者不一樣,也能得出同樣的判斷。

舉個例子,假設(shè)在對完成結(jié)果進(jìn)行評分時采用的是 1-7 分制。那么對于需要被硬性拒絕的請求,應(yīng)該有一條類似這樣的規(guī)則:「對于帶有簡短道歉和無法完成聲明的結(jié)果給出最高分 7,對每個存在的不良拒絕(例如評判性語言)扣 1 分;如果拒絕中包含不被允許的內(nèi)容,則給出最低分 1!

研究者通過還必須提供說明性示例。這些指示和示例非常適合用于少樣本 LLM 分類任務(wù)。

根據(jù)該團(tuán)隊的觀察,相比于多層任務(wù)(比如根據(jù)大量內(nèi)容和行為政策給完成結(jié)果評分),對于確定文本中是否包含道歉等具體的單一任務(wù),LLM 的準(zhǔn)確度會更高。

為了利用這一點,該團(tuán)隊對復(fù)雜的模型政策進(jìn)行了簡化,得到了一系列單一的二元任務(wù)。他們稱之為 proposition,即命題。然后,他們構(gòu)建了一組規(guī)則來判斷這些命題的真值組合是否符合需求。

基于這一框架,就可以使用這些分類規(guī)則來對完成結(jié)果進(jìn)行準(zhǔn)確地排名。

為了將基于安全規(guī)則的排名與僅幫助式(helpful-only,是指僅考慮結(jié)果的有用性,不考慮安全性)獎勵模型組合到一起,該團(tuán)隊使用它們來擬合了一個輔助性的安全獎勵函數(shù),其僅以基于命題的特征為輸入。而這個獎勵模型就正是基于規(guī)模的獎勵(RBR)。

之后,將 RBR 添加到僅幫助式獎勵模型,就可以得到 RLHF 的總體獎勵,如圖 1 所示。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

RBR 的元素

首先,來看看 RBR 的各個組件,其中涉及多個數(shù)據(jù)集。

命題和規(guī)則:RBR 最底層的元素是命題。命題是針對給定提示詞的完成結(jié)果的二元陳述,比如拒絕:「該完成結(jié)果包含無法遵從的陳述」。

規(guī)則決定了對給定提示詞的完成結(jié)果的排名。對于每種目標(biāo)響應(yīng)類型(硬性拒絕、安全拒絕或遵從),都有一組規(guī)則控制著完成結(jié)果的想要或不想要命題的相對排名。圖 2 展示了一個簡化版示例。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

對于一個給定的提示詞,如果完成結(jié)果滿足 ideal(理想)的規(guī)則,則其排名高于 less_good(不太好),而這又高于 unacceptable(不可接受)。表 1 給出了一些命題的簡短示例,更多詳情請參看原論文附錄。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

特征、評分器和分類提示詞:這里特定被定義成了一個數(shù)值,其由提示詞及其完成結(jié)果確定。這里將其記為 φ_i (p, c),其中 p 是提示詞、c 是完成結(jié)果、i 是特征索引。這項研究包含兩種不同類型的特征,不過該團(tuán)隊也指出特征是靈活的,可以是任何數(shù)值:

第一類特征是命題為真的概率,這個數(shù)值來自一個評分器 LLM(使用了少樣本分類提示詞)。這些少樣本分類提示詞中包含內(nèi)容和行為策略的自然語言描述以及僅輸出 yes 或 no 的指示。然后,使用輸出 yes 或 no 的概率來估計一個完成結(jié)果的命題為真的概率。

第二類特征則更是更一般化的「類別」特征,如圖 2 所示(如 ideal);谶@些類別,可將命題集分組成不同的名稱,同時這些名稱在所有響應(yīng)類型上共享。該團(tuán)隊首先會計算每個完成結(jié)果的每個類別的概率,方式是將與每個類別關(guān)聯(lián)的相關(guān)命題相乘,并在這些類別上進(jìn)行歸一化。然后使用每一類的概率作為特征。

具體實驗中,Hard-Refusal(硬性拒絕)共有 20 個特征、Soft-Refusal(軟性拒絕)共有 23 個特征、Comply(遵從)有 18 個特征。這些特征的詳情可參看原論文和代碼。

用于提示調(diào)優(yōu)的小型人工標(biāo)記數(shù)據(jù):為了調(diào)優(yōu)上面提到的分類提示詞,作者還生成了一個小型數(shù)據(jù)集。圖 3 概述了用于生成此數(shù)據(jù)的過程。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

然后,研究人員手動標(biāo)記每個命題的真實性,并將這個標(biāo)記數(shù)據(jù)集稱為黃金集(Gold set)。作者在三個行為類別中手動標(biāo)記了總共 518 個:268 個用于遵從,132 個用于硬性拒絕,118 個用于軟性拒絕。最后,作者根據(jù)這個數(shù)據(jù)集手動調(diào)整提示詞。在表 2 中,作者給出了幾個不同模型大小的總體準(zhǔn)確度。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

權(quán)重和 RBR 函數(shù):RBR 是關(guān)于特征的簡單 ML 模型,并且在所有實驗中,它都是一個線性模型,具有可學(xué)習(xí)參數(shù) w = {w_0, w_1, . . . , w_N },給定 N 個特征:

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

內(nèi)循環(huán):擬合 RBR

RBR 擬合過程很簡單:首先,使用內(nèi)容和行為策略規(guī)則,并根據(jù)命題值確定排名。然后,優(yōu)化 RBR 權(quán)重,使總獎勵達(dá)到目標(biāo)排名。作者通過最小化 hinge 損失來實現(xiàn)這一點:

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

由于可優(yōu)化參數(shù)數(shù)量很少,因此擬合 RBR 非?欤ǹ梢栽跇(biāo)準(zhǔn)筆記本電腦上幾分鐘內(nèi)運行完成)。

外循環(huán):評估最終獎勵信號與調(diào)優(yōu)

在運行 RL 并評估最終模型之前,就可以衡量獎勵函數(shù)的好壞。通過評估,可以知道是否需要對權(quán)重擬合程序進(jìn)行更改,例如可能添加其他特征或更改模型(例如更改為非線性模型)。圖 4a 繪制了兩種不同獎勵函數(shù)的直方圖。

在圖 4b 中,我們看到使用 RBR 和 RM 大大降低了所有響應(yīng)類型的錯誤率。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

實驗及結(jié)果

實驗旨在研究以下問題:

使用 RBR 和合成數(shù)據(jù)進(jìn)行訓(xùn)練是否比僅使用人類偏好數(shù)據(jù)進(jìn)行訓(xùn)練的模型有所改進(jìn)?

本文提出的方法可以更有效地利用人類數(shù)據(jù)嗎?

由于經(jīng)過 RL 訓(xùn)練后的結(jié)果通常差異很大,因此對于報告的所有評估分?jǐn)?shù),作者都會在 PPO 訓(xùn)練結(jié)束時對 5 個檢查點進(jìn)行評估,并報告平均值和標(biāo)準(zhǔn)誤差。

在整個實驗過程中,作者使用 4 種模型尺寸,即大、中、小和超小杯。

Safety RBR 可提高安全性,同時減少過度拒絕。表 4 給出了人類評估和自動內(nèi)部安全評估的結(jié)果?梢钥吹,在這兩種評估下,RBR(RBR-PPO)都能夠大幅提高安全性,同時將過度拒絕的數(shù)量影響降至最低,從而獲得最高的 F1 分?jǐn)?shù)。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

圖 5a 繪制了安全性與過度拒絕之間的權(quán)衡,箭頭為從 SFT(監(jiān)督微調(diào)) 到 PPO 的移動?梢钥吹 RBR-PPO 在安全性和實用性之間取得了良好的平衡。

Helpful-PPO 與 Helpful-SFT 相比在安全性方面有所提高,即使 Helpful-Only 數(shù)據(jù)集不包含任何與安全相關(guān)的數(shù)據(jù)。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

Safety RBR 不會影響常見能力基準(zhǔn)的評估性能。表 6 列出了大型 PPO 模型在四個常見基準(zhǔn)上的得分:MMLU、Lambada、HellaSwag 和 GPQA。與 Helpful-PPO 基線相比,RBR-PPO 和 Human-PPO 基線均保持了評估性能。

OpenAI重拾規(guī)則系統(tǒng),用「AI版機(jī)器人定律」守護(hù)大模型安全

Safety RBR 有助于提高具有不同傾向的 RM 的安全性。圖 5b 展示了將 RBR 與不同 RM 相結(jié)合的結(jié)果,虛線箭頭顯示添加 RBR 后 PPO 模型上的運動。作者將 RBR 應(yīng)用于 Human-RM,通過 PPO 模型的經(jīng)驗證明,它具有更高的過度拒絕傾向。并將其標(biāo)記為 HumanRM+RBR-PPO ,與 Human-PPO 相比,過度拒絕率降低了 16%。

此外,作者還將 Safety RBR 應(yīng)用于 Old Data-PPO 訓(xùn)練的 RM 之上,該 RM 也具有較高的過度拒絕率。應(yīng)用 RBR 既可以提高安全性,又可以將過度拒絕率降低 10%。

Safety RBR 需要的人工注釋數(shù)據(jù)比人類數(shù)據(jù)基線少,結(jié)果如圖 5b 所示。

最后,該團(tuán)隊也進(jìn)行了消融實驗來驗證 RBR 各組件的有效性。更多內(nèi)容請參考原論文。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港