AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本論文作者主要包括澳大利亞科學(xué)院院士、歐洲科學(xué)院外籍院士、IEEE Fellow陶大程,現(xiàn)任南洋理工大學(xué)杰出教授;新加坡工程院院士、IEEE Fellow文勇剛,現(xiàn)為南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院校長(zhǎng)講席教授,同時(shí)擔(dān)任IEEE Transactions on Multimedia主編;張森,曾在悉尼大學(xué)從事博士后研究工作,現(xiàn)任TikTok機(jī)器學(xué)習(xí)工程師;詹憶冰,京東探索研究院算法科學(xué)家。本文的通訊作者是武漢大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師、國(guó)家特聘青年專家羅勇。第一作者為張子屹,目前在武漢大學(xué)計(jì)算機(jī)學(xué)院攻讀博士二年級(jí),研究方向?yàn)閺?qiáng)化學(xué)習(xí)、擴(kuò)散模型和大模型對(duì)齊。
OpenAI 最近發(fā)布的 o1 模型在數(shù)學(xué)、代碼生成和長(zhǎng)程規(guī)劃等復(fù)雜任務(wù)上取得了突破性進(jìn)展,據(jù)業(yè)內(nèi)人士分析披露,其關(guān)鍵技術(shù)在于基于強(qiáng)化學(xué)習(xí)的搜索與學(xué)習(xí)機(jī)制。通過迭代式的自舉過程,o1 基于現(xiàn)有大語言模型的強(qiáng)大推理能力,生成合理的推理過程,并將這些推理融入到其強(qiáng)化學(xué)習(xí)訓(xùn)練過程中。
強(qiáng)化學(xué)習(xí)技術(shù)能夠顯著提升模型解決復(fù)雜問題的能力,尤其是在 o1 所采用的細(xì)粒度獎(jiǎng)勵(lì)機(jī)制的加持下。這種獎(jiǎng)勵(lì)機(jī)制為模型的每一步推理提供細(xì)粒度的反饋,而不僅是依賴最終答案的正確性來評(píng)估模型的表現(xiàn)。通過精細(xì)化的控制,使模型能夠不斷優(yōu)化其推理路徑,有效應(yīng)對(duì)復(fù)雜任務(wù)中的長(zhǎng)程依賴問題,確保模型在推理過程中保持邏輯一致性。
前不久,來自武漢大學(xué)、悉尼大學(xué)、京東探索研究院和南洋理工大學(xué)的研究人員便在ICML 2024上發(fā)表了一項(xiàng) “擴(kuò)散模型對(duì)齊” 方向的研究,所提出的名為 TDPO-R 的強(qiáng)化學(xué)習(xí)算法與 o1 不謀而合地也采用了細(xì)粒度獎(jiǎng)勵(lì)機(jī)制。
論文鏈接:https://openreview.net/forum?id=v2o9rRJcEv
代碼鏈接:https://github.com/ZiyiZhang27/tdpo
TDPO-R 在強(qiáng)化學(xué)習(xí)算法中引入了時(shí)間差分獎(jiǎng)勵(lì)機(jī)制,對(duì)文生圖擴(kuò)散模型的每一步生成過程提供細(xì)粒度的反饋,從而有效緩解了在擴(kuò)散模型對(duì)齊時(shí)常見的獎(jiǎng)勵(lì)過優(yōu)化問題。這項(xiàng)研究證實(shí)了細(xì)粒度獎(jiǎng)勵(lì)機(jī)制在擴(kuò)散模型對(duì)齊中的關(guān)鍵性,而 o1 的最新技術(shù)同樣揭示了這一機(jī)制在大模型領(lǐng)域中的廣泛應(yīng)用前景,有望推動(dòng)生成模型在多樣化、復(fù)雜任務(wù)中的持續(xù)發(fā)展與優(yōu)化。
擴(kuò)散模型(Diffusion Model)作為一種先進(jìn)的生成式模型,通過學(xué)習(xí)并模擬自然界中的擴(kuò)散過程來合成新數(shù)據(jù),尤其在生成高質(zhì)量逼真圖像方面相較于其他模型架構(gòu)具有顯著優(yōu)勢(shì)。因此,盡管近年來也有基于 GPT 等其它架構(gòu)的優(yōu)秀圖像、視頻生成模型不斷涌現(xiàn),基于擴(kuò)散模型的架構(gòu)依然是當(dāng)前大多數(shù)圖像、視頻生成任務(wù)的主流選擇。
近期,為了確保生成的圖像能夠符合下游任務(wù)目標(biāo)以及用戶偏好,許多研究者開始探索如何對(duì)預(yù)訓(xùn)練擴(kuò)散模型進(jìn)行獎(jiǎng)勵(lì)或偏好驅(qū)動(dòng)的微調(diào)訓(xùn)練 這就是所謂的擴(kuò)散模型對(duì)齊(Diffusion Model Alignment)。目前,最流行的對(duì)齊方法之一便是源于大語言模型領(lǐng)域的一項(xiàng)常用技術(shù) 基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF),即以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋來不斷地對(duì)已有的預(yù)訓(xùn)練模型參數(shù)進(jìn)行迭代優(yōu)化。
另外,也有其它一些不涉及強(qiáng)化學(xué)習(xí)的對(duì)齊方法,但它們大多也都需要以特定獎(jiǎng)勵(lì)函數(shù)作為優(yōu)化目標(biāo),即將所對(duì)齊的下游任務(wù)目標(biāo)(如圖像美學(xué)質(zhì)量、文圖一致性等)構(gòu)建為一個(gè)獎(jiǎng)勵(lì)函數(shù) / 模型,并以最大化該獎(jiǎng)勵(lì)函數(shù)為目標(biāo)對(duì)擴(kuò)散模型進(jìn)行迭代優(yōu)化。還有一些方法,比如直接偏好優(yōu)化(Direct Preference Optimization,DPO),雖然不顯式地使用獎(jiǎng)勵(lì)函數(shù)來對(duì)齊模型,但其所采用的訓(xùn)練數(shù)據(jù)本身往往也隱含了某種獎(jiǎng)勵(lì)標(biāo)準(zhǔn),間接引導(dǎo)模型朝著某種期望的目標(biāo)優(yōu)化。
擴(kuò)散模型對(duì)齊中的獎(jiǎng)勵(lì)過優(yōu)化
由于受獎(jiǎng)勵(lì)目標(biāo)驅(qū)動(dòng),這些擴(kuò)散模型對(duì)齊方法常常面臨一個(gè)核心挑戰(zhàn) 獎(jiǎng)勵(lì)過優(yōu)化(Reward Overoptimization),即經(jīng)過微調(diào)后的模型可能會(huì)過度偏向于某一獎(jiǎng)勵(lì)目標(biāo),導(dǎo)致生成的圖像喪失個(gè)性化和多樣性、視覺保真度降低,最終偏離人類真實(shí)的審美偏好。如上圖所示,當(dāng)我們使用美學(xué)分?jǐn)?shù)(Aesthetic Score)獎(jiǎng)勵(lì)模型,對(duì) Stable Diffusion v1.4 模型進(jìn)行對(duì)齊微調(diào)時(shí),“獎(jiǎng)勵(lì)過優(yōu)化” 這一現(xiàn)象在生成圖像上肉眼可見為:圖像風(fēng)格趨于統(tǒng)一、與文本提示詞的匹配度下降。
如何更加通俗地理解獎(jiǎng)勵(lì)過優(yōu)化問題?想象你是一位學(xué)生,目標(biāo)是通過考試拿到高分。你的老師設(shè)計(jì)了一套嚴(yán)格的評(píng)分標(biāo)準(zhǔn)(就像是獎(jiǎng)勵(lì)模型),目的是測(cè)試你的知識(shí)深度和理解能力。這套標(biāo)準(zhǔn)非常全面,涵蓋了大量的知識(shí)點(diǎn)和難題,理論上應(yīng)該能夠準(zhǔn)確衡量你的學(xué)習(xí)水平。
然而,你發(fā)現(xiàn)了一些 “捷徑”:考試中雖然有很多問題,但也有著某些 “答題套路”,比如背誦標(biāo)準(zhǔn)答案,或者用某些關(guān)鍵詞和答題模板。于是你并不真正花時(shí)間理解知識(shí),而是把大量時(shí)間用在研究考試技巧上,專注于如何根據(jù)評(píng)分標(biāo)準(zhǔn)去 “迎合” 考試。結(jié)果,你每次考試都能拿到高分(就像模型獲得了高獎(jiǎng)勵(lì)),但實(shí)際上你對(duì)知識(shí)的理解很膚淺。老師看到你的分?jǐn)?shù),誤以為你學(xué)得非常好,但你自己知道,雖然分?jǐn)?shù)高了,但你并沒有真正掌握知識(shí),甚至可能過于執(zhí)著答題模板而錯(cuò)誤地理解了一些問題,換另一位老師出題的話便可能原形畢露。
如何對(duì)獎(jiǎng)勵(lì)過優(yōu)化問題進(jìn)行定量分析?TDPO-R 算法的研究者發(fā)現(xiàn),當(dāng)擴(kuò)散模型過度優(yōu)化某一特定獎(jiǎng)勵(lì)函數(shù)時(shí),其在域外獎(jiǎng)勵(lì)函數(shù)上的泛化能力隨之下降。這種現(xiàn)象可以通過定量分析表現(xiàn)為:在以某一獎(jiǎng)勵(lì)函數(shù)為優(yōu)化目標(biāo)時(shí),采用其他域外獎(jiǎng)勵(lì)函數(shù)(即不同于優(yōu)化目標(biāo)的獎(jiǎng)勵(lì)標(biāo)準(zhǔn))對(duì)生成樣本進(jìn)行評(píng)分,會(huì)發(fā)現(xiàn)隨著目標(biāo)獎(jiǎng)勵(lì)逐漸上升,域外獎(jiǎng)勵(lì)評(píng)分的增長(zhǎng)速度明顯放緩,甚至出現(xiàn)域外評(píng)分逐漸下降的情況。這表明,模型在一個(gè)特定獎(jiǎng)勵(lì)函數(shù)上取得高分時(shí),可能會(huì)以犧牲其在其他任務(wù)上的表現(xiàn)為代價(jià),最終導(dǎo)致生成質(zhì)量的不平衡。因此,研究者采用了這種跨獎(jiǎng)勵(lì)泛化度量,來定量地對(duì)比不同算法的獎(jiǎng)勵(lì)過優(yōu)化程度。
研究者進(jìn)一步指出,相較于基于監(jiān)督學(xué)習(xí)的方法,基于強(qiáng)化學(xué)習(xí)的擴(kuò)散模型對(duì)獎(jiǎng)勵(lì)過優(yōu)化問題表現(xiàn)出更高的抗性。這是因?yàn)閺?qiáng)化學(xué)習(xí)能夠根據(jù)生成過程中的反饋信號(hào)不斷調(diào)整策略,避免模型在單一目標(biāo)上過度擬合。然而,這種抗性并非完全免疫。強(qiáng)化學(xué)習(xí)的這種優(yōu)勢(shì)往往是以犧牲樣本效率為代價(jià),即需要更多的樣本和訓(xùn)練時(shí)間來達(dá)到較為平衡的效果。因此,在設(shè)計(jì)新的擴(kuò)散模型對(duì)齊方法時(shí),必須在提高樣本效率與緩解獎(jiǎng)勵(lì)過優(yōu)化之間做出權(quán)衡。
受到深度強(qiáng)化學(xué)習(xí)理論的啟發(fā),研究者首先從擴(kuò)散模型對(duì)齊中的歸納偏置角度出發(fā),分析了加重獎(jiǎng)勵(lì)過優(yōu)化的潛在因素。歸納偏置(Inductive Bias)指的是機(jī)器學(xué)習(xí)算法在從有限的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)時(shí),基于特定假設(shè)提煉出的一般性模式。在深度強(qiáng)化學(xué)習(xí)的背景下,算法所采用的歸納偏置與其解決任務(wù)的契合程度,直接影響模型的泛化能力。簡(jiǎn)單來說,如果模型的偏置過于集中在某個(gè)特定目標(biāo)上,就容易在泛化到新任務(wù)時(shí)出現(xiàn)問題。
然而,現(xiàn)有的擴(kuò)散模型對(duì)齊方法往往過度依賴稀疏獎(jiǎng)勵(lì) 也就是只根據(jù)最終生成圖像的質(zhì)量進(jìn)行優(yōu)化。這種做法隱含著一種假設(shè),即最終圖像的質(zhì)量是最重要的評(píng)估標(biāo)準(zhǔn),忽略了生成過程中的中間步驟(即每一步的去噪圖像)。模型只在最后一步表現(xiàn)良好時(shí)被獎(jiǎng)勵(lì),導(dǎo)致訓(xùn)練過程中沒有充分利用多步去噪過程中的中間信息,而這部分信息恰恰包含了對(duì)生成過程的更細(xì)粒度反潰因此,這種忽略中間步驟的做法,實(shí)際上引入了一種錯(cuò)位的歸納偏置 即模型在訓(xùn)練時(shí)過于注重終極輸出的獎(jiǎng)勵(lì)信號(hào),而忽視了去噪過程中可能幫助模型提高質(zhì)量的階段性信號(hào)。這種偏置錯(cuò)位便是加重獎(jiǎng)勵(lì)過優(yōu)化的潛在因素之一。
為了更好理解這種偏置錯(cuò)位,可以結(jié)合之前老師與學(xué)生的比喻:想象你是一名學(xué)生,你的老師只根據(jù)期末考試的成績(jī)來評(píng)價(jià)你整個(gè)學(xué)期的表現(xiàn)(類似于稀疏獎(jiǎng)勵(lì))。這種情況下,學(xué)生的學(xué)習(xí)過程(就像擴(kuò)散模型中的中間去噪過程)沒有被重視或衡量,學(xué)生很容易找到捷徑(如通過背題庫(kù)而非理解知識(shí))來獲得高分。這就類似于模型在訓(xùn)練中通過某種捷徑,在最后生成的圖像中獲得高分,而忽視了生成過程中的細(xì)節(jié)和圖像質(zhì)量的演變。
然而,如果老師在整個(gè)學(xué)期中對(duì)你的每一次小測(cè)驗(yàn)、作業(yè)、甚至課堂表現(xiàn)都進(jìn)行細(xì)粒度的評(píng)分和反饋(相當(dāng)于細(xì)粒度獎(jiǎng)勵(lì)),那么你在每一步的學(xué)習(xí)過程中都會(huì)受到監(jiān)控和指導(dǎo)。你無法依靠最后的考試來蒙混過關(guān),必須在每個(gè)階段都真正掌握知識(shí)。這與擴(kuò)散模型對(duì)齊時(shí)類似,細(xì)粒度獎(jiǎng)勵(lì)機(jī)制能夠讓模型在每個(gè)生成步驟中都得到反饋,避免模型通過過度優(yōu)化某一單一目標(biāo)(如最終圖像質(zhì)量)來走捷徑,確保生成過程中的每一步都保持質(zhì)量和一致性。
TDPO-R 算法
面對(duì)以上問題,TDPO-R 通過引入時(shí)間差分獎(jiǎng)勵(lì)機(jī)制,為擴(kuò)散模型的每一步去噪操作提供實(shí)時(shí)的獎(jiǎng)勵(lì)反饋,從而修正這種偏置錯(cuò)位,緩解獎(jiǎng)勵(lì)過優(yōu)化問題。這種獎(jiǎng)勵(lì)機(jī)制將擴(kuò)散過程中的每個(gè)時(shí)間步視為一個(gè)馬爾科夫決策過程中的狀態(tài),模型在每一步的動(dòng)作(即去噪操作)后,都會(huì)獲得相應(yīng)的獎(jiǎng)勵(lì)值。為了降低時(shí)間差分獎(jiǎng)勵(lì)函數(shù)的學(xué)習(xí)成本,TDPO-R 通過一個(gè)時(shí)間差分評(píng)判器(Temporal Critic)來近似估計(jì)每個(gè)時(shí)間步的獎(jiǎng)勵(lì)。這一評(píng)判器通過強(qiáng)化學(xué)習(xí)的方式與擴(kuò)散模型一齊同步進(jìn)行訓(xùn)練,逐步學(xué)習(xí)如何為每個(gè)時(shí)間步估算合適的獎(jiǎng)勵(lì)。具體來說,模型在每個(gè)時(shí)間步 t 做出去噪操作后,評(píng)判器會(huì)基于當(dāng)前狀態(tài)(中間去噪圖像)與目標(biāo)狀態(tài)的差異,給出即時(shí)獎(jiǎng)勵(lì)反潰
在策略更新時(shí),TDPO-R 采用類似于策略梯度(Policy Gradient)的方法。特別是,得益于時(shí)間差分獎(jiǎng)勵(lì)機(jī)制提供了每個(gè)時(shí)間步的即時(shí)反饋,TDPO-R 在擴(kuò)散模型去噪的每一步都可以立即進(jìn)行策略更新,而無需等待所有步驟結(jié)束。這種即時(shí)更新讓模型能夠及時(shí)修正去噪過程中出現(xiàn)的偏差,避免問題在后續(xù)步驟中積累。同時(shí),由于每一步都進(jìn)行即時(shí)更新,模型可以在更短的時(shí)間內(nèi)獲得更好的優(yōu)化效果,減少了傳統(tǒng)全局更新方式下的延遲和不必要的計(jì)算開銷,提高了訓(xùn)練的樣本效率。
接著,從首要偏置(Primacy Bias)的角度出發(fā),TDPO-R 的研究者進(jìn)一步分析了獎(jiǎng)勵(lì)過優(yōu)化的問題。首要偏置描述的是深度強(qiáng)化學(xué)習(xí)模型在訓(xùn)練中傾向于過度擬合早期的訓(xùn)練經(jīng)驗(yàn),從而影響后續(xù)訓(xùn)練階段的優(yōu)化效果的一種現(xiàn)象。他們發(fā)現(xiàn),在擴(kuò)散模型的對(duì)齊任務(wù)中,首要偏置與獎(jiǎng)勵(lì)過優(yōu)化也有著密切的聯(lián)系,特別是當(dāng)模型在訓(xùn)練過程中過度傾向于某個(gè)早期的策略時(shí),后續(xù)的生成質(zhì)量可能會(huì)出現(xiàn)下降。
為了深入理解首要偏置與獎(jiǎng)勵(lì)過優(yōu)化之間的關(guān)系,研究者引入了神經(jīng)網(wǎng)絡(luò)中神經(jīng)元激活狀態(tài)的概念。通常,深度神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元可以處于兩種狀態(tài):
活躍神經(jīng)元:在訓(xùn)練過程中頻繁被激活的神經(jīng)元,通常與當(dāng)前任務(wù)的主要模式相關(guān)。
休眠神經(jīng)元:在訓(xùn)練中很少被激活的神經(jīng)元,通常被認(rèn)為對(duì)當(dāng)前任務(wù)貢獻(xiàn)較少,甚至被認(rèn)為會(huì)阻礙模型的學(xué)習(xí)能力。
在以往的研究中,活躍神經(jīng)元往往被視為是模型的核心,因?yàn)樗鼈兎从沉四P蛯?duì)當(dāng)前數(shù)據(jù)的主要適應(yīng)能力。而休眠神經(jīng)元?jiǎng)t通常被認(rèn)為是冗余的或不必要的,因?yàn)樗鼈儧]有參與主要的學(xué)習(xí)過程。
而在 TDPO-R 的研究中,研究者驚訝地發(fā)現(xiàn),休眠神經(jīng)元實(shí)際上在應(yīng)對(duì)獎(jiǎng)勵(lì)過優(yōu)化方面起到了重要作用。具體而言:
活躍神經(jīng)元更易受到首要偏置的影響:由于活躍神經(jīng)元頻繁參與早期訓(xùn)練任務(wù),它們傾向于過擬合早期的學(xué)習(xí)模式。因此,這些神經(jīng)元在模型的優(yōu)化過程中可能會(huì)過度強(qiáng)化某一特定獎(jiǎng)勵(lì)目標(biāo),導(dǎo)致獎(jiǎng)勵(lì)過優(yōu)化問題的加劇。例如,模型可能因?yàn)檫^度優(yōu)化早期階段的獎(jiǎng)勵(lì)信號(hào),導(dǎo)致后續(xù)的生成結(jié)果表現(xiàn)不佳,甚至在其他獎(jiǎng)勵(lì)函數(shù)上的泛化能力下降。
休眠神經(jīng)元作為自適應(yīng)正則化手段:與活躍神經(jīng)元相反,休眠神經(jīng)元由于較少參與訓(xùn)練任務(wù),反而可以作為一種對(duì)抗獎(jiǎng)勵(lì)過優(yōu)化的自適應(yīng)正則化手段。這是因?yàn)椋菝呱窠?jīng)元的低激活狀態(tài)意味著它們沒有過度依賴早期的獎(jiǎng)勵(lì)信號(hào),從而在模型后期的訓(xùn)練中可以起到平衡的作用。另外,它們還能夠提供一種類似于 “潛力儲(chǔ)備” 的功能,在獎(jiǎng)勵(lì)函數(shù)發(fā)生變化或模型過擬合早期獎(jiǎng)勵(lì)信號(hào)時(shí),休眠神經(jīng)元可以重新被激活,以補(bǔ)充模型的適應(yīng)能力,增強(qiáng)模型的泛化性能。
為了應(yīng)對(duì)首要偏置,TDPO-R 引入了一種神經(jīng)元重置機(jī)制。這種機(jī)制通過定期重置模型中的活躍神經(jīng)元,將其恢復(fù)到類似 “休眠” 狀態(tài),從而打破首要偏置的影響,重新激發(fā)模型的學(xué)習(xí)能力。具體來說:
周期性神經(jīng)元重置:在訓(xùn)練過程中,TDPO-R 會(huì)定期對(duì)評(píng)判器(critic)模型中過度活躍的神經(jīng)元進(jìn)行重置,降低它們的激活頻率,從而打破它們?cè)谠缙陔A段對(duì)特定獎(jiǎng)勵(lì)信號(hào)的過擬合。通過這一操作,模型可以避免過度強(qiáng)化某一獎(jiǎng)勵(lì)目標(biāo),確保生成過程的多樣性和泛化能力。
重新激活休眠神經(jīng)元:隨著活躍神經(jīng)元被重置,模型的其他神經(jīng)元,包括那些此前處于休眠狀態(tài)的神經(jīng)元,會(huì)被激活,以參與新的學(xué)習(xí)任務(wù)。這種神經(jīng)元的 “輪替” 確保了模型的學(xué)習(xí)能力不會(huì)因?yàn)樵缙谟?xùn)練經(jīng)驗(yàn)的固定化而受到限制,從而緩解了獎(jiǎng)勵(lì)過優(yōu)化的問題。
實(shí)驗(yàn)評(píng)估 跨獎(jiǎng)勵(lì)泛化度量
研究者使用提出的 TDPO-R 對(duì) Stable Diffusion v1.4 模型進(jìn)行微調(diào)訓(xùn)練,并采取不同文本提示詞集和獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估實(shí)驗(yàn)。為了更直觀地展現(xiàn)跨獎(jiǎng)勵(lì)泛化度量的效果,研究者通過圖表展示了在優(yōu)化某一特定目標(biāo)獎(jiǎng)勵(lì)函數(shù)(如 Aesthetic Score)時(shí),模型在其他多種獎(jiǎng)勵(lì)函數(shù)(如 ImageReward、HPSv2 和 PickScore)上的得分如何變化。如上圖所示,其中每幅圖表的橫坐標(biāo)代表訓(xùn)練保存的中間模型在目標(biāo)獎(jiǎng)勵(lì)函數(shù)上的得分,而縱坐標(biāo)代表對(duì)應(yīng)的中間模型在域外獎(jiǎng)勵(lì)函數(shù)上的得分。通過這些圖表,可以清楚地觀察到 TDPO-R 和其他擴(kuò)散模型對(duì)齊方法(如 DDPO 和 AlignProp)在跨獎(jiǎng)勵(lì)泛化能力上的差異。
在泛化較差的目標(biāo)獎(jiǎng)勵(lì)函數(shù)(如 Aesthetic Score)上,TDPO-R 能夠保持域外獎(jiǎng)勵(lì)函數(shù)的得分沒有顯著下滑,而其它方法則表現(xiàn)為明顯的下降趨勢(shì);而在泛化較好的目標(biāo)獎(jiǎng)勵(lì)函數(shù)(如 HPSv2 和 PickScore)上,TDPO-R 能夠使域外獎(jiǎng)勵(lì)函數(shù)的得分更快地上漲。這表明 TDPO-R 在優(yōu)化特定目標(biāo)時(shí),展現(xiàn)出更強(qiáng)的跨獎(jiǎng)勵(lì)泛化能力,有效緩解了獎(jiǎng)勵(lì)過優(yōu)化的問題。
除了定量指標(biāo)的對(duì)比,研究者還通過可視化圖像樣本的對(duì)比展示了 TDPO-R 相較于其他方法的優(yōu)勢(shì)。如下圖所示對(duì)比了 TDPO-R 與其他方法,皆將目標(biāo)獎(jiǎng)勵(lì)函數(shù)(Aesthetic Score)的得分提升至同一臨界值時(shí)所生成的樣本圖像。可以看出,在其它方法中,不同文本提示詞對(duì)應(yīng)的圖像樣本風(fēng)格趨同,尤其是在光線、色調(diào)和構(gòu)圖風(fēng)格方面,缺乏多樣性,甚至還存在圖像失真的情況。相比之下,TDPO-R 不僅能夠生成更具視覺自然感和細(xì)節(jié)保真的圖像,還保留了風(fēng)格的多樣性,具有更平衡的美學(xué)表現(xiàn),直觀地體現(xiàn)了 TDPO-R 緩解獎(jiǎng)勵(lì)過優(yōu)化的有效性。
如下圖所示,在生成包含復(fù)雜場(chǎng)景描述的圖像時(shí),其它方法存在圖像細(xì)節(jié)不準(zhǔn)確的問題,忽略了關(guān)鍵的語義元素(如物體的數(shù)量、類型以及場(chǎng)景地點(diǎn)等),表現(xiàn)出典型的文圖語義不一致問題。而 TDPO-R 生成的圖像不僅視覺豐富,還能夠準(zhǔn)確反映文本描述的內(nèi)容。這體現(xiàn)了 TDPO-R 的跨任務(wù)泛化能力,即在提升圖像美學(xué)表現(xiàn)的同時(shí),還能夠有效保留文圖的語義一致性。
除了上述實(shí)驗(yàn)結(jié)果之外,研究者還展示了其他一些主要實(shí)驗(yàn)內(nèi)容,包括 “算法樣本效率對(duì)比”、“對(duì)未見提示詞的泛化能力”、“神經(jīng)元狀態(tài)的影響” 以及 “應(yīng)對(duì)過優(yōu)化的其它替代策略” 等方面。對(duì)于這些補(bǔ)充實(shí)驗(yàn)以及 TDPO-R 方法的更多技術(shù)細(xì)節(jié),感興趣的讀者可以參閱論文原文進(jìn)一步了解。