劃重點(diǎn)
01OpenAI發(fā)布多模態(tài)模型實(shí)時(shí)生成研究,速度比擴(kuò)散模型快50倍,僅用兩步采樣。
02研究團(tuán)隊(duì)成功將連續(xù)時(shí)間一致性模型的訓(xùn)練規(guī)模擴(kuò)展到了15億參數(shù),實(shí)現(xiàn)了在512×512分辨率的ImageNet數(shù)據(jù)集上的訓(xùn)練。
03為此,研究人員提出了TrigFlow框架,統(tǒng)一了EDM和Flow Matching兩種方法,解決了訓(xùn)練不穩(wěn)定的挑戰(zhàn)。
04通過(guò)改進(jìn)訓(xùn)練目標(biāo),包括切向量歸一化和自適應(yīng)權(quán)重等技術(shù),提高了訓(xùn)練穩(wěn)定性。
05實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的一致性模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異,F(xiàn)ID分?jǐn)?shù)差距在10%以內(nèi)。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
兩位清華校友,在OpenAI發(fā)布最新研究
生成圖像,但速度是擴(kuò)散模型的50倍。
路橙、宋再次簡(jiǎn)化了一致性模型,僅用兩步采樣,就能使生成質(zhì)量與擴(kuò)散模型相媲美。
他們成功將連續(xù)時(shí)間一致性模型的訓(xùn)練規(guī)模擴(kuò)展到了前所未有的15億參數(shù),并實(shí)現(xiàn)了在512×512分辨率的ImageNet數(shù)據(jù)集上的訓(xùn)練。
參數(shù)15億模型在單張A100 GPU上無(wú)需任何推理優(yōu)化即可在0.11秒內(nèi)生成一個(gè)樣本。
團(tuán)隊(duì)還表示通過(guò)定制系統(tǒng)優(yōu)化,可以進(jìn)一步加速,為實(shí)時(shí)生成圖像、音頻和視頻提供新的可能。
值得一提的是,論文僅有的兩位作者還都是清華校友。
該項(xiàng)研究發(fā)布后得到大量網(wǎng)友點(diǎn)贊轉(zhuǎn)發(fā)。
把正在休假的Openai總裁Greg Brockman都炸出來(lái)了:
多模態(tài)模型正邁向?qū)崟r(shí)生成。
那么,sCM是如何實(shí)現(xiàn)的?
兩步采樣,50倍加速一致性模型是一種快速的擴(kuò)散模型替代方案。
當(dāng)前擴(kuò)散模型的采樣方法通常需要數(shù)十到數(shù)百個(gè)連續(xù)步驟才能生成單個(gè)樣本,這限制了其實(shí)時(shí)應(yīng)用的效率和可擴(kuò)展性。
與逐步通過(guò)大量去噪步驟生成樣本的擴(kuò)散模型不同,它旨在一步直接將噪聲轉(zhuǎn)換為無(wú)噪聲樣本。
OpenAI最新這項(xiàng)研究提出了一種改進(jìn)連續(xù)時(shí)間一致性模型(Continuous-time Consistency Models)的綜合方法,主要包含題目中提到的三個(gè)關(guān)鍵點(diǎn):簡(jiǎn)化、穩(wěn)定和擴(kuò)展。
論文指出,現(xiàn)有一致性模型主要采用離散時(shí)間步訓(xùn)練,這種方法會(huì)引入額外的超參數(shù)并容易產(chǎn)生離散化誤差。盡管連續(xù)時(shí)間公式可以避免這些問(wèn)題,但之前的工作中連續(xù)時(shí)間一致性模型始終面臨訓(xùn)練不穩(wěn)定的挑戰(zhàn)。
為此,論文首先提出了TrigFlow,巧妙地統(tǒng)一了EDM(Exponential Diffusion Model)和Flow Matching兩種方法。
TrigFlow使擴(kuò)散過(guò)程、擴(kuò)散模型參數(shù)化、PF-ODE、擴(kuò)散訓(xùn)練目標(biāo)和一致性模型參數(shù)化都能夠擁有簡(jiǎn)潔的表達(dá)式,如下所示。
在此基礎(chǔ)上,研究人員深入分析了導(dǎo)致訓(xùn)練連續(xù)時(shí)間一致性模型不穩(wěn)定的原因。
在TrigFlow框架的基礎(chǔ)上引入了幾項(xiàng)理論上的改進(jìn),重點(diǎn)是參數(shù)化、網(wǎng)絡(luò)架構(gòu)和訓(xùn)練目標(biāo)。
連續(xù)時(shí)間一致性模型訓(xùn)練的關(guān)鍵是:
取決于:
經(jīng)過(guò)進(jìn)一步分析,研究人員發(fā)現(xiàn)不穩(wěn)定源自于時(shí)間導(dǎo)數(shù):
并據(jù)此提出了三個(gè)關(guān)鍵改進(jìn):
采用恒等時(shí)間變換c_noise(t)=t代替原有的對(duì)數(shù)正切變換,避免了t接近π/2時(shí)的數(shù)值不穩(wěn)定性;
使用位置時(shí)間嵌入替代傅里葉嵌入,減少了導(dǎo)數(shù)震蕩;
引入自適應(yīng)雙重歸一化層替代AdaGN,在保持模型表達(dá)能力的同時(shí)提高了訓(xùn)練穩(wěn)定性。
此外,論文還改進(jìn)了訓(xùn)練目標(biāo),包括切向量歸一化和自適應(yīng)權(quán)重等技術(shù)。
以上種種改進(jìn)使得研究人員成功將時(shí)間一致性模型的訓(xùn)練規(guī)模擴(kuò)展到15億參數(shù),并在多個(gè)基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異。
CIFAR-10上的FID(越低越好)為2.06,ImageNet 64×64上為1.48,ImageNet 512×512上為1.88。
特別值得注意的是,這些模型只需要兩步采樣就能達(dá)到接近最好的擴(kuò)散模型的生成質(zhì)量(FID差距在10%以內(nèi)),而計(jì)算開(kāi)銷僅為后者的10%。
研究人員還比較了改進(jìn)后的一致性模型與變分分?jǐn)?shù)蒸餾(VSD)方法的區(qū)別,發(fā)現(xiàn)一致性模型能產(chǎn)生更多樣的樣本,并且在更高的引導(dǎo)水平下表現(xiàn)更好。
他們還有一個(gè)關(guān)鍵發(fā)現(xiàn),隨著teacher擴(kuò)散模型的規(guī)模擴(kuò)大,sCM的改進(jìn)也呈比例增加。
用FID分?jǐn)?shù)的比率來(lái)衡量樣本質(zhì)量的相對(duì)差異在模型大小不同的規(guī)模上是一致的,這意味著當(dāng)模型規(guī)模增加時(shí),樣本質(zhì)量的絕對(duì)差異會(huì)減校
此外,增加sCM的采樣步驟可以進(jìn)一步減少質(zhì)量差距。
作者簡(jiǎn)介路橙
去年在清華大學(xué)TSAIL實(shí)驗(yàn)室,在朱軍教授指導(dǎo)下獲得博士學(xué)位;2019年獲清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系學(xué)士學(xué)位。
現(xiàn)在他是OpenAI研究科學(xué)家,對(duì)大規(guī)模深度生成模型和強(qiáng)化學(xué)習(xí)算法感興趣。
喜歡在數(shù)學(xué)理論和實(shí)際應(yīng)用技巧之間找到理想的平衡點(diǎn)。
他對(duì)一致性模型、擴(kuò)散模型、歸一化流和基于能量的模型及其在圖像生成、3D 生成和強(qiáng)化學(xué)習(xí)中的應(yīng)用有豐富的研究經(jīng)驗(yàn)。
宋
宋在清華大學(xué)獲數(shù)學(xué)和物理學(xué)士學(xué)位后,在斯坦福大學(xué)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師Stefano Ermon。
其研究目標(biāo)是開(kāi)發(fā)能夠理解、生成并處理多種形態(tài)高維數(shù)據(jù)的強(qiáng)大AI模型。
目前,宋專注于改進(jìn)生成模型,包括它們的訓(xùn)練方法、架構(gòu)設(shè)計(jì)、對(duì)齊、魯棒性、評(píng)估技巧及推理效率。
他對(duì)探索生成模型作為科學(xué)發(fā)現(xiàn)工具的潛力也很感興趣。
參考鏈接:[1]https://x.com/OpenAI/status/1849139783362347293[2]https://luchengthu.github.io/[3]https://yang-song.net/