劃重點
01OpenAI研究團隊發(fā)布新成果sCM,旨在提高擴散模型生成速度,提升50倍。
02sCM模型基于傳統(tǒng)擴散模型改進,僅需兩個采樣步驟即可生成高質(zhì)量內(nèi)容。
03為此,研究團隊提出了TrigFlow統(tǒng)一框架,簡化模型構(gòu)建過程并解決訓(xùn)練不穩(wěn)定問題。
04實驗結(jié)果顯示,sCM模型在圖像質(zhì)量評估方面表現(xiàn)出色,與最佳擴散模型差距不到10%。
05盡管如此,sCM技術(shù)仍存在局限性,如依賴預(yù)訓(xùn)練擴散模型進行初始化和蒸餾。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
擴散模型(Diffusion Model)如今已被廣泛應(yīng)用于 AI 多媒體生成領(lǐng)域。
雖然它在生成逼真的圖像、3D 模型、音頻和視頻方面取得了令人矚目的成果,但其最大的短板在于采樣和生成速度過慢。
為了應(yīng)對這一挑戰(zhàn),業(yè)界已提出了多種擴散蒸餾技術(shù),例如直接蒸餾、對抗蒸餾、漸進蒸餾和變分分?jǐn)?shù)蒸餾等。
然而,這些方法要么需要大量樣本、計算成本高昂,要么訓(xùn)練復(fù)雜度較高、樣本多樣性有限。
近日,OpenAI 的研究團隊發(fā)布了一項新研究成果,旨在為這一問題提供新的解決方案。
他們探索了一種可簡化、穩(wěn)定化和可擴展的新模型,OpenAI 官網(wǎng)更新了該成果的簡介,相關(guān)論文發(fā)表在預(yù)印本平臺 arXiv 上。
(來源:OpenAI)
在論文中,研究人員介紹了一種全新的“連續(xù)時間一致性模型(sCM,continuous-time consistency model)”。
該模型可以讓 AI 生成多媒體內(nèi)容的速度提升 50 倍,為未來更快速、更高效的實時 AI 生成應(yīng)用開辟了廣闊前景。
簡單來說,sCM 是基于傳統(tǒng)擴散模型改進的新模型。通常情況下,這些模型在產(chǎn)出一個樣本之前,必須經(jīng)歷數(shù)十至數(shù)百個連續(xù)的步驟,這種低效率嚴(yán)重限制了其在實時應(yīng)用場景中的使用。
而 OpenAI 新提出的 sCM 模型改變了這一局面,它只需要兩個采樣步驟就能生成出與傳統(tǒng)擴散模型相媲美的高質(zhì)量內(nèi)容,使高效 AI 生成應(yīng)用成為可能。
圖 | 由 sCM 生成的圖片,只需 2 步采樣,質(zhì)量堪比傳統(tǒng)擴散模型(來源:OpenAI)
據(jù)介紹,sCM 是在一致性模型(CM,Consistency Model)的基礎(chǔ)上開發(fā)的。
研究人員吸取了 EDM 流匹配(Flow Matching)技術(shù)的優(yōu)點,提出了 TrigFlow。這是一個統(tǒng)一的框架,大大簡化了模型的構(gòu)建過程。
研究團隊還分析了 CM 訓(xùn)練不穩(wěn)定的根本原因,基于此他們提出解決方案,例如改進網(wǎng)絡(luò)架構(gòu)中的時間調(diào)節(jié)和自適應(yīng)組規(guī)范化。
此外,他們還重新制定了連續(xù)時間 CM 的訓(xùn)練目標(biāo),結(jié)合了關(guān)鍵詞的自適應(yīng)加權(quán)和規(guī)范化,配合漸進退火,進而實現(xiàn)穩(wěn)定且可擴展的訓(xùn)練。
值得一提的是,該論文作者之一、 OpenAI 戰(zhàn)略探索團隊負責(zé)人宋(Yang Song)曾與 OpenAI 前首席科學(xué)家伊利亞薩茨克維爾(Ilya Sutskever)合作,在 2023 年首次提出了 CM 的概念。如前文所說,這一概念為本次研究奠定了重要基矗
這種創(chuàng)新方法的效果驚艷。研究人員在 CIFAR-10、ImageNet 64×64 和 ImageNet 512×512 上訓(xùn)練 sCM 模型,最大的模型擁有 15 億個參數(shù),是迄今為止訓(xùn)練的最大 CM 模型。
這個模型僅需 0.11 秒就能在單個 A100 圖形處理器(GPU,Graphics Processing Unit)上生成一個樣本。
相比之下,傳統(tǒng)擴散模型需要超過 5 秒。這種顯著的速度提升不僅提高了生產(chǎn)效率,還為實時交互應(yīng)用創(chuàng)造了可能。
圖 | 在單個 A100 GPU 上采樣 2 秒,sCM 模型已經(jīng)十分清晰,擴散模型還是一片模糊(來源:OpenAI)
在圖像質(zhì)量評估方面,該模型在 ImageNet 512×512 上實現(xiàn)了 1.88 的 FID(Fréchet Inception Distance,一種評估生成模型性能的指標(biāo))評分,與需要數(shù)百個采樣步驟的最佳擴散模型相比,質(zhì)量差距只有不到 10%。
在 CIFAR-10 和 ImageNet 64×64 等數(shù)據(jù)集上,sCM 同樣表現(xiàn)出色,分別獲得了 2.06 和 1.48 的 FID 評分。
這些成績證明,快速生成與高質(zhì)量輸出并非不可兼得,sCM 成功實現(xiàn)了兩者的平衡,同時保證了通用性,也展示了其在不同場景下的適應(yīng)能力。
OpenAI 介紹稱,從技術(shù)原理來看,傳統(tǒng)擴散模型實現(xiàn)生成樣本通常有大量去噪步驟的過程,這也是其速度慢的主要原因。
而 sCM 模型則采用了更直接的方式,可以在一至兩個步驟內(nèi)直接把噪聲轉(zhuǎn)成高質(zhì)量樣本,從而大幅降低了計算成本和時間。
(來源:OpenAI)
更令人興奮的是,研究發(fā)現(xiàn) sCM 的性能會隨著“教師擴散模型(Teacher Diffusion Model,用于知識蒸餾的預(yù)訓(xùn)練模型)”的規(guī)模擴大而同步提升。
兩者的規(guī)模在都擴大的情況下,它們的樣本質(zhì)量差距將逐漸縮小,而增加 sCM 的采樣步驟則能夠進一步減小該差異。這種可擴展性為未來模型的進一步優(yōu)化提供了明確的方向。
盡管如此,這項技術(shù)仍存在一些局限性。最好的 sCM 模型仍然需要依賴預(yù)訓(xùn)練的擴散模型來進行初始化和蒸餾,這導(dǎo)致其在樣本質(zhì)量上與“教師模型”之間仍有一定差距。
此外,F(xiàn)ID 評分作為樣本質(zhì)量的衡量標(biāo)準(zhǔn)也有其自身的局限性,評分的接近并不總能完全反映實際的樣本質(zhì)量,這些問題也將成為未來的改進方向。
研究團隊對媒體表示,通過系統(tǒng)優(yōu)化,sCM 的性能還有提升空間。這種優(yōu)化可能包括更高效的計算方法、更先進的架構(gòu)設(shè)計,以及更優(yōu)的訓(xùn)練策略。
這些潛在的改進將使 sCM 在更多領(lǐng)域發(fā)揮作用,以滿足不同行業(yè)的具體需求。
“我們將繼續(xù)致力于開發(fā)更好的生成模型,提高推理速度和樣本質(zhì)量。”
OpenAI 寫道,“我們相信,這些進步將為更廣泛的實時、高質(zhì)量生成式 AI 應(yīng)用帶來新的可能性。”
參考資料:
https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
https://arxiv.org/pdf/2410.11081
運營/排版:何晨龍