機器之心發(fā)布
機器之心編輯部
還記得半年前在 X 上引起熱議的肖像音頻驅(qū)動技術(shù) Loopy 嗎?升級版技術(shù)方案來了,字節(jié)跳動數(shù)字人團隊推出了新的多模態(tài)數(shù)字人方案 OmniHuman, 其可以對任意尺寸和人物占比的單張圖片結(jié)合一段輸入的音頻進行視頻生成,生成的人物視頻效果生動,具有非常高的自然度。
如對下面圖片和音頻:
音頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
OmniHuman 生成的人物可以在視頻中自然運動:
從項目主頁上可以看到 OmniHuman 對肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過單個模型進行支持,人物可以在視頻中生成和音頻匹配的動作,包括演講、唱歌、樂器演奏以及移動。對于人物視頻生成中常見的手勢崩壞,也相比現(xiàn)有的方法有顯著的改善。
作者也展示模型對非真人圖片輸入的支持,可以看到對動漫、3D 卡通的支持也很不錯,能保持特定風(fēng)格原有的運動模式。據(jù)悉,該技術(shù)方案已落地即夢 AI,相關(guān)功能將于近期開啟測試。
視頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
更多細節(jié)和展示效果,請查看:
論文項目主頁:https://omnihuman-lab.github.io/
技術(shù)報告:https://arxiv.org/abs/2502.01061
研究問題
基于擴散 Transformer(DiT)的視頻生成模型通過海量視頻 - 文本數(shù)據(jù)訓(xùn)練,已能輸出逼真的通用視頻內(nèi)容。其核心優(yōu)勢在于從大規(guī)模數(shù)據(jù)中學(xué)習(xí)到的強大通用知識,使模型在推理時展現(xiàn)出優(yōu)異的泛化能力。在細分的人像動畫領(lǐng)域,現(xiàn)有技術(shù)主要聚焦兩類任務(wù):音頻驅(qū)動的面部生成(如語音口型同步)和姿勢驅(qū)動的身體運動合成(如舞蹈動作生成)。2023 年后端到端訓(xùn)練方案的突破,使得現(xiàn)有技術(shù)方案通常能夠?qū)哂泄潭ǔ叽绾腿讼癖壤妮斎雸D像生成動畫,實現(xiàn)精準的口型同步與微表情捕捉。
然而,技術(shù)瓶頸日益凸顯:當前模型依賴高度過濾的訓(xùn)練數(shù)據(jù)(如固定構(gòu)圖、純語音片段),雖保障了訓(xùn)練穩(wěn)定性,卻引發(fā) "溫室效應(yīng)" 模型僅在受限場景(如固定構(gòu)圖、真人形象)中表現(xiàn)良好,難以適應(yīng)不同畫面比例、多樣化風(fēng)格等復(fù)雜輸入。更嚴重的是,現(xiàn)有數(shù)據(jù)清洗機制在排除干擾因素時,往往也丟失了大量有價值的數(shù)據(jù),導(dǎo)致生成效果自然度低、質(zhì)量差。
這種困境導(dǎo)致技術(shù)路線陷入兩難:直接擴大數(shù)據(jù)規(guī)模會因訓(xùn)練目標模糊(如音頻信號與肢體運動的弱相關(guān)性)導(dǎo)致模型性能下降;而維持嚴格篩選策略又難以突破場景限制。如何既能保留有效運動模式學(xué)習(xí),又能從大數(shù)據(jù)規(guī)模學(xué)習(xí)中受益成為當前研究重點。
技術(shù)方案
據(jù)技術(shù)報告,OmniHuman,面向端到端人像驅(qū)動任務(wù)中高質(zhì)量數(shù)據(jù)稀缺的問題,采用了一種 Omni-Conditions Training 的混合多模態(tài)訓(xùn)練策略,并相應(yīng)的設(shè)計了一個 OmniHuman 模型,通過這種混合多模態(tài)訓(xùn)練的設(shè)計,可以將多種模態(tài)的數(shù)據(jù)一起加入模型進行訓(xùn)練,從而大幅度的增加了人像驅(qū)動模型的可訓(xùn)練數(shù)據(jù),使得模型可以從大規(guī)模數(shù)據(jù)中受益,對各種類似的輸入形式有了比較好的支持。