復旦大學與百度合作發(fā)布了名為"Hallo"的人臉視頻生成模型,并在公開的學術論文"Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"中對該模型進行了詳細闡述。這一模型是首個基于擴散技術實現(xiàn)端到端生成高度逼真人臉視頻的開源項目。用戶只需提供一段音頻和所選人像,即可輕松制作出具有極高真實感的人臉視頻。這一技術的推出代表著數(shù)字人相關的視頻生成領域的重要進展。
項目主頁:https://fudan-generative-vision.github.io/hallo/
論文鏈接:https://arxiv.org/abs/2406.08801
GitHub鏈接:https://github.com/fudan-generative-vision/hall
端到端人臉視頻生成方案
在過去的技術發(fā)展過程中,由于缺乏有效的聲音到視頻生成方案,人臉視頻合成通常需要依賴參數(shù)化模型作為中間媒介。騰訊、螞蟻金服、微軟等公司推出的Sadtalker、AniPortrait、GAIA等技術方法便是這一路徑的典型代表。然而,這些方法常常受制于參數(shù)化模型在表情和動作表達能力上的限制,以及聲音與動作之間的弱相關性,導致生成的視頻在真實感和連貫性方面存在不足。最近,一些端到端的人臉視頻生成方案逐漸出現(xiàn),避免了中間表示形式的局限性。這些方案利用擴散模型強大的生成能力,可以直接生成高度逼真、高度連貫的視頻。然而,這類方案中的音頻和視覺特征通常通過全局交叉注意力模塊進行直接交互,缺乏對唇部和動作的精細約束,導致生成視頻的口型精度不如依賴參數(shù)化模型的解決方案,且動作生成能力較差,需要額外輸入動作進行驅(qū)動。此次,復旦與百度推出的直接從聲音驅(qū)動生成視頻的端到端模型,無需復雜的參數(shù)化中間表示和額外的動作輸入,即可生成口型、表情、動作極其自然豐富的人臉視頻。這一創(chuàng)新依賴于以下幾個關鍵方面:
1.分層音畫特征融合
在音畫交叉注意力過程中,由于人臉的嘴唇、面部表情、人頭姿勢對語音的運動響應方式并不相同,Hallo的研究人員采用了分層交叉注意力操作,針對不同區(qū)域分別提取掩碼特征。通過他們提出的輔助交叉注意力模塊與音頻特征融合,從而學習到不同區(qū)域的運動特征。具體來說,研究人員使用了嘴唇、面部和頭部的掩碼(如下圖左圖所示),讓音頻分別對口型、表情和姿勢進行引導生成。隨后,通過一個自適應機制將這三個部分融合在一起,無需額外參數(shù)化表示和動作驅(qū)動,即可直接生成表情和動作自然生動的人臉動畫視頻。經(jīng)過對注意力圖的分析,研究人員發(fā)現(xiàn),音頻特征與不同區(qū)域視覺特征分別交互,顯著提高了注意力模塊對面部信息的捕捉能力。模型的注意力可視化效果也呈現(xiàn)出更加聚焦于面部區(qū)域的特點,從而能夠顯著提升口型、表情和動作的真實度。這一方法的整體精度超越了其他現(xiàn)有方法。
2.不同人臉特征的控制能力
在Hallo系統(tǒng)中的分層音頻-視覺注意力機制具有將音頻特征與圖像的不同區(qū)域進行融合對齊的能力,從而提升口型、表情和姿勢的精準度和自然度,并提供了全局運動的可控性。通過調(diào)整各區(qū)域的權重,可以實現(xiàn)對不同區(qū)域視頻運動的精確控制。此外,Hallo采用專門的人臉編碼模型來替代傳統(tǒng)的圖像-語義預訓練模型(如CLIP)。人臉編碼模型的主要目的是生成高度保真的肖像身份特征。與以往通過在大型圖像和文本描述數(shù)據(jù)集上進行聯(lián)合訓練CLIP以獲得通用視覺特征編碼的方法不同,Hallo使用預先訓練的人臉編碼器來提取身份特征。這些特征與擴散網(wǎng)絡的交叉注意力模塊進行交互,生成與輸入角色特征忠實一致的肖像動畫。這一方法不僅確保了人臉特征提取的泛化能力,還準確地保留和展現(xiàn)了個人身份特征,例如面部表情、年齡和性別。
3.大規(guī)模數(shù)字人視頻數(shù)據(jù)集
在訓練中,Hallo系統(tǒng)利用了大量高質(zhì)量的數(shù)字人視頻數(shù)據(jù)。盡管互聯(lián)網(wǎng)上存在大量的數(shù)字人視頻數(shù)據(jù),但這些數(shù)據(jù)質(zhì)量參差不齊,存在諸如音畫不匹配、背景雜音、視頻抖動等各種問題的數(shù)據(jù)噪聲。為了解決這一問題,研發(fā)團隊構(gòu)建了一套自動化數(shù)字人視頻清洗引擎。截至目前,這一引擎已成功清洗了數(shù)千小時的高質(zhì)量數(shù)字人視頻,涵蓋了上萬個信息脫敏的數(shù)字人肖像。這項工作使得大規(guī)模數(shù)據(jù)訓練數(shù)字人視頻生成模型成為可能。
Hallo實踐效果
高質(zhì)量人臉動畫生成:在真人數(shù)據(jù)集上,Hallo展示出了高度一致的口型,并能夠體現(xiàn)出音頻的豐富細節(jié),如情緒和講話節(jié)奏。
多類型人像風格支持:盡管Hallo僅在真人視頻數(shù)據(jù)集上進行訓練,但表現(xiàn)出了極強的泛化性,包括卡通、素描、雕塑等各類風格,這得益于原始擴散模型在超大規(guī)模圖像數(shù)據(jù)集上的訓練。
全局運動可控性:Hallo的另一個重要特點是全局可控性。相較于以往方法中需要借助參數(shù)化模型控制人臉運動強度,Hallo利用分層面部特征注意力機制,通過調(diào)整三個區(qū)域的權重系數(shù),能針對性地控制口型、表情和動作的運動強度,從而大幅提升人臉動畫生成的可控性。
影視制作的潛在應用:除此之外,Hallo展示了在影視制作領域的巨大潛力。通過僅有一段電影對白和一個虛擬角色,可以讓虛擬角色生動演繹經(jīng)典電影場景。
應用前景
Hallo的發(fā)布為多個行業(yè)帶來了廣泛的應用前景。在娛樂產(chǎn)業(yè)方面,AI驅(qū)動的角色動畫技術具有廣泛的應用潛力,可在電影、電視劇和短視頻制作中發(fā)揮重要作用。通過運用這項技術,制作團隊可以提高制作效率,實現(xiàn)更高質(zhì)量的動畫效果,并最終實現(xiàn)成本的降低。這種技術的運用將為娛樂產(chǎn)業(yè)帶來更多的創(chuàng)意空間和商業(yè)機會。此外,在游戲和虛擬現(xiàn)實領域,AI生成的角色動畫為用戶提供更加沉浸式的體驗。通過引入AI角色,游戲和虛擬現(xiàn)實應用可以呈現(xiàn)更生動、真實的虛擬世界,增強用戶的沉浸感和參與感。這將為游戲產(chǎn)業(yè)和虛擬現(xiàn)實技術帶來新的發(fā)展機遇,推動這些領域的創(chuàng)新和進步。
在教育領域,AI數(shù)字人對于弱勢人群的教學具有極其重要的意義。通過整合AI角色到教學視頻和活動中,可以為這一群體設計更具包容性和可訪問性的教學方法。AI數(shù)字人能通過多感官交互如視覺、聽覺和觸覺增加學習的直觀性和互動性。這不僅能夠吸引學生的注意力,還能夠幫助他們更好地理解抽象概念和復雜信息,從而提高學習的有效性。此外,AI數(shù)字人可以模擬悉心的教師角色,提供持續(xù)的鼓勵和支持,幫助學生在遇到挑戰(zhàn)時保持積極和自信。通過這種方式,高質(zhì)量AI數(shù)字人的應用不僅能夠提供更符合弱勢人群需求的教育內(nèi)容,還能夠幫助他們提高社交技能和生活自理能力,從而更好地融入社會,提高生活質(zhì)量。這種教育方式的推廣和應用,有望為弱勢群體打開新的學習大門,為他們帶來更多的學習機會和社會參與可能。
未來展望
隨著人工智能圖形計算(AIGC)技術的飛速進步,AI驅(qū)動的角色動畫將展現(xiàn)更加逼真自然的表現(xiàn)。未來,復旦和百度的研究團隊將持續(xù)優(yōu)化模型性能,提升動畫生成質(zhì)量,并擴展更廣泛的應用領域。通過與社區(qū)緊密合作和開源共享,Hallo有望在多個產(chǎn)業(yè)領域發(fā)揮作用,為國家人工智能技術的發(fā)展和推廣貢獻力量。