AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
近年來,隨著擴(kuò)散模型和 Transformer 技術(shù)的快速發(fā)展,4D 人體 - 物體交互(HOI)的生成與驅(qū)動效果取得了顯著進(jìn)展。然而,當(dāng)前主流方法仍依賴 SMPL [1] 這一人體先驗?zāi)P蛠砩蓜幼。盡管這些方法已取得令人矚目的成果,但由于 SMPL 在衣物表現(xiàn)上的局限性,以及缺乏大規(guī)模真實交互數(shù)據(jù)的支持,它們依然難以生成日常生活中的復(fù)雜交互場景。
相比之下,在 2D 生成模型中,由于大語言模型和海量文字 - 圖片數(shù)據(jù)的支持,這一問題得到了有效的解決。2D 生成模型如今能夠快速生成高度逼真的二維場景。而且,隨著這些技術(shù)被引入到 3D 和 4D 生成模型中,它們成功地將二維預(yù)訓(xùn)練知識遷移到更高維度,推動了更精細(xì)的生成能力。然而,在處理 4D 人體 - 物體交互時,這些 3D/4D 生成的方法依然面臨兩個關(guān)鍵挑戰(zhàn):(1)物體與人體的接觸發(fā)生在何處?又是如何產(chǎn)生的?(2)如何在人體與物體的動態(tài)運(yùn)動過程中,保持它們之間交互的合理性?
為了解決這一問題,南洋理工大學(xué) S-Lab 的研究者們提出了一種全新的方法:AvatarGO。該方法不僅能夠生成流暢的人體 - 物體組合內(nèi)容,還在有效解決穿模問題方面展現(xiàn)了更強(qiáng)的魯棒性,為以人為核心的 4D 內(nèi)容創(chuàng)作開辟了全新的前景。
想深入了解 AvatarGO 的技術(shù)細(xì)節(jié)?我們已經(jīng)為你準(zhǔn)備好了完整的論文、項目主頁和代碼倉庫!
論文地址:https://arxiv.org/abs/2410.07164
Project Page:https://yukangcao.github.io/AvatarGO/
GitHub:https://github.com/yukangcao/AvatarGO
引言 近年來,隨著人體 - 物體(HOI)交互數(shù)據(jù)集(如 CHAIRS [2], BEHAVE [3])的采集,以及擴(kuò)散模型和 transformer 技術(shù)的迅速發(fā)展,基于文本輸入生成 4D 人體動作和物體交互的技術(shù)已經(jīng)展現(xiàn)出了巨大的潛力。然而,目前的技術(shù)大多集中于基于 SMPL 的人體動作生成,但它們難以真實呈現(xiàn)日常生活中人物與物體交互的外觀。盡管 InterDreamer [4] 提出了零樣本生成方法,能夠生成與文本對齊的 4D HOI 動作序列,但其輸出仍然受到 SMPL 模型的局限,無法完全突破這一瓶頸。 在另一方面,隨著 3D 生成方法和大語言模型(LLM)的快速發(fā)展,基于文本的 3D 組合生成技術(shù)逐漸引起了廣泛關(guān)注。這些技術(shù)能夠深度理解復(fù)雜對象之間的關(guān)系,并生成包含多個主體的復(fù)雜 3D 場景。例如,GraphDreamer [5] 通過 LLM 構(gòu)建圖結(jié)構(gòu),其中節(jié)點代表對象,邊表示它們之間的關(guān)系,實現(xiàn)了復(fù)雜場景的解耦;ComboVerse [6] 則提出空間感知評分蒸餾采樣技術(shù)(SSDS),強(qiáng)化了空間的關(guān)聯(lián)性。隨后,其他研究 [13, 14] 進(jìn)一步探索了聯(lián)合優(yōu)化布局以組合不同組件的潛力。但它們在生成 4D HOI 場景時,依然面臨著兩個核心挑戰(zhàn):
觸區(qū)域定義不準(zhǔn)確:雖然 LLM 擅長捕捉物體間的關(guān)系,但在與擴(kuò)散模型結(jié)合時,如何準(zhǔn)確定義物體間的接觸區(qū)域,特別是復(fù)雜的關(guān)節(jié)結(jié)構(gòu)如人體,仍然是一個難題。盡管 InterFusion [13] 構(gòu)建了 2D 人體 - 物體交互數(shù)據(jù)集,旨在從文本提示中提取人體姿勢,但它們?nèi)栽谟?xùn)練集之外的情況下,無法準(zhǔn)確識別人體與物體的最佳接觸部位。
4D 組合驅(qū)動的局限性:盡管 DreamGaussian4D [7] 和 TC4D [8] 利用視頻擴(kuò)散模型對 3D 靜態(tài)場景進(jìn)行動作驅(qū)動,但這些方法通常將整個場景視為一個統(tǒng)一主體進(jìn)行優(yōu)化,從而導(dǎo)致不自然的動畫效果。盡管像 Comp4D [9] 這類項目通過軌跡為每個 3D 對象單獨生成動畫,但物體之間的接觸建模仍然是一個巨大挑戰(zhàn)。
為了解決這些挑戰(zhàn),AvatarGO 提出了兩項關(guān)鍵創(chuàng)新,以解決物體與人體應(yīng) “如何交互” 以及 “在哪里交互” 的問題:
LLM 引導(dǎo)的接觸區(qū)域重定向(LLM-guided contact retargeting):該方法通過利用 Lang-SAM [10] 從文本中識別出大致的接觸部位,并將其作為優(yōu)化過程的初始化,從而解決了擴(kuò)散模型在估計接觸區(qū)域時的難題。
對應(yīng)關(guān)系感知的動作優(yōu)化(Correspondence-aware motion optimization):基于對靜態(tài)合成模型中穿,F(xiàn)象較少發(fā)生的觀察,AvatarGO 提出了對應(yīng)關(guān)系感知的運(yùn)動優(yōu)化方法。該方法將物體的運(yùn)動分為主動和從動部分,并利用 SMPL-X 作為中介,確保人體和物體在交互過程中保持一致的對應(yīng)關(guān)系。這一創(chuàng)新顯著提高了在運(yùn)動過程中對穿模問題的魯棒性。
AvatarGO: 4D 人體 - 物體生成框架
AvatarGO 以文本提示為輸入,生成具有物體交互的 4D 虛擬人物。其框架核心包括:(1)文本驅(qū)動的 3D 人體與物體組合(text-driven 3D human and object composition):該部分利用大型語言模型(LLM)從文本中重定向接觸區(qū)域,并結(jié)合空間感知的 SDS(空間感知評分蒸餾采樣)來合成 3D 模型。(2)對應(yīng)關(guān)系感知的動作優(yōu)化(Correspondence-aware motion optimization):該優(yōu)化方法聯(lián)合優(yōu)化人體和物體的動畫,能夠在動畫過程中有效維持空間對應(yīng)關(guān)系,從而提升對穿模問題的魯棒性。 文本驅(qū)動的 3D 人體與物體組合 現(xiàn)在已有的方法已經(jīng)可以很快捷高效的生成三維人物
和物體
,但 AvatarGO 的研究人員發(fā)現(xiàn),即使進(jìn)行手動調(diào)整,如重新縮放和旋轉(zhuǎn) 3D 物體,仍然難以精確地綁定生成的 3D 人體和物體模型。為此,他們首先利用文本提示將人物
和物體
進(jìn)行組合,通過優(yōu)化其高斯屬性來實現(xiàn)這一目標(biāo)。同時,他們還優(yōu)化了物體
的三個可訓(xùn)練全局參數(shù),包括旋轉(zhuǎn)旋轉(zhuǎn)
、縮放因子
和平移矩陣
:
其中
是組成物體
的高斯點云。 空間感知評分蒸餾采樣(spatial-aware score distillation sampling):沿襲 ComboVerse [6] 的方法,我們采用 SSDS 來促進(jìn)人體和物體之間的 3D 組合生成。具體而言,SSDS 通過用一個常數(shù)因子(其中>1)縮放指定標(biāo)記 < token>的注意力圖,從而增強(qiáng) SDS 與人體和物體之間的空間關(guān)系。
在這里,
出發(fā),AvatarGO 從正面視角渲染該模型生成圖像。然后,將此圖像與文本輸入一起,輸入到 Lang-SAM 模型中,以推導(dǎo)出 2D 分割掩碼
:
其中,
其中,
表示第個高斯點的權(quán)重,
是可以投影到像素 上的高斯點的集合。
分別表示不透明度、透射率和分割掩碼值。在權(quán)重更新后,他們通過將高斯點的權(quán)重與預(yù)定義的閾值進(jìn)行比較,來判斷一個高斯點是否對應(yīng)于人體部位的分割區(qū)域。然后,AvatarGO 根據(jù)以下公式初始化平移參數(shù)
:
其中,
,是人體模型
中高斯點的數(shù)量。 對應(yīng)關(guān)系感知的動作場 在生成了 3D 人體與物體的組合之后,同步驅(qū)動他們帶來了額外的挑戰(zhàn),其主要是由于潛在的穿模問題。這個問題源于物體缺乏一個明確定義的運(yùn)動場。為此,AvatarGO 通過使用 SMPL-X 的線性混合蒙皮函數(shù)(Linear-blend Skinning)為人體和物體模型建立了運(yùn)動場,并提出了一種對應(yīng)關(guān)系感知的運(yùn)動優(yōu)化方法,旨在優(yōu)化物體模型的可訓(xùn)練全局參數(shù),即旋轉(zhuǎn)(
)和平移(
),以提高人體與物體之間穿模問題的魯棒性。首先,SMPL-X 的線性混合蒙皮函數(shù)()可表達(dá)為:
其中,
和
分別表示 SMPL-X 在標(biāo)準(zhǔn)空間和觀察空間下的頂點。
是蒙皮權(quán)重,
是仿射變形,可將第個關(guān)節(jié)
從標(biāo)準(zhǔn)空間映射到觀察空間,
表示鄰近關(guān)節(jié)的數(shù)量。 人體驅(qū)動:當(dāng)給定一個基于 SMPL-X 的人體運(yùn)動序列之后,AvatarGO 會首先構(gòu)建一個變形場,該變形場由兩部分組成:(1)利用 SMPL-X 線性混合蒙皮函數(shù)()的關(guān)節(jié)變形,以及(2)基于 HexPlane 特征學(xué)習(xí)的非剛性運(yùn)動 [11]。該變形場可以將點
從標(biāo)準(zhǔn)空間變形到觀察空間中的
:
其中,
表示基于 HexPlane 的特征提取網(wǎng)絡(luò), 表示時間戳。
則通過離
最近的標(biāo)準(zhǔn) SMPL-X 的頂點推導(dǎo)得到。 物體驅(qū)動:與人體驅(qū)動類似,AvatarGO 首先將物體定義為剛體,并類似的通過計算物體模型
內(nèi)的每個高斯點與其最近的標(biāo)準(zhǔn) SMPL-X 頂點的變形矩陣
。物體的變形場則可初步被定義為:
其中,
,
是
中的高斯點總數(shù)。 盡管直接使用 SMPL-X 線性混合蒙皮進(jìn)行物體動畫可能看起來是一個簡單的解決方案,但它可能導(dǎo)致人體與物體之間的穿模問題。這一問題主要來自于缺乏適當(dāng)?shù)募s束來保持這兩個模型之間的對應(yīng)關(guān)系。 對應(yīng)關(guān)系感知運(yùn)動優(yōu)化:通過觀察,作者發(fā)現(xiàn) AvatarGO 在處理不同場景下的靜態(tài)合成模型穿模問題時表現(xiàn)出較好的魯棒性;谶@一觀察,作者提出了一種對應(yīng)關(guān)系感知的運(yùn)動優(yōu)化方法,以保持人體與物體之間的對應(yīng)關(guān)系,從而一定程度上減少穿模問題的出現(xiàn)頻率。具體而言,AvatarGO 將上述運(yùn)動場
進(jìn)行擴(kuò)展,加入兩個額外的可訓(xùn)練參數(shù)
和
:
其中
是原有運(yùn)動場
的輸出。 在通過 SDS 來優(yōu)化這些參數(shù)之外,AvatarGO 提出了一種新穎的對應(yīng)關(guān)系感知訓(xùn)練目標(biāo),該目標(biāo)利用 SMPL-X 作為中介,在人體和物體被驅(qū)動轉(zhuǎn)換到新姿勢時,保持它們之間的對應(yīng)關(guān)系:
其中,
和
分別基于
及其對應(yīng)的 SMPL-X 模型得出。 除了應(yīng)用 AvatarGO 提出的對應(yīng)關(guān)系感知優(yōu)化方法之外,作者還結(jié)合了空間感知 SDS 以及來自 HumanGaussian [12] 的紋理 - 結(jié)構(gòu)聯(lián)合 SDS,以增強(qiáng)整體質(zhì)量:
其中,
和
是超參數(shù),用于平衡結(jié)構(gòu)損失和紋理損失的影響,而表示深度信息。 整體上,優(yōu)化人物和物體運(yùn)動場的損失函數(shù)可表達(dá)為:
其中,
分別表示用于平衡各自損失的權(quán)重。 實驗 與其他 3D 生成方法的比較:下方視頻對比了 AvatarGO 與 HumanGaussian [12]、GraphDreamer [5]、和 AvatarGO 的一個變種(僅通過 SSDS 優(yōu)化人體和物體之間的關(guān)系)。結(jié)果表明,1)在沒有大語言模型(LLMs)輔助的情況下,HumanGaussian 難以確定人類與物體之間的空間關(guān)聯(lián);2)盡管使用圖結(jié)構(gòu)建立關(guān)系,GraphDreamer 仍然在處理有效接觸時存在困惑,導(dǎo)致結(jié)果不盡如人意;3)僅通過 SSDS 優(yōu)化
不足以將物體移動到正確的位置。相比之下,AvatarGO 始終能夠精確地實現(xiàn)人類與物體的交互,表現(xiàn)優(yōu)于其他方法。
與其他 4D 生成方法的比較:下方視頻展示了 AvatarGO 與現(xiàn)有 4D 生成方法(包括 DreamGaussian4D [7],HumanGaussian [12],TC4D [8])的對比。結(jié)果表明,1)即使有了人體 - 物體交互圖像作為輸入,DreamGaussian4D(采用視頻擴(kuò)散模型)在 4D 驅(qū)動時仍然面臨困難;2)HumanGaussian 直接通過 SMPL LBS 函數(shù)直接進(jìn)行的動畫,往往會產(chǎn)生不流暢的效果,特別是對手臂的處理;3)TC4D 面臨與 DreamGaussian4D 類似的問題,同時,它將整個場景視為一個整體,缺乏對單個物體的局部和大規(guī)模運(yùn)動的處理。相比之下,AvatarGO 能夠持續(xù)提供優(yōu)越的結(jié)果,確保正確的關(guān)系并具有更好的穿模魯棒性。
總結(jié) 本文介紹了 AvatarGO,這是首次嘗試基于文本引導(dǎo)生成具有物體交互的 D 虛擬形象。在 AvatarGO 中,作者提出了利用大語言模型來理解人類與物體之間最合適的接觸區(qū)域。同時,作者還提出了一種新穎的對應(yīng)關(guān)系感知運(yùn)動優(yōu)化方法,利用 SMPL-X 作為中介,增強(qiáng)了模型在將 3D 人體和物體驅(qū)動到新姿勢時,抵抗穿模問題的能力。通過大量的評估實驗,結(jié)果表明 AvatarGO 在多個 3D 人體 - 物體對和不同姿勢下,成功實現(xiàn)了高保真度的 4D 動畫,并顯著超越了當(dāng)前的最先進(jìn)技術(shù)。 局限性:在為以人為中心的 4D 內(nèi)容生成開辟新途徑的同時,作者同時也認(rèn)識到 AvatarGO 存在一定的局限性: 1. AvatarGO 的流程基于 “物體是剛性體” 的假設(shè),因此不適用于為非剛性內(nèi)容(如旗幟)生成動畫; 2. AvatarGO 的方法假設(shè)物體與人體之間持續(xù)接觸,這使得像 “運(yùn)籃球” 這樣的任務(wù)難以處理,因為在某些時刻人與物體不可避免地會斷開連接。 參考文獻(xiàn) [1] SMPL: A Skinned Multi-Person Linear Model. SIGGRAPH 2015. [2] Full-Body Articulated Human-Object Interaction. arXiv 2212.10621. [3] BEHAVE: Dataset and Method for Tracking Human Object Interactions. CVPR 2022. [4] InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction. NeurIPS 2024.[5] GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs. CVPR 2024. [6] ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance. ECCV 2024. [7] DreamGaussian4D: Generative 4D Gaussian Splatting. arXiv 2312.17142. [8] TC4D: Trajectory-Conditioned Text-to-4D Generation. ECCV 2024. [9] Comp4D: Compositional 4D Scene Generation. arXiv 2403.16993. [10] Language Segment-Anything. https://github.com/luca-medeiros/lang-segment-anything [11] HexPlane: A Fast Representation for Dynamic Scenes. CVPR 2023 [12] HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting. CVPR 2024 [13] InterFusion: Text-Driven Generation of 3D Human-Object Interaction. ECCV 2024. [14] Disentangled 3d scene generation with layout learning. ICML 2024.[15] Gala3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting. ICML 2024