展會信息港展會大全

超越Sora極限,120秒超長AI視頻模型誕生!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-26 13:47:10   瀏覽:7775次  

導(dǎo)讀:新智元報道 編輯:潤 好困 【新智元導(dǎo)讀】UT奧斯丁等機構(gòu)提出了一種名為StreamingT2V的技術(shù),讓AI視頻的長度擴展至近乎無限,而且一致性,動作幅度也非常好! Sora一出,文生視頻的在長度這個指標(biāo)上就卷的沒邊了。 從Pika和Runway的4秒,到VideoPoet的理論無...

超越Sora極限,120秒超長AI視頻模型誕生!

新智元報道

編輯:潤 好困

【新智元導(dǎo)讀】UT奧斯丁等機構(gòu)提出了一種名為StreamingT2V的技術(shù),讓AI視頻的長度擴展至近乎無限,而且一致性,動作幅度也非常好!

Sora一出,文生視頻的在長度這個指標(biāo)上就卷的沒邊了。

從Pika和Runway的4秒,到VideoPoet的理論無限長,各個團隊都在通過各種不同的技術(shù)路徑不斷延長視頻生成長度的上限。

最近,來自Picsart AI Research,UT Austin和Shi Labs的研究團隊提出了一個新的文生視頻技術(shù)StreamingT2,可以生成高度一致而且長度可擴展的視頻。

文生視頻技術(shù)進(jìn)入長視頻時代。

論文地址:https://arxiv.org/abs/2403.14773

具體來說,StreamingT2V可以生成1200幀甚至理論上無限長的長視頻,并且能保證視頻內(nèi)容過渡非常自然平滑,內(nèi)容豐富多樣。

帝國士兵在煙霧中不停奔跑,雖然動作很滑稽,但是幅度很大,人物一致性很好。

它的核心構(gòu)架由3個部分組成:

- 一個短期記憶單元條件注意力模塊(CAM),它能夠確保視頻的連貫性,通過關(guān)注前一個視頻片段的特征來引導(dǎo)當(dāng)前片段的生成;

- 一個長期記憶單元外觀保持模塊,它幫助模型記住視頻開頭的場景和對象,防止隨著時間推移而遺忘開頭的場景;

- 一種隨機混合技術(shù),使得即使是無限長的視頻也能保持一致性,避免了視頻片段之間的不協(xié)調(diào)。

超越Sora極限,120秒超長AI視頻模型誕生!

而且,StreamingT2V的特點并不限定于使用特定的文生視頻模型。

這意味著只要將基礎(chǔ)模型的性能不斷提高,生成的視頻效果還能不斷提升。

超越Sora極限,120秒超長AI視頻模型誕生!

效果展示

1200幀,2分鐘

可以看到,在兩分鐘的視頻中場景的動態(tài)效果很好,雖然在細(xì)微材質(zhì)上還是有一些粗糙和畸變,但是整體的運動幅度基本上已經(jīng)達(dá)到了Sora的水準(zhǔn)。

和其他的「長」視頻AI技術(shù)相比,StreamingT2V的動態(tài)效果明顯好太多了。

600幀1分鐘

整個鏡頭的晃動感有一種手持?jǐn)z影機拍攝的風(fēng)格,而且鳥的動作細(xì)節(jié)也很真實。

蜜蜂在花上的運動效果也很逼真,鏡頭運動幅度和動作幅度都很大,而且蜜蜂形態(tài)的一致性保持得也很好。

航拍鏡頭的運動也很合理,只是場景中的大面積的植物顏色和細(xì)節(jié)還是不太穩(wěn)定。

雖然珊瑚還是會出現(xiàn)無中生有的情況,但是鏡頭運動的幅度和場景整體的一致性已經(jīng)非常高了。

240幀,24秒

超越Sora極限,120秒超長AI視頻模型誕生!

而這個圣誕老人雖然動作顯得非常鬼畜滑稽,但是一致性保持得非常好,動作幅度更是吊打大部分的文生視頻模型。

超越Sora極限,120秒超長AI視頻模型誕生!

對于爆炸和煙霧的處理也已經(jīng)非常成熟,逼真了。

超越Sora極限,120秒超長AI視頻模型誕生!

開花的動態(tài)效果非常自然,已經(jīng)可以以假亂真真實的加速播放的靜物運動攝影了。

超越Sora極限,120秒超長AI視頻模型誕生!

80幀,8秒

在時間更短的的視頻中,無論是內(nèi)容的一致性和動作的自然程度和動作幅度效果都很好。

超越Sora極限,120秒超長AI視頻模型誕生!

超越Sora極限,120秒超長AI視頻模型誕生!

超越Sora極限,120秒超長AI視頻模型誕生!

超越Sora極限,120秒超長AI視頻模型誕生!

超越Sora極限,120秒超長AI視頻模型誕生!

超越Sora極限,120秒超長AI視頻模型誕生!

只是在場景和環(huán)境的表現(xiàn)上,還有一些明顯的瑕疵。

實現(xiàn)方法

StreamingT2V技術(shù)的工作流程可以分為三個主要階段。

首先,在初始化階段,研究人員利用一個文本到視頻的模型來創(chuàng)造出視頻的前16幀,這相當(dāng)于視頻的起始段落。

接下來,進(jìn)入Streaming T2V階段,研究人員會繼續(xù)生成視頻的后續(xù)幀,這一過程是通過一種稱為自回歸的技術(shù)來實現(xiàn)的,意味著每一個新幀的生成都會參考之前已生成的幀,從而確保視頻內(nèi)容的連貫性。

最后,在Streaming Refinement階段,研究人員對已生成的長視頻(無論是600癥1200幀還是更多)進(jìn)行進(jìn)一步的優(yōu)化。

在這一階段,研究人員采用了一種高分辨率的文本到短視頻模型,并結(jié)合了研究人員獨特的隨機混合技術(shù),這樣不僅提升了視頻的畫質(zhì),還增強了視頻的動態(tài)效果和視覺吸引力。

超越Sora極限,120秒超長AI視頻模型誕生!

StreamingT2V技術(shù)通過引入兩個關(guān)鍵模塊來增強視頻的生成質(zhì)量。

首先,條件注意力模塊(CAM)充當(dāng)短期記憶,它通過一個特殊的編碼器分析前一個視頻片段,確保視頻的連續(xù)性和流暢過渡。這個機制特別適用于動作頻繁的視頻,使得視頻看起來更加自然流暢。

其次,外觀保持模塊(APM)作為長期記憶,它專注于從視頻的某一關(guān)鍵幀中提取重要的視覺特征,并將這些特征貫穿整個視頻生成過程,確保視頻中的對象或場景保持一致性和連貫性。

這兩個模塊的結(jié)合,使得StreamingT2V不僅能夠生成動態(tài)連貫的視頻,還能在整個視頻中保持高質(zhì)量的視覺效果。

條件注意力模塊

它由一個特征提取器和一個特征注入器組成,并將其注入 Video-LDM UNet。

特征提取器使用幀圖像編碼器E cond,然后是與 Video-LDM UNet相同的編碼器層,直到中間層(并使用UNet的權(quán)重初始化)。

在特征注入方面,研究人員讓UNet中的每個長程跳轉(zhuǎn)連接通過交叉關(guān)注來關(guān)注CAM生成的相應(yīng)特征。

特征提取器使用幀圖像編碼器E cond,然后是與Video-LDM UNet相同的編碼器層,直到中間層(并使用UNet的權(quán)重初始化)。

在特征注入方面,研究人員讓UNet中的每個長程跳轉(zhuǎn)連接通過交叉關(guān)注來關(guān)注 CAM 生成的相應(yīng)特征。

CAM利用前一個分塊的最后F個條件幀作為輸入。交叉關(guān)注可將基礎(chǔ)模型的F幀條件化為CAM。相比之下,稀疏編碼器使用卷積進(jìn)行特征注入。

外觀保存模塊

自回歸視頻生成器通常會遺忘初始對象和場景特征,從而導(dǎo)致嚴(yán)重的外觀變化。

為了解決這個問題,研究人員利用研究人員提出的「外觀保存模塊」(Appearance Preservation Module,APM),通過利用第一個片段的固定錨幀所包含的信息,將長期記憶納入其中。這有助于在各代視頻塊中保持場景和物體特征(見下圖6)。

超越Sora極限,120秒超長AI視頻模型誕生!

自動回歸視頻增強

為了進(jìn)一步提高文本-視頻結(jié)果的質(zhì)量和分辨率,研究人員利用高分辨率(1280x720)文本-(短)視頻模型(Refiner Video-LDM,見圖3)對生成的24幀視頻塊進(jìn)行自回歸增強。

使用文本到視頻模型作為24幀視頻塊的提煉器/增強器,是通過在輸入視頻塊中添加大量噪聲,并使用文本到視頻擴散模型進(jìn)行去噪來實現(xiàn)的。

更確切地說,研究人員使用一個高分辨率文本到視頻模型(例如MS-Vid2Vid-XL)和一個24幀的低分辨率視頻塊,首先將其雙線性放大到目標(biāo)高分辨率。

然后,研究人員使用圖像編碼器E對幀進(jìn)行編碼,從而得到潛碼。然后,研究人員應(yīng)用T ′ < T前向擴散步驟,使xT′仍然包含信號信息(主要是視頻結(jié)構(gòu)信息),并使用高分辨率視頻擴散模型對其進(jìn)行去噪。

評估

在定量評估方面,研究人員采用了一些指標(biāo)來評估研究人員方法的時間一致性、文本對齊和每幀質(zhì)量。

在時間一致性方面,研究人員引入了SCuts,即使用PySceneDetect軟件包中的AdaptiveDetector算法和默認(rèn)參數(shù),計算視頻中檢測到的場景切割次數(shù)。

此外,研究人員還提出了一種名為運動感知翹曲誤差(MAWE)的新指標(biāo),該指標(biāo)能連貫地評估運動量和翹曲誤差,當(dāng)視頻同時表現(xiàn)出一致性和大量運動時,該指標(biāo)就會產(chǎn)生一個低值。

為此,研究人員使用OFS(光流得分)來測量運動量,它可以計算視頻中任意兩個連續(xù)幀之間所有光流向量的平均值。

此外,對于視頻V,研究人員還考慮了平均翹曲誤差W(V),該誤差測量了從幀到其翹曲后的平均L2像素距離平方。

其中,c對齊了兩個指標(biāo)的不同尺度。為此,研究人員對數(shù)據(jù)集驗證視頻的一個子集進(jìn)行了回歸分析,得出c = 9.5。

MAWE要求高運動量和低翹曲誤差,以獲得較低的指標(biāo)值。對于涉及光流的指標(biāo),計算時將所有視頻的大小調(diào)整為720×720分辨率。

在視頻文本對齊方面,研究人員采用了CLIP文本圖像相似度得分(CLIP),它適用于視頻的所有鄭CLIP計算視頻序列中CLIP文本編碼與CLIP圖像編碼之間的余弦相似度。

對于每個幀的質(zhì)量,研究人員在視頻所有幀的CLIP圖像嵌入基礎(chǔ)上計算出美學(xué)分?jǐn)?shù)。

所有指標(biāo)都是先按視頻計算,然后對所有視頻求平均值,所有視頻都生成了80幀用于定量分析。

超越Sora極限,120秒超長AI視頻模型誕生!

研究人員將StreamingT2V與主流的視頻生成模型和構(gòu)架在這個框架下進(jìn)行了比較。

可以看到(上圖),在這個針對時間一致性、文本對齊和每幀質(zhì)量的測試集上,StreamingT2V的成績確實是最好的。

參考資料:

https://streamingt2v.github.io/

贊助本站

相關(guān)熱詞: 超越 Sora 極限 120秒 超長 視頻 模型 誕生

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港