IT之家 8 月 6 日消息,阿里團隊最新推出了 AI 視頻生成框架 Tora,同時集成了文本、視覺和軌跡條件用于生成視頻,是基于軌跡導(dǎo)向的擴散變換器(DiT)技術(shù)。
Tora 由一個軌跡提取器(TE)、一個時空 DiT 和一個運動引導(dǎo)融合器(MGF)組成:
TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時空運動補叮
MGF 將運動貼片集成到 DiT 模塊中,以生成遵循軌跡的連貫視頻。
Tora 無縫契合 DiT 設(shè)計,支持制作最長 204 癥720P 分辨率的視頻,可以精確控制不同持續(xù)時間、寬高比和分辨率的視頻內(nèi)容。大量實驗證明,Tora 在實現(xiàn)高運動保真度方面表現(xiàn)出色,同時還能細致模擬物理世界的運動。
其獨特設(shè)計理念融合文本、視覺和軌跡條件,精準(zhǔn)控制視頻內(nèi)容,模擬物理世界運動規(guī)律,為電影特效制作、虛擬現(xiàn)實領(lǐng)域帶來無限可能。
IT之家附上參考地址