陳沛/文OpenAI最近介紹了新的AI視頻模型Sora的部分生成視頻示例,引發(fā)了很多關(guān)注。Sora模型直觀上帶來的最大提升是能夠直接生成長達(dá)60秒的視頻,且在視頻質(zhì)感和流暢度方面表現(xiàn)的非常出色。
由于OpenAI的明星效應(yīng),Sora模型一經(jīng)推出便引發(fā)很多用戶競相轉(zhuǎn)發(fā),表示視頻效果驚為天人,視頻制作的相關(guān)工作都會被取代。
Sora模型的實際生成效果仍是未知數(shù)
但從我實際使用和觀察RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI視頻服務(wù)的情況來看,目前AI生成視頻的質(zhì)感往往達(dá)不到最初宣傳的效果,還會在物體行進(jìn)方向、人物四肢等方面出現(xiàn)明顯錯誤,無法滿足實際應(yīng)用的需求。
而Sora模型目前還處于測試階段,預(yù)計再經(jīng)過一段時間的安全測試和用戶反饋后才會正式提供服務(wù),因此還無法了解Sora模型的實際效果。
不過,OpenAI也沒有刻意回避Sora模型生成錯誤內(nèi)容的情況。在OpenAI發(fā)布的技術(shù)報告中有一段Sora模型生成的錯誤視頻,展示了桌上的水杯會先從底部流出果汁,然后沿著錯誤的方向和角度倒在桌上。
Sora模型的背后是2022年剛剛面世的新架構(gòu)
Sora模型的最大突破是視頻時長。與之前的RunwayML、SVD只能生成4秒左右的視頻片段相比,Sora模型生成的60秒視頻實現(xiàn)了明顯提升。
Sora模型實現(xiàn)視頻時長突破的主要功臣是它所采用的Diffusion Transformer架構(gòu)。該架構(gòu)由Sora模型的主要作者Bill Peebles在2022年剛剛提出,才在ICCV 2023大會上做過介紹。
按照Bill Peebles在論文中的說法,他將Transformer結(jié)構(gòu)替代了Diffusion模型中常用的U-Net結(jié)構(gòu),并將圖像輸入轉(zhuǎn)化成了Patch(類似語言模型中輸入的Token),得到了新的Diffusion Transformers架構(gòu),提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定了基矗
實際上,不僅Sora模型背后的Diffusion Transformer架構(gòu)才面世不久,就連Sora技術(shù)報告后引用的32篇研究論文中,絕大多數(shù)也都是近3年新發(fā)布的研究結(jié)果。
研究驅(qū)動和融資驅(qū)動已成為AI發(fā)展的關(guān)鍵要素
回首2017年Transformer研究論文面世后,2019年就出現(xiàn)了首個GPT模型的發(fā)展成果。而近兩年剛剛提出Diffusion Transformer的研究論文,很快就轉(zhuǎn)化成了Sora模型這樣的突破性產(chǎn)品。
如今AI領(lǐng)域的重要變化,往往不是來自于某個功能或應(yīng)用層面,而是發(fā)源于底層架構(gòu)的研究創(chuàng)新。研究驅(qū)動正在AI發(fā)展中起到越來越關(guān)鍵的作用。
另一方面,有了Diffusion Transformer這樣的研究創(chuàng)新后,往往也是在OpenAI這樣資源雄厚的機構(gòu)中才能做的出來。
在開發(fā)階段,把Diffusion Transformer的研究落地成Sora的產(chǎn)品需要投入大量的預(yù)訓(xùn)練、數(shù)據(jù)、工程資源。而在Sora服務(wù)正式推出后,運營推理過程中的資源消耗和算力成本也不可小視,融資驅(qū)動也正在成為AI發(fā)展的必要條件。
從Sora模型這個例子也能看出,要深度理解AI領(lǐng)域的關(guān)鍵動向,如今必須要從研究層面和融資層面進(jìn)行觀察和跟蹤,從而更好地洞察AI發(fā)展的未來走勢。