春節(jié)假期臨近尾聲。面對(duì)持續(xù)進(jìn)攻的谷歌等對(duì)手,OpenAI堪稱放出了自ChatGPT有史以來(lái)最強(qiáng)的大招Sora。
Sora是OpenAI自研的文生視頻擴(kuò)散模型,可以生成不同長(zhǎng)寬比和分辨率的高質(zhì)量、高保真視頻,長(zhǎng)度可達(dá)1分鐘。在一些行業(yè)觀察人士眼里,Sora不僅性能遙遙領(lǐng)先于競(jìng)爭(zhēng)對(duì)手,甚至可以被視為一款“世界模擬器”。
Sora:大力出奇跡的產(chǎn)物
剛剛發(fā)布Gemini 1.5 Pro的谷歌,沒(méi)有嘗到半點(diǎn)甜頭。剛剛官宣更新幾個(gè)小時(shí),OpenAI就拿著Sora來(lái)炸場(chǎng),和Gemini有關(guān)的消息,基本都被埋在了鋪天蓋地的Sora新聞流里。
據(jù)一些觀察人士推測(cè),OpenAI可能早在去年3月就已經(jīng)完成了Sora的開(kāi)發(fā),所以才能在公關(guān)戰(zhàn)中穩(wěn)穩(wěn)占據(jù)主動(dòng)權(quán)。
Sora到底優(yōu)秀在哪里?簡(jiǎn)單來(lái)說(shuō),它是一個(gè)“大力出奇跡”的產(chǎn)物。
Sora結(jié)合了擴(kuò)散模型(DALL-E3)和轉(zhuǎn)換器架構(gòu)(ChatGPT)。通過(guò)這種組合,該模型可以像ChatGPT處理文本一樣處理視頻(即圖像幀的時(shí)間序列)。
最令人印象深刻的特點(diǎn)是它能夠逼真地模擬物理世界(OpenAI 將其描述為 "新興的模擬能力")。在此之前,還沒(méi)有任何文字視頻模型能與之相媲美。
例如,Sora"可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地體現(xiàn)人物和視覺(jué)風(fēng)格”。它可以制作長(zhǎng)達(dá)1分鐘的視頻,但你也可以隨心所欲地制作短視頻?梢灾谱鞑煌直媛实呢Q版、方形和水平視頻。而且計(jì)算量越高,視頻質(zhì)量也會(huì)越高。
AI科學(xué)家、創(chuàng)業(yè)者賈佳亞在社交媒體上表示:
Sora基于視頻的三維結(jié)構(gòu)分解壓縮,用不同分辨率,不同時(shí)長(zhǎng),不同場(chǎng)景的各類視頻大量訓(xùn)練diffusion model。在學(xué)術(shù)界連VIT的256*256的分辨率都沒(méi)法改的情況下,Sora直接用上了高清以及更大的分辨率,這沒(méi)幾千上萬(wàn)張H100都不敢想象如何開(kāi)始這個(gè)項(xiàng)目。
Sora能夠?qū)W習(xí)真實(shí)世界的物理規(guī)則
OpenAI表示,Sora不僅能理解提示中出現(xiàn)的風(fēng)格、場(chǎng)景、角色、物體和概念等,還能理解"這些事物在物理世界中是如何存在的"。
Sora通過(guò)海量視頻,以梯度下降的方式在神經(jīng)參數(shù)中隱含地學(xué)習(xí)物理引擎。Sora是一個(gè)可學(xué)習(xí)的模擬器,或稱“世界模型”。亦即,Sora可能已經(jīng)學(xué)會(huì)了一套隱含的物理規(guī)則,為視頻生成過(guò)程提供信息。
毫無(wú)疑問(wèn),這是AI理解世界的關(guān)鍵一步。OpenAI在博文的最后寫(xiě)道:
Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),我們相信這種能力將成為實(shí)現(xiàn)AGI的重要里程碑。
在OpenAI的Dalle-3圖像生成器所使用的擴(kuò)散模型版本和GPT-4基于變換器的引擎的支持下,Sora不僅能按照提示要求制作視頻,而且還能顯示出對(duì)電影技術(shù)的熟練掌握。
這就是講故事的天賦。在另一部根據(jù)“渲染華麗的珊瑚礁紙藝世界,到處都是五顏六色的魚(yú)和海洋生物”的提示制作的視頻中。該項(xiàng)目的另一位研究員Bill Peebles指出,Sora通過(guò)拍攝角度和時(shí)機(jī)的選擇,創(chuàng)造了一種敘事的推動(dòng)力:
實(shí)際上有多個(gè)鏡頭的變化這些變化不是拼接在一起的,而是由模型一次性生成的。我們沒(méi)有告訴它要這么做,它只是自動(dòng)這么做了。
Sora不僅能根據(jù)文本制作圖像和視頻,或?qū)D像和視頻轉(zhuǎn)換為其他視頻,而且還能以通用、可擴(kuò)展的方式完成這些工作,這一點(diǎn)與競(jìng)爭(zhēng)對(duì)手不同。
這種通用性和可擴(kuò)展性促使人們預(yù)測(cè)人工智能將顛覆好萊塢和整個(gè)電影制作?紤]到進(jìn)步的速度,想象一下幾個(gè)月后人工智能模型能夠制作出長(zhǎng)達(dá)5或10分鐘的多場(chǎng)景、多角色復(fù)雜視頻并不是什么瘋狂的事情。
目前Sora還在接受安全檢查和對(duì)抗性測(cè)試,沒(méi)有正式發(fā)布。OpenAI希望從"世界各地的政策制定者、教育工作者和藝術(shù)家"那里收集反饋意見(jiàn)。他們還在開(kāi)發(fā)一種檢測(cè)分類器來(lái)識(shí)別Sora制作的視頻,并研究如何防止錯(cuò)誤信息。
要想讓文字視頻威脅到真正的電影制作,恐怕還需要很長(zhǎng)一段時(shí)間。你不可能把120個(gè)一分鐘長(zhǎng)的Sora片段拼接成一部連貫的電影,因?yàn)槟P筒粫?huì)以完全相同的方式對(duì)提示做出反應(yīng),因此無(wú)法確保輸出視頻的連續(xù)性。
但時(shí)間限制并不妨礙Sora和類似的軟件顛覆TikTok、Reel和其他短視頻平臺(tái)的生產(chǎn)方法。
一位研究者表示:
要制作一部專業(yè)電影,你需要大量昂貴的設(shè)備,這種模式將使在社交媒體上制作視頻的普通人有能力制作出非常高質(zhì)量的內(nèi)容。