新智元報道
編輯:編輯部 HYZ【新智元導讀】中國首個全自研空間智能AI誕生了,單圖即可生成360度無限3D場景,實時互動自由探索。這不僅是技術(shù)的革新,更預示著,游戲電影等領域即將迎來顛覆性的變革。就在剛剛,昆侖萬維正式發(fā)布了一款全新自研的Matrix-Zero世界模型。
Matrix-Zero世界模型包含兩款子模型:昆侖萬維自研的3D場景生成大模型與昆侖萬維自研的可交互視頻生成大模型。包括兩部分功能:
支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實合理的3D場景;
支持根據(jù)用戶輸入實時生成互動視頻效果。
至此,昆侖萬維正式成為中國第一家同時推出3D場景生成、可交互視頻生成模型的探索空間智能的企業(yè)。
大模型賽道卷了兩年,誰都在觀望,下一個破局的方向在何方。李飛飛躬身入局,僅3個月就估值10億的World Labs令業(yè)內(nèi)恍然大悟:AI教母瞄準的,就是能進行推理的空間智能!各家的重磅布局說明,做3D場景生成、視頻生成模型、空間智能的必要性,已經(jīng)迫在眉睫。誠如英偉達高級計算機科學家Jim Fan所言,「空間智能,是計算機視覺和實體智能體的下一個前沿」?臻g智能,幾大痛點亟待突破
不過仔細看就會發(fā)現(xiàn),目前市面上相關的技術(shù)路線,尚存一些痛點未被解決。
比如市面上的一些2D圖像或視頻生成工具,仍然受制于像素空間和3D空間的差異,生成結(jié)果往往不一致、物理不合理。
由于2D圖像或視頻僅限于二維,創(chuàng)建復雜的動作和攝像機角度就極有挑戰(zhàn)性,不適合動作場景而TripoAI、Meshy等3D工具,則更關注單個物體的生成,因而無法生成完整、合理的3D場景。
即使已經(jīng)走在前面的WorldLabs,也存在不少限制。比如在探索空間上的不足,就會極大地影響游戲制作和視頻渲染。
有沒有一種技術(shù)路線,能將上述痛點全部解決?巧了,看完Matrix-Zero,你會收獲大大的驚喜!360度無死角生成,還可交互
這次昆侖萬維推出的Matrix-Zero,主要包括3D場景生成和可交互視頻生成兩部分。3D場景生成首先,它支持將用戶輸入的圖片,轉(zhuǎn)化為可自由探索的真實合理的3D場景,同時極大避免了一些視頻模型或自回歸方法中極易出現(xiàn)的前后不一致現(xiàn)象。那么如何從3D場景渲染出視頻的呢?正如下圖所示,在3D場景中放置一個攝像機(橘紅色線框所示),并指定其運動控制。
3D場景中的相機運動軌跡每一個時刻都可以根據(jù)相機位置和朝向?qū)?D場景渲染為圖片,將這些圖片拼接即可得到視頻。最后,我們就能夠得到3D場景渲染出的視頻。
渲染視頻效果這樣,不僅視頻內(nèi)容非常符合用戶意圖,還能拓展在虛擬環(huán)境、交互式應用和沉浸式體驗中的應用場景,可以用在3D游戲場景中快速可控建模,以及在具身智能中快速搭建模擬場景。
另外,Matrix-Zero可以支持在場景中進行任意方向長距離、大范圍的探索,這就為電影、短劇場景鏡頭生成,提供更多可能。在這些場景中,你可以先環(huán)視再前進、前進后右轉(zhuǎn)、360度俯視、180度回頭等等,各種操作只有你想不到,沒有它做不到。
而且,無論你輸入的是卡通或?qū)憣嶏L格的圖片,都能生成合理的3D場景。
Matrix-Zero還支持風格遷移,我們可以把一張寫實圖片轉(zhuǎn)化為卡通風格,或者干脆把房屋變?yōu)榧t瓦白墻。
最后,Matrix-Zero生成3D的場景中的動態(tài)物體,也絕對令人驚喜。無論是光照、海浪、云霧、水流,動態(tài)都極度符合真實世界的物理規(guī)律,因而可以由之構(gòu)建真正的世界模型。
為何Matrix-Zero的3D場景生成能有如此驚艷的效果?這都要歸功于昆侖萬維自研的3D場景生成大模型。它包含了兩個核心模塊,場景布局生成模塊和紋理生成模塊。前者能借助可微渲染和擴散模型技術(shù),創(chuàng)造出和輸入圖片一致的3D場景布局;后者則是在圖片生成模型和視頻生成模型基礎上訓練的,能實現(xiàn)符合場景布局的紋理材質(zhì)生成。而用戶在場景中運動時,3D場景生成大模型就會不斷對場景缺失區(qū)域進行幾何和紋理的補全,因此用戶無論在任何位置、任何角度,都能看到合理、一致的場景。可交互視頻生成AI視頻模型不斷推陳出新,但真正能讓創(chuàng)作者「身臨其境」地參與生成過程的AI,卻是鳳毛麟角。Matrix-Zero,正是打破這一僵局的革命性產(chǎn)品。無論是在虛擬環(huán)境、交互應用,還是沉浸式場景中,它都能以驚人的效率輸出高質(zhì)量視頻。更重要的是,生成的視頻始終保持流暢連貫,符合情境邏輯。在案例中,它展現(xiàn)出令人驚嘆的自由度,以及更加真實的3D場景生成。當你在鍵盤上點擊方向鍵,或是移動鼠標,AI會立即響應你的指令,生成與你意圖完美契合的畫面。好比這張街景圖生成的視頻畫面,你可以前后左右移動,隨心所欲地調(diào)整視角,就像在真實世界中探索一樣。
團隊的方法建立在自研的生成式視頻模型之上,依托大規(guī)模開放數(shù)據(jù)的預訓練模型,同時結(jié)合了自主研發(fā)的用戶輸入交互模型。最終,實現(xiàn)了一種以用戶指令輸入為核心驅(qū)動的空間智能視頻生成方案。這就保證了在開放視頻領域生成能力的同時,進一步增強了對視頻內(nèi)容中視角移動的精確控制,從而更符合用戶的交互需求和預期。具體來說,Matrix-Zero包括基礎視頻生成模型和用戶輸入交互模型兩個核心部分。Matrix-Zero 主要由兩個核心部分組成:一個是視頻生成模型,另一個是用戶交互模型。前者是整個系統(tǒng)的核心,相當于一位「元帥」。而后者,則是一位「軍師」。元帥負責根據(jù)初始視頻幀生成連貫的視頻內(nèi)容,軍師則負責解析用戶輸入信息,轉(zhuǎn)化為視頻調(diào)整信號。這樣,Matrix-Zero就既能生成清晰、穩(wěn)定、有邏輯的視頻,還能準確響應,讓交互更直觀流暢。具體來說,視頻生成模型包含以下關鍵技術(shù):通過基于Transformer架構(gòu)的擴散模型,增強視頻序列的時序依賴性和幀間連貫性,有效避免畫面跳躍問題。
通過VAE進行數(shù)據(jù)降維,在提升計算效率的同時減少信息冗余。
通過時間步長優(yōu)化策略保證生成視頻的物理合理性和時序穩(wěn)定性,確保畫面流暢自然。
而用戶交互模型則包含四個核心部分:「離散運動控制模塊」負責處理基本運動指令如前進、跳躍等;
「連續(xù)視角控制模塊」用于實時處理視角變化等連續(xù)控制信號;
「3D場景位置追蹤模塊」通過空間定位技術(shù)確保視角轉(zhuǎn)換的穩(wěn)定性;
「滑動窗口機制」利用歷史輸入預測用戶操作,優(yōu)化控制響應。
總之,以上特性讓Matrix-Zero真正成為一款足夠?qū)嵱眯缘漠a(chǎn)品,在電影、短劇、游戲、具身智能等領域有廣泛的應用空間。游戲開發(fā)者和影視劇從業(yè)者等相關人員,可以用它實現(xiàn)明顯的降本增效。比如,游戲開發(fā)者可以用它輕松實現(xiàn)3D游戲場景搭建。
《黑神話:悟空》中的場景令人心潮澎湃影視劇從業(yè)者,則可以輕松生成電影/短劇中的鏡頭。為了一個鏡頭動輒燒上百萬甚至上千萬美元經(jīng)費的情況,從此可以徹底告別。
《阿凡達:水之道》是史上經(jīng)費最高的電影之一,整部電影的預算為4.6億美元左右,但單個VFX的成本可能就達到每秒數(shù)百萬美元由此顯露的產(chǎn)品領先性也體現(xiàn)出,昆侖萬維在科研、產(chǎn)品、應用上具備足夠的前瞻性,已經(jīng)形成了閉環(huán)的產(chǎn)業(yè)鏈?臻g智能,AI下一個里程碑
何謂空間智能?在「AI教母」李飛飛看來,空間智能不僅僅是讓AI看見世界,還要讓AI理解三維世界,并具備與之互動的能力。ImageNet所代表,只是對「智能」一半的理解,另一半還存在于物理世界中;仡橝I發(fā)展歷程,我們見證了其從文本到2D圖像、視頻的跨越。以往的一些經(jīng)驗也告訴我們一個深刻的道理:高維度的理解和生成,絕非低維度模型所能企及。不論是LLM還是多模態(tài)語言模型(MLLM),其底層架構(gòu)仍局限于一維的表征。這種一維表示在處理語言方面得心應手,但當處理圖像、視頻等其他模態(tài)數(shù)據(jù)時,本質(zhì)上不過是將多維信息「壓縮」進一維序列中,就不會可避免地造成信息損失。
NeurIPS 2024上,李飛飛提到最領先的多模態(tài)模型在HourVideo基準上依舊與人類有很大差距就像文字難以完整描繪出圖像的細節(jié),2D模型在處理3D世界時也面臨著嚴峻的挑戰(zhàn)。舉個栗子,當前AI生成的視頻中,在涉及物體/人物大幅度移動變化的情景下,往往難以保持一致性。這恰恰暴露出這些低維度的模型,對3D世界理解的局限性。當然,空間智能也絕不止于簡單的3D生成,如果僅依靠維度scaling是遠遠不夠的。我們還需要做的是,在大模型訓練過程中,還需要將3D世界的幾何和物理規(guī)則系統(tǒng)植入,從而讓AI擁有對這個世界的推理、理解、生成能力?臻g智能這一愿景,在2024年底已見雛形。除了李飛飛World Labs、谷歌Genie 2,在國內(nèi),一些團隊也做了類似的研究,比如中科院等團隊的SceneX、智源研究院的See3D等等。與他們不同的是,昆侖萬維走正出自己獨一份的空間智能路線。從生成的視頻中不難看出,Matrix-Zero自由探索的范圍任意大,任意廣。而且,可以直接交互輸出視頻,在穩(wěn)定一致性方面做到業(yè)界領先。那么,能做到中國第一家自研,第一家發(fā)布空間智能大模型的上市公司,具備了怎樣的優(yōu)勢?全矩陣布局,All in AGI
2020年,GPT-3橫空出世后,昆侖萬維做出了一個重要的決定全面布局大模型。兩年后,AIGC全系列算法與模型「昆侖天工」首次亮相,其能力覆蓋了圖像、音樂、文本等多模態(tài)內(nèi)容的生成能力。2023年,自研雙千億級「天工1.0」大模型推出,正式奠定了國產(chǎn)大模型崛起之路。多模態(tài)大模型Skywork-MM在MME基準中,1.0拿下了綜合排名第一的成績。他們還開源了百億級大語言模型天工Skywork-13。同年,基于「天工」大模型,這家公司打造了一系列顛覆性AI產(chǎn)品。8月,國內(nèi)首款AI搜索天工AI搜索誕生
12月,領先的AI Agent開發(fā)平臺天工SkyAgents發(fā)布
到了2024年2月,基座大模型迎來了最大升級,采用MoE架構(gòu)「天工2.0」在處理復雜任務更強、響應速度更快、訓練推理效率更高。緊接著4月,「天工3.0」震撼發(fā)布,采用4000億參數(shù)MoE架構(gòu),性能較上一代飛升,數(shù)學代碼飆升超30%。與此同時,AI音樂生成大模型「天工SkyMusic」開啟公測,向情感AGI又邁進一步。8月,集成視頻大模型與3D大模型的AI短劇平臺SkyReels發(fā)布。今年1月,天工大模型4.0 o1版/4o版正式上線天工網(wǎng)頁端和APP,免費無限用,性能直接對標OpenAI。截至目前,昆侖萬維已自研出「五大模型」體系:文本大模型、多模態(tài)大模型、3D大模型、視頻大模型和音樂大模型。與此同時,在2024年AIGC應用用戶規(guī)模TOP榜中,昆侖萬維旗下天工AI強勢入圍。這一場深刻的變革。