提起虛擬世界,你也許馬上會聯(lián)想到電影《黑客帝國》、《頭號玩家》以及開放世界游戲《荒野大鏢客》、《GTA》等娛樂消費級場景。構(gòu)建這些虛擬世界背后的 3D 資產(chǎn),已經(jīng)形成了數(shù)百億美元的巨大市場。
但實際上,3D 虛擬世界在工業(yè)設計、標注數(shù)據(jù)生成、算法訓練等諸多工業(yè)場景下,都具有巨大的需求潛力。
從文字、音頻(1D)到圖片、視頻(2D),AI 技術的飛速發(fā)展引發(fā)了內(nèi)容生產(chǎn)方式的革命性變化,在巨大的市場驅(qū)動下,3D 正逐漸成為人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)的下一個“戰(zhàn)場”。
今年 9 月,美國國家工程院院士、美國斯坦福大學教授李飛飛以打造大世界模型為目標,宣布成立美國 AI 初創(chuàng)公司 WorldLabs,并提出“空間智能”的概念。
在國內(nèi),一家名為 Intime AI(虛時科技)的初創(chuàng)公司聚焦高保真 3D 場景的自動生成領域,在行業(yè)內(nèi)逐漸嶄露頭角。
值得關注的是,該公司從籌備至今歷時僅半年時間,已經(jīng)在技術上取得突破,并在某 S 級影視劇的綠幕背景合成環(huán)節(jié)實現(xiàn)商業(yè)落地。
據(jù)悉,目前 Intime AI 自研的 Aether 模型能夠基于提示詞在數(shù)小時內(nèi)生成達到影視級標準的高保真、可編輯 3D 場景,與傳統(tǒng)方式相比,效率提升了數(shù)十倍。
(來源:Intime AI)
3D AIGC 面臨的挑戰(zhàn)與困境
從文字、音頻到圖片、視頻,AIGC 的發(fā)展路徑與人類對內(nèi)容的主流消費模式是高度關聯(lián)的,人類總是傾向于消費單位時間內(nèi)信息密度更高的內(nèi)容形式。
在此過程中,形成了眾多耳熟能詳?shù)?AIGC 大模型。例如,以 GPT-4 為代表的自然語言處理模型,以 Midjourney 為代表的圖片生成模型,以 Sora、Runway 和可靈 AI 為代表的視頻生成模型。
但是,既然人類并不能直接感知、消費 3D 內(nèi)容,為什么 3D 還能成為 AIGC 的一個重要的發(fā)展領域?為什么前些年提出的元宇宙、XR 等 3D 消費場景能夠一度激發(fā)如此大的市場熱情?
終其原因,物理世界本質(zhì)是三維的,3D 是現(xiàn)實世界的表示形式與信息的終極載體。因此,3D 表現(xiàn)形式獨有的空間感知能力,能夠為內(nèi)容增添沉浸感和真實感,并真實無損地傳遞信息。
而降維儲存信息的方式,無論文字、圖片還是音視頻,都會導致信息損失,在“所想”與“所見”之間割裂出一道鴻溝。
從 AIGC 的角度來看,3D 內(nèi)容的終極目標,即大世界模型,不僅有望突破現(xiàn)有需求的極限,在娛樂、教育、科研、設計和制造等多個領域激發(fā)新的需求,提供全新的用戶體驗,其本身對于 AI 的演進和智能的進一步涌現(xiàn),也具有決定性意義。
然而,想要真正實現(xiàn)虛擬世界的實時生成能力,3D AIGC 仍面臨諸多挑戰(zhàn)。首當其沖的問題就是 3D 數(shù)據(jù)集的極度稀疏,由于 3D 數(shù)據(jù)的應用領域繁多、各領域?qū)?3D 數(shù)據(jù)的表達差異顯著,數(shù)據(jù)收集與標注的難度極大。
同時,與 2D 數(shù)據(jù)相比,3D 數(shù)據(jù)復雜度高,并缺乏通用性表達,即使獲得了足夠的數(shù)據(jù),能否無損地輸入模型進行訓練也是一個不小的挑戰(zhàn)。
另外,AIGC 目前普遍面臨可控性差的問題,使其難以嵌入專業(yè)的生產(chǎn)管線,這在圖片、視頻等領域均有體現(xiàn)。但對于專業(yè)門檻更高、分工更加精細的 3D 領域,無法滲透到傳統(tǒng)的工作流意味著產(chǎn)品從根本上“不可用”,這將導致該領域的商業(yè)化落地顯得困難重重。
用自研技術框架型,彌合“所想”和“所見”之間的鴻溝
為應對上述挑戰(zhàn),Intime AI 突破現(xiàn)有主流方案,提出了一種顛覆性的自研技術框架,并在此框架下開發(fā)出一整套原創(chuàng)算法,通過把 3D 數(shù)據(jù)降維進行通用表達,不僅大幅降低了訓練數(shù)據(jù)量級,同時還將真實物理世界的參數(shù)引入模型,顯著提升了模型的生成質(zhì)量。
此外,模型生成內(nèi)容還具備完全的可編輯性,使其能夠很好地嵌入下游需求方的生產(chǎn)管線。
這款文生 3D 場景模型目前被命名為“Aether”,名稱緣起于漫威宇宙中的現(xiàn)實寶石,象征著團隊希望通過這項技術實現(xiàn)隨意創(chuàng)造并改造數(shù)字世界的能力。
圖丨 Aether 模型工作流程示意圖(來源:Intime AI)
Intime AI 創(chuàng)始人兼 CEO 王德博士說道:“3D AIGC 面臨的數(shù)據(jù)集稀疏、商業(yè)化落地難等痛點是客觀事實,但機遇和挑戰(zhàn)永遠是一體兩面的,目前的各種難題使得行業(yè)在短期內(nèi)難以出現(xiàn)一個通用性的解決方案,這也給了我們這樣的初創(chuàng)公司進入行業(yè)和快速發(fā)展的機會!
對于解決 3D 領域挑戰(zhàn)的核心,王德認為最終還是需要著眼于算法!皵(shù)據(jù)量、可控性、可編輯等問題對于 DiT(Diffusion Transformer)架構(gòu)來說是極難解決的。其實對于 AI 本身來說,Transformer 架構(gòu)的潛力也已經(jīng)接近瓶頸,我們想要在 3D 這條路上走下去、走得遠,就必須在技術框架和算法層面進行革新!
通過一系列的大膽嘗試和技術革新,Aether 模型目前已經(jīng)取得了一定的技術優(yōu)勢,主要表現(xiàn)為:
第一,生產(chǎn)效率高。
傳統(tǒng)方法制作大型世界場景需要數(shù)周甚至數(shù)月的時間,而該模型能在幾小時內(nèi)完成同等規(guī)模場景的生成,小規(guī)模場景可在不到 1 小時內(nèi)完成。
第二,生成內(nèi)容質(zhì)量比肩人工建模水平。
值得關注的是,Aether 模型的核心算法由團隊自研,不同于傳統(tǒng)的 DiT 架構(gòu),該算法通過引入物理參數(shù)和對人工建模過程的模擬,使得模型的生成質(zhì)量得到大幅提升,尤其在保真度和幾何結(jié)構(gòu)、拓撲布線等方面,質(zhì)量已接近人工建模的水平。
在精度方面,模型生成的單一場景包含超過 2000 萬個平面多邊形,超高的細膩度使生成場景的呈現(xiàn)效果更加真實和自然。
第三,由模型生成的場景和其中的各項資產(chǎn)均具有高度可編輯性。
基于 DiT 架構(gòu)生成的內(nèi)容普遍面臨可控性差的問題,使其難以嵌入傳統(tǒng)的專業(yè)生產(chǎn)管線,這在 3D 領域顯得尤為突出。
Aether 模型的優(yōu)勢之一在于,其生成場景及其中的所有資產(chǎn)均支持用戶二次編輯,并能輸出適配主流 3D 引擎的各種文件格式,這對于快速實現(xiàn)商業(yè)化具有重要意義。
從 3D 場景生成向 4D 大世界模型推進
王德在 AI 領域深耕十余年,于美國特拉華大學獲得博士學位,期間主要研究方向為機器學習算法和優(yōu)化。
畢業(yè)后曾在美國科技公司亞馬遜長期擔任 Alexa 語音助手項目語音識別技術(ASR,Automatic Speech Recognition)的負責人,帶領團隊落地了基于 Transformer 架構(gòu)的語音識別模型。
在美國學習和工作的十余年時間中,他的工作和研究覆蓋了 AI 算法的多個方向和數(shù)據(jù)結(jié)構(gòu),并擁有多項語音算法專利。
見證了 AI 技術從機器學習到深度學習算法,再到基于 Transformer 架構(gòu)的大模型,技術的持續(xù)爆發(fā)和應用場景的不斷演變讓他深刻感受到,3D 將是 AIGC 的下一個涌現(xiàn)。
Intime AI 的創(chuàng)始團隊匯集了海內(nèi)外知名互聯(lián)網(wǎng)巨頭的技術骨干,以及工業(yè) 3D 設計、金融投資等領域的行業(yè)專家,能夠助力公司在發(fā)展戰(zhàn)略、產(chǎn)品適配、商業(yè)路徑規(guī)劃等方面合理規(guī)劃。
王德表示:“除了在技術層面的革新,我們在產(chǎn)品定位和商業(yè)化方面做了大量思考與行業(yè)調(diào)研,對于現(xiàn)階段的技術能力來說,我認為 3D AIGC 應該先做到‘能用‘、‘垂直領域商業(yè)化’,再向‘好用’和‘多領域全面商業(yè)化’去發(fā)展。
圖丨王德(來源:王德)
“無論在影視還是游戲中,‘對象’給到用戶的第一需求場景就是道具、角色形象,但這些基本都是以近景、特寫的形式呈現(xiàn)的,這就對模型的質(zhì)量提出了很高的要求,而質(zhì)量不夠高、可控性差又恰恰是目前 AIGC 的難點,這就導致了商業(yè)落地難的問題!
他指出,相反,“場景”往往是以中遠景去進行視覺呈現(xiàn),這天然給 AI 生成內(nèi)容提供了一定的包容度。因此 Intime AI 認為,從“場景”出發(fā)是更好的切入點,產(chǎn)品落地的可能性更高。
目前 Intime AI 已經(jīng)與行業(yè)內(nèi)頭部影視制作公司達成合作,通過高效生成 3D 場景幫助用戶進行影視素材的背景合成和虛擬拍攝等工作。
當前,公司以場景生成為切口,通過嵌入影視行業(yè)傳統(tǒng)工作流,在拓展 B 端業(yè)務的同時積累高質(zhì)量數(shù)據(jù)、推動模型基礎能力的持續(xù)提升。
未來一至兩年內(nèi),公司計劃將模型 SaaS 化,打造面向 3D 專業(yè)創(chuàng)作者的高效智能工具,通過數(shù)據(jù)飛輪大幅提升模型的泛化能力,提供 3D 資產(chǎn)生成的通用性解決方案,并將公司業(yè)務范圍重點拓展至游戲與空間智能領域。
“我們計劃在未來一年內(nèi)推出面向 C 端的 AI 3D 智能引擎,這將為專業(yè)創(chuàng)作者提供顛覆性的使用體驗,并在游戲制作、空間智能等消費級與工業(yè)級場景打開廣闊的市場空間,通過商業(yè)和技術的循環(huán)迭代打造強勁的競爭優(yōu)勢。”王德說。
此外,他們以實現(xiàn) 4D 大世界模型的生成能力為遠期目標,計劃進一步在模型中融入多種動態(tài)感知技術,如數(shù)字人與場景的互動、高質(zhì)量物理模擬等。
隨著 3D AIGC 領域技術的累積和發(fā)展,未來相關領域的傳統(tǒng)生產(chǎn)方式是否會被完全替代呢?
王德認為,由于 3D 本身就是一個專業(yè)門檻很高的內(nèi)容形式,且不同于圖片或視頻,3D 資產(chǎn)并沒有很直接的 C 端消費場景,因此 3D AIGC 幾乎只能作為傳統(tǒng)創(chuàng)作者的輔助工具,嵌入專業(yè)生產(chǎn)管線中,而非徹底顛覆現(xiàn)有的內(nèi)容生產(chǎn)方式和流程。
“面對諸多挑戰(zhàn),3D AIGC 應遵循‘漸進’、‘可行’的發(fā)展路徑,這其中最關鍵的還是算法的突破和數(shù)據(jù)的積累!彼f。
盡管 AI 技術在 3D 領域仍面臨許多未知和挑戰(zhàn),但正是這些未知因素,為技術發(fā)展和 3D AIGC 賽道的創(chuàng)業(yè)帶來了無限的可能性。
參考資料:
https://www.intimeai.cn/
運營/排版:何晨龍