麻豆乱码国产一区二区三区,制服丝袜人妻日韩在线

導讀：提起虛擬世界，你也許馬上會聯(lián)想到電影《黑客帝國》、《頭號玩家》以及開放世界游戲《荒野大鏢客》、《GTA》等娛樂消費級場景。構(gòu)建這些虛擬世界背后的 3D 資產(chǎn)，已經(jīng)形成了數(shù)百億美元的巨大市場。但實際上，3D 虛擬世界在工業(yè)設計、標注數(shù)據(jù)生成、算法訓練等諸多工業(yè)場景下，都具有巨大的需求潛力。從文字、音頻（1D）到圖片、視頻（2D），AI 技術的飛速發(fā)展引發(fā)了內(nèi)容生產(chǎn)方 ......

提起虛擬世界，你也許馬上會聯(lián)想到電影《黑客帝國》、《頭號玩家》以及開放世界游戲《荒野大鏢客》、《GTA》等娛樂消費級場景。構(gòu)建這些虛擬世界背后的 3D 資產(chǎn)，已經(jīng)形成了數(shù)百億美元的巨大市場。

但實際上，3D 虛擬世界在工業(yè)設計、標注數(shù)據(jù)生成、算法訓練等諸多工業(yè)場景下，都具有巨大的需求潛力。

從文字、音頻（1D）到圖片、視頻（2D），AI 技術的飛速發(fā)展引發(fā)了內(nèi)容生產(chǎn)方式的革命性變化，在巨大的市場驅(qū)動下，3D 正逐漸成為人工智能生成內(nèi)容（AIGC，Artificial Intelligence Generated Content）的下一個“戰(zhàn)場”。

今年 9 月，美國國家工程院院士、美國斯坦福大學教授李飛飛以打造大世界模型為目標，宣布成立美國 AI 初創(chuàng)公司 WorldLabs，并提出“空間智能”的概念。

在國內(nèi)，一家名為 Intime AI（虛時科技）的初創(chuàng)公司聚焦高保真 3D 場景的自動生成領域，在行業(yè)內(nèi)逐漸嶄露頭角。

值得關注的是，該公司從籌備至今歷時僅半年時間，已經(jīng)在技術上取得突破，并在某 S 級影視劇的綠幕背景合成環(huán)節(jié)實現(xiàn)商業(yè)落地。

據(jù)悉，目前 Intime AI 自研的 Aether 模型能夠基于提示詞在數(shù)小時內(nèi)生成達到影視級標準的高保真、可編輯 3D 場景，與傳統(tǒng)方式相比，效率提升了數(shù)十倍。

基于全新技術框架與生成算法，AI初創(chuàng)公司解鎖工業(yè)級3D AIGC

（來源：Intime AI）

3D AIGC 面臨的挑戰(zhàn)與困境

從文字、音頻到圖片、視頻，AIGC 的發(fā)展路徑與人類對內(nèi)容的主流消費模式是高度關聯(lián)的，人類總是傾向于消費單位時間內(nèi)信息密度更高的內(nèi)容形式。

在此過程中，形成了眾多耳熟能詳?shù)?AIGC 大模型。例如，以 GPT-4 為代表的自然語言處理模型，以 Midjourney 為代表的圖片生成模型，以 Sora、Runway 和可靈 AI 為代表的視頻生成模型。

但是，既然人類并不能直接感知、消費 3D 內(nèi)容，為什么 3D 還能成為 AIGC 的一個重要的發(fā)展領域？為什么前些年提出的元宇宙、XR 等 3D 消費場景能夠一度激發(fā)如此大的市場熱情？

終其原因，物理世界本質(zhì)是三維的，3D 是現(xiàn)實世界的表示形式與信息的終極載體。因此，3D 表現(xiàn)形式獨有的空間感知能力，能夠為內(nèi)容增添沉浸感和真實感，并真實無損地傳遞信息。

而降維儲存信息的方式，無論文字、圖片還是音視頻，都會導致信息損失，在“所想”與“所見”之間割裂出一道鴻溝。

從 AIGC 的角度來看，3D 內(nèi)容的終極目標，即大世界模型，不僅有望突破現(xiàn)有需求的極限，在娛樂、教育、科研、設計和制造等多個領域激發(fā)新的需求，提供全新的用戶體驗，其本身對于 AI 的演進和智能的進一步涌現(xiàn)，也具有決定性意義。

然而，想要真正實現(xiàn)虛擬世界的實時生成能力，3D AIGC 仍面臨諸多挑戰(zhàn)。首當其沖的問題就是 3D 數(shù)據(jù)集的極度稀疏，由于 3D 數(shù)據(jù)的應用領域繁多、各領域?qū)?3D 數(shù)據(jù)的表達差異顯著，數(shù)據(jù)收集與標注的難度極大。

同時，與 2D 數(shù)據(jù)相比，3D 數(shù)據(jù)復雜度高，并缺乏通用性表達，即使獲得了足夠的數(shù)據(jù)，能否無損地輸入模型進行訓練也是一個不小的挑戰(zhàn)。

另外，AIGC 目前普遍面臨可控性差的問題，使其難以嵌入專業(yè)的生產(chǎn)管線，這在圖片、視頻等領域均有體現(xiàn)。但對于專業(yè)門檻更高、分工更加精細的 3D 領域，無法滲透到傳統(tǒng)的工作流意味著產(chǎn)品從根本上“不可用”，這將導致該領域的商業(yè)化落地顯得困難重重。

用自研技術框架型，彌合“所想”和“所見”之間的鴻溝

為應對上述挑戰(zhàn)，Intime AI 突破現(xiàn)有主流方案，提出了一種顛覆性的自研技術框架，并在此框架下開發(fā)出一整套原創(chuàng)算法，通過把 3D 數(shù)據(jù)降維進行通用表達，不僅大幅降低了訓練數(shù)據(jù)量級，同時還將真實物理世界的參數(shù)引入模型，顯著提升了模型的生成質(zhì)量。

此外，模型生成內(nèi)容還具備完全的可編輯性，使其能夠很好地嵌入下游需求方的生產(chǎn)管線。

這款文生 3D 場景模型目前被命名為“Aether”，名稱緣起于漫威宇宙中的現(xiàn)實寶石，象征著團隊希望通過這項技術實現(xiàn)隨意創(chuàng)造并改造數(shù)字世界的能力。

基于全新技術框架與生成算法，AI初創(chuàng)公司解鎖工業(yè)級3D AIGC

圖丨 Aether 模型工作流程示意圖（來源：Intime AI）

Intime AI 創(chuàng)始人兼 CEO 王德博士說道：“3D AIGC 面臨的數(shù)據(jù)集稀疏、商業(yè)化落地難等痛點是客觀事實，但機遇和挑戰(zhàn)永遠是一體兩面的，目前的各種難題使得行業(yè)在短期內(nèi)難以出現(xiàn)一個通用性的解決方案，這也給了我們這樣的初創(chuàng)公司進入行業(yè)和快速發(fā)展的機會�！�

對于解決 3D 領域挑戰(zhàn)的核心，王德認為最終還是需要著眼于算法�！皵�(shù)據(jù)量、可控性、可編輯等問題對于 DiT（Diffusion Transformer）架構(gòu)來說是極難解決的。其實對于 AI 本身來說，Transformer 架構(gòu)的潛力也已經(jīng)接近瓶頸，我們想要在 3D 這條路上走下去、走得遠，就必須在技術框架和算法層面進行革新�！�

通過一系列的大膽嘗試和技術革新，Aether 模型目前已經(jīng)取得了一定的技術優(yōu)勢，主要表現(xiàn)為：

第一，生產(chǎn)效率高。

傳統(tǒng)方法制作大型世界場景需要數(shù)周甚至數(shù)月的時間，而該模型能在幾小時內(nèi)完成同等規(guī)模場景的生成，小規(guī)模場景可在不到 1 小時內(nèi)完成。

第二，生成內(nèi)容質(zhì)量比肩人工建模水平。

值得關注的是，Aether 模型的核心算法由團隊自研，不同于傳統(tǒng)的 DiT 架構(gòu)，該算法通過引入物理參數(shù)和對人工建模過程的模擬，使得模型的生成質(zhì)量得到大幅提升，尤其在保真度和幾何結(jié)構(gòu)、拓撲布線等方面，質(zhì)量已接近人工建模的水平。

在精度方面，模型生成的單一場景包含超過 2000 萬個平面多邊形，超高的細膩度使生成場景的呈現(xiàn)效果更加真實和自然。

第三，由模型生成的場景和其中的各項資產(chǎn)均具有高度可編輯性。

基于 DiT 架構(gòu)生成的內(nèi)容普遍面臨可控性差的問題，使其難以嵌入傳統(tǒng)的專業(yè)生產(chǎn)管線，這在 3D 領域顯得尤為突出。

Aether 模型的優(yōu)勢之一在于，其生成場景及其中的所有資產(chǎn)均支持用戶二次編輯，并能輸出適配主流 3D 引擎的各種文件格式，這對于快速實現(xiàn)商業(yè)化具有重要意義。

從 3D 場景生成向 4D 大世界模型推進

王德在 AI 領域深耕十余年，于美國特拉華大學獲得博士學位，期間主要研究方向為機器學習算法和優(yōu)化。

畢業(yè)后曾在美國科技公司亞馬遜長期擔任 Alexa 語音助手項目語音識別技術（ASR，Automatic Speech Recognition）的負責人，帶領團隊落地了基于 Transformer 架構(gòu)的語音識別模型。

在美國學習和工作的十余年時間中，他的工作和研究覆蓋了 AI 算法的多個方向和數(shù)據(jù)結(jié)構(gòu)，并擁有多項語音算法專利。

見證了 AI 技術從機器學習到深度學習算法，再到基于 Transformer 架構(gòu)的大模型，技術的持續(xù)爆發(fā)和應用場景的不斷演變讓他深刻感受到，3D 將是 AIGC 的下一個涌現(xiàn)。

Intime AI 的創(chuàng)始團隊匯集了海內(nèi)外知名互聯(lián)網(wǎng)巨頭的技術骨干，以及工業(yè) 3D 設計、金融投資等領域的行業(yè)專家，能夠助力公司在發(fā)展戰(zhàn)略、產(chǎn)品適配、商業(yè)路徑規(guī)劃等方面合理規(guī)劃。

王德表示：“除了在技術層面的革新，我們在產(chǎn)品定位和商業(yè)化方面做了大量思考與行業(yè)調(diào)研，對于現(xiàn)階段的技術能力來說，我認為 3D AIGC 應該先做到‘能用‘、‘垂直領域商業(yè)化’，再向‘好用’和‘多領域全面商業(yè)化’去發(fā)展。

基于全新技術框架與生成算法，AI初創(chuàng)公司解鎖工業(yè)級3D AIGC

圖丨王德（來源：王德）

“無論在影視還是游戲中，‘對象’給到用戶的第一需求場景就是道具、角色形象，但這些基本都是以近景、特寫的形式呈現(xiàn)的，這就對模型的質(zhì)量提出了很高的要求，而質(zhì)量不夠高、可控性差又恰恰是目前 AIGC 的難點，這就導致了商業(yè)落地難的問題�！�

他指出，相反，“場景”往往是以中遠景去進行視覺呈現(xiàn)，這天然給 AI 生成內(nèi)容提供了一定的包容度。因此 Intime AI 認為，從“場景”出發(fā)是更好的切入點，產(chǎn)品落地的可能性更高。

目前 Intime AI 已經(jīng)與行業(yè)內(nèi)頭部影視制作公司達成合作，通過高效生成 3D 場景幫助用戶進行影視素材的背景合成和虛擬拍攝等工作。

當前，公司以場景生成為切口，通過嵌入影視行業(yè)傳統(tǒng)工作流，在拓展 B 端業(yè)務的同時積累高質(zhì)量數(shù)據(jù)、推動模型基礎能力的持續(xù)提升。

未來一至兩年內(nèi)，公司計劃將模型 SaaS 化，打造面向 3D 專業(yè)創(chuàng)作者的高效智能工具，通過數(shù)據(jù)飛輪大幅提升模型的泛化能力，提供 3D 資產(chǎn)生成的通用性解決方案，并將公司業(yè)務范圍重點拓展至游戲與空間智能領域。

“我們計劃在未來一年內(nèi)推出面向 C 端的 AI 3D 智能引擎，這將為專業(yè)創(chuàng)作者提供顛覆性的使用體驗，并在游戲制作、空間智能等消費級與工業(yè)級場景打開廣闊的市場空間，通過商業(yè)和技術的循環(huán)迭代打造強勁的競爭優(yōu)勢。”王德說。

此外，他們以實現(xiàn) 4D 大世界模型的生成能力為遠期目標，計劃進一步在模型中融入多種動態(tài)感知技術，如數(shù)字人與場景的互動、高質(zhì)量物理模擬等。

隨著 3D AIGC 領域技術的累積和發(fā)展，未來相關領域的傳統(tǒng)生產(chǎn)方式是否會被完全替代呢？

王德認為，由于 3D 本身就是一個專業(yè)門檻很高的內(nèi)容形式，且不同于圖片或視頻，3D 資產(chǎn)并沒有很直接的 C 端消費場景，因此 3D AIGC 幾乎只能作為傳統(tǒng)創(chuàng)作者的輔助工具，嵌入專業(yè)生產(chǎn)管線中，而非徹底顛覆現(xiàn)有的內(nèi)容生產(chǎn)方式和流程。

“面對諸多挑戰(zhàn)，3D AIGC 應遵循‘漸進’、‘可行’的發(fā)展路徑，這其中最關鍵的還是算法的突破和數(shù)據(jù)的積累�！彼f。

盡管 AI 技術在 3D 領域仍面臨許多未知和挑戰(zhàn)，但正是這些未知因素，為技術發(fā)展和 3D AIGC 賽道的創(chuàng)業(yè)帶來了無限的可能性。

參考資料：

https://www.intimeai.cn/

運營/排版：何晨龍

基于全新技術框架與生成算法，AI初創(chuàng)公司解鎖工業(yè)級3D AIGC
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-28 09:21:49 瀏覽：0次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權(quán)聲明

基于全新技術框架與生成算法，AI初創(chuàng)公司解鎖工業(yè)級3D AIGC 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-28 09:21:49 瀏覽：0次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權(quán)聲明

基于全新技術框架與生成算法，AI初創(chuàng)公司解鎖工業(yè)級3D AIGC
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-28 09:21:49 瀏覽：0次