展會信息港展會大全

兩家大廠投了一家3D生成大模型公司|WAVES
來源:互聯(lián)網   發(fā)布日期:2025-01-13 10:18:23   瀏覽:139次  

導讀:文|施嘉翔編輯|劉旌2023年10月,耗費半年、幾乎傾注所有精力的一輪融資被drop后,影眸科技創(chuàng)始人吳迪整個人都是懵的。來不及思考更多,影眸科技進行了成立以來第一次大規(guī)模人員調整。吳迪本想迅速融一輪小錢保證公司運營,但環(huán)境down到不能再down。融資的失利堅定了他們拓展全品類3D資產生成能力的想法。彼時市面上已經有團隊推出過基于2D升維技術路徑的3D生成產品,這是學術界 ......

兩家大廠投了一家3D生成大模型公司|WAVES

|施嘉翔

編輯|劉旌

2023年10月,耗費半年、幾乎傾注所有精力的一輪融資被drop后,影眸科技創(chuàng)始人吳迪整個人都是懵的。來不及思考更多,影眸科技進行了成立以來第一次大規(guī)模人員調整。吳迪本想迅速融一輪小錢保證公司運營,但環(huán)境down到不能再down。融資的失利堅定了他們拓展全品類3D資產生成能力的想法。彼時市面上已經有團隊推出過基于2D升維技術路徑的3D生成產品,這是學術界的主要路徑。但他們看到了 2D 升維路徑的瓶頸:只能記錄真實物體的一個側面,無限多角度的圖像也無法完整描述3D內容。唯一的解法是,從一開始就使用 3D 原生數據。幾乎是孤注一擲,連團隊原本負責電影項目的藝術家也被抽調去做模型標注;贑LAY的3D引擎 Rodin在去年6月推出,CLAY是影眸和上科大聯(lián)合推出的3D原生Diffusion Transformer生成式大模型,這項研究讓他們獲得了SIGGRAPH2024最佳論文榮譽提名。45 天后,Rodin 達成了 100 萬美元 ARR,吳迪說,這是他們后來被大廠看中的主要原因。暗涌Waves獲悉,影眸科技完成了新一輪數千萬美元A輪融資,本輪融資由美團龍珠、字節(jié)跳動領投,老股東紅杉中國種子基金及奇績創(chuàng)壇跟投。影眸過去總被冠以“學生創(chuàng)業(yè)”的標簽,甚至核心成員現(xiàn)在仍在實驗室讀研、讀博,但團隊走過4個年頭的當下,CTO張啟煊說,“小天才”已經逐漸把商業(yè)化、產品可用性放在首位。吳迪還記得自己剛進入上科大時,學校還是一片工地,他甚至不知道這片工地會不會真的變成效果圖上的現(xiàn)代化校園。但剛高考完的他并不在意,比起墨守成規(guī)地讀完書、去國外深造,回國進入大廠的路徑,這個幾乎完全留白的曲譜對他更有吸引力。「WAVES」是暗涌的一個新欄目。在這里,我們將為你呈現(xiàn)新一代創(chuàng)業(yè)者、投資人的故事和精神。以下是影眸科技創(chuàng)始人吳迪和CTO張啟煊對過去創(chuàng)業(yè)歷史的回顧,其中也有對3D賽道未來的理解,經暗涌Waves編輯:

談創(chuàng)業(yè):一次選擇1. 影眸的誕生是從實驗室一個難題開始的:如何把人與物放到虛擬世界中。為了達到這個目標,我們在2020年推出了第一套人臉掃描系統(tǒng),可以采集人臉在不同環(huán)境光照下的表現(xiàn),來合成全新光照下的人臉顯示效果。2.但這項技術在實際應用中接連碰壁。我們曾經進入過《流浪地球2》的換臉項目,但最終沒有合作成功。原因在于,初代穹頂光場側重于采光,是拼湊出人在光照下的展現(xiàn)效果的,而攝像機視角固定,模型無法運動。最后只能用在特定視角比如完全靜態(tài)的鏡頭。光場還只能收集幾何信息的數據,無法識別材質,對人臉褶皺之類的動態(tài)信息無能為力。3.那個時候我才意識到,學術界的研究和工業(yè)界需要的東西存在巨大差距。布線優(yōu)雅、UV規(guī)整、能被渲染、可以調整表情、也能在游戲里實時驅動的3D建模,才是工業(yè)界所需要的。等待新一代穹頂光場更新期間,我們就想基于生成式網絡技術做些嘗試。4.影眸在當時做了兩款產品,其中一個叫Wand。這款APP很簡單,就是用戶在畫布上簡筆勾畫,Wand就會生成真人頭像。產品開發(fā)只花了兩周。第一代真人頭像沒有任何波瀾,我們就把生成結果從真人換成二次元圖像。結果Wand登上了App Store圖形和設計類排行榜的第一名,有超過160萬注冊用戶在Wand上“畫二次元老婆”。5.但Wand只是一款簡單的工具,用戶沒有留存,我們沒想出好的收費模式,沒法平衡用戶和算力支出。接下來要么鉆研技術、延伸更多功能,或者做成二次元社區(qū)。但我們是不相信2D技術的,8人的全理工團隊也找不出一位擅長社區(qū)運營的。最后認命接不住這波流量,把2D業(yè)務線全砍了。6.回頭看,Wand 已經完成了它的歷史使命,幫我們賺到了第一筆錢,雖然只有6000,但更重要的是幫我們完成了天使輪融資。我們還是相信,下一代顯示設備和交互方式會在三維層面進行。

談方向選擇與3D生成的未來:搖擺與決心

7.拿到融資后,元宇宙正火,我們靠著數字人和元宇宙的東風拿到了第二筆融資。當時我們的想法是,現(xiàn)有的數字人最終將轉變?yōu)镮D型數字人,成為每個要進入虛擬世界的人的標配。于是在2022年底推出了DreamFace和基于此框架的3D角色生成器ChatAvatar,已經能做成至少配角級、帶骨骼綁定的模型。

8.但我們入場的時機趕上了元宇宙的尾聲,商業(yè)化進展不順,舉步維艱。那年我畢業(yè),把辦公室搬出上科大實驗室,趕上疫情封城,白交了半年房租。9.到2023年,我有6個月的時間在談新一輪融資,結果在一夜間領投方選擇放棄,我整個人都是懵的。本來還想先融一兩百萬美金,活下去再說,但環(huán)境簡直down到不能再down。我讓財務每周給我看兩次賬上的余額,盯著現(xiàn)金流,勉強維持著收支平衡。那時候我意識到,在有新的milestone前,影眸不可能再融到錢了。10.我們之前已經將廣泛的生成式3D提上進程,但同時也面臨著一個技術關鍵選擇。3D 生成的技術路線大致可以分為兩種:2D 升維和原生 3D。前者通過海量2D 圖像數據訓練生成,但由于數據集中于3D 世界,總會出現(xiàn)模型“多頭”問題。先用這個技術路徑出產品,可能能快速拿一筆融資,但產品離“Production-Ready”會有無法彌補的差距。而3D原生的技術路徑能不能做出來,我們也沒底。11.我們最后一致認為,如果需要跟3D工業(yè)抗衡,只能用原生3D的訓練方法。這種方法的難點常被認為是優(yōu)質數據不足。但其實,3D生成的瓶頸不在于模型的數據量,而是合適的三維表達和參數規(guī)模。關鍵在于從數據集轉化到最終輸出,信息損失要盡可能小。12.Rodin就在去年6月推出,是同批3D生成創(chuàng)業(yè)公司中最晚發(fā)布的。我覺得,當時它的生成質量、可用性都代差級地領先當時的同類產品。2024年最后一天發(fā)布的Rodin Gen-1.5,填補了3D生成在尖銳邊緣生成能力的坑。對 CAD 類工業(yè)模型與硬表面模型,它有絕對優(yōu)勢。

13.但即使如此,AI生成的模型離最終直接可用還有不小的距離。同為內容形態(tài),和視頻、圖像等領域不一樣之處在于,3D是工業(yè)級內容,不是消費級,這意味著有確定的行業(yè)標準。在拓撲、幾何精度、材質、UV展開等問題還沒有解決的情況下,AI生成3D離在游戲、電影中直接可用有很大差距。14.另外,解決普通用戶在3D世界的創(chuàng)造能力,也不意味著3D的消費級時代會到來,需要更多前置條件比如讓Vision Pro、Quest 3和IPhone一樣普及。之前元宇宙出圈,也更多是B端玩家在自嗨。在提效游戲工業(yè)上,3D生成能做的遠不及Midjourney。之前在實驗室,我們覺得技術等于產品等于公司,但其實技術不等于產品,也不等于公司。15.Rodin也不可能生成游戲或是電影的工業(yè)級3D作品,也許未來3D生成會作為一種核心玩法出現(xiàn)在游戲、影視作品中,但3D 原生技術眼下的機會是在存量市場。16.所以影眸這次把商業(yè)化瞄準“游戲外包”:在游戲建模環(huán)節(jié),從原畫到建模結束,存在一系列可能要返工數次的“廢稿”。現(xiàn)在,原畫的三視圖完成后,可以先用Rodin生成建模草稿,具體細節(jié)再由建模師調整,在建模最開始的中;蝾A覽階段減少成本,或是應用于一些周邊的不重要資產。17.我剛來上科大時,學校就是一片工地,實驗室也是新建的。我們幾乎見證了上科大從一片廢墟到高樓林立的全過程。某種程度上,上科大從無到有,像我們導師說的,也是一次“偉大創(chuàng)業(yè)”。而影眸科技這四年,就是這次“創(chuàng)業(yè)”的一個注腳。

圖片來源 |Unsplash

贊助本站

相關熱詞: 3D 吳迪 waves 2d 暗涌

相關內容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港