展會(huì)信息港展會(huì)大全

AI 2025 的硅谷答案:60 條關(guān)鍵洞察
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-26 19:17:16   瀏覽:322次  

導(dǎo)讀:重塑世界的力量不在硅谷,而在一代中國(guó)從業(yè)者的努力中。來源:石頭學(xué)習(xí)筆記(ID:notes2024)原標(biāo)題:AI 2025的硅谷答案:60條關(guān)鍵洞察編者按:2024 年末國(guó)內(nèi)大模型公司的組團(tuán)推新品,讓人們看到了 AI 依舊火熱。在硅谷,AI 從業(yè)者們?cè)跓崃矣懻摵,總結(jié)出了 2025 年,AI 行業(yè)的一些共識(shí),以及不少「非共識(shí)」。例如,硅谷的投資人,認(rèn)為 AI 公司是「新物種」,而 AI 應(yīng)用,則是 202 ......

AI 2025 的硅谷答案:60 條關(guān)鍵洞察

重塑世界的力量不在硅谷,而在一代中國(guó)從業(yè)者的努力中。

來源:石頭學(xué)習(xí)筆記(ID:notes2024)

原標(biāo)題:AI 2025的硅谷答案:60條關(guān)鍵洞察

編者按:

2024 年末國(guó)內(nèi)大模型公司的組團(tuán)推新品,讓人們看到了 AI 依舊火熱。在硅谷,AI 從業(yè)者們?cè)跓崃矣懻摵,總結(jié)出了 2025 年,AI 行業(yè)的一些共識(shí),以及不少「非共識(shí)」。例如,硅谷的投資人,認(rèn)為 AI 公司是「新物種」,而 AI 應(yīng)用,則是 2025 年的投資熱點(diǎn)。

1.11-15 日,錦秋基金在硅谷舉辦了「Scale with AI」的活動(dòng),邀約了 A16Z、Pear VC 、Soma Capital、Leonis Capital 、Old Friendship Capital、OpenAI、xAI 、Anthropic、Google、Meta、Microsoft、Apple、Tesla、Nvidia、ScaleAI、Perplexity、Character.ai 、Midjourney、Augment、Replit、Codiuem、Limitless、Luma、Runway 這些公司的專家一起交流。

在交流后,我們也匯總了這些專家的觀點(diǎn),形成了這 60 個(gè)洞察。

01

模型篇


1、LLM 的 pre-training 階段已經(jīng)接近瓶頸

但 post-training 還有很多機(jī)會(huì)

Pre-training 階段,Scaling 是變慢的,離飽和還有一定時(shí)間。

放緩的原因:結(jié)構(gòu)>算力>數(shù)據(jù)(Single-Model)。

但是在 Multi-model 上:數(shù)據(jù)=算力>結(jié)構(gòu)。

對(duì)于 MultiModel 而言,需要在多個(gè)模態(tài)上選擇組合,Pre-training 在現(xiàn)有架構(gòu)下可以認(rèn)為已經(jīng)結(jié)束了,但是可以改新的架構(gòu)。

現(xiàn)在在 Pre-training 投入少的原因更多是在于資源都有限,做 Post-training 的邊際效益會(huì)更高。

2、Pre-training 和 RL 關(guān)系

Pre-training 不太在乎數(shù)據(jù)質(zhì)量。

Post-training 對(duì)數(shù)據(jù)質(zhì)量要求較高,但是由于算力限制,到最后幾個(gè)部分給高質(zhì)量的數(shù)據(jù),

Pre-training 是 imitation,只能做到模仿的事情。

RL 是創(chuàng)造,可以做到不同的事情

先有 Pre-training,才有 Post-training 中的 RL,模型得有基礎(chǔ)能力,RL 才能有的放矢。

RL 不改變模型的智力,更多是思考的模式。比如,在 C.AI 用 RL 優(yōu)化 Engagement 效果很好。

3、大模型優(yōu)化會(huì)影響產(chǎn)品的能力

一般主要在 post training 部分,幫助做很多 Safety,比如解決 C.AI 在兒童自殺的問題上,會(huì)根據(jù)不同人群不同歲數(shù)的情況下,用不同的模型來服務(wù)。

其次是 Multiagent 的 framework。模型會(huì)思考為了解決這個(gè)問題要怎么做,然后分給不同 agent 去做,每個(gè) agent 做完后,再服務(wù) task,最后結(jié)果優(yōu)化。

4、一些非共識(shí)明年可能實(shí)現(xiàn)共識(shí)

有沒有必要所有都要上大模型,之前有很多很好的小模型,可能沒有必要再要做一個(gè)模型。

現(xiàn)在的大模型,1 年后就變成小模型。

Model 架構(gòu)可能變化。Scaling law 已經(jīng)到了,未來要討論的問題,知識(shí)模型解耦,可能速度會(huì)比較快。

5、LLM 領(lǐng)域隨著 Scaling law 到頭,閉源和開源差距縮小。


6、視頻生成還在 GPT1 和 2 的時(shí)間點(diǎn)

現(xiàn)在視頻的水平接近 SD1.4 的版本,未來視頻會(huì)有一個(gè)和商用性能差不多的開源版本。

當(dāng)前的難點(diǎn)是數(shù)據(jù)集,圖像是靠 LIAON 數(shù)據(jù)集,大家可以去清洗,視頻上因?yàn)榘鏅?quán)等問題沒有那么大的公用數(shù)據(jù)集,每一家如何獲取、處理、清洗數(shù)據(jù)會(huì)產(chǎn)生很多不同,導(dǎo)致模型能力不同,開源版本的難度也不同。

DiT 方案下一個(gè)比較難的點(diǎn)在于如何提升物理規(guī)律的遵循,而不只是統(tǒng)計(jì)概率。

視頻生成的效率是卡點(diǎn)。目前要在高端顯卡上跑挺久,是商業(yè)化的障礙,也是學(xué)術(shù)界在探討的方向。

類似 LLM 雖然模型迭代速度在放緩,但應(yīng)用沒有放緩。從產(chǎn)品角度,只做文生視頻不是一個(gè)好的方向,相關(guān)的偏剪輯、創(chuàng)意的產(chǎn)品,會(huì)層出不窮,短期內(nèi)不會(huì)有瓶頸。

7、面向不同場(chǎng)景選擇不同的技術(shù)棧會(huì)是一個(gè)趨勢(shì)

Sora 剛出來大家都認(rèn)為會(huì)收斂到 DiT,但實(shí)際上還有很多技術(shù)路徑在做,例如 based on GAN 的路徑,以及 AutoRegressive 的實(shí)時(shí)生成,比如最近很火項(xiàng)目 Oasis,還有把 CG 和 CV 結(jié)合去實(shí)現(xiàn)更好的一致性和控制,每一家都有不同的選擇,未來面向不同場(chǎng)景選擇不同的技術(shù)棧會(huì)是一個(gè)趨勢(shì)。

8、視頻的 Scaling Law 遠(yuǎn)達(dá)不到 LLM 的級(jí)別

視頻的 scaling law,在一定范圍內(nèi)有,但遠(yuǎn)達(dá)不到 llm 的級(jí)別。現(xiàn)在最大級(jí)別的模型參數(shù)也就是 30b,30b 以內(nèi)被證明是有效的;但 300b 這個(gè)量級(jí),就沒有成功案例。

現(xiàn)在技術(shù)方案是收斂的,做法沒有大不同。不同最主要是數(shù)據(jù)上、包括數(shù)據(jù)配比。

會(huì)有 1-2 年才能達(dá)到 DiT 技術(shù)路線的飽和。DiT 路線很多可以優(yōu)化的地方。更高效的模型架構(gòu),是非常重要的。以 LLM 為例,一開始大家都在往大了做,后面發(fā)現(xiàn)加 MOE 和優(yōu)化數(shù)據(jù)分布后,可以不用那么大的模型去做。

需要投入更多研究,一味 scale up DiT 非常不高效。視頻數(shù)據(jù)如果把 YouTube、TikTok 都算上,數(shù)量非常大,不可能都用于模型訓(xùn)練。

現(xiàn)階段開源方面的工作還比較少,尤其是數(shù)據(jù)準(zhǔn)備方面的開源工作,各家的清洗方式都有很大的差異性,而數(shù)據(jù)準(zhǔn)備過程對(duì)最終效果有很大的影響,所以其中可優(yōu)化的點(diǎn)還很多。

9、提升視頻生成的速度的方法

最簡(jiǎn)單的就是生成低分辨率、低幀率的畫面。最常用的是步數(shù)蒸餾,diffusion 推理的時(shí)候是有步數(shù)的,目前圖像生成至少還需要 2 步,如果能蒸餾到 1 步推理,就會(huì)快很多。最近也有一個(gè)論文,做一步生成視頻,雖然現(xiàn)在只是 poc,但值得關(guān)注。

10、視頻模型迭代的優(yōu)先級(jí)

其實(shí)清晰度、一致性、可控性等都沒有達(dá)到其他飽和,還沒有到提高一部分犧牲另一部分。是目前在 Pre-training 階段同步提高的階段。

11、長(zhǎng)視頻生成提速的技術(shù)方案

能看到 DiT 能力極限在哪,模型越大、數(shù)據(jù)越好,生成的清晰度更高、時(shí)間更長(zhǎng)、成功率更高。

DiT 模型能 scale 到多大,是目前沒有答案的。如果到一定尺寸出現(xiàn)瓶頸,可能會(huì)有新的模型架構(gòu)出現(xiàn)。從算法角度,DiT 做出一個(gè)新的推理算法,來支持快速。比較難得是怎么在訓(xùn)練的時(shí)候把這些加上。

現(xiàn)在模型對(duì)物理規(guī)律的理解是統(tǒng)計(jì)意義上的,數(shù)據(jù)集看到過的現(xiàn)象能夠一定程度上模擬,不是真的懂物理。學(xué)術(shù)界有一些探討,例如通過一些物理規(guī)則到視頻生成里去。

12、視頻模型和其他模態(tài)的融合

會(huì)有兩個(gè)方面的統(tǒng)一:一是多模態(tài)的統(tǒng)一,二是生成和理解的統(tǒng)一。對(duì)于前者,表征要先統(tǒng)一。對(duì)于后者,文本和語(yǔ)音都是可以統(tǒng)一的,VLM 和 diffusion 的統(tǒng)一目前認(rèn)為效果是 1+1

最簡(jiǎn)單的想法是都 tokenize 之后放到 transformer 模型里,最后統(tǒng)一輸入輸出。但自己的個(gè)人經(jīng)驗(yàn)是做單個(gè)特定的模態(tài)比把所有的融合在一起效果會(huì)更好。

工業(yè)實(shí)踐上大家不會(huì)放在一起去做。MIT 最新的論文潛在說明如果把多模態(tài)都統(tǒng)一的話效果有可能會(huì)更好。

13、視頻模態(tài)的訓(xùn)練數(shù)據(jù)其實(shí)還有很多

視頻數(shù)據(jù)其實(shí)很多,怎么樣高效的選擇出高質(zhì)量數(shù)據(jù)比較重要。

數(shù)量取決于對(duì)版權(quán)的理解。但算力同樣是瓶頸,即便有那么多數(shù)據(jù),也不一定有算力去做,尤其是高清的數(shù)據(jù)。有時(shí)候需要基于手頭有的算力去反推需要的高質(zhì)量數(shù)據(jù)集。

高質(zhì)量數(shù)據(jù)一直都是缺的,但即便有數(shù)據(jù),很大的問題是大家不知道什么樣的圖像描述是對(duì)的,圖像描述要有哪些關(guān)鍵詞。

14、長(zhǎng)視頻生成的未來在于故事性

現(xiàn)在的視頻生成是素材的。未來是故事的,視頻生成是帶有目的的。長(zhǎng)視頻不是時(shí)間有多長(zhǎng),而是故事性。以任務(wù)的形式。

視頻編輯的話,速度會(huì)高一些。因?yàn)楝F(xiàn)在一個(gè)卡點(diǎn)是速度太慢,F(xiàn)在都是分鐘級(jí)(生成幾秒)。這樣即使有好算法,也不可用。(編輯不是指剪輯,而是 image 的編輯,比如換個(gè)人,動(dòng)作,這樣的技術(shù)是有的,問題就是速度慢,不可用。)

15、視頻生成的美學(xué)提升主要是靠 post training

主要是靠 post training 階段,比如海螺,大量用影視數(shù)據(jù)。真實(shí)度的話是基模能力

16、視頻理解兩個(gè)難點(diǎn)是 Long context 和 Latency。


17、視覺模態(tài)可能不是更好的通向 AGI 的最好的模態(tài)

文字的模態(tài)也可以把文字改成圖片,然后變成視頻

文字是通往智能的捷徑,視頻和文字之間的效率差距是幾百倍

18、語(yǔ)音模型上端到端是很大的進(jìn)步

不需要人為對(duì)數(shù)據(jù)做標(biāo)注和判斷,可以做到精細(xì)的情感理解和輸出

19、多模態(tài)模型還在很早期階段

多模態(tài)模型還在很早期階段,給前 1 秒視頻 predict 后面 5 秒已經(jīng)很難了,后面加入 text 可能會(huì)更難。

理論上視頻和文字一起訓(xùn)是最好的,但是整體做起來是很難的。

多模態(tài)目前不能提升智力,但是未來也許是可以的,壓縮算法可以學(xué)習(xí)數(shù)據(jù)集的關(guān)系,只需要純文字和純圖片的數(shù)據(jù),出來之后就可以做視頻和文字相互理解。

20、多模態(tài)的技術(shù)路徑還沒有完全收斂

Diffusion model 質(zhì)量好,目前的模型結(jié)構(gòu)還在不斷再改;

Alter agreesive 邏輯好。

21、不同模態(tài)的對(duì)齊,現(xiàn)在還沒有形成共識(shí)

video 是離散還是連續(xù)的 tokens 都沒定下來。

現(xiàn)在高質(zhì)量對(duì)齊的還沒有很多。

目前也不知道是科學(xué)問題和工程問題。


22、大模型生成數(shù)據(jù)然后訓(xùn)練小的模型是可行的,反過來比較難

合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的區(qū)別主要是質(zhì)量問題。

也可以用各類數(shù)據(jù)拼湊用來合成,效果也很好。pretraining 階段可用,因?yàn)閷?duì)數(shù)據(jù)質(zhì)量要求不高。

23、對(duì) LLM 來說 pre training 的時(shí)代已經(jīng)基本結(jié)束了

現(xiàn)在大家都在談 Post training,對(duì)數(shù)據(jù)質(zhì)量要求高

24、Post training 團(tuán)隊(duì)建設(shè)

理論上團(tuán)隊(duì)規(guī)模:5 人足夠(不一定全職)。

一人搭建 pipeline(infrastructure)。

一人管數(shù)據(jù)(數(shù)據(jù)效果)。

一人負(fù)責(zé)模型本身 SFT(科學(xué)家/讀 Paper)。

一人負(fù)責(zé)產(chǎn)品對(duì)模型編排做判斷,收集用戶數(shù)據(jù)。

AI 時(shí)代產(chǎn)品和 UI,Post training 優(yōu)勢(shì),AI 彌補(bǔ)產(chǎn)品和 UI 了解,開發(fā)豐富,不被 AI 帶偏。

25、數(shù)據(jù) pipeline 構(gòu)建

數(shù)據(jù)循環(huán):數(shù)據(jù)進(jìn)入 pipeline,生成新數(shù)據(jù)回流。

高效迭代:數(shù)據(jù)標(biāo)注結(jié)合 pipeline 和 AB testing,結(jié)構(gòu)化數(shù)據(jù)倉(cāng)庫(kù)。

數(shù)據(jù)輸入:高效標(biāo)注和豐富用戶反饋,構(gòu)建護(hù)城河。

初始階段:SFT(不斷重新 Loop 到這個(gè)階段)。

后續(xù)階段:RL(分化出來比較重的 RLFH),打分指導(dǎo) RL,DPO 方法易崩,SFT 簡(jiǎn)化版 RL。

02

具身篇


1、具身機(jī)器人尚未迎來類似 ChatGPT 的「關(guān)鍵時(shí)刻」

一個(gè)核心原因在于,機(jī)器人需要在物理世界中完成任務(wù),而不僅僅是通過虛擬語(yǔ)言生成文本。

機(jī)器人智能的突破需要解決「具身智能」(Embodied Intelligence)的核心問題,即如何在動(dòng)態(tài)、復(fù)雜的物理環(huán)境中完成任務(wù)。

機(jī)器人的「關(guān)鍵時(shí)刻」需要滿足以下幾個(gè)條件:通用性:能夠適應(yīng)不同任務(wù)和環(huán)境?煽啃裕涸谡鎸(shí)世界中具有較高的成功率?蓴U(kuò)展性:能通過數(shù)據(jù)和任務(wù)不斷迭代和優(yōu)化。

2、這一代機(jī)器學(xué)習(xí)解決的最核心的問題就是泛化

泛化是 AI 系統(tǒng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)規(guī)律,并應(yīng)用到未見過的數(shù)據(jù)上的能力。

泛化有兩種模式:

插值(Interpolation):測(cè)試數(shù)據(jù)在訓(xùn)練數(shù)據(jù)分布范圍內(nèi)。

外推(Extrapolation)的難點(diǎn)在于訓(xùn)練數(shù)據(jù)是否能夠很好地覆蓋測(cè)試數(shù)據(jù),以及測(cè)試數(shù)據(jù)的分布范圍和成本。這里「cover」或「coverage」是關(guān)鍵概念,指的是訓(xùn)練數(shù)據(jù)能否有效涵蓋測(cè)試數(shù)據(jù)的多樣性。

3、視覺任務(wù)(如人臉識(shí)別、物體檢測(cè))多半屬于插值問題

機(jī)器視覺的工作主要是模仿生物的感知能力,理解和感知環(huán)境。

機(jī)器視覺模型在某些任務(wù)上(如貓狗識(shí)別)已經(jīng)非常成熟,因?yàn)橛写罅肯嚓P(guān)數(shù)據(jù)支持。然而,對(duì)于更復(fù)雜或動(dòng)態(tài)的任務(wù),數(shù)據(jù)的多樣性和覆蓋范圍仍是瓶頸。

視覺任務(wù)(如人臉識(shí)別、物體檢測(cè))多半屬于插值問題,模型通過訓(xùn)練數(shù)據(jù)覆蓋大多數(shù)測(cè)試場(chǎng)景。

但在外推問題上(如全新角度或光照條件),模型能力仍有限。

4、這一代機(jī)器人泛化的難點(diǎn):大部分情況屬于 extrapolation 情形

環(huán)境復(fù)雜性:家庭環(huán)境、工業(yè)環(huán)境的多樣性和動(dòng)態(tài)變化。

物理交互問題:例如門的重量、角度差異、磨損等物理特性。

人機(jī)交互的不確定性:人類行為的不可預(yù)測(cè)性對(duì)機(jī)器人提出了更高的要求。

5、完全具備人類般泛化能力的機(jī)器人在當(dāng)前乃至未來的一代人中可能無法實(shí)現(xiàn)

機(jī)器人要在現(xiàn)實(shí)世界中應(yīng)對(duì)復(fù)雜性和多樣性,難度極高,F(xiàn)實(shí)環(huán)境中的動(dòng)態(tài)變化(如家庭中的寵物、小孩、家具擺放等)使得機(jī)器人很難做到完全泛化。

人類本身并不是全能的個(gè)體,而是通過分工合作在社會(huì)中完成復(fù)雜任務(wù)。機(jī)器人同樣不一定追求「人類級(jí)別」的泛化能力,而是更專注于某些特定任務(wù),甚至實(shí)現(xiàn)「超越人類」的表現(xiàn)(如工業(yè)生產(chǎn)中的效率和精度)。

即使是看似簡(jiǎn)單的任務(wù)(如掃地或做飯),由于環(huán)境的復(fù)雜性和動(dòng)態(tài)性,其泛化要求也非常高。比如掃地機(jī)器人需要應(yīng)對(duì)千家萬(wàn)戶不同的布局、障礙物、地面材質(zhì)等,這些都增加了泛化的難度。

那么,機(jī)器人是否需要任務(wù)聚焦(Pick Your Task)。比如,機(jī)器人需要專注于特定任務(wù),而不是追求全面的人類能力。

6、斯坦福實(shí)驗(yàn)室的選擇:聚焦家庭場(chǎng)景

斯坦福的機(jī)器人實(shí)驗(yàn)室主要聚焦于家庭場(chǎng)景中的任務(wù),尤其是與老齡化社會(huì)相關(guān)的家務(wù)機(jī)器人。例如,機(jī)器人可以幫助完成疊被子、拾取物品、開瓶蓋等日常任務(wù)。

關(guān)注原因:美國(guó)、西歐以及中國(guó)等國(guó)家都面臨嚴(yán)重的老齡化問題。老齡化帶來的主要挑戰(zhàn)包括:認(rèn)知功能退化:阿爾茨海默癥(老年癡呆)是一個(gè)廣泛存在的問題,95 歲以上人群中約有一半患有此病。運(yùn)動(dòng)功能退化:例如帕金森癥、ALS 等疾病導(dǎo)致老年人難以完成基本的日常操作。

7、基于特定場(chǎng)景定義泛化條件

明確機(jī)器人需要處理的環(huán)境和場(chǎng)景,例如家庭、餐廳或養(yǎng)老院。

明確場(chǎng)景后,可以更好地定義任務(wù)范圍,并確保在這些場(chǎng)景中涵蓋可能出現(xiàn)的物品狀態(tài)變化和環(huán)境動(dòng)態(tài)。

場(chǎng)景調(diào)試的重要性:機(jī)器人產(chǎn)品的調(diào)試不僅僅是解決技術(shù)問題,而是要涵蓋所有可能出現(xiàn)的情況。例如在養(yǎng)老院中,機(jī)器人需要處理多種復(fù)雜情況(如老年人行動(dòng)緩慢、物品擺放不固定等)。通過與領(lǐng)域?qū)<液献鳎ㄈ琊B(yǎng)老院管理者、護(hù)理人員),可以更好地定義任務(wù)需求并收集相關(guān)數(shù)據(jù)。

現(xiàn)實(shí)世界中的環(huán)境不像工業(yè)流水線那樣完全可控,但可以通過調(diào)試使其「已知」(known)。比如,定義家庭環(huán)境中常見的物體種類、擺放位置、動(dòng)態(tài)變化等,在仿真和真實(shí)環(huán)境中覆蓋關(guān)鍵。

8、泛化與專用的矛盾

通用模型與特定任務(wù)模型的沖突:通用模型需要具備強(qiáng)大的泛化能力,能夠適應(yīng)多樣化的任務(wù)和環(huán)境;但這通常需要大量的數(shù)據(jù)和計(jì)算資源。

特定任務(wù)模型更容易實(shí)現(xiàn)商業(yè)化,但其能力受限,難以擴(kuò)展到其他領(lǐng)域。

未來的機(jī)器人智能需要在通用性和專用性之間找到平衡。例如,通過模塊化設(shè)計(jì),讓通用模型成為基礎(chǔ),再通過特定任務(wù)的微調(diào)實(shí)現(xiàn)快速適配。

9、具身多模態(tài)模型的潛力

多模態(tài)數(shù)據(jù)的整合:多模態(tài)模型能夠同時(shí)處理視覺、觸覺、語(yǔ)言等多種輸入,提升機(jī)器人對(duì)復(fù)雜場(chǎng)景的理解和決策能力。例如,在抓取任務(wù)中,視覺數(shù)據(jù)可以幫助機(jī)器人識(shí)別物體的位置和形狀,而觸覺數(shù)據(jù)可以提供額外的反饋,確保抓取的穩(wěn)定性。

難點(diǎn)在于如何讓多模態(tài)數(shù)據(jù)在模型中實(shí)現(xiàn)高效融合。如何通過多模態(tài)數(shù)據(jù)提升機(jī)器人在動(dòng)態(tài)環(huán)境中的適應(yīng)能力。

觸覺數(shù)據(jù)的重要性:觸覺數(shù)據(jù)可以為機(jī)器人提供額外的信息,幫助其在復(fù)雜環(huán)境中完成任務(wù)。例如,在抓取柔性物體時(shí),觸覺數(shù)據(jù)可以幫助機(jī)器人感知物體的形變和受力情況。

10、機(jī)器人數(shù)據(jù)閉環(huán)難實(shí)現(xiàn)

機(jī)器人領(lǐng)域目前缺乏類似 ImageNet 這樣的標(biāo)志性數(shù)據(jù)集,導(dǎo)致研究難以形成統(tǒng)一的評(píng)估標(biāo)準(zhǔn)。

數(shù)據(jù)采集的成本高昂,尤其是涉及真實(shí)世界的交互數(shù)據(jù)。例如,采集觸覺、視覺、動(dòng)力學(xué)等多模態(tài)數(shù)據(jù)需要復(fù)雜的硬件和環(huán)境支持。

仿真器被認(rèn)為是解決數(shù)據(jù)閉環(huán)問題的一種重要工具,但仿真與真實(shí)世界之間的「模擬-真實(shí)差距(Sim-to-Real Gap)」仍然顯著。

11、Sim-to-Real Gap 的挑戰(zhàn)

仿真器在視覺渲染、物理建模(如摩擦力、材質(zhì)特性)等方面與真實(shí)世界存在差距。機(jī)器人在仿真環(huán)境中表現(xiàn)良好,但在真實(shí)環(huán)境中可能失敗。這種差距限制了仿真數(shù)據(jù)的直接應(yīng)用。

12、真實(shí)數(shù)據(jù)的優(yōu)勢(shì)與挑戰(zhàn)

真實(shí)數(shù)據(jù)能夠更準(zhǔn)確地反映物理世界的復(fù)雜性,但其采集成本高昂。數(shù)據(jù)標(biāo)注是一個(gè)瓶頸,尤其是涉及多模態(tài)數(shù)據(jù)(如觸覺、視覺、動(dòng)力學(xué))的標(biāo)注。

工業(yè)環(huán)境更規(guī)范,任務(wù)目標(biāo)更明確,適合機(jī)器人技術(shù)的早期部署。例如,在太陽(yáng)能發(fā)電廠的建設(shè)中,機(jī)器人可以完成打樁、裝板、擰螺絲等重復(fù)性任務(wù)。工業(yè)機(jī)器人可以通過特定任務(wù)的數(shù)據(jù)收集,逐步提升模型能力,并形成數(shù)據(jù)的閉環(huán)。

13、在機(jī)器人操作中,觸覺和力覺數(shù)據(jù)可以提供關(guān)鍵的反饋信息

在機(jī)器人操作中,觸覺和力覺數(shù)據(jù)可以提供關(guān)鍵的反饋信息,尤其是在連續(xù)任務(wù)(如抓取和放置)中。

觸覺數(shù)據(jù)的形式:觸覺數(shù)據(jù)通常是時(shí)間序列數(shù)據(jù),可以反映機(jī)器人與物體接觸時(shí)的力學(xué)變化。

最新的研究工作是把觸覺也加入到大模型里。

14、仿真數(shù)據(jù)的優(yōu)勢(shì)

仿真器可以快速生成大規(guī)模數(shù)據(jù),適合早期模型訓(xùn)練和驗(yàn)證。仿真數(shù)據(jù)的生成成本低,可以在短時(shí)間內(nèi)覆蓋多種場(chǎng)景和任務(wù)。在工業(yè)機(jī)器人領(lǐng)域,仿真器已經(jīng)被廣泛用于訓(xùn)練抓取、搬運(yùn)等任務(wù)。

仿真數(shù)據(jù)的局限:仿真器的物理建模精度有限,例如無法準(zhǔn)確模擬物體的材質(zhì)、摩擦力、柔性等特性。仿真環(huán)境的視覺渲染質(zhì)量通常不足,可能導(dǎo)致模型在真實(shí)環(huán)境中表現(xiàn)不佳。

15、數(shù)據(jù)仿真:Stanford 推出了 behavior 的仿真平臺(tái)

Behavior 是一個(gè)以家庭場(chǎng)景為核心的仿真平臺(tái),支持 1,000 種任務(wù) 和 50 種不同場(chǎng)景,涵蓋了從普通公寓到五星級(jí)酒店的多樣環(huán)境。

平臺(tái)內(nèi)包含超過 1 萬(wàn)種物體,并通過高精度的 3D 模型和交互標(biāo)注,重現(xiàn)物體的物理和語(yǔ)義屬性(如柜門可開、衣服可折疊、玻璃杯可打碎等)。

為了保證仿真環(huán)境的真實(shí)性,團(tuán)隊(duì)投入了大量人力(如博士生標(biāo)注數(shù)據(jù)),對(duì)物體的物理屬性(質(zhì)量、摩擦力、紋理等)和交互屬性(如是否可拆卸、是否會(huì)變形)進(jìn)行細(xì)致標(biāo)注。再如,標(biāo)注衣服的柔性特性以支持疊衣服任務(wù),或者標(biāo)注植物澆水后的濕潤(rùn)效果。

Behavior 項(xiàng)目不僅提供固定的仿真環(huán)境,還允許用戶上傳自己的場(chǎng)景和物體,通過 annotation pipeline 對(duì)其進(jìn)行標(biāo)注和配置。

目前來看,仿真可以 80% pretraining,剩余的 20% 需要通過真實(shí)環(huán)境中的數(shù)據(jù)采集和調(diào)試來補(bǔ)充。

16、混合模型的應(yīng)用

通過仿真數(shù)據(jù)進(jìn)行初步訓(xùn)練,再通過真實(shí)數(shù)據(jù)進(jìn)行微調(diào)和優(yōu)化。已經(jīng)嘗試將真實(shí)場(chǎng)景掃描到仿真器中,讓機(jī)器人在仿真環(huán)境中進(jìn)行交互并學(xué)習(xí),從而縮小 Sim-to-Real Gap。

17、機(jī)器人數(shù)據(jù)共享的挑戰(zhàn)

數(shù)據(jù)是公司的核心資產(chǎn),企業(yè)不愿輕易共享數(shù)據(jù)。缺乏統(tǒng)一的數(shù)據(jù)共享機(jī)制和激勵(lì)機(jī)制。

可能的解決方案:

數(shù)據(jù)交換:特定任務(wù)的公司貢獻(xiàn)數(shù)據(jù),換取通用模型的能力。

數(shù)據(jù)中介:建立第三方平臺(tái),收集、整合和分發(fā)數(shù)據(jù),同時(shí)保護(hù)隱私。

模型共享:通過 API 或模型微調(diào)的方式,減少對(duì)原始數(shù)據(jù)的依賴。

目前已經(jīng)有一些公司在做這三種方式的嘗試

18、靈巧手與夾爪的選擇

靈巧手的優(yōu)點(diǎn):自由度高,能夠完成更復(fù)雜的任務(wù)。靈巧手可以通過多自由度的調(diào)整彌補(bǔ)模型預(yù)測(cè)的不準(zhǔn)確性。

夾爪的優(yōu)點(diǎn):成本低,適合工業(yè)場(chǎng)景中的特定任務(wù)。在流水線上的物料搬運(yùn)任務(wù)中表現(xiàn)良好,但缺乏泛化能力。

19、具身機(jī)器人軟硬件協(xié)同進(jìn)化

硬件平臺(tái)與軟件模型需要同步迭代。例如,硬件的傳感器精度提升可以為模型提供更高質(zhì)量的數(shù)據(jù)。不同公司在軟硬件協(xié)同上的策略不同:

03

AI 應(yīng)用投資篇


1、硅谷 VC 認(rèn)為 2025 年是 AI 應(yīng)用投資大年

硅谷的 VC 傾向于 2025 年是有應(yīng)用投資的大機(jī)會(huì)。在美國(guó)基本沒有 killer apps for everyone。大家習(xí)慣于在不同的場(chǎng)景中使用不同功能的 App,關(guān)鍵是讓用戶體驗(yàn)盡可能的無障礙

去年基本不關(guān)注應(yīng)用公司,所有人都在看 LLM 和 Foundation model。

投資至應(yīng)用,VC 會(huì)問,what's your moat?

硅谷投資人投資 AI 產(chǎn)品的標(biāo)準(zhǔn)之一:最好只做一個(gè)方向,讓競(jìng)品很難復(fù)制,需要有一些網(wǎng)絡(luò)效應(yīng);要么是難以復(fù)制的洞察力;要么是難以復(fù)制的技術(shù) Edge;要么是他人無法獲得的水平壟斷資本。否則很難稱之為創(chuàng)業(yè),更像是一門生意。

2、硅谷 VC 認(rèn)為 AI 產(chǎn)品公司是新物種

AI 公司作為一個(gè)新的物種,和之前的 SaaS 很不一樣,找到了 pmf,它的 revenue booming 是非?斓,真正 value creation before hype 是在 seed 階段

3、VC 里的小眾觀點(diǎn)是可以有條件考慮投資中國(guó)創(chuàng)業(yè)者

原因是:新一代的中國(guó)創(chuàng)始人很有活力,很有能力做出很好的生意模式。

但前提是 base 在美國(guó)。

中國(guó)及中國(guó)創(chuàng)業(yè)者在做很多新的嘗試,但是國(guó)際的投資人很害怕以及不了解。小眾認(rèn)為是一個(gè)價(jià)值洼點(diǎn)。

4、硅谷的 VC 都在想辦法建立自己的投資策略

Soma Capital:建聯(lián)最優(yōu)秀的人,讓最優(yōu)秀的人介紹他的朋友,創(chuàng)建 Life Long Friendship。在過程中 inspire、support、connect 這些人;建立全景地圖,包括市場(chǎng)細(xì)分和項(xiàng)目 mapping,想做數(shù)據(jù) Driven 的投資。會(huì)從 Seed 投資到 C 輪,觀測(cè)成功/失敗樣本。

Leonis Capital:研究驅(qū)動(dòng)的風(fēng)險(xiǎn)投資基金,主要是 First Check。

OldFriendship Capital:Work first,invest later,會(huì)和 founder 先一起工作,打客戶訪談,確定一些訪談 guideline,一起搞清楚產(chǎn)品的問題,類似咨詢工作。投中國(guó)項(xiàng)目,在工作中可以判斷中國(guó) founder 是否有機(jī)會(huì)能夠和 US Customer 一起工作

Storm Venture:喜歡 Unlocking Growth,比較喜歡 A 輪有 PMF 的公司,他們通常獲得了 1-2M 的收入,然后去判斷是否存在 Unlocking growth 支撐他們漲到 20M。B2B SaaS 核心考慮 Wage,只有在那些 labor cost very high 的場(chǎng)景才適用,認(rèn)為企業(yè)級(jí)比較大的機(jī)會(huì)還是 Automation work。

Inference venture:5000 萬(wàn)美金的基金,認(rèn)為壁壘建立在人際關(guān)系和領(lǐng)域知識(shí)。

5、硅谷 VC 認(rèn)為 AI 時(shí)代 MVP 的要求是提升的

Engineer、fintech、HR 等是花錢比較多的 AI 產(chǎn)品方向。

白領(lǐng)工作很貴,一個(gè)小時(shí) 40 美金,人力成本很高,只有 25% 的時(shí)間在干活;未來可能沒有中間層的 manager,會(huì)被消滅掉。

人工成本最貴的公司一般是容易被 AI 切入的領(lǐng)域,醫(yī)院的接線員基本不是美國(guó)人,一小時(shí)工資可能比 2 美金還要低,用 AI 競(jìng)爭(zhēng)很難有競(jìng)爭(zhēng)力。

會(huì)有從 Service as a software 到 AI Agent 的變化。

6、OpenAI 研究員創(chuàng)辦的 Leonis Capital 的 5 個(gè) 2025 年 AI 預(yù)測(cè)

會(huì)有一款 AI 編程的應(yīng)用走紅。

模型提供商開始控制成本:創(chuàng)業(yè)者需要去選擇 model/agent 去創(chuàng)造一個(gè)獨(dú)特的供給。

Cost per action 的定價(jià)方式出現(xiàn)。

數(shù)據(jù)中心會(huì)造成電力沖擊,可能存在新架構(gòu)重新。新的 framework,模型變小。Multi agent 會(huì)變得更加主流。

7、AI native 的創(chuàng)業(yè)公司標(biāo)準(zhǔn)

相比大廠競(jìng)爭(zhēng):沒錢沒人,組織架構(gòu)上和傳統(tǒng)的 SaaS 公司是不一樣的,Notion 和 Canva 在使用 AI 的時(shí)候比較 Suffer,Notion 不希望在 core function 上受損。

AI Native Data 的 Customer Acquisition cost 比較低,AI 產(chǎn)品提供的 ROI 比較明確,AI Scaling 過程中不需要招聘很多人,50 個(gè) million 可能只有 20 個(gè)人。

在 Moat 方面,在于 model architecture 和 customization,

8、大模型很注重預(yù)訓(xùn)練,應(yīng)用公司更注重 reasoning

每個(gè)行業(yè)有固定的看問題的方式和方法,每個(gè)行業(yè)都有自己獨(dú)特的 Cognitive Architecture,新出現(xiàn)的 AI Agent 就是在 LLM 的基礎(chǔ)上加入了 Cognitive Architecture。

9、生活領(lǐng)域的 AI 應(yīng)用的 reasoning 怎么去做 reward

生活領(lǐng)域 AI 應(yīng)用的 reasoning 可以做 intention。

rewarding 非常難讀,math 和 coding 很容易做。

考慮話題度實(shí)效性,地理位置。

只能做 dynamic reward,和相似組去做。

10、用 AI 生成的內(nèi)容不是很真實(shí),可能會(huì)是一種新的內(nèi)容形式

例如 Cat walking 和 cooking

04

AI Coding 篇


1、AI Coding 公司模型訓(xùn)練的可能思路

可能的一種思路:一開始會(huì)用模型公司更好的 api 來取得更好的效果,即使成本更高,在積累客戶使用數(shù)據(jù)之后,不斷地在小場(chǎng)景訓(xùn)練自己的小模型,從而不斷替換部分 api 場(chǎng)景,以更低成本取得更好的效果。

2、Copilot 和 Agent 模式的差異

之間的主要區(qū)別是異步:主要區(qū)別在于人工智能助手在執(zhí)行任務(wù)時(shí)的異步程度。副駕駛通常需要立即與用戶互動(dòng)和反饋,而代理可以在尋求用戶輸入之前更獨(dú)立地工作更長(zhǎng)時(shí)間。例如,代碼完成和代碼聊天工具需要用戶實(shí)時(shí)觀看和響應(yīng)。另一方面,agent 可以異步執(zhí)行任務(wù)并要求較少的反饋,從而使他們能夠完成更多任務(wù)

最初 agent 被設(shè)計(jì)為在提供結(jié)果之前獨(dú)立工作較長(zhǎng)時(shí)間(10-20 分鐘)。然而,用戶反饋顯示,他們更喜歡控制更多和頻繁交互。因此 agent 被調(diào)整為在要求反饋之前工作較短時(shí)間(幾分鐘),在自主性和用戶參與度之間取得平衡。

開發(fā)完全自主代理的挑戰(zhàn):兩個(gè)主要障礙阻礙了完全自主 coding 代理的開發(fā)。技術(shù)還不夠先進(jìn),無法處理復(fù)雜的、長(zhǎng)期的任務(wù)而不會(huì)失敗,導(dǎo)致用戶不滿。用戶仍在適應(yīng)人工智能助手在多個(gè)文件或存儲(chǔ)庫(kù)中進(jìn)行重大更改的概念

3、Coding Agent 的核心挑戰(zhàn)與改進(jìn)

需要進(jìn)一步發(fā)展的關(guān)鍵領(lǐng)域包括:1. 事件建模 2. 記憶和世界建模 3. 準(zhǔn)確規(guī)劃未來 4. 提高上下文利用率,尤其是長(zhǎng)上下文(超過 10,000 個(gè) tokens 上下文的利用率會(huì)顯著下降),增強(qiáng)對(duì)擴(kuò)展記憶長(zhǎng)度(例如 100,000 個(gè) tokens 或更多)的推理能力,正在進(jìn)行的研究旨在提高更長(zhǎng)上下文的記憶和推理能力。

雖然世界建模似乎與 coding 代理無關(guān),但它在解決不準(zhǔn)確規(guī)劃等常見問題方面發(fā)揮著重要作用。解決世界建模挑戰(zhàn)可以提高 coding 代理制定更有效、更準(zhǔn)確計(jì)劃的能力。

4、AI Coding 的一個(gè)重要趨勢(shì)是使用推理增強(qiáng)技術(shù),類似于 O3 或 O1 方法

方法可以顯著提高代碼代理的整體效率。雖然它目前涉及高昂的成本(多 10-100 倍),但它可以將錯(cuò)誤率降低一半甚至四分之一。隨著語(yǔ)言模型的發(fā)展,這些成本預(yù)計(jì)將迅速下降,這可能使這種方法成為一種常見的技術(shù)路線。

O3 在基準(zhǔn)測(cè)試中的表現(xiàn)明顯優(yōu)于其他模型,包括 Total Forces 測(cè)試。目前行業(yè)得分一般在 50 分左右,但 O3 的得分為 70-75 分。

SMV 分?jǐn)?shù)在過去幾個(gè)月中迅速提高。幾個(gè)月前,分?jǐn)?shù)在 30 多分,但現(xiàn)在已升至 50 多分

模型性能增強(qiáng)技術(shù):根據(jù)內(nèi)部測(cè)試,應(yīng)用高級(jí)技術(shù)可以進(jìn)一步將分?jǐn)?shù)提高到大約 62 分。利用 O3 可以將分?jǐn)?shù)推高到 74-75 分。雖然這些增強(qiáng)可能會(huì)大幅增加成本,但整體性能提升是顯著的。

用戶體驗(yàn)和延遲閾值:確定性能和用戶體驗(yàn)之間的最佳平衡具有挑戰(zhàn)性。對(duì)于自動(dòng)完成功能,響應(yīng)時(shí)間超過 215-500 毫秒可能會(huì)導(dǎo)致用戶禁用該功能。在聊天應(yīng)用中,幾秒鐘的響應(yīng)時(shí)間通常是可以接受的,但等待 50-75 分鐘就不切實(shí)際了?山邮苎舆t的閾值因應(yīng)用和用戶期望而異。

最大化模型質(zhì)量的兩個(gè)主要障礙是計(jì)算能力要求和相關(guān)成本

5、GitHub Copilot 被視為主要競(jìng)爭(zhēng)對(duì)手。


6、客戶成功對(duì)于采用 AI coding 工具至關(guān)重要。

售后支持、培訓(xùn)、啟動(dòng)和采用是關(guān)鍵的區(qū)別因素。一家初創(chuàng)公司有 60-70 人致力于客戶成功,約占其員工總數(shù)的一半。這方面的大投資,但有助于確?蛻魸M意度。

*頭圖來源:Scale with AI

贊助本站

相關(guān)熱詞: 硅谷 ai公司

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港