重塑世界的力量不在硅谷,而在一代中國從業(yè)者的努力中。
來源:石頭學習筆記(ID:notes2024)
原標題:AI 2025的硅谷答案:60條關鍵洞察
編者按:
2024 年末國內(nèi)大模型公司的組團推新品,讓人們看到了 AI 依舊火熱。在硅谷,AI 從業(yè)者們在熱烈討論后,總結(jié)出了 2025 年,AI 行業(yè)的一些共識,以及不少「非共識」。例如,硅谷的投資人,認為 AI 公司是「新物種」,而 AI 應用,則是 2025 年的投資熱點。
1.11-15 日,錦秋基金在硅谷舉辦了「Scale with AI」的活動,邀約了 A16Z、Pear VC 、Soma Capital、Leonis Capital 、Old Friendship Capital、OpenAI、xAI 、Anthropic、Google、Meta、Microsoft、Apple、Tesla、Nvidia、ScaleAI、Perplexity、Character.ai 、Midjourney、Augment、Replit、Codiuem、Limitless、Luma、Runway 這些公司的專家一起交流。
在交流后,我們也匯總了這些專家的觀點,形成了這 60 個洞察。
01
模型篇
1、LLM 的 pre-training 階段已經(jīng)接近瓶頸
但 post-training 還有很多機會
Pre-training 階段,Scaling 是變慢的,離飽和還有一定時間。
放緩的原因:結(jié)構(gòu)>算力>數(shù)據(jù)(Single-Model)。
但是在 Multi-model 上:數(shù)據(jù)=算力>結(jié)構(gòu)。
對于 MultiModel 而言,需要在多個模態(tài)上選擇組合,Pre-training 在現(xiàn)有架構(gòu)下可以認為已經(jīng)結(jié)束了,但是可以改新的架構(gòu)。
現(xiàn)在在 Pre-training 投入少的原因更多是在于資源都有限,做 Post-training 的邊際效益會更高。
2、Pre-training 和 RL 關系
Pre-training 不太在乎數(shù)據(jù)質(zhì)量。
Post-training 對數(shù)據(jù)質(zhì)量要求較高,但是由于算力限制,到最后幾個部分給高質(zhì)量的數(shù)據(jù),
Pre-training 是 imitation,只能做到模仿的事情。
RL 是創(chuàng)造,可以做到不同的事情
先有 Pre-training,才有 Post-training 中的 RL,模型得有基礎能力,RL 才能有的放矢。
RL 不改變模型的智力,更多是思考的模式。比如,在 C.AI 用 RL 優(yōu)化 Engagement 效果很好。
3、大模型優(yōu)化會影響產(chǎn)品的能力
一般主要在 post training 部分,幫助做很多 Safety,比如解決 C.AI 在兒童自殺的問題上,會根據(jù)不同人群不同歲數(shù)的情況下,用不同的模型來服務。
其次是 Multiagent 的 framework。模型會思考為了解決這個問題要怎么做,然后分給不同 agent 去做,每個 agent 做完后,再服務 task,最后結(jié)果優(yōu)化。
4、一些非共識明年可能實現(xiàn)共識
有沒有必要所有都要上大模型,之前有很多很好的小模型,可能沒有必要再要做一個模型。
現(xiàn)在的大模型,1 年后就變成小模型。
Model 架構(gòu)可能變化。Scaling law 已經(jīng)到了,未來要討論的問題,知識模型解耦,可能速度會比較快。
5、LLM 領域隨著 Scaling law 到頭,閉源和開源差距縮小。
6、視頻生成還在 GPT1 和 2 的時間點
現(xiàn)在視頻的水平接近 SD1.4 的版本,未來視頻會有一個和商用性能差不多的開源版本。
當前的難點是數(shù)據(jù)集,圖像是靠 LIAON 數(shù)據(jù)集,大家可以去清洗,視頻上因為版權(quán)等問題沒有那么大的公用數(shù)據(jù)集,每一家如何獲取、處理、清洗數(shù)據(jù)會產(chǎn)生很多不同,導致模型能力不同,開源版本的難度也不同。
DiT 方案下一個比較難的點在于如何提升物理規(guī)律的遵循,而不只是統(tǒng)計概率。
視頻生成的效率是卡點。目前要在高端顯卡上跑挺久,是商業(yè)化的障礙,也是學術(shù)界在探討的方向。
類似 LLM 雖然模型迭代速度在放緩,但應用沒有放緩。從產(chǎn)品角度,只做文生視頻不是一個好的方向,相關的偏剪輯、創(chuàng)意的產(chǎn)品,會層出不窮,短期內(nèi)不會有瓶頸。
7、面向不同場景選擇不同的技術(shù)棧會是一個趨勢
Sora 剛出來大家都認為會收斂到 DiT,但實際上還有很多技術(shù)路徑在做,例如 based on GAN 的路徑,以及 AutoRegressive 的實時生成,比如最近很火項目 Oasis,還有把 CG 和 CV 結(jié)合去實現(xiàn)更好的一致性和控制,每一家都有不同的選擇,未來面向不同場景選擇不同的技術(shù)棧會是一個趨勢。
8、視頻的 Scaling Law 遠達不到 LLM 的級別
視頻的 scaling law,在一定范圍內(nèi)有,但遠達不到 llm 的級別,F(xiàn)在最大級別的模型參數(shù)也就是 30b,30b 以內(nèi)被證明是有效的;但 300b 這個量級,就沒有成功案例。
現(xiàn)在技術(shù)方案是收斂的,做法沒有大不同。不同最主要是數(shù)據(jù)上、包括數(shù)據(jù)配比。
會有 1-2 年才能達到 DiT 技術(shù)路線的飽和。DiT 路線很多可以優(yōu)化的地方。更高效的模型架構(gòu),是非常重要的。以 LLM 為例,一開始大家都在往大了做,后面發(fā)現(xiàn)加 MOE 和優(yōu)化數(shù)據(jù)分布后,可以不用那么大的模型去做。
需要投入更多研究,一味 scale up DiT 非常不高效。視頻數(shù)據(jù)如果把 YouTube、TikTok 都算上,數(shù)量非常大,不可能都用于模型訓練。
現(xiàn)階段開源方面的工作還比較少,尤其是數(shù)據(jù)準備方面的開源工作,各家的清洗方式都有很大的差異性,而數(shù)據(jù)準備過程對最終效果有很大的影響,所以其中可優(yōu)化的點還很多。
9、提升視頻生成的速度的方法
最簡單的就是生成低分辨率、低幀率的畫面。最常用的是步數(shù)蒸餾,diffusion 推理的時候是有步數(shù)的,目前圖像生成至少還需要 2 步,如果能蒸餾到 1 步推理,就會快很多。最近也有一個論文,做一步生成視頻,雖然現(xiàn)在只是 poc,但值得關注。
10、視頻模型迭代的優(yōu)先級
其實清晰度、一致性、可控性等都沒有達到其他飽和,還沒有到提高一部分犧牲另一部分。是目前在 Pre-training 階段同步提高的階段。
11、長視頻生成提速的技術(shù)方案
能看到 DiT 能力極限在哪,模型越大、數(shù)據(jù)越好,生成的清晰度更高、時間更長、成功率更高。
DiT 模型能 scale 到多大,是目前沒有答案的。如果到一定尺寸出現(xiàn)瓶頸,可能會有新的模型架構(gòu)出現(xiàn)。從算法角度,DiT 做出一個新的推理算法,來支持快速。比較難得是怎么在訓練的時候把這些加上。
現(xiàn)在模型對物理規(guī)律的理解是統(tǒng)計意義上的,數(shù)據(jù)集看到過的現(xiàn)象能夠一定程度上模擬,不是真的懂物理。學術(shù)界有一些探討,例如通過一些物理規(guī)則到視頻生成里去。
12、視頻模型和其他模態(tài)的融合
會有兩個方面的統(tǒng)一:一是多模態(tài)的統(tǒng)一,二是生成和理解的統(tǒng)一。對于前者,表征要先統(tǒng)一。對于后者,文本和語音都是可以統(tǒng)一的,VLM 和 diffusion 的統(tǒng)一目前認為效果是 1+1
最簡單的想法是都 tokenize 之后放到 transformer 模型里,最后統(tǒng)一輸入輸出。但自己的個人經(jīng)驗是做單個特定的模態(tài)比把所有的融合在一起效果會更好。
工業(yè)實踐上大家不會放在一起去做。MIT 最新的論文潛在說明如果把多模態(tài)都統(tǒng)一的話效果有可能會更好。
13、視頻模態(tài)的訓練數(shù)據(jù)其實還有很多
視頻數(shù)據(jù)其實很多,怎么樣高效的選擇出高質(zhì)量數(shù)據(jù)比較重要。
數(shù)量取決于對版權(quán)的理解。但算力同樣是瓶頸,即便有那么多數(shù)據(jù),也不一定有算力去做,尤其是高清的數(shù)據(jù)。有時候需要基于手頭有的算力去反推需要的高質(zhì)量數(shù)據(jù)集。
高質(zhì)量數(shù)據(jù)一直都是缺的,但即便有數(shù)據(jù),很大的問題是大家不知道什么樣的圖像描述是對的,圖像描述要有哪些關鍵詞。
14、長視頻生成的未來在于故事性
現(xiàn)在的視頻生成是素材的。未來是故事的,視頻生成是帶有目的的。長視頻不是時間有多長,而是故事性。以任務的形式。
視頻編輯的話,速度會高一些。因為現(xiàn)在一個卡點是速度太慢。現(xiàn)在都是分鐘級(生成幾秒)。這樣即使有好算法,也不可用。(編輯不是指剪輯,而是 image 的編輯,比如換個人,動作,這樣的技術(shù)是有的,問題就是速度慢,不可用。)
15、視頻生成的美學提升主要是靠 post training
主要是靠 post training 階段,比如海螺,大量用影視數(shù)據(jù)。真實度的話是基模能力
16、視頻理解兩個難點是 Long context 和 Latency。
17、視覺模態(tài)可能不是更好的通向 AGI 的最好的模態(tài)
文字的模態(tài)也可以把文字改成圖片,然后變成視頻
文字是通往智能的捷徑,視頻和文字之間的效率差距是幾百倍
18、語音模型上端到端是很大的進步
不需要人為對數(shù)據(jù)做標注和判斷,可以做到精細的情感理解和輸出
19、多模態(tài)模型還在很早期階段
多模態(tài)模型還在很早期階段,給前 1 秒視頻 predict 后面 5 秒已經(jīng)很難了,后面加入 text 可能會更難。
理論上視頻和文字一起訓是最好的,但是整體做起來是很難的。
多模態(tài)目前不能提升智力,但是未來也許是可以的,壓縮算法可以學習數(shù)據(jù)集的關系,只需要純文字和純圖片的數(shù)據(jù),出來之后就可以做視頻和文字相互理解。
20、多模態(tài)的技術(shù)路徑還沒有完全收斂
Diffusion model 質(zhì)量好,目前的模型結(jié)構(gòu)還在不斷再改;
Alter agreesive 邏輯好。
21、不同模態(tài)的對齊,現(xiàn)在還沒有形成共識
video 是離散還是連續(xù)的 tokens 都沒定下來。
現(xiàn)在高質(zhì)量對齊的還沒有很多。
目前也不知道是科學問題和工程問題。
22、大模型生成數(shù)據(jù)然后訓練小的模型是可行的,反過來比較難
合成數(shù)據(jù)和真實數(shù)據(jù)的區(qū)別主要是質(zhì)量問題。
也可以用各類數(shù)據(jù)拼湊用來合成,效果也很好。pretraining 階段可用,因為對數(shù)據(jù)質(zhì)量要求不高。
23、對 LLM 來說 pre training 的時代已經(jīng)基本結(jié)束了
現(xiàn)在大家都在談 Post training,對數(shù)據(jù)質(zhì)量要求高
24、Post training 團隊建設
理論上團隊規(guī)模:5 人足夠(不一定全職)。
一人搭建 pipeline(infrastructure)。
一人管數(shù)據(jù)(數(shù)據(jù)效果)。
一人負責模型本身 SFT(科學家/讀 Paper)。
一人負責產(chǎn)品對模型編排做判斷,收集用戶數(shù)據(jù)。
AI 時代產(chǎn)品和 UI,Post training 優(yōu)勢,AI 彌補產(chǎn)品和 UI 了解,開發(fā)豐富,不被 AI 帶偏。
25、數(shù)據(jù) pipeline 構(gòu)建
數(shù)據(jù)循環(huán):數(shù)據(jù)進入 pipeline,生成新數(shù)據(jù)回流。
高效迭代:數(shù)據(jù)標注結(jié)合 pipeline 和 AB testing,結(jié)構(gòu)化數(shù)據(jù)倉庫。
數(shù)據(jù)輸入:高效標注和豐富用戶反饋,構(gòu)建護城河。
初始階段:SFT(不斷重新 Loop 到這個階段)。
后續(xù)階段:RL(分化出來比較重的 RLFH),打分指導 RL,DPO 方法易崩,SFT 簡化版 RL。
02
具身篇
1、具身機器人尚未迎來類似 ChatGPT 的「關鍵時刻」
一個核心原因在于,機器人需要在物理世界中完成任務,而不僅僅是通過虛擬語言生成文本。
機器人智能的突破需要解決「具身智能」(Embodied Intelligence)的核心問題,即如何在動態(tài)、復雜的物理環(huán)境中完成任務。
機器人的「關鍵時刻」需要滿足以下幾個條件:通用性:能夠適應不同任務和環(huán)境?煽啃裕涸谡鎸嵤澜缰芯哂休^高的成功率?蓴U展性:能通過數(shù)據(jù)和任務不斷迭代和優(yōu)化。
2、這一代機器學習解決的最核心的問題就是泛化
泛化是 AI 系統(tǒng)從訓練數(shù)據(jù)中學習規(guī)律,并應用到未見過的數(shù)據(jù)上的能力。
泛化有兩種模式:
插值(Interpolation):測試數(shù)據(jù)在訓練數(shù)據(jù)分布范圍內(nèi)。
外推(Extrapolation)的難點在于訓練數(shù)據(jù)是否能夠很好地覆蓋測試數(shù)據(jù),以及測試數(shù)據(jù)的分布范圍和成本。這里「cover」或「coverage」是關鍵概念,指的是訓練數(shù)據(jù)能否有效涵蓋測試數(shù)據(jù)的多樣性。
3、視覺任務(如人臉識別、物體檢測)多半屬于插值問題
機器視覺的工作主要是模仿生物的感知能力,理解和感知環(huán)境。
機器視覺模型在某些任務上(如貓狗識別)已經(jīng)非常成熟,因為有大量相關數(shù)據(jù)支持。然而,對于更復雜或動態(tài)的任務,數(shù)據(jù)的多樣性和覆蓋范圍仍是瓶頸。
視覺任務(如人臉識別、物體檢測)多半屬于插值問題,模型通過訓練數(shù)據(jù)覆蓋大多數(shù)測試場景。
但在外推問題上(如全新角度或光照條件),模型能力仍有限。
4、這一代機器人泛化的難點:大部分情況屬于 extrapolation 情形
環(huán)境復雜性:家庭環(huán)境、工業(yè)環(huán)境的多樣性和動態(tài)變化。
物理交互問題:例如門的重量、角度差異、磨損等物理特性。
人機交互的不確定性:人類行為的不可預測性對機器人提出了更高的要求。
5、完全具備人類般泛化能力的機器人在當前乃至未來的一代人中可能無法實現(xiàn)
機器人要在現(xiàn)實世界中應對復雜性和多樣性,難度極高,F(xiàn)實環(huán)境中的動態(tài)變化(如家庭中的寵物、小孩、家具擺放等)使得機器人很難做到完全泛化。
人類本身并不是全能的個體,而是通過分工合作在社會中完成復雜任務。機器人同樣不一定追求「人類級別」的泛化能力,而是更專注于某些特定任務,甚至實現(xiàn)「超越人類」的表現(xiàn)(如工業(yè)生產(chǎn)中的效率和精度)。
即使是看似簡單的任務(如掃地或做飯),由于環(huán)境的復雜性和動態(tài)性,其泛化要求也非常高。比如掃地機器人需要應對千家萬戶不同的布局、障礙物、地面材質(zhì)等,這些都增加了泛化的難度。
那么,機器人是否需要任務聚焦(Pick Your Task)。比如,機器人需要專注于特定任務,而不是追求全面的人類能力。
6、斯坦福實驗室的選擇:聚焦家庭場景
斯坦福的機器人實驗室主要聚焦于家庭場景中的任務,尤其是與老齡化社會相關的家務機器人。例如,機器人可以幫助完成疊被子、拾取物品、開瓶蓋等日常任務。
關注原因:美國、西歐以及中國等國家都面臨嚴重的老齡化問題。老齡化帶來的主要挑戰(zhàn)包括:認知功能退化:阿爾茨海默癥(老年癡呆)是一個廣泛存在的問題,95 歲以上人群中約有一半患有此病。運動功能退化:例如帕金森癥、ALS 等疾病導致老年人難以完成基本的日常操作。
7、基于特定場景定義泛化條件
明確機器人需要處理的環(huán)境和場景,例如家庭、餐廳或養(yǎng)老院。
明確場景后,可以更好地定義任務范圍,并確保在這些場景中涵蓋可能出現(xiàn)的物品狀態(tài)變化和環(huán)境動態(tài)。
場景調(diào)試的重要性:機器人產(chǎn)品的調(diào)試不僅僅是解決技術(shù)問題,而是要涵蓋所有可能出現(xiàn)的情況。例如在養(yǎng)老院中,機器人需要處理多種復雜情況(如老年人行動緩慢、物品擺放不固定等)。通過與領域?qū)<液献鳎ㄈ琊B(yǎng)老院管理者、護理人員),可以更好地定義任務需求并收集相關數(shù)據(jù)。
現(xiàn)實世界中的環(huán)境不像工業(yè)流水線那樣完全可控,但可以通過調(diào)試使其「已知」(known)。比如,定義家庭環(huán)境中常見的物體種類、擺放位置、動態(tài)變化等,在仿真和真實環(huán)境中覆蓋關鍵。
8、泛化與專用的矛盾
通用模型與特定任務模型的沖突:通用模型需要具備強大的泛化能力,能夠適應多樣化的任務和環(huán)境;但這通常需要大量的數(shù)據(jù)和計算資源。
特定任務模型更容易實現(xiàn)商業(yè)化,但其能力受限,難以擴展到其他領域。
未來的機器人智能需要在通用性和專用性之間找到平衡。例如,通過模塊化設計,讓通用模型成為基礎,再通過特定任務的微調(diào)實現(xiàn)快速適配。
9、具身多模態(tài)模型的潛力
多模態(tài)數(shù)據(jù)的整合:多模態(tài)模型能夠同時處理視覺、觸覺、語言等多種輸入,提升機器人對復雜場景的理解和決策能力。例如,在抓取任務中,視覺數(shù)據(jù)可以幫助機器人識別物體的位置和形狀,而觸覺數(shù)據(jù)可以提供額外的反饋,確保抓取的穩(wěn)定性。
難點在于如何讓多模態(tài)數(shù)據(jù)在模型中實現(xiàn)高效融合。如何通過多模態(tài)數(shù)據(jù)提升機器人在動態(tài)環(huán)境中的適應能力。
觸覺數(shù)據(jù)的重要性:觸覺數(shù)據(jù)可以為機器人提供額外的信息,幫助其在復雜環(huán)境中完成任務。例如,在抓取柔性物體時,觸覺數(shù)據(jù)可以幫助機器人感知物體的形變和受力情況。
10、機器人數(shù)據(jù)閉環(huán)難實現(xiàn)
機器人領域目前缺乏類似 ImageNet 這樣的標志性數(shù)據(jù)集,導致研究難以形成統(tǒng)一的評估標準。
數(shù)據(jù)采集的成本高昂,尤其是涉及真實世界的交互數(shù)據(jù)。例如,采集觸覺、視覺、動力學等多模態(tài)數(shù)據(jù)需要復雜的硬件和環(huán)境支持。
仿真器被認為是解決數(shù)據(jù)閉環(huán)問題的一種重要工具,但仿真與真實世界之間的「模擬-真實差距(Sim-to-Real Gap)」仍然顯著。
11、Sim-to-Real Gap 的挑戰(zhàn)
仿真器在視覺渲染、物理建模(如摩擦力、材質(zhì)特性)等方面與真實世界存在差距。機器人在仿真環(huán)境中表現(xiàn)良好,但在真實環(huán)境中可能失敗。這種差距限制了仿真數(shù)據(jù)的直接應用。
12、真實數(shù)據(jù)的優(yōu)勢與挑戰(zhàn)
真實數(shù)據(jù)能夠更準確地反映物理世界的復雜性,但其采集成本高昂。數(shù)據(jù)標注是一個瓶頸,尤其是涉及多模態(tài)數(shù)據(jù)(如觸覺、視覺、動力學)的標注。
工業(yè)環(huán)境更規(guī)范,任務目標更明確,適合機器人技術(shù)的早期部署。例如,在太陽能發(fā)電廠的建設中,機器人可以完成打樁、裝板、擰螺絲等重復性任務。工業(yè)機器人可以通過特定任務的數(shù)據(jù)收集,逐步提升模型能力,并形成數(shù)據(jù)的閉環(huán)。
13、在機器人操作中,觸覺和力覺數(shù)據(jù)可以提供關鍵的反饋信息
在機器人操作中,觸覺和力覺數(shù)據(jù)可以提供關鍵的反饋信息,尤其是在連續(xù)任務(如抓取和放置)中。
觸覺數(shù)據(jù)的形式:觸覺數(shù)據(jù)通常是時間序列數(shù)據(jù),可以反映機器人與物體接觸時的力學變化。
最新的研究工作是把觸覺也加入到大模型里。
14、仿真數(shù)據(jù)的優(yōu)勢
仿真器可以快速生成大規(guī)模數(shù)據(jù),適合早期模型訓練和驗證。仿真數(shù)據(jù)的生成成本低,可以在短時間內(nèi)覆蓋多種場景和任務。在工業(yè)機器人領域,仿真器已經(jīng)被廣泛用于訓練抓取、搬運等任務。
仿真數(shù)據(jù)的局限:仿真器的物理建模精度有限,例如無法準確模擬物體的材質(zhì)、摩擦力、柔性等特性。仿真環(huán)境的視覺渲染質(zhì)量通常不足,可能導致模型在真實環(huán)境中表現(xiàn)不佳。
15、數(shù)據(jù)仿真:Stanford 推出了 behavior 的仿真平臺
Behavior 是一個以家庭場景為核心的仿真平臺,支持 1,000 種任務 和 50 種不同場景,涵蓋了從普通公寓到五星級酒店的多樣環(huán)境。
平臺內(nèi)包含超過 1 萬種物體,并通過高精度的 3D 模型和交互標注,重現(xiàn)物體的物理和語義屬性(如柜門可開、衣服可折疊、玻璃杯可打碎等)。
為了保證仿真環(huán)境的真實性,團隊投入了大量人力(如博士生標注數(shù)據(jù)),對物體的物理屬性(質(zhì)量、摩擦力、紋理等)和交互屬性(如是否可拆卸、是否會變形)進行細致標注。再如,標注衣服的柔性特性以支持疊衣服任務,或者標注植物澆水后的濕潤效果。
Behavior 項目不僅提供固定的仿真環(huán)境,還允許用戶上傳自己的場景和物體,通過 annotation pipeline 對其進行標注和配置。
目前來看,仿真可以 80% pretraining,剩余的 20% 需要通過真實環(huán)境中的數(shù)據(jù)采集和調(diào)試來補充。
16、混合模型的應用
通過仿真數(shù)據(jù)進行初步訓練,再通過真實數(shù)據(jù)進行微調(diào)和優(yōu)化。已經(jīng)嘗試將真實場景掃描到仿真器中,讓機器人在仿真環(huán)境中進行交互并學習,從而縮小 Sim-to-Real Gap。
17、機器人數(shù)據(jù)共享的挑戰(zhàn)
數(shù)據(jù)是公司的核心資產(chǎn),企業(yè)不愿輕易共享數(shù)據(jù)。缺乏統(tǒng)一的數(shù)據(jù)共享機制和激勵機制。
可能的解決方案:
數(shù)據(jù)交換:特定任務的公司貢獻數(shù)據(jù),換取通用模型的能力。
數(shù)據(jù)中介:建立第三方平臺,收集、整合和分發(fā)數(shù)據(jù),同時保護隱私。
模型共享:通過 API 或模型微調(diào)的方式,減少對原始數(shù)據(jù)的依賴。
目前已經(jīng)有一些公司在做這三種方式的嘗試
18、靈巧手與夾爪的選擇
靈巧手的優(yōu)點:自由度高,能夠完成更復雜的任務。靈巧手可以通過多自由度的調(diào)整彌補模型預測的不準確性。
夾爪的優(yōu)點:成本低,適合工業(yè)場景中的特定任務。在流水線上的物料搬運任務中表現(xiàn)良好,但缺乏泛化能力。
19、具身機器人軟硬件協(xié)同進化
硬件平臺與軟件模型需要同步迭代。例如,硬件的傳感器精度提升可以為模型提供更高質(zhì)量的數(shù)據(jù)。不同公司在軟硬件協(xié)同上的策略不同:
03
AI 應用投資篇
1、硅谷 VC 認為 2025 年是 AI 應用投資大年
硅谷的 VC 傾向于 2025 年是有應用投資的大機會。在美國基本沒有 killer apps for everyone。大家習慣于在不同的場景中使用不同功能的 App,關鍵是讓用戶體驗盡可能的無障礙
去年基本不關注應用公司,所有人都在看 LLM 和 Foundation model。
投資至應用,VC 會問,what's your moat?
硅谷投資人投資 AI 產(chǎn)品的標準之一:最好只做一個方向,讓競品很難復制,需要有一些網(wǎng)絡效應;要么是難以復制的洞察力;要么是難以復制的技術(shù) Edge;要么是他人無法獲得的水平壟斷資本。否則很難稱之為創(chuàng)業(yè),更像是一門生意。
2、硅谷 VC 認為 AI 產(chǎn)品公司是新物種
AI 公司作為一個新的物種,和之前的 SaaS 很不一樣,找到了 pmf,它的 revenue booming 是非?斓模嬲 value creation before hype 是在 seed 階段
3、VC 里的小眾觀點是可以有條件考慮投資中國創(chuàng)業(yè)者
原因是:新一代的中國創(chuàng)始人很有活力,很有能力做出很好的生意模式。
但前提是 base 在美國。
中國及中國創(chuàng)業(yè)者在做很多新的嘗試,但是國際的投資人很害怕以及不了解。小眾認為是一個價值洼點。
4、硅谷的 VC 都在想辦法建立自己的投資策略
Soma Capital:建聯(lián)最優(yōu)秀的人,讓最優(yōu)秀的人介紹他的朋友,創(chuàng)建 Life Long Friendship。在過程中 inspire、support、connect 這些人;建立全景地圖,包括市場細分和項目 mapping,想做數(shù)據(jù) Driven 的投資。會從 Seed 投資到 C 輪,觀測成功/失敗樣本。
Leonis Capital:研究驅(qū)動的風險投資基金,主要是 First Check。
OldFriendship Capital:Work first,invest later,會和 founder 先一起工作,打客戶訪談,確定一些訪談 guideline,一起搞清楚產(chǎn)品的問題,類似咨詢工作。投中國項目,在工作中可以判斷中國 founder 是否有機會能夠和 US Customer 一起工作
Storm Venture:喜歡 Unlocking Growth,比較喜歡 A 輪有 PMF 的公司,他們通常獲得了 1-2M 的收入,然后去判斷是否存在 Unlocking growth 支撐他們漲到 20M。B2B SaaS 核心考慮 Wage,只有在那些 labor cost very high 的場景才適用,認為企業(yè)級比較大的機會還是 Automation work。
Inference venture:5000 萬美金的基金,認為壁壘建立在人際關系和領域知識。
5、硅谷 VC 認為 AI 時代 MVP 的要求是提升的
Engineer、fintech、HR 等是花錢比較多的 AI 產(chǎn)品方向。
白領工作很貴,一個小時 40 美金,人力成本很高,只有 25% 的時間在干活;未來可能沒有中間層的 manager,會被消滅掉。
人工成本最貴的公司一般是容易被 AI 切入的領域,醫(yī)院的接線員基本不是美國人,一小時工資可能比 2 美金還要低,用 AI 競爭很難有競爭力。
會有從 Service as a software 到 AI Agent 的變化。
6、OpenAI 研究員創(chuàng)辦的 Leonis Capital 的 5 個 2025 年 AI 預測
會有一款 AI 編程的應用走紅。
模型提供商開始控制成本:創(chuàng)業(yè)者需要去選擇 model/agent 去創(chuàng)造一個獨特的供給。
Cost per action 的定價方式出現(xiàn)。
數(shù)據(jù)中心會造成電力沖擊,可能存在新架構(gòu)重新。新的 framework,模型變小。Multi agent 會變得更加主流。
7、AI native 的創(chuàng)業(yè)公司標準
相比大廠競爭:沒錢沒人,組織架構(gòu)上和傳統(tǒng)的 SaaS 公司是不一樣的,Notion 和 Canva 在使用 AI 的時候比較 Suffer,Notion 不希望在 core function 上受損。
AI Native Data 的 Customer Acquisition cost 比較低,AI 產(chǎn)品提供的 ROI 比較明確,AI Scaling 過程中不需要招聘很多人,50 個 million 可能只有 20 個人。
在 Moat 方面,在于 model architecture 和 customization,
8、大模型很注重預訓練,應用公司更注重 reasoning
每個行業(yè)有固定的看問題的方式和方法,每個行業(yè)都有自己獨特的 Cognitive Architecture,新出現(xiàn)的 AI Agent 就是在 LLM 的基礎上加入了 Cognitive Architecture。
9、生活領域的 AI 應用的 reasoning 怎么去做 reward
生活領域 AI 應用的 reasoning 可以做 intention。
rewarding 非常難讀,math 和 coding 很容易做。
考慮話題度實效性,地理位置。
只能做 dynamic reward,和相似組去做。
10、用 AI 生成的內(nèi)容不是很真實,可能會是一種新的內(nèi)容形式
例如 Cat walking 和 cooking
04
AI Coding 篇
1、AI Coding 公司模型訓練的可能思路
可能的一種思路:一開始會用模型公司更好的 api 來取得更好的效果,即使成本更高,在積累客戶使用數(shù)據(jù)之后,不斷地在小場景訓練自己的小模型,從而不斷替換部分 api 場景,以更低成本取得更好的效果。
2、Copilot 和 Agent 模式的差異
之間的主要區(qū)別是異步:主要區(qū)別在于人工智能助手在執(zhí)行任務時的異步程度。副駕駛通常需要立即與用戶互動和反饋,而代理可以在尋求用戶輸入之前更獨立地工作更長時間。例如,代碼完成和代碼聊天工具需要用戶實時觀看和響應。另一方面,agent 可以異步執(zhí)行任務并要求較少的反饋,從而使他們能夠完成更多任務
最初 agent 被設計為在提供結(jié)果之前獨立工作較長時間(10-20 分鐘)。然而,用戶反饋顯示,他們更喜歡控制更多和頻繁交互。因此 agent 被調(diào)整為在要求反饋之前工作較短時間(幾分鐘),在自主性和用戶參與度之間取得平衡。
開發(fā)完全自主代理的挑戰(zhàn):兩個主要障礙阻礙了完全自主 coding 代理的開發(fā)。技術(shù)還不夠先進,無法處理復雜的、長期的任務而不會失敗,導致用戶不滿。用戶仍在適應人工智能助手在多個文件或存儲庫中進行重大更改的概念
3、Coding Agent 的核心挑戰(zhàn)與改進
需要進一步發(fā)展的關鍵領域包括:1. 事件建模 2. 記憶和世界建模 3. 準確規(guī)劃未來 4. 提高上下文利用率,尤其是長上下文(超過 10,000 個 tokens 上下文的利用率會顯著下降),增強對擴展記憶長度(例如 100,000 個 tokens 或更多)的推理能力,正在進行的研究旨在提高更長上下文的記憶和推理能力。
雖然世界建模似乎與 coding 代理無關,但它在解決不準確規(guī)劃等常見問題方面發(fā)揮著重要作用。解決世界建模挑戰(zhàn)可以提高 coding 代理制定更有效、更準確計劃的能力。
4、AI Coding 的一個重要趨勢是使用推理增強技術(shù),類似于 O3 或 O1 方法
方法可以顯著提高代碼代理的整體效率。雖然它目前涉及高昂的成本(多 10-100 倍),但它可以將錯誤率降低一半甚至四分之一。隨著語言模型的發(fā)展,這些成本預計將迅速下降,這可能使這種方法成為一種常見的技術(shù)路線。
O3 在基準測試中的表現(xiàn)明顯優(yōu)于其他模型,包括 Total Forces 測試。目前行業(yè)得分一般在 50 分左右,但 O3 的得分為 70-75 分。
SMV 分數(shù)在過去幾個月中迅速提高。幾個月前,分數(shù)在 30 多分,但現(xiàn)在已升至 50 多分
模型性能增強技術(shù):根據(jù)內(nèi)部測試,應用高級技術(shù)可以進一步將分數(shù)提高到大約 62 分。利用 O3 可以將分數(shù)推高到 74-75 分。雖然這些增強可能會大幅增加成本,但整體性能提升是顯著的。
用戶體驗和延遲閾值:確定性能和用戶體驗之間的最佳平衡具有挑戰(zhàn)性。對于自動完成功能,響應時間超過 215-500 毫秒可能會導致用戶禁用該功能。在聊天應用中,幾秒鐘的響應時間通常是可以接受的,但等待 50-75 分鐘就不切實際了。可接受延遲的閾值因應用和用戶期望而異。
最大化模型質(zhì)量的兩個主要障礙是計算能力要求和相關成本
5、GitHub Copilot 被視為主要競爭對手。
6、客戶成功對于采用 AI coding 工具至關重要。
售后支持、培訓、啟動和采用是關鍵的區(qū)別因素。一家初創(chuàng)公司有 60-70 人致力于客戶成功,約占其員工總數(shù)的一半。這方面的大投資,但有助于確保客戶滿意度。
*頭圖來源:Scale with AI