展會信息港展會大全

峰瑞資本陳石:明年將是AI應(yīng)用大年,收入能見度有望提高 | Alpha峰會
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-08 08:59:30   瀏覽:135次  

導(dǎo)讀:12月21日,在華爾街見聞和中歐國際工商學(xué)院聯(lián)合舉辦的「Alpha峰會」上,峰瑞資本投資創(chuàng)始人陳石對AI行業(yè)的發(fā)展進(jìn)行了回顧和展望,并分享了對業(yè)內(nèi)前沿大模型和AI應(yīng)用的理解。以下為演講精彩觀點:1. 除AMD和英特爾外,美國不少科技大廠、模型廠商和創(chuàng)業(yè)公司都在做自己的算力芯片,希望能夠在巨大的AI大模型算力需求中,從英偉達(dá)芯片的市場分一杯羹,特別是在推理芯片方面。應(yīng)用 ......

12月21日,在華爾街見聞和中歐國際工商學(xué)院聯(lián)合舉辦的「Alpha峰會」上,峰瑞資本投資創(chuàng)始人陳石對AI行業(yè)的發(fā)展進(jìn)行了回顧和展望,并分享了對業(yè)內(nèi)前沿大模型和AI應(yīng)用的理解。

以下為演講精彩觀點:

1. 除AMD和英特爾外,美國不少科技大廠、模型廠商和創(chuàng)業(yè)公司都在做自己的算力芯片,希望能夠在巨大的AI大模型算力需求中,從英偉達(dá)芯片的市場分一杯羹,特別是在推理芯片方面。應(yīng)用方面,模型的小型和端側(cè)化是一個明顯的趨勢,如果你在終端上運行較大的模型或通過遠(yuǎn)程API調(diào)用云端大模型,其實會很慢,而且成本也不劃算,所以基本上來說這是一種趨勢。

2.當(dāng)前,兩類AI手機應(yīng)用最掙錢,一類是AI+圖像/視頻,即多模態(tài)創(chuàng)意工具,包括制作商業(yè)視頻、修圖等偏營銷的內(nèi)容創(chuàng)作,這類產(chǎn)品的市場份額為53%。另一類是AI+Chatbot,包括ChatGPT這類大模型助手和Character.ai這類AI陪伴聊天助手,市場份額在30%左右。

3.在AI產(chǎn)業(yè)供應(yīng)鏈中,大型云廠商扮演著風(fēng)險吸收者的角色,但反過來講,大型云廠商也掌握著AI的商業(yè)生態(tài),掌握著資源、人才和高達(dá)數(shù)千億美金的云計算市場。所以我覺得當(dāng)前AI產(chǎn)業(yè)供應(yīng)鏈的鏈主是大型科技云廠商,而非模型廠商。

4. 當(dāng)前類似GPT系列的預(yù)訓(xùn)練模型,其回答問題的模式是“一下子給出答案”,不具備分步驟、回溯迭代等“思考”能力,而OpenAI o1/o3這類模型在接收到問題指令后會先“深思熟慮”,在解決問題的過程中搜索可能涉及到的思維鏈空間,然后再輸出答案。這與人類的復(fù)雜思考過程類似,它更適合做復(fù)雜推理,這是以前的模型都做不到的。

5. 現(xiàn)在用戶越來越希望獲得AI模型的即時反饋,洞察個人需求并給出貼切的個性化答案,這對模型性能、產(chǎn)品規(guī)劃等方面都是巨大的挑戰(zhàn),但這種產(chǎn)品一旦做出來,就有希望打敗基于傳統(tǒng)代碼的移動互聯(lián)網(wǎng)產(chǎn)品。

6.當(dāng)前,大模型廠商陣營基本形成,陣營里的5家公司分別是:谷歌、OpenAI、Anthropic、xAI和Meta。這意味著,AI的基礎(chǔ)設(shè)施已經(jīng)具備,后續(xù)應(yīng)用開發(fā)面臨的問題不會太大。

7.2025年有望成為AI應(yīng)用大年,供應(yīng)鏈的資產(chǎn)負(fù)債表可能會逐步得到修復(fù),這得益于前期投入的累積,另外,客戶端收益的能見度也會有所提升。

以下為演講實錄:

謝謝大家,謝謝Alpha峰會的邀請,去年我也來做過一次AI主題的分享,當(dāng)時提到了一些話題,比如生成式AI的多模態(tài)、復(fù)雜推理、具身智能以及模型的自我迭代。最近這一年,我發(fā)現(xiàn)AI技術(shù)發(fā)展十分迅速,已經(jīng)出現(xiàn)了實踐的產(chǎn)品。峰瑞資本2024年一共投了近30個項目,大部分都是跟AI相關(guān)的,比如應(yīng)用、硬件、芯片、具身智能、AI賦能科研等,所以今天我也想跟大家做一次分享,分享我們2024年的投資實踐和產(chǎn)業(yè)思考。

我的演講分為三個部分,第一個部分是行業(yè)整體情況,包括供應(yīng)鏈等;第二個部分是模型和應(yīng)用的深入講解;第三個部分是對2025年AI的行業(yè)展望和其未來趨勢。

我們先對2024年AI的發(fā)展進(jìn)行快速回顧,大概分成兩部分,上面一部分是關(guān)于AI行業(yè)的原始驅(qū)動力,如大模型以及它的基礎(chǔ)設(shè)施,下面一部分則側(cè)重于AI 在應(yīng)用端的情況。

在大模型方面,我們看到在閉源基座模型領(lǐng)域中全球出現(xiàn)了三家領(lǐng)先者,分別是Anthropic的Claude 3.5, Google的Gemini 1.5,還有OpenAI的GPT-4o,這三個模型并駕齊驅(qū),達(dá)到業(yè)界的SOTA水平。

但在今年的下半年,很多人會產(chǎn)生疑問,AI行業(yè)是不是正面臨衰退?他們觀察到規(guī)模法則似乎不再奏效, OpenAI 一段時間內(nèi)也并未推出特別好的新模型。當(dāng)然, OpenAI 后來還是不負(fù)眾望,在今年9月份發(fā)布了o1模型,在12月份又發(fā)布了o3模型,它幾乎是我們AI行業(yè)全村的希望。

為什么這么說?閉源模型到了GPT-4水平之后,現(xiàn)有的預(yù)訓(xùn)練方式其實很難再有大的提升,除非它的基礎(chǔ)設(shè)施再提高幾倍甚至十倍,據(jù)說訓(xùn)練下一代模型需要的算力是當(dāng)前模型的10倍。而現(xiàn)在的o1和o3新模型是一個新的訓(xùn)練范式,能帶來復(fù)雜推理和自我迭代能力的極大提升,這部分后面我會再簡單介紹一下。

在多模態(tài)方面,2024年也有很大的進(jìn)步,從年初 OpenAI的視頻生成模型Sora到年末Google的Veo2模型,還有5月份發(fā)布的GPT-4o(o是omni,全能的意思),它的輸入支持多模態(tài)、輸出也支持多模態(tài),特別是實時語音對話,效果很驚艷。

在開源方面,我覺得Meta是一個很聰明的公司。在閉源領(lǐng)域前三家難以被超越,Meta選取開源的生態(tài)位是很明智的,大量的開發(fā)者、行業(yè)應(yīng)用和行業(yè)模型都會使用Meta的Llama3開源模型,原因是開源模型能帶給他們更多二次開發(fā)、模型微調(diào)和能力擴展的空間。當(dāng)然我們欣喜地看到國內(nèi)也推出很有競爭力的開源模型,例如Qwen和DeepSeek。國內(nèi)企業(yè)在研發(fā)的行業(yè)或企業(yè)模型及應(yīng)用時,一般會首選國產(chǎn)的開源模型。

在基礎(chǔ)設(shè)施方面,我覺得變化并不顯著,英偉達(dá)還是一股獨大。但是我們看到,除AMD和英特爾外,美國不少科技大廠、模型廠商和創(chuàng)業(yè)公司都在做自己的算力芯片,希望能夠在巨大的AI算力市場中,從英偉達(dá)手中分一杯羹,特別是在推理芯片方面。中國也有不少這類芯片公司,包括我們峰瑞投資的公司,在積極從事這方面的研發(fā)和生產(chǎn)。

從用戶側(cè)應(yīng)用的角度看,模型的小型和端側(cè)化是一個明顯的趨勢,因為如果在終端上運行較大的模型或通過遠(yuǎn)程調(diào)用云端大模型,速度慢且成本高。美國蘋果公司在10月底發(fā)布的Apple Intelligence功能,采用一個自研30億參數(shù)的端側(cè)小模型,能夠在當(dāng)前的手機、Pad和筆記本上部署和運行。但最近有媒體報道Apple Intelligence偶爾會出錯,包括幻覺和新聞標(biāo)題錯誤等,這可能也跟模型參數(shù)小有關(guān)系,有進(jìn)一步提升空間。

此外,AI和大模型的技術(shù)在2024年的破圈較為明顯。第一個是基礎(chǔ)科學(xué),今年物理學(xué)、化學(xué)的諾貝爾獎都頒發(fā)給了AI領(lǐng)域的科學(xué)家和工程師,第二個是在自動駕駛上,特斯拉的FSD算法,以及國內(nèi)的新能源廠商或智能駕駛公司,在算法和模型上的突飛猛進(jìn),都離不開基座模型和AI技術(shù)的賦能。第三個獲得AI賦能的領(lǐng)域是具身智能,也是AI方向很熱的賽道,我們峰瑞今年也投了多家這個領(lǐng)域的公司。

最后一點是AI應(yīng)用的落地。2023年我在Alpha峰會的分享中,也提到過AI應(yīng)用要開始大力發(fā)展,但很遺憾,2024AI應(yīng)用的發(fā)展不及預(yù)期,相信明年AI應(yīng)用會有比較好的產(chǎn)出,具體情況我接下來會有分析。

AI行業(yè)的現(xiàn)狀如何?美國紅杉最近發(fā)文稱,“AI的基礎(chǔ)已經(jīng)穩(wěn)固建立。”意思是現(xiàn)在全球的五大模型廠商陣營已經(jīng)基本形成,后面可能會有一些微小變化,比如說蘋果是不是會進(jìn)入,但現(xiàn)在看起來這五家已經(jīng)處于領(lǐng)先的地位,包括谷歌、OpenAI、Anthropic、xAI和Meta,這五家各有所長,再加上o1和o3這樣的新模型還在繼續(xù)發(fā)展,構(gòu)成的整體模型能力已形成支持AI應(yīng)用落地的穩(wěn)固基礎(chǔ)。

現(xiàn)在我們來看一下AI行業(yè)的投入產(chǎn)出,這也是AI行業(yè)被詬病最多的一點,具體來說,投入巨大但是產(chǎn)出寥寥。四家頭部的科技巨頭Meta、Google、 Microsoft和Amazon,它們2024年第二季度的資本支出是529億美金,大部分投資在AI方向。此外VC和科技巨頭一起投資的AI創(chuàng)業(yè)公司,在投資額上也是創(chuàng)出新高。上述四巨頭運營的AI數(shù)據(jù)中心的數(shù)量,也從2020年的500家擴展到2024年的近1000家,而且這些數(shù)據(jù)中心都是高級別、以GPU為主的算力密集型大型數(shù)據(jù)中心。

頭部AI算力芯片提供方英偉達(dá)公司2025財年Q2的收入達(dá)到300億美金,這些收入主要來自于AI行業(yè)的算力投入,當(dāng)然除了算力還有大量人才的投入。

業(yè)界認(rèn)為,對比上述的各種投入,AI行業(yè)的產(chǎn)出要到6000億美元才能達(dá)到投入產(chǎn)出的合理水平,但今天AI行業(yè)的真正產(chǎn)出是在數(shù)百億美元的水平,精確的數(shù)字很難統(tǒng)計,但估計應(yīng)該是300億美元左右,距離6000億美元仍有較大差距。

還有另一項統(tǒng)計數(shù)據(jù)顯示,當(dāng)前全球AI創(chuàng)業(yè)公司年循環(huán)收入能達(dá)到1000萬美元的不到100家,收入整體相對較低。我這里列出幾家頭部公司的收入數(shù)據(jù)中,OpenAI應(yīng)該是收入最多的,它聲稱2024年要做到37億美元營收,其他包括微軟的Github Copilot和Anthropic等。此外,根據(jù)Sensor Tower發(fā)布的圖表,2024年手機端的AI應(yīng)用收入約33億美元,其中兩類AI手機應(yīng)用最掙錢,一類是AI+圖像/視頻,也就是多模態(tài)創(chuàng)意工具,包括視頻、圖像創(chuàng)作編輯等,這類產(chǎn)品的市場份額為53%。另一類是AI+Chatbot,包括諸如ChatGPT的大模型助手和Character.ai這類的AI陪伴聊天助手,市場份額為29%,其他類型的應(yīng)用相對收入較少。從國家市場上看,歐美占據(jù)三分之二左右,所以出海也是主要的需求,我們投資的AI應(yīng)用公司大多在出海。

剛才講到了AI行業(yè)投入產(chǎn)出的不匹配,那么這個行業(yè)的風(fēng)險由誰承擔(dān)?美國紅杉資本提出當(dāng)前AI的供應(yīng)鏈處于 “脆弱的平衡”狀態(tài)。分層來看,最下層的代工廠是盈利的,比如臺積電;往上一層的半導(dǎo)體廠商也是盈利的,比如英偉達(dá);中間的云廠商是虧損的;之后的模型廠商應(yīng)該也是虧損的,且模型廠商的投資來自云廠商或風(fēng)險投資;最上面則是客戶層,也就是應(yīng)用層的收入,比如ChatGPT、Github Copilot等。那么風(fēng)險在哪?風(fēng)險主要在大型云廠商。大型云廠商投入大量的資本支出,扮演著風(fēng)險吸收者的角色。從另外一個角度看,我會覺得大型云廠商其實掌握著AI的商業(yè)生態(tài),掌握著資源和人才,也掌握著高達(dá)數(shù)千億美金的云計算市場,AI供應(yīng)鏈的鏈主就是大型云廠商,這種情況在中國和美國都適用。所以業(yè)界需要思考,模型創(chuàng)業(yè)應(yīng)該如何做?大模型創(chuàng)業(yè)公司能不能獨立發(fā)展起來?

美國頭部的語言模型陣營已經(jīng)基本收斂,主要是科技大廠和頭部模型的結(jié)對,剛才提到了這5家模型廠商。本來可能的挑戰(zhàn)者,如Character.ai、Inflection和ADEPT等,也紛紛被這幾家大廠收購,再此驗證大廠對AI供應(yīng)鏈的控制力。中國的語言模型陣營也在迅速收斂,中國的大型云廠商阿里、字節(jié)、騰訊、百度等,不但自研模型,其中幾家也在積極投資模型創(chuàng)業(yè)公司。作為創(chuàng)業(yè)公司,中國的模型六小虎已經(jīng)跑在前列,但在今年也承受了很大的壓力。其他還有少數(shù)有競爭力的跟隨者。回到我們前面討論的,中國未來我覺得也是云廠商在控制AI供應(yīng)鏈,獨立的大模型還是比較困難的。當(dāng)然,中國還有一個特殊因素就是國家隊。我覺得應(yīng)該會有國家隊出現(xiàn),或者國家隊支持的創(chuàng)業(yè)公司。

有一個來自EpochAI的圖表,顯示開源模型和閉源模型的時間差距是5-22個月例如GPT-4發(fā)布之后,Llama 3.1大約經(jīng)過16個月時間可追平當(dāng)時GPT-4的水平。你可以認(rèn)為開源就代表著行業(yè)的基準(zhǔn)線,所以這是一場殘酷的生存之戰(zhàn),即我們的三大閉源模型,它們最多只有22個月來發(fā)展用戶和占領(lǐng)市場,不然行業(yè)就會追趕上來。

所以,如果Llama及Qwen等模型的開源策略不變的話,中外的閉源基座模型都將面臨很大的競爭壓力。開源模型的定位很不錯,抓住了行業(yè)和企業(yè)的開發(fā)者,也包括一些大型企業(yè),大力形成合作生態(tài),并成為了閉源模型很好的跟隨者。當(dāng)然,國內(nèi)的閉源模型廠商更難受些,無論是大廠還是創(chuàng)業(yè)公司都一樣,因為你在警惕海內(nèi)外開源模型的追趕之余,還要投入巨資持續(xù)追趕全球最領(lǐng)先的模型,窗口期更短。據(jù)說,GPT-4基座模型的訓(xùn)練成本需要1億美金,而GPT-5或下一代基座模型的訓(xùn)練成本要達(dá)到10億美金。即便是中國的大廠,要拿出10億美金去訓(xùn)練模型也會面臨挑戰(zhàn)。當(dāng)然后續(xù)也還存在不確定的因素,那就是如果Meta要花10億美金訓(xùn)練下一代模型,它還會不會愿意像現(xiàn)在這樣開源?這也是未知因素,所以這個行業(yè)其實存在很多的不確定性。

前面討論了模型,現(xiàn)在講應(yīng)用,為什么覺得AI應(yīng)用不達(dá)預(yù)期?除了前面提到的收入低之外,還有兩個部分。一方面,我們AI應(yīng)用的前兩位,即用戶量最大的應(yīng)用分別是ChatGPT和Character.ai,ChatGPT的訪問量在經(jīng)歷了早期瘋狂陡峭的曲線上升之后,到2023年夏季突然間走平,到2024年夏季才突然又有上升趨勢,應(yīng)該是GPT-4o發(fā)布的時間節(jié)點,后面的數(shù)據(jù)暫未更新有待觀察。Character.ai更是在2023年下半年訪問量就開始下滑且一直沒有抬頭的趨勢。所以在用戶增長方面,頭部公司面臨一些挑戰(zhàn)。另一方面,把現(xiàn)在的頭部AI應(yīng)用跟互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)時代的頭部應(yīng)用進(jìn)行對比,發(fā)現(xiàn)前者的用戶活躍指標(biāo)遠(yuǎn)遠(yuǎn)不如后者的,這也是一個不那么理想的情況。

當(dāng)然這只是現(xiàn)狀,而且有個體原因,但AI作為新興行業(yè),如果頭部企業(yè)不能持續(xù)快速發(fā)展的話,行業(yè)整體都會稍微面臨壓力,我猜主要問題可能還是模型能力不夠,使得我們的AI應(yīng)用對比傳統(tǒng)應(yīng)用拉不開差距。如果我們能夠有新的模型,解鎖更多更強大的能力,就有可能創(chuàng)造出體驗遠(yuǎn)超當(dāng)前的應(yīng)用,說不定會有機會跳過增長陷阱。

據(jù)美國a16z統(tǒng)計,全球用戶訪問排名前50家的應(yīng)用和App中,有52%是創(chuàng)意工具,即圖片視頻編輯工具,這是比較明顯的最大品類。第二大品類是AI + Chatbot,例如ChatGPT這類的大模型助手和Character.ai這類的AI陪伴聊天助手。其他的品類變化不大,所以2024年頭部AI應(yīng)用在品類上也沒產(chǎn)生顯著的變化。

在行業(yè)整體概覽之后,我們來深度講解一下模型的進(jìn)展。我們先聚焦于OpenAI的o1,o1 代表一種模型新范式,借助思維鏈,帶來復(fù)雜推理能力的增強。推理Reasoning,是指使用理性思維和認(rèn)知過程,從現(xiàn)有知識中推斷出新知識。這是人類一個非常強大的能力,包括常識推理、數(shù)學(xué)推理、符號推理、因果推理等。

那么思維鏈?zhǔn)鞘裁?思維鏈?zhǔn)侵敢幌盗兄虚g推理的步驟。人在思考一個復(fù)雜問題的時候,他腦子里是有一個思維鏈條甚至是思維樹、思維圖的,這些統(tǒng)稱為思維鏈。在思考過程中如果發(fā)現(xiàn)走這一步不行,那就退回到前面的步驟進(jìn)一步探索。但是我們今天的預(yù)訓(xùn)練模型例如GPT-4,是沒有回退的能力,它的工作模式就像“文字接龍”,每次出一個字(token),如果你走了十步,發(fā)現(xiàn)前面有個字出錯了,是沒有辦法退回來的,只能在后面進(jìn)行修補,但這可能就修補不來。這只是個不準(zhǔn)確的簡單比喻,但有助于我們理解為什么當(dāng)前的基座模型,在復(fù)雜推理等方面的能力不如人類。

今天,o1就有比較強大的復(fù)雜推理能力。如果我們提問題,它會先思考,而不是馬上給出答案,在思考過程中做思維鏈的搜索或遍歷,遍歷結(jié)束后它會開始說出結(jié)論。在我這個演示里,它給出了結(jié)論結(jié)果之后,還會有一個叫思維鏈步驟的總結(jié),這里它總結(jié)出9個思考步驟,但是它其實有個隱含的復(fù)雜思維鏈,根據(jù)OpenAI的論文,以上述9個思考步驟的思維鏈為例,隱含的思考過程大概有600多行文字,每一行都有點像自言自語,是“我做了這個、我猜可能什么樣、發(fā)現(xiàn)不是我又回退到前面什么地方”,這個過程就非常類似人類的思考過程,更接近復(fù)雜推理能力。

復(fù)雜推理的評測標(biāo)準(zhǔn)是什么?一個是AIME,即美國數(shù)學(xué)邀請賽;另外一個是Codeforces,非常難的編程競賽;還有一個是GPQA,博士級的科學(xué)問題。o1的回答明顯超過之前其他模型,部分評測超過人類專家。而o3在o1基礎(chǔ)上能力又有大幅提升。OpenAI在今年7月份發(fā)布了基座模型的5個能力等級,并認(rèn)為當(dāng)前的o1或o3已經(jīng)達(dá)到第二等級即“推理者”的水平,就是推理能力比較強、能夠執(zhí)行基本任務(wù)的等級,相當(dāng)于沒有任何工具的博士學(xué)位水平的人類。

簡單理解,我覺得AI模型的學(xué)習(xí)分為兩個步驟。第一個步驟是GPT類型的預(yù)訓(xùn)練,利用大量的人類文本數(shù)據(jù)去訓(xùn)練,可以理解為是“模仿學(xué)習(xí)”,模仿人類如何遣詞造句、怎么做思考等等。而到了當(dāng)前階段,可供模仿的互聯(lián)網(wǎng)數(shù)據(jù)已經(jīng)差不多用完了,這時候o1、o3這類模型,開始選擇用強化學(xué)習(xí),通過主動探索和自我博弈之類的方式生成數(shù)據(jù),基于思維鏈等方式來進(jìn)行模型的訓(xùn)練和推理,并實現(xiàn)“測試時間計算”。

做個類比,有點像一位武學(xué)大師,年輕的時候跟師傅學(xué)習(xí),學(xué)得挺好,但是超過師傅之后,如果找不到更好的師傅怎么辦呢?他只能自我學(xué)習(xí),自己摸索著前進(jìn)。

之前下圍棋的AI模型(AlphaGo和AlphaZero)也是如此。AlphaGo原先是利用人類棋譜訓(xùn)練,到達(dá)一定程度后棋力升級乏力,然后AlphaZero就出來了,它完全扔掉人類棋譜,依靠自我博弈來訓(xùn)練自己,達(dá)到更高的境界。這也是模仿學(xué)習(xí)和強化學(xué)習(xí)逐步遞進(jìn)的案例之一。所以其實技術(shù)上有很多概念是互通的。

o1或o3這類AI模型的強化學(xué)習(xí)難度比圍棋更大,因為圍棋是有簡單的評測標(biāo)準(zhǔn)的(例如輸贏),而AI模型在大部分情況下拿不到準(zhǔn)確的評測信號。不過很聰明的一點是,這次它們拉來一個幫手,即之前模仿學(xué)習(xí)訓(xùn)練出來的GPT這類預(yù)訓(xùn)練模型,后者可以幫助生成更好的評測信號,從而幫助o1或者o3的強化學(xué)習(xí)訓(xùn)練。

最近有一個討論是關(guān)于陶哲軒和Mark Chen的,陶哲軒是著名數(shù)學(xué)家和菲爾茨獎獲得者,Mark Chen是OpenAI的研發(fā)副總裁。陶哲軒說,AI不擅長找到正確的問題,但它可以在一個更大的項目中處理非常狹窄的特定部分,類似于在僅有稀疏數(shù)據(jù)時產(chǎn)生推理,所以這個能力很強大,來自于直覺和經(jīng)驗。Mark Chen則說,我們現(xiàn)在正在做test time computer,即測試時間計算,他認(rèn)為這個是可以超越當(dāng)前推理能力,在稀疏數(shù)據(jù)條件下達(dá)到與人類類似的直覺式的推理。我覺得兩者都是有道理的,陶哲軒那個時候還只在用GPT-4,用AI作為數(shù)據(jù)科研,當(dāng)時的GPT4預(yù)訓(xùn)練模型確實只有這個能力,但是Mark Chen說的也有道理,因為像o3這樣的新模型確實有能力達(dá)到這個水平。

因為o3是今天(北京時間12月21日)凌晨4點發(fā)布的,我特地添加了一頁PPT。模型的三大能力之一是編碼編程,數(shù)據(jù)集評測分?jǐn)?shù)比o1提高到70%多。我們投資了一家做AI Coding應(yīng)用的公司,創(chuàng)始人跟我說,如果模型在高難度編程測試數(shù)據(jù)集的評測分?jǐn)?shù)超過70%,基本就算可實用了,因為我們可以想些其他辦法降低實際應(yīng)用的難度,讓70%的模型能力做到接近100%的應(yīng)用能力,所以70%以上模型基本就夠用了。此外,o3的美國數(shù)學(xué)競賽和科學(xué)問題的得分也明顯高于o1。

這里還想提一點,按照OpenAI官方的說法,o1是一個大型推理模型,是用強化學(xué)習(xí)來訓(xùn)練的語言模型,o3只不過進(jìn)一步地擴展了強化學(xué)習(xí)的規(guī)模,但是短短的三個月時間內(nèi)讓o3相對o1有那么大的提升,還是非常令人驚喜的。這還可能只是第一步,后續(xù)應(yīng)該還有進(jìn)一步提升和優(yōu)化的空間。當(dāng)然,o3的運行成本非常貴,據(jù)非官方測算,最高配置的o3回答一個問題的成本可達(dá)2500美元。但我覺得,未來成本問題是可以逐步解決的。

去年我在這也提到過多模態(tài),當(dāng)時業(yè)界認(rèn)為視頻會在2024取得突破,今年果然有突破。突破的標(biāo)準(zhǔn)是,我們看到有些公司開始用這些視頻生成工具來生產(chǎn)廣告或者影視作品的原始素材。多模態(tài)其實只是人類的概念,如果從AI模型的角度來說,各種模態(tài)在它的“腦!崩锒际且粋高維空間的向量。例如GPT-3.5模型的向量是12288維的,后來維度有所降低和優(yōu)化。所以無論是文本、圖像,還是視頻,對AI模型來說都是向量。向量就可以相互做計算,比如以前我們說的“國王”這個向量,減去一個“男人”向量,加上一個“女人”向量,就得到一個“女皇”或“皇后”向量。AI模型的訓(xùn)練和推理,本質(zhì)上都是在進(jìn)行類似的向量計算。但是因為AI模型需要跟人類交流,它還是需要認(rèn)識我們的多模態(tài)數(shù)據(jù),另外也需要輸出多模態(tài)數(shù)據(jù),所以就有個“解構(gòu)”和“重構(gòu)”的過程,這個過程就要借助一些算法。其實我們今天看到的算法,包括大家都知道的擴散模型(Diffusion Model)、神經(jīng)輻射場(NeRF)等都是一些非常有意思的算法。

以AI畫圖為例,一般人類畫師如果繪圖,他會找張白紙,先勾勒出大致形象,然后逐步補充細(xì)節(jié),再去染色,最后做些小的修補,一步步生產(chǎn)出一張畫像。但是AI畫圖并不遵循這樣的流程。以Diffusion Model為例,它首先生成一張原圖(其實是一張隨機生成的噪聲圖,即各向同性高斯分布的噪聲圖),就是PPT里左上角的一塊圖,然后AI模型在提示詞的指導(dǎo)下,每次生成一張去噪圖(其實也是一張噪聲圖),并從原圖中去掉這個去噪圖,這樣循環(huán)操作,經(jīng)過幾十步或者上百步的去噪過程,就畫出這張帶著帽子的女士的畫像。這個操作很違背我們?nèi)祟惖闹庇X,人類直覺不會覺得還能這樣畫圖,但AI就是這么理解、這么畫圖的,這甚至可能比人類還高效。這些算法比較復(fù)雜,大家沒必要都仔細(xì)去了解,但是這些算法確實非常神奇。

今天的多模態(tài)其實還是以文本作為主模態(tài)的,因為其他模態(tài)都是通過文本模態(tài)做的轉(zhuǎn)譯或映射。這個轉(zhuǎn)譯”原理有個通俗的比喻,如果AI看到一張圖,它會先進(jìn)行“看圖寫作”,寫一篇很長的作文來描述這張圖,然后把這篇作文的文本作為整體映射到語言的高維空間里,形成一個高維向量,這個向量就是這張圖的向量。所以它是借助于文本這個載體映射到高維空間里面去的。

模態(tài)的概念是可以延展的,不僅僅是當(dāng)前的文本、圖像和視頻這幾類模態(tài),像Alpha FOLD生成的蛋白質(zhì)三維結(jié)構(gòu),兩人對話形式的播客等都可以算是一類模態(tài)。我們峰瑞投資的一家公司叫Top view.AI,其目標(biāo)就是給TikTok或者Instagram的商家制作商業(yè)視頻,但是它基本上無需人工介入即可完成大部分工作,我們只要提供商品詳情頁的鏈接,它可以自己抓取文本、圖像、視頻,融入指定的數(shù)字人的形象,然后自動進(jìn)行劇本創(chuàng)作、配音配樂和視頻剪輯合成等一系列工作,最后完成視頻。

今年有個詞特別流行,叫“世界模型”,它到底是什么?首先說我們?yōu)槭裁葱枰澜缒P汀N覄偛胖v到文本是主模態(tài),其他模態(tài)通過文本映射進(jìn)入這個高維空間,但是文本難以準(zhǔn)確表達(dá)物理世界,比如說復(fù)雜的空間關(guān)系,寫作文來表達(dá)它很困難,再比如說物理屬性,杯子摔下來可能會碎,那這種情況應(yīng)該怎么去描述?不可描述。所以大家認(rèn)為,是不是還應(yīng)該再做一個模型,使其天然就具備一些視覺的能力,我們叫感知。例如,我今天站在講臺上往前看,我會迅速感知到在中歐工商學(xué)院,Alpha峰會的現(xiàn)場是什么樣,有個整體感知,就不需要通過文本去映射其他模態(tài),而且感知之后我還可以預(yù)測,預(yù)測之后還可以跟這個物理世界做交互。這些就屬于“世界模型”的基本概念?偨Y(jié)一下,大語言模型形成了一個基于文本的“世界模型”,而文本是一種抽象,它有損失,所以我們要做一個“視覺”的世界模型。Yann LeCun提出的“世界模型”,李飛飛提出的“空間智能”,其中都有類似的概念。

被稱為OpenCV之父的知名AI專家Gary Bradski,提出了一個“WHAT-WHERE-WHY”框架,可用來簡單解釋什么是“世界模型”!癢hat”指我看一眼知道今天有誰,有些什么東西,有什么事件;“Where”指在哪里,即它的位置,以及相互之間的空間關(guān)系;“Why”指事件背后的因果關(guān)系或目的等,以今天我的AI分享為例,聽眾們是金融行業(yè)的翹楚,過來想了解一下AI行業(yè)的發(fā)展情況,這就是一個前因后果的實例。這個模型比較簡單,有助于我們理解“世界模型”的基本概念。

前面探討了模型的算法,現(xiàn)在講講算力。馬斯克建造的十萬卡的集群,是全球最大的集群之一,當(dāng)前,其他公司都在追趕,面臨著不小的競爭壓力。從數(shù)字上來說,四巨頭在2024年的資本支出超過2000億美元,大部分可能都投入在了數(shù)據(jù)中心建設(shè)上,據(jù)說訓(xùn)練下一代模型的算力需要10倍,也有人說下一個階段數(shù)據(jù)中心物理建設(shè)的重要程度將超過科學(xué)發(fā)現(xiàn)。

接下來我們討論數(shù)據(jù)。眾所周知,算法、算力和數(shù)據(jù)被普遍視為模型的三大生產(chǎn)資料。在AI領(lǐng)域構(gòu)建一個大模型的時候,前面的預(yù)訓(xùn)練階段已經(jīng)使用了大部分?jǐn)?shù)據(jù),剩余的人類數(shù)據(jù)比較少,就需要大量的前沿數(shù)據(jù)來訓(xùn)練。當(dāng)前,預(yù)訓(xùn)練模型的能力邊界是數(shù)據(jù),數(shù)據(jù)到不了的地方模型就不能模仿,所以要沿著它的能力邊界去構(gòu)建一些數(shù)據(jù),從而幫助模型產(chǎn)生相應(yīng)的能力。因此前沿數(shù)據(jù)的重要性凸顯。現(xiàn)在比較缺乏的是復(fù)雜推理、專業(yè)知識、人類思維模式等這類高品質(zhì)的數(shù)據(jù)。

但是我們還有一條路徑,就是所謂的算法合成數(shù)據(jù),包括今天提到的強化學(xué)習(xí)、自我博弈,這些都是新的方法,但反過來講,強化學(xué)習(xí)又需要新的數(shù)據(jù)來訓(xùn)練它的能力,所以這三者是非常耦合的關(guān)系。我們投資了一家做數(shù)據(jù)工程的公司,人機結(jié)合來標(biāo)注數(shù)據(jù),也積極利用算法來合成數(shù)據(jù),這家公司當(dāng)前也在積極出海。這個領(lǐng)域的頭部的公司叫Scale AI,盈利能力很強,估值也很高。

再來談?wù)凙I應(yīng)用,我覺得AI應(yīng)用跟傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用不太一樣。我們以前一般把應(yīng)用分為兩大類,一個叫ToB,一個叫ToC,但我覺得今天在AI行業(yè),應(yīng)該有一個新的分類叫ToPProsumer,專業(yè)用戶),這個類別的應(yīng)用當(dāng)前在用戶增長和商業(yè)化方面表現(xiàn)出色。Prosumer包括比如說內(nèi)容創(chuàng)作者,這就是創(chuàng)作者經(jīng)濟,從業(yè)者估計有1億以上。還包括一些專業(yè)從業(yè)者、技術(shù)專家、深度用戶等,這些都是未來的超級個體。這類人有明確的需求,熱愛學(xué)習(xí),能夠積極學(xué)習(xí)去掌握一個功能強大但上手操作并不簡單的AI工具,我覺得這些專業(yè)用戶是當(dāng)前最理想的AI應(yīng)用使用者和付費方。今天ChatGPT 大家說可能是ToC,但我覺得它是ToP因為說句實在話,我身邊也很少有人能夠真正地把ChatGPT、豆包、Kimi這類AI工具用好。我最近寫一篇文章,在整理思路、構(gòu)建框架、形成初稿和文字潤色等各個方面,高強度地使用了ChatGPT,感覺寫作效率和寫作質(zhì)量都有大幅提升,這個過程讓我深刻體驗到這類AI應(yīng)用對于專業(yè)用戶的價值。

這只是一個案例,說明當(dāng)我們要真正把AI作為深度生產(chǎn)力工具的時候,首先會面臨一條陡峭的學(xué)習(xí)曲線,并非所有人都能學(xué)會,掌握后還要容忍它出錯,因為盡管AI強大,它也容易出錯,產(chǎn)生幻覺,所以我們還要有能力去判斷,不能盲目接受。具備這類能力的人當(dāng)前還不多,我覺得在座都可以是這樣的專業(yè)用戶,但一定要廣泛嘗試和深度使用AI工具。

我也想鼓勵AI應(yīng)用的創(chuàng)業(yè)者先做ToP這個市場,要找各行各業(yè)的專業(yè)用戶,給專業(yè)用戶先提供一個功能強大工具,體驗要明顯優(yōu)于傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用,偶爾不穩(wěn)定和出錯也沒關(guān)系。這類工具先從ToP做起來,后續(xù)有機會可以往ToB或ToC去延展。前面我們提到的多模態(tài)創(chuàng)意工具大部分也屬于ToP ChatGPT本質(zhì)上也是ToP,當(dāng)前To P應(yīng)用明顯占優(yōu),用戶增長不錯、營收能力也強。

第二個就是ToB,面向企業(yè)提供服務(wù)。因為人類的工作流程很復(fù)雜,再加上人機混合的難度,AI應(yīng)用切入進(jìn)來不太容易。所以我覺得它可能應(yīng)該先從一些獨立的業(yè)務(wù)模塊或者標(biāo)準(zhǔn)的技能模塊切入進(jìn)來。

第三個是ToC,ToC的話感覺是顛覆時刻未到,我覺得核心原因是模型的能力還不足夠。舉個例子,我們之前看過一些項目,讓AI在小紅書等社交媒體發(fā)帶貨文章來掙錢,能形成一定的收入;但是后續(xù)我們發(fā)現(xiàn),它寫的文章并不能有效漲粉,阻礙了這類應(yīng)用的進(jìn)一步發(fā)展。為什么呢?我覺得,今天的語言模型可以寫出中上水平的內(nèi)容,但要創(chuàng)作出圈粉的文章,預(yù)訓(xùn)練模型的自己能力還達(dá)不到,可能需要大量人類的參與和指導(dǎo)。o1、o3這類模型之后情況可能會有所好轉(zhuǎn)嗎?暫不可知。現(xiàn)在很多ToC的AI應(yīng)用都跟上述案例類似,就是功能雖然不錯,但是跟傳統(tǒng)軟件相比的功能領(lǐng)先優(yōu)勢不大。

進(jìn)入到最后一部分展望和挑戰(zhàn)。關(guān)于挑戰(zhàn),一個顯著的問題是產(chǎn)品落地緩慢,技術(shù)應(yīng)用周期長。核心原因可能是大家都認(rèn)識到AI要競爭過傳統(tǒng)移動互聯(lián)網(wǎng),產(chǎn)品體驗是一定不能減分的,成本可以初期承受損失,之后再慢慢降低。但因為模型能力還不足夠,產(chǎn)品質(zhì)量很難達(dá)到八九十分的水準(zhǔn),可能就只有六十分甚至不及格。

還有一點,現(xiàn)在用戶會變得越來越希望AI成為貼心的助手,當(dāng)我問什么問題,AI可以精確判斷我的意圖,直接給我需要的反饋結(jié)果,而不是給我一堆搜索答案、或者需要讓我多次交互。未來的AI應(yīng)用,一定需要服務(wù)用戶較長時間,對用戶的習(xí)慣(“上下文”)有深度理解和長期記憶,當(dāng)用戶問個問題,AI就能知道用戶問題背后的需求,從而直接給出準(zhǔn)確的答案,甚至給出一些用戶自己都沒想到的答復(fù),這才是AI時代的應(yīng)用產(chǎn)品應(yīng)該具備的模樣。如果做出這種產(chǎn)品,相信它絕對可以打敗現(xiàn)有的基于移動互聯(lián)網(wǎng)的傳統(tǒng)應(yīng)用產(chǎn)品。但是這對模型的要求很高,對產(chǎn)品的設(shè)計、建構(gòu)、規(guī)劃都有很大的壓力。

關(guān)于2025年的行業(yè)期望,有以下幾點。一是模型逐漸成熟(特別是在o1、o3等新模型的加持之下),AI應(yīng)用落地取得階段性的成果,我覺得2025年可能會成為AI應(yīng)用的大年,AI供應(yīng)鏈的資產(chǎn)負(fù)債表可能會逐步得到修復(fù)

二是關(guān)于模型的優(yōu)化,比如“世界模型”與物理世界融合的推進(jìn),無論是對自動駕駛還是智能機器人,我覺得都會有很大幫助。三是多模態(tài)融合,我覺得還可以更進(jìn)一步。四是模型的可解釋性與安全性,我們叫可解釋性是因為它是個黑盒子,你不知道它在想什么東西。AI模型是高階智慧,它的能力未來會超過人類,我們需要了解它到底在想什么,然而這是一項極具挑戰(zhàn)性的任務(wù),現(xiàn)階段還沒有成熟的方法,但這也是我們想要的,否則你真的很難控制一個能力這么強、但是又不聽你的模型。

人類的勞動分為體力勞動和腦力勞動,其中腦力勞動以知識、智力和創(chuàng)造力為核心。但是今天,我覺得AI在解構(gòu)人類的勞動,未來AI也會具備這樣的勞動能力,甚至超過人類。AI 還有一點比人強,人類培養(yǎng)出一個愛因斯坦這樣的頂尖科學(xué)家非常難,卻很難將其能力復(fù)制給其他人,而AI一旦訓(xùn)練出一位頂尖科學(xué)家,它可以迅速批量復(fù)制。所以最后這些人類引以為傲的腦力勞動能力,可能未來AI都會具備,而且經(jīng)過規(guī)模化復(fù)制后,最終會以軟件化的方式低成本提供。如果再加上具身智能的機器人,體力勞動也可能被大范圍替代。

所以,未來的勞動可能會軟件化,就像即插即用的工具一樣來獲取。當(dāng)然我覺得大家也不必過于緊張,這還是很遙遠(yuǎn)的事情,而且我們?nèi)祟愡會找到自己跟AI相處的方式。回到當(dāng)前,我覺得最重要的是,我們在座各位,大家要多用AI工具,多了解它的能力,多了解它的不足。在這個過程中我們也能有一些新的思考和進(jìn)步,對我們自己的事業(yè)、工作和生活也會有很大的促進(jìn),希望大家有機會一定要認(rèn)真地去用當(dāng)前的AI,用AI工具把自己武裝起來,成為未來的“超級個體”,謝謝大家!

Alpha峰會由全新林肯飛行家AVIATOR為您特約呈現(xiàn)

即刻啟程,從容駕馭2025全球投資之旅

本文來自華爾街見聞,歡迎下載APP查看更多

贊助本站

相關(guān)熱詞: 峰瑞資本 陳石 ai手機 集成電路

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港