展會信息港展會大全

從模仿到思考:生成式AI的進化之路
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-14 09:20:16   瀏覽:2028次  

導(dǎo)讀:這是一篇投資公司 Sequoia 剛剛發(fā)布的關(guān)于生成式 AI 的年度報告,很值得一讀,里面提出幾個有意思的點: 新擴展定律: o1代表通過推理時計算在一般推理能力上的重大進展。這是生成式AI的AlphaGo時刻,標志著大模型擴展定律的重要轉(zhuǎn)折點。更多推理時間計算導(dǎo)致...

這是一篇投資公司 Sequoia 剛剛發(fā)布的關(guān)于生成式 AI 的年度報告,很值得一讀,里面提出幾個有意思的點:

新擴展定律: o1代表通過"推理時計算"在一般推理能力上的重大進展。這是生成式AI的"AlphaGo時刻",標志著大模型擴展定律的重要轉(zhuǎn)折點。更多推理時間計算導(dǎo)致顯著更好的推理,這將推動應(yīng)用層的可用性。

SaaS重新定義: SaaS從"Software as a Service"轉(zhuǎn)向"Service as Software"。從銷售席位轉(zhuǎn)變?yōu)殇N售最終交付結(jié)果,體現(xiàn)了"sell work, not software"的理念。

領(lǐng)域?qū)V匾? 認知架構(gòu)代表行業(yè)專知(know-how)。將專知與模型能力結(jié)合是構(gòu)建數(shù)據(jù)閉環(huán)、從副駕駛到自動駕駛的關(guān)鍵。

大模型進入下一階段技術(shù)突破,同時產(chǎn)品經(jīng)理的機會窗口已經(jīng)到來。文章包含更多細節(jié),值得仔細閱讀和思考。

從模仿到思考:生成式AI的進化之路

在生成式AI革命的兩年里,研究正在將該領(lǐng)域從"快速思考"快速的預(yù)訓練響應(yīng)推進到"慢速思考"在推理時進行推理。這種演變正在開啟一批新的主動應(yīng)用。

在我們發(fā)表《生成式AI:一個創(chuàng)新的新世界》一文兩周年之際,AI生態(tài)系統(tǒng)看起來已經(jīng)大不相同,我們對未來有一些預(yù)測。

生成式AI市場的基礎(chǔ)層正在穩(wěn)定到一個均衡狀態(tài),其中包括一些關(guān)鍵的規(guī)模化參與者和聯(lián)盟,包括微軟/OpenAI、AWS/Anthropic、Meta和谷歌/DeepMind。只有那些擁有經(jīng)濟引擎和獲取大量資本的規(guī)模化參與者仍在競爭。雖然這場戰(zhàn)斗遠未結(jié)束(并且在博弈論式的方式中不斷升級),但市場結(jié)構(gòu)本身正在穩(wěn)固,很明顯我們將獲得越來越便宜和豐富的下一個詞預(yù)測。

隨著LLM市場結(jié)構(gòu)的穩(wěn)定,下一個前沿正在出現(xiàn)。焦點正在轉(zhuǎn)向推理層的發(fā)展和擴展,在這里"系統(tǒng)2"思維占主導(dǎo)地位。受到像AlphaGo這樣的模型的啟發(fā),這一層旨在賦予AI系統(tǒng)以推理時的深思熟慮的推理、問題解決和認知操作能力,超越快速模式匹配。新的認知架構(gòu)和用戶界面正在塑造這些推理能力如何傳遞給用戶并與之互動。

這對AI市場的創(chuàng)始人意味著什么?這對現(xiàn)有的軟件公司意味著什么?作為投資者,我們在生成式AI技術(shù)棧中看到哪一層最有前景的回報?

在我們最新關(guān)于生成式AI市場狀況的文章中,我們將探討基礎(chǔ)LLM層的整合如何為競相擴展這些高階推理和主動能力奠定基礎(chǔ),并討論具有新型認知架構(gòu)和用戶界面的新一代"殺手級應(yīng)用"。

永遠的草莓田

2024年最重要的模型更新要歸功于OpenAI的o1,之前被稱為Q*,也被稱為Strawberry。這不僅是OpenAI在模型質(zhì)量排行榜上重新確立其應(yīng)有地位,還是對現(xiàn)有架構(gòu)的顯著改進。更具體地說,這是第一個具有真正通用推理能力的模型示例,他們通過推理時計算實現(xiàn)了這一點。

這意味著什么?預(yù)訓練模型是在大量數(shù)據(jù)上進行下一個詞的預(yù)測。它們依賴于"訓練時計算"。規(guī)模的一個新興特性是基本推理,但這種推理非常有限。如果你能直接教會模型推理呢?這基本上就是Strawberry正在做的事情。當我們說"推理時計算"時,我們指的是要求模型在給出回應(yīng)之前停下來思考,這需要在推理時進行更多計算(因此稱為"推理時計算")。"停下來思考"的部分就是推理。

AlphaGo x LLMs那么,當模型停下來思考時,它在做什么?

讓我們先簡單回顧一下2016年3月在首爾發(fā)生的事情。深度學習歷史上最具里程碑意義的時刻之一發(fā)生在這里:AlphaGo與傳奇圍棋大師李世石的比賽。這不僅僅是任何AI對人類的比賽這是世界看到AI不僅僅是模仿模式的時刻。它在思考。

是什么讓AlphaGo與之前的游戲AI系統(tǒng)(如深藍)不同?像LLMs一樣,AlphaGo首先從大約3000萬個來自以前比賽的動作數(shù)據(jù)庫和更多自我對弈中預(yù)訓練,以模仿人類專家。但是,AlphaGo并不是提供來自預(yù)訓練模型的本能反應(yīng),而是花時間停下來思考。在推理時,模型會對廣泛的潛在未來場景進行搜索或模擬,對這些場景進行評分,然后以具有最高期望值的場景(或答案)做出響應(yīng)。給予AlphaGo的時間越多,它的表現(xiàn)就越好。如果沒有推理時計算,模型就無法擊敗最優(yōu)秀的人類選手。但隨著推理時間的增加,AlphaGo變得越來越好直到它超越了最優(yōu)秀的人類。

讓我們回到LLM世界。在這里復(fù)制AlphaGo的難點在于構(gòu)建價值函數(shù),即對響應(yīng)進行評分的函數(shù)。如果你在下圍棋,這相對直接:你可以模擬整個游戲直到結(jié)束,看誰贏了,然后計算下一步棋的期望值。如果你在編碼,這也相對直接:你可以測試代碼,看它是否有效。但是你如何為一篇文章的初稿打分?或者一個旅行計劃?或者一份長文檔中關(guān)鍵術(shù)語的摘要?這就是為什么用當前方法進行推理很困難,也是為什么Strawberry在接近邏輯的領(lǐng)域(例如編碼、數(shù)學、科學)相對強大,而在更開放和非結(jié)構(gòu)化的領(lǐng)域(例如寫作)則不那么強大。

雖然Strawberry的實際實現(xiàn)是一個嚴格保守的秘密,但關(guān)鍵思想涉及圍繞模型生成的思維鏈進行強化學習。審查模型的思維鏈表明,正在發(fā)生一些基本而令人興奮的事情,這實際上類似于人類思考和推理的方式。例如,o1顯示了一種能力,即在遇到困難時能夠回溯,這是擴展推理時間的一個新興特性。它還顯示了像人類一樣思考問題的能力(例如,visualize球體上的點來解決幾何問題)以及以新方式思考問題的能力(例如,以人類不會的方式解決編程競賽中的問題)。

而且,研究團隊正在努力推進推理時計算的新想法(例如,計算獎勵函數(shù)的新方法,縮小生成器/驗證器差距的新方法),以此來提高模型的推理能力。換句話說,深度強化學習再次變得很酷,它正在實現(xiàn)個全新的推理層。

System1 vs System2 思考

從預(yù)訓練的本能反應(yīng)("系統(tǒng)1")到更深層次的、深思熟慮的推理("系統(tǒng)2")的飛躍是AI的下一個前沿。模型僅僅知道事物是不夠的它們需要停下來,評估并在實時中推理決策。

將預(yù)訓練視為系統(tǒng)1層。無論模型是在圍棋的數(shù)百萬步棋(AlphaGo)還是在互聯(lián)網(wǎng)規(guī)模的PB級文本(LLMs)上預(yù)訓練,它的工作都是模仿模式無論是人類的游戲方式還是語言。但是模仿,盡管強大,卻不是真正的推理。它無法正確地思考復(fù)雜的新情況,特別是那些樣本外的情況。

這就是系統(tǒng)2思考的用武之地,也是最新一波AI研究的重點。當一個模型"停下來思考"時,它不僅僅是生成學習到的模式或根據(jù)過去的數(shù)據(jù)吐出預(yù)測。它正在生成一系列可能性,考慮潛在的結(jié)果,并基于推理做出決定。

對于許多任務(wù)來說,系統(tǒng)1已經(jīng)足夠了。正如Noam Brown在我們最新一期的Training Data節(jié)目中指出的那樣,花更長時間思考不丹的首都是什么并沒有幫助你要么知道,要么不知道。這里快速的、基于模式的回憶完全奏效。

但當我們看到更復(fù)雜的問題時比如數(shù)學或生物學的突破性進展快速、本能的反應(yīng)就不夠用了。這些進展需要深度思考、創(chuàng)造性的問題解決,最重要的是,需要時間。對AI來說也是如此。要解決最具挑戰(zhàn)性、最有意義的問題,AI需要超越快速的樣本內(nèi)響應(yīng),花時間進行那種深思熟慮的推理,這種推理定義了人類的進步。

從模仿到思考:生成式AI的進化之路

如何比較

思考模式計算財務(wù)模型成熟度

推理層

系統(tǒng)2思考: 緩慢、深思熟慮

推理時間

COGS (銷售成本)

新興

預(yù)訓練層

系統(tǒng)1思考: 快速

預(yù)訓練

Opex/Capex (運營支出/資本支出)

趨于成熟

示例

AlphaGoLLMs(大語言模型)機器人學

推理層

蒙特卡洛樹搜索

思維鏈

模擬

預(yù)訓練層

3000萬

互聯(lián)網(wǎng)規(guī)模的文本

互聯(lián)網(wǎng)規(guī)模的視頻

新的擴展定律:推理競賽已經(jīng)開始

o1論文中最重要的洞見是出現(xiàn)了一個新的擴展定律。

預(yù)訓練LLMs遵循一個被充分理解的擴展定律:你在預(yù)訓練模型上花費的計算和數(shù)據(jù)越多,它的表現(xiàn)就越好。

o1論文為擴展計算開辟了一個全新的平面:你給模型的推理時間(或"測試時間")計算越多,它的推理就越好。

從模仿到思考:生成式AI的進化之路

[圖片: 來源:OpenAI o1技術(shù)報告]

當模型可以思考數(shù)小時、數(shù)天、數(shù)十年時會發(fā)生什么?我們會解決黎曼猜想嗎?我們會回答阿西莫夫的最后一個問題嗎?

這種轉(zhuǎn)變將把我們從大規(guī)模預(yù)訓練集群的世界轉(zhuǎn)向推理云可以根據(jù)任務(wù)的復(fù)雜性動態(tài)擴展計算的環(huán)境。

一個模型統(tǒng)治一切?當OpenAI、Anthropic、Google和Meta擴展他們的推理層并開發(fā)越來越強大的推理機器時會發(fā)生什么?我們會有一個統(tǒng)治一切的模型嗎?

生成式AI市場最初的一個假設(shè)是,單一的模型公司將變得如此強大和全面,以至于它會吞并所有其他應(yīng)用。到目前為止,這個預(yù)測在兩個方面是錯誤的。

首先,在模型層面有大量的競爭,不斷有人在SOTA能力上超越對手。有可能有人會在廣泛領(lǐng)域的自我對弈中實現(xiàn)持續(xù)的自我改進并實現(xiàn)起飛,但目前我們還沒有看到這方面的證據(jù)。恰恰相反,模型層是一場刀光劍影的戰(zhàn)斗,自上次開發(fā)者日以來,GPT-4的每個token的價格下降了98%。

其次,除了ChatGPT這個顯著的例外,模型基本上未能作為突破性產(chǎn)品進入應(yīng)用層。現(xiàn)實世界是混亂的。偉大的研究人員沒有興趣去了解每個可能的垂直領(lǐng)域中每個可能功能的細節(jié)端到端工作流程。對他們來說,停留在API層面既有吸引力又在經(jīng)濟上合理,讓開發(fā)者群體去處理現(xiàn)實世界的混亂。這對應(yīng)用層來說是個好消息。

混亂的現(xiàn)實世界:定制認知架構(gòu)

作為一名科學家,你計劃和執(zhí)行行動以達到目標的方式,與作為一名軟件工程師的方式有很大的不同。而且,即使是在不同公司的軟件工程師,這種方式也是不同的。

隨著研究實驗室進一步推動橫向通用推理的邊界,我們?nèi)匀恍枰囟☉?yīng)用或領(lǐng)域的推理來提供有用的AI代理。混亂的現(xiàn)實世界需要大量的領(lǐng)域和應(yīng)用特定的推理,這些推理無法高效地編碼到一個通用模型中。

從模仿到思考:生成式AI的進化之路

進入認知架構(gòu),或者說你的系統(tǒng)如何思考:代碼流和模型交互的流程,它接收用戶輸入并執(zhí)行行動或生成響應(yīng)。

例如,在Factory的案例中,他們的每個"機器人"產(chǎn)品都有一個定制的認知架構(gòu),模仿人類思考解決特定任務(wù)的方式,比如審查拉取請求或編寫并執(zhí)行將服務(wù)從一個后端更新到另一個后端的遷移計劃。Factory的機器人將分解所有依賴關(guān)系,提出相關(guān)的代碼更改,添加單元測試,并讓人類進行審查。然后在批準后,在開發(fā)環(huán)境中運行所有文件的更改,如果所有測試都通過,就合并代碼。就像人類可能做的那樣在一系列離散的任務(wù)中,而不是一個通用的黑盒答案。

應(yīng)用程序發(fā)生了什么?

想象一下你想在AI領(lǐng)域創(chuàng)業(yè)。你瞄準技術(shù)棧的哪一層?你想在基礎(chǔ)設(shè)施上競爭嗎?祝你好運擊敗NVIDIA和超大規(guī)模云服務(wù)提供商。你想在模型上競爭嗎?祝你好運擊敗OpenAI和Mark Zuckerberg。你想在應(yīng)用程序上競爭嗎?祝你好運擊敗企業(yè)IT和全球系統(tǒng)集成商。哦,等等。這聽起來實際上是可行的!

基礎(chǔ)模型是神奇的,但它們也是混亂的。主流企業(yè)無法應(yīng)對黑盒、幻覺和笨拙的工作流程。消費者盯著空白的提示符不知道問什么。這些都是應(yīng)用層的機會。

兩年前,許多應(yīng)用層公司被嘲笑為"只是GPT-3的包裝"。今天,這些包裝器被證明是構(gòu)建持久價值的唯一可靠方法之一。最初的"包裝器"已經(jīng)演變成"認知架構(gòu)"。

應(yīng)用層AI公司不僅僅是基礎(chǔ)模型之上的UI。遠非如此。它們有復(fù)雜的認知架構(gòu),通常包括多個基礎(chǔ)模型,頂部有某種路由機制,用于RAG的向量和/或圖形數(shù)據(jù)庫,確保合規(guī)性的護欄,以及模仿人類可能思考工作流程的方式的應(yīng)用邏輯。

服務(wù)即軟件

云轉(zhuǎn)型是軟件即服務(wù)。軟件公司成為云服務(wù)提供商。這是一個3500億美元的機會。得益于主動推理,AI轉(zhuǎn)型是服務(wù)即軟件。軟件公司將勞動力轉(zhuǎn)化為軟件。這意味著可尋址市場不是軟件市場,而是以萬億美元計的服務(wù)市常

從模仿到思考:生成式AI的進化之路

銷售工作意味著什么?Sierra是一個很好的例子。B2C公司將Sierra放在他們的網(wǎng)站上與客戶交談。要完成的工作是解決客戶問題。Sierra按解決問題的數(shù)量獲得報酬。沒有所謂的"席位"。你有一個要完成的工作。Sierra完成它。他們相應(yīng)地得到報酬。

這是許多AI公司的真正北極星。Sierra受益于有一個優(yōu)雅的失敗模式(升級到人工代理)。并非所有公司都如此幸運。一個新興的模式是先部署為副駕駛(人在循環(huán)中),并利用這些重復(fù)來贏得部署為自動駕駛(無人在循環(huán)中)的機會。GitHub Copilot就是一個很好的例子。

一批新的主動應(yīng)用

隨著生成式AI的推理能力正在萌芽,一類新的主動應(yīng)用正在開始出現(xiàn)。

這些應(yīng)用層公司呈現(xiàn)什么樣的形態(tài)?有趣的是,這些公司看起來與它們云前輩不同:

云公司瞄準軟件利潤池。AI公司瞄準服務(wù)利潤池。

云公司銷售軟件($ / 席位)。AI公司銷售工作($ / 結(jié)果)

云公司喜歡自下而上,有無摩擦的分發(fā)。AI公司越來越多地自上而下,采用高接觸、高信任的交付模式。

我們正在看到這些主動應(yīng)用在知識經(jīng)濟的所有部門中涌現(xiàn)出一批新的應(yīng)用。以下是一些例子。

Harvey: AI律師

Glean: AI工作助手

Factory: AI軟件工程師

Abridge: AI醫(yī)療抄寫員

XBOW: AI滲透測試員

Sierra: AI客戶支持代理

通過將這些服務(wù)的邊際成本降低與不斷下降的推理成本一致這些主動應(yīng)用正在擴展和創(chuàng)造新的市常

以XBOW為例。XBOW正在構(gòu)建一個AI"滲透測試員"。"滲透測試"或penetration test是對計算機系統(tǒng)進行的模擬網(wǎng)絡(luò)攻擊,公司進行這種測試是為了評估自己的安全系統(tǒng)。在生成式AI之前,公司只在有限的情況下雇用滲透測試員(例如,當合規(guī)性要求時),因為人工滲透測試很昂貴:這是由高技能人類執(zhí)行的手動任務(wù)。然而,XBOW現(xiàn)在正在展示基于最新推理LLMs構(gòu)建的自動化滲透測試,其性能與最高技能的人類滲透測試員相匹配。這擴大了滲透測試市場,為各種規(guī)模的公司開啟了持續(xù)滲透測試的可能性。

這對SaaS領(lǐng)域意味著什么?

今年早些時候,我們與我們的有限合伙人會面。他們的首要問題是"AI轉(zhuǎn)型會摧毀你現(xiàn)有的云公司嗎?"

我們開始時默認回答是"不會"。初創(chuàng)公司和現(xiàn)有公司之間的經(jīng)典戰(zhàn)斗是初創(chuàng)公司建立分銷渠道和現(xiàn)有公司開發(fā)產(chǎn)品之間的競賽。擁有酷炫產(chǎn)品的年輕公司能否在擁有客戶的現(xiàn)有公司開發(fā)出酷炫產(chǎn)品之前獲得大量客戶?鑒于AI中的大部分魔力來自基礎(chǔ)模型,我們的默認假設(shè)是不會現(xiàn)有公司會做得很好,因為這些基礎(chǔ)模型對它們和創(chuàng)業(yè)公司一樣容易獲取,而且它們還有預(yù)先存在的數(shù)據(jù)和分銷優(yōu)勢。初創(chuàng)公司的主要機會不是取代現(xiàn)有軟件公司而是瞄準可自動化的工作池。

話雖如此,我們現(xiàn)在不那么確定了。請參見上文關(guān)于認知架構(gòu)的內(nèi)容。將模型的原始能力轉(zhuǎn)化為引人注目的、可靠的端到端業(yè)務(wù)解決方案需要大量的工程工作。如果我們只是大大低估了"AI原生"的意義呢?

二十年前,本地軟件公司嘲笑SaaS的想法。"有什么大不了的?我們也可以運行自己的服務(wù)器并通過互聯(lián)網(wǎng)提供這些東西!"當然,從概念上講這很簡單。但隨之而來的是對業(yè)務(wù)的全面重塑。EPD從瀑布式開發(fā)和PRD轉(zhuǎn)向敏捷開發(fā)和AB測試。GTM從自上而下的企業(yè)銷售和牛排晚宴轉(zhuǎn)向自下而上的PLG和產(chǎn)品分析。商業(yè)模式從高ASP和維護收入轉(zhuǎn)向高NDR和基于使用的定價。很少有本地公司完成了這個轉(zhuǎn)變。

如果AI是一個類似的轉(zhuǎn)變呢?AI的機會是否既可以銷售工作又可以替代軟件?

通過Day.ai,我們看到了未來的一瞥。Day是一個AI原生CRM。系統(tǒng)集成商通過配置Salesforce來滿足您的需求而賺取數(shù)十億美元。只需訪問您的電子郵件和日歷,并回答一頁問卷,Day就會自動生成一個完全適合您業(yè)務(wù)的CRM。它還沒有所有的鈴鐺和口哨(暫時),但自動生成的CRM的魔力,無需人工輸入即可保持新鮮,已經(jīng)讓人們開始轉(zhuǎn)向它。

投資領(lǐng)域

作為投資者,我們在哪里投入精力?資金在哪里部署?以下是我們的快速看法。

基礎(chǔ)設(shè)施

這是超大規(guī)模云服務(wù)提供商的領(lǐng)域。它受博弈論行為驅(qū)動,而非微觀經(jīng)濟學。這是風險投資家不該涉足的糟糕領(lǐng)域。

模型

這是超大規(guī)模云服務(wù)提供商和金融投資者的領(lǐng)域。超大規(guī)模云服務(wù)提供商正在用資產(chǎn)負債表換取利潤表,投資的資金最終會以計算收入的形式回流到他們的云業(yè)務(wù)。金融投資者受到"被科學震撼"偏見的影響。這些模型超級酷,這些團隊令人難以置信地令人印象深刻。管他的微觀經(jīng)濟學呢!

開發(fā)者工具和基礎(chǔ)設(shè)施軟件

對戰(zhàn)略投資者來說不太有趣,對風險投資家來說更有趣。在云轉(zhuǎn)型期間,在這一層創(chuàng)建了約15家收入超過10億美元的公司,我們懷疑在AI領(lǐng)域也可能如此。

應(yīng)用

對風險投資最有趣的層。在云轉(zhuǎn)型期間創(chuàng)建了約20家收入超過10億美元的應(yīng)用層公司,在移動轉(zhuǎn)型期間又創(chuàng)建了約20家,我們懷疑在這里也會如此。

從模仿到思考:生成式AI的進化之路

結(jié)束語

在生成式AI的下一幕中,我們預(yù)計將看到推理研發(fā)的影響波及到應(yīng)用層。這些漣漪既快又深。到目前為止,大多數(shù)認知架構(gòu)都包含巧妙的"解除限制"技術(shù);現(xiàn)在這些能力正在更深入地融入模型本身,我們預(yù)計主動應(yīng)用將變得更加復(fù)雜和穩(wěn)健,而且速度很快。

回到研究實驗室,推理和推理時計算在可預(yù)見的未來將繼續(xù)成為一個強烈的主題。現(xiàn)在我們有了一個新的擴展定律,下一場競賽已經(jīng)開始。但對于任何給定的領(lǐng)域,收集真實世界的數(shù)據(jù)并編碼特定領(lǐng)域和應(yīng)用的認知架構(gòu)仍然很困難。這再次是最后一英里應(yīng)用提供商可能在解決現(xiàn)實世界中多樣化問題方面具有優(yōu)勢的地方。

展望未來,像Factory的機器人這樣的多代理系統(tǒng)可能會開始激增,作為建模推理和社會學習過程的方式。一旦我們能夠完成工作,我們就可以有一隊工人完成更多的事情。

我們都急切地等待著生成式AI的"第37步",就像在AlphaGo與李世石的第二局比賽中那樣 - 一個通用AI系統(tǒng)以某種超人的方式讓我們感到驚訝,感覺像是獨立思考。這并不意味著AI"醒來"(AlphaGo并沒有),而是我們模擬了感知、推理和行動的過程,AI可以以真正新穎和有用的方式探索這些過程。這實際上可能是AGI,如果是這樣的話,它不會是一個單一的事件,它只會是技術(shù)的下一個階段。

贊助本站

相關(guān)熱詞: 模仿 思考 生成 進化 之路

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港