大模型六小龍:在大廠夾縫中求生存。圖片來源:視覺中國
文丨墨行
編輯丨葉錦言
出品丨深網科技新聞小滿工作室
編者按:未來已來,《深網》在歲末年初對于熱門賽道做了一些復盤和展望,這是第一篇主角是AI獨角獸們。
AI大模型有先發(fā)優(yōu)勢還是后發(fā)優(yōu)勢?這是一家早期投資機構合伙人一直在思考的問題。
“大家都在追趕國外先進大模型,對于AI六小龍主要是看誰的造血能力強,可以等到技術平權以后再去抄,但是如果這樣的話,他們的先發(fā)優(yōu)勢也就沒有了。”該合伙人表示。
如果說AI大模型無法持續(xù)跟上最新模型進度,或者落后于開源模型,那么這些AI大模型該如何生存下去,轉型還是被并購,是不是后發(fā)優(yōu)勢的創(chuàng)業(yè)公司反而更能夠摸著石頭過河?
谷歌研究員就曾在博客中提出,當免費的、不受限制的開源模型與閉源模型質量相當時,人們不會為受限制的模型付費,而開源模型和閉源模型的差距正在快速縮小。
曾經以為在生成式AI領域存在的飛輪效應的認知開始有所動搖。此前紅杉美國David Cahn就在其發(fā)表的文章中指出,希望能夠通過更多用戶使用獲取更多數(shù)據的大模型公司發(fā)現(xiàn)這并未證明有效。
對于AI大模型獨角獸創(chuàng)始人而言,如何生存,這個話題將從2024年持續(xù)到2025年,這是大模型獨角獸的創(chuàng)始人始終需要面對的一個問題。進入2025年,大模型獨角獸的淘汰賽開啟了。
1月6日,一則有關“01萬物散伙了 卡和預訓練團隊賣給阿里了”的傳聞開始出現(xiàn)在社交媒體。隨即,零一萬物創(chuàng)始人兼CEO李開復,對此進行了辟謠:
而據《智能涌現(xiàn)》:零一萬物與部分地方政府和國資的融資進展并不順利,“賬上的錢撐不到一年”。
成本開支何時轉為資產項
之前紅杉美國合伙人David Cahn曾在《AI的6000億美元問題》文章中算過一筆賬,AI公司在訓練大模型投入和產生收入之間仍然有6000億的缺口。AI何時才能將成本項轉化為資產項是投資人一直疑慮的問題。
若想追趕下一代GPT模型且預訓練Scaling Law 持續(xù)奏效的情況下,有分析師此前預測單個十萬卡集群需要40億美元資本開支,這還是沒有將電源等其他投入考慮進去。
百度2023年凈利潤為203.15億元,想要參與下一個模型的競爭很難,更何況是還沒有核心現(xiàn)金牛業(yè)務的其他AI大模型創(chuàng)業(yè)公司,很難投入到這場資源密集的競爭。
此前不久市場上一直有傳AI六小龍已經在今年上半年開始不做預訓練了,繼而轉為后訓練。不過據作者多方求證,實際上AI六小龍仍然在做預訓練,不過側重上或許不同。
據一位早期投資人私下表示,實際上Kimi 更側重Post-training(Post-training是指在預訓練模型的基礎上,通過進一步的訓練來優(yōu)化模型性能的過程),因為后者效果更好,只要工程化后產品好用就可以。王小川此前也曾私下表示認可Post-training的做法。
海外媒體information 就曾發(fā)表文章稱GPT提升減速,AI 產業(yè)界正將重心轉向在初始訓練后再對模型進行提升。
GPT 01 的出現(xiàn)給大家打開了另一種Scaling Law的可能。通過在后訓練環(huán)節(jié)進行RL 來實現(xiàn)模型在推理、數(shù)學方面能力提升。GPT 01在post training 算力方面的需求可能僅為預訓練的1%-10%,推理算力是GPT 40的十倍。
對于AI大模型創(chuàng)業(yè)公司來說側重后訓練也是出于算力限制和成本方面的考慮。
據接近中芯國際相關人士透露,2024年國內在芯片上的需求量反而下降了。“2024年只有少量像騰訊、字節(jié)這樣的大廠在正常采購,以前很多中型客戶今年都沒有采購,AI六小龍其實采購量不大,租用比較多。”