與西方同行相比,中國大模型公司面臨著尖端芯片獲娶資金投入等方面的窒礙,但是他們正在通過降低成本來打造具有國際競爭力的模型。
在頭部的初創(chuàng)企業(yè)中,如零一萬物(01.ai)和DeepSeek選擇使用優(yōu)質(zhì)但較小數(shù)據(jù)集來訓(xùn)練AI模型、招聘一批二十多歲的技術(shù)狂人,不但能做獨樹一幟的科研,而且成本也較低。
科技巨頭中,如阿里巴巴、百度和字節(jié)跳動,也燃起了大模型價格戰(zhàn),將調(diào)用大語言模型生成回答這段技術(shù)所需的“推理”成本降低了 90% 以上,僅為美國同行的價格的極小一部分。
位于北京的零一萬物是由前谷歌中國總裁李開復(fù)領(lǐng)導(dǎo)。他表示,零一萬物在較小的數(shù)據(jù)集上訓(xùn)練出了對算力要求較低的模型,并且創(chuàng)造了;步ǖ姆椒,結(jié)合了硬件、芯片、內(nèi)存、AI基礎(chǔ)軟件的垂直整合和優(yōu)化,打造了Yi-Lightning(閃電模型)。該模型比OpenAI GPT4o便宜31倍的推理成本。
本周,在由加州大學(xué)伯克利分校 SkyLab 和 LMSYS 的研究人員所發(fā)布的大模型排名中,零一萬物憑借 Yi-Lightning 模型與發(fā)布Grok-2、與馬斯克創(chuàng)辦的xAI并列為全球排名第三的大模型公司,僅次于 OpenAI 和谷歌的最新模型。
LMSYS是基于用戶提出真實問題,然后針對不同模型的回答給出盲測投票,最終匯總成為對各個模型的評分。OpenAI、谷歌都在這里發(fā)布所有的模型,并接受LMSYS的排名。包括字節(jié)跳動、阿里巴巴和 DeepSeek 等其他中國大模型玩家,也悄悄爬上了 LLM 排名榜。
李開復(fù)告訴《金融時報》:“中國的優(yōu)勢在于制造真正實惠的推理引擎,這是AI應(yīng)用蓬勃發(fā)展最重要的一件事。”
零一萬物 Yi-Lightning 的推理成本是每百萬個 token 收取 14 美分(0.99 元人民幣),而 OpenAI 的較小模型 o1-mini 每百萬個 token 則需要 26 美分。與此同時,OpenAI 的更大尺寸的模型 GPT-4o 的推理成本為每百萬個 token 4.40美元。AI 大模型生成回答所用的 token 數(shù)量取決于查詢的復(fù)雜度。
李開復(fù)還表示,Yi-Lightning 模型的“預(yù)訓(xùn)練”成本為 300 萬美元,這指的是模型關(guān)鍵訓(xùn)練階段的成本,之后可以根據(jù)不同的應(yīng)用場景進行微調(diào)或定制。這預(yù)訓(xùn)練成本僅為 OpenAI 訓(xùn)練GPT-4的3%,而且Yi-Lightning性能還超越了GPT-4。他補充說,零一萬物的科研北極星不是“無論多貴多大,打造世界第一模型”,而是要打造一個世界第一梯隊的模型、但是成本超低,能打造出高性價比模型,讓開發(fā)者構(gòu)建應(yīng)用而不被推理成本壓垮。
包括零一萬物、DeepSeek、MiniMax 和階躍星辰在內(nèi)的許多中國大模型公司,都采用了所謂的“混合專家”模型架構(gòu),一種被美國研究人員率先提出的模型架構(gòu)。
與 “從互聯(lián)網(wǎng)和其他來源抓取數(shù)據(jù)構(gòu)建起龐大數(shù)據(jù)庫上,并一次性地訓(xùn)練一個龐大的‘稠密模型’”不同,“混合專家”模型選擇將多個對不同領(lǐng)域可稱為“專家”的神經(jīng)網(wǎng)絡(luò)集合到一起。
研究人員認(rèn)為,混合專家模型架構(gòu)是以較少的算力,達到與稠密模型相同智能水平的關(guān)鍵技術(shù)。但這種方法訓(xùn)練失敗的可能性更大,因為在模型訓(xùn)練過程中需要同時協(xié)調(diào)多個“專家”模型,而非集中關(guān)注單個模型的訓(xùn)練。因此不少美國公司(如Meta的Llama)就沒有開發(fā)出來,而中國公司似乎掌握了“混合專家”模型架構(gòu)。尤其是零一萬物和Deepseek,做出了世界最快的混合專家模型。
鑒于獲取尖端AI 芯片供給的禁令和難度,中國 AI 領(lǐng)域的玩家在過去一年中一直在競相開發(fā)高質(zhì)量數(shù)據(jù)集來訓(xùn)練這些“專家”,使得自家模型具備與競爭對手不同的特色。李開復(fù)表示,零一萬物采用了遠遠優(yōu)于傳統(tǒng)網(wǎng)絡(luò)抓取方法的數(shù)據(jù)收集方法,包括掃描書籍,爬取深網(wǎng)區(qū)的數(shù)據(jù),使用新穎的合成數(shù)據(jù)技術(shù)等。
“工程師在數(shù)據(jù)標(biāo)注和排序方面需要做很多不為人知的艱苦工作,”但他補充說,中國擁有大量技術(shù)厲害且刻苦耐勞的工程人才,在這方面比美國更有優(yōu)勢。
“中國的優(yōu)勢不一定能在預(yù)算不封頂?shù)那闆r下做出前所未有的突破性研究,但肯定能更好、更快、更可靠和更低成本地實現(xiàn)落地”,李開復(fù)說。