展會(huì)信息港展會(huì)大全

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-04 18:08:53   瀏覽:241次  

導(dǎo)讀:這可能是迄今為止海外對 DeepSeek 最全面的一份分析報(bào)告,來自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對比,人均年薪千萬的頂尖人才,還指出目前 DeepSeek 的成本估算是錯(cuò)誤的,推測其擁有大約 5 萬塊Hopper GPU……關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。圖靈獎(jiǎng)得主楊 ......

這可能是迄今為止海外對 DeepSeek 最全面的一份分析報(bào)告,來自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。

從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對比,人均年薪千萬的頂尖人才,還指出目前 DeepSeek 的成本估算是錯(cuò)誤的,推測其擁有大約 5 萬塊Hopper GPU……

關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

圖靈獎(jiǎng)得主楊立昆最近再次發(fā)表了關(guān)于 DeepSeek 的觀點(diǎn),他指出硅谷某些圈子的通病,是認(rèn)定別處的創(chuàng)新都是靠作弊得來的。

而科技要快速進(jìn)步,恰恰需要讓更多人才參與并共享創(chuàng)新成果。在 DeepSeek 的開源模型上,我們也看到了這種愿景。

報(bào)告原文:

https://semianalysis.com/2025/01/31/deepseek-debates/

APPSO 整理了這篇分析報(bào)告中的關(guān)鍵要點(diǎn):

推測 DeepSeek 大約有5萬塊 Hopper GPU,在 GPU 上的投資總額超過 5 億美元。

廣為討論的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費(fèi),這只是模型總成本的一部分。

DeepSeek 團(tuán)隊(duì)目前約 150 人,從北大浙大等中國高校招聘人才,年薪可達(dá)千萬。

多頭潛在注意力(MLA) 是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng)新,將每次查詢所需的 KV 緩存減少了約 93.3%。

在推理性能上 R1 與 o1 不相上下,而 o3 的能力明顯高于 R1 和 o1。

DeepSeek 風(fēng)暴席卷全球

過去一周,DeepSeek 成為了全世界人們唯一熱議的話題。

目前,DeepSeek 的日活(據(jù)悉超過 1900萬)已經(jīng)遠(yuǎn)高于 Claude、Perplexity 甚至 Gemini。

然而,對于長期關(guān)注 AI 行業(yè)的人,這個(gè)消息不算新鮮。我們已經(jīng)討論 DeepSeek 數(shù)月,對這家公司并不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認(rèn)為 DeepSeek 極具才華,而美國更廣泛的公眾并不在意。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

當(dāng)世界終于關(guān)注到這家公司,其中狂熱的輿論并沒有完全反映它的真實(shí)情況。

我們想強(qiáng)調(diào)的是,輿論已經(jīng)發(fā)生了轉(zhuǎn)變。上個(gè)月,當(dāng) Scaling Laws (擴(kuò)展定律)被打破時(shí),我們就已揭穿了這個(gè)神話;如今,算法改進(jìn)的速度過快,而這在某種程度上對英偉達(dá)和 GPU 不利。

現(xiàn)在大家討論的是,DeepSeek 效率如此之高,以至于我們不再需要更多的計(jì)算資源,而由于模型的變革,出現(xiàn)了巨大的產(chǎn)能過剩。

雖然杰文斯悖論(Jevons Paradox)也被過度炒作,但它更接近現(xiàn)實(shí),因?yàn)檫@些模型已經(jīng)引發(fā)了需求,對 H100 和 H200 的定價(jià)產(chǎn)生了實(shí)質(zhì)性的影響。

編者注:杰文斯悖論簡單來說就是,當(dāng)某種資源的使用效率提高后,雖然單次使用時(shí)消耗更少,但因?yàn)槌杀窘档、使用更方便,反而可能讓人們用得更多,?dǎo)致整體消耗量反而上升。

5 萬塊 Hopper GPU

幻方量化是一家中國對沖基金,也是最早在其交易算法中采用 AI 的先行者。他們早早就意識(shí)到 AI 在金融以外領(lǐng)域的潛力以及擴(kuò)展能力的重要性,因此不斷增加 GPU 的供應(yīng)。

經(jīng)過使用數(shù)千個(gè) GPU 集群進(jìn)行模型實(shí)驗(yàn)后,幻方量化在 2021 年,在任何出口限制出臺(tái)之前,就投資了 10000 個(gè) A100 GPU。

這筆投資得到了回報(bào)。隨著幻方量化的不斷進(jìn)步,他們意識(shí)到是時(shí)候在 2023 年 5 月剝離出 「DeepSeek」,以更專注地追求進(jìn)一步的 AI 能力。

當(dāng)時(shí)由于外部投資者對 AI 缺乏興趣(主要擔(dān)心商業(yè)模式問題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek 經(jīng)常共享資源,包括人力和計(jì)算資源。

如今,DeepSeek 已經(jīng)發(fā)展成為一項(xiàng)嚴(yán)肅且協(xié)同的重要項(xiàng)目,絕非很多媒體所稱的「副業(yè)項(xiàng)目」。

我們相信即使考慮到出口管制因素,他們在 GPU 上的投資總額超過 5 億美元。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

我們認(rèn)為,他們大約擁有 50000 個(gè) Hopper GPU,但這并不等同于擁有 50000 個(gè) H100 GPU。

英偉達(dá)根據(jù)不同法規(guī)要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中國大模型公司使用。需要注意的是,H800 的計(jì)算能力與 H100 相同,但其網(wǎng)絡(luò)帶寬較低。

我們認(rèn)為 DeepSeek 擁有大約 10000 個(gè) H800 和大約 10000 個(gè) H100。此外,他們還訂購了更多的 H20,過去 9 個(gè)月內(nèi),英偉達(dá)已為中國市場生產(chǎn)了超過 1000000 個(gè)此類 GPU。

這些 GPU 在 幻方量化和 DeepSeek 之間共享,并在地理上有所分布。它們被用于交易、推理、訓(xùn)練和研究。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

我們的分析顯示,DeepSeek 的服務(wù)器資本支出總額約為 16 億美元,其中與運(yùn)營這些集群相關(guān)的成本高達(dá) 9.44 億美元。

同樣,由于資源集中化是一大挑戰(zhàn),所有 AI 實(shí)驗(yàn)室和超大規(guī)模云服務(wù)商都擁有比單次訓(xùn)練運(yùn)行所使用的 GPU 數(shù)量要多得多,用于研究和訓(xùn)練的任務(wù)。

年薪近千萬,在中國高校挖頂尖人才

DeepSeek 完全從中國招聘人才,不拘泥于以往的資歷,而是高度重視能力與好奇心。DeepSeek 定期在北京大學(xué)、浙江等頂尖高校舉辦招聘活動(dòng),許多員工均畢業(yè)于這些院校。

崗位職責(zé)并完全固定,招聘時(shí)會(huì)有一定靈活性,招聘廣告甚至宣稱可以無限制調(diào)用 10000 多個(gè) GPU 。

這些職位競爭極為激烈,據(jù)稱對有潛力的候選人提供的薪資超過 130 萬美元(約合 934 萬人民幣),遠(yuǎn)高于中國大型科技公司和 AI 實(shí)驗(yàn)室(如 Moonshot)等競爭對手。

目前 DeepSeek 約有 150 名員工,但正在迅速擴(kuò)張。

歷史證明,一家資金充足且專注的小型初創(chuàng)公司往往能夠突破界限。

DeepSeek 不具備像 Google 那樣的官僚主義,由于其自籌資金,能夠迅速推進(jìn)新想法。

然而,與 Google 類似,DeepSeek(在大多數(shù)情況下)自建數(shù)據(jù)中心,而不依賴外部方或供應(yīng)商。這為進(jìn)一步實(shí)驗(yàn)提供了更大空間,使他們能夠在整個(gè)技術(shù)棧上實(shí)現(xiàn)創(chuàng)新。

我們認(rèn)為,他們是當(dāng)今唯一最優(yōu)秀的「開源權(quán)重」實(shí)驗(yàn)室,超越了 Meta 的 Llama 項(xiàng)目、Mistral 以及其他競爭者。

DeepSeek 的極低成本被誤讀了

DeepSeek 的價(jià)格與效率引發(fā)了硅谷科技圈地震的關(guān)鍵。

然而,關(guān)于 DeepSeek V3 的訓(xùn)練成本為 600 萬美元這個(gè)廣為流傳的數(shù)字,其實(shí)是片面的。這相當(dāng)于只關(guān)注產(chǎn)品物料清單中的某一部分,并將其視為全部成本。預(yù)訓(xùn)練成本僅僅是總成本中很小的一部分。

我們認(rèn)為,預(yù)訓(xùn)練所支出的成本,遠(yuǎn)遠(yuǎn)不能代表模型所花費(fèi)的總成本。

我們相信 DeepSeek 在硬件上的支出遠(yuǎn)超過 5 億美元。他們?yōu)榱碎_發(fā)新的架構(gòu)創(chuàng)新,在模型開發(fā)過程中,花費(fèi)了大量資金用于測試新思路、新架構(gòu)和消融實(shí)驗(yàn)。

多頭潛在注意力(Multi-Head Latent Attention)  DeepSeek 的一項(xiàng)關(guān)鍵創(chuàng)新,耗時(shí)數(shù)月開發(fā),花費(fèi)了整個(gè)團(tuán)隊(duì)的大量人力和 GPU 計(jì)算時(shí)間。

論文中提到的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費(fèi),這只是模型總成本的一部分。研發(fā)費(fèi)用以及硬件本身的總體擁有成本等重要部分并未包含在內(nèi)。

作為參考,Claude 3.5 Sonnet 的訓(xùn)練成本達(dá)數(shù)千萬美元,如果那就是 Anthropic 的全部成本,那么他們就沒必要從 Google 融資數(shù)十億、從亞馬遜融資數(shù)十億美元。因?yàn)檫@是他們進(jìn)行實(shí)驗(yàn)、提出新架構(gòu)、收集和清洗數(shù)據(jù)、支付員工工資的必要成本。

那么,DeepSeek 是如何獲得如此大規(guī)模的集群的呢?出口管制的滯后是關(guān)鍵,我們會(huì)在下文將詳細(xì)討論。

V3 讓性能差距縮小的秘訣

毫無疑問,V3 是一款令人印象深刻的模型,但值得強(qiáng)調(diào)的是,它的「令人印象深刻」是相對于什么而言。

許多人將 V3 與 GPT-4o 進(jìn)行比較,并強(qiáng)調(diào) V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月發(fā)布的。以當(dāng)下 AI 的發(fā)展速度,算法改進(jìn)方面那個(gè)時(shí)候和現(xiàn)在已是天壤之別。此外,我們并不驚訝在經(jīng)過一定時(shí)間后,用更少的計(jì)算資源就能實(shí)現(xiàn)相當(dāng)或更強(qiáng)的能力。

推理成本大幅下降正是 AI 改進(jìn)的標(biāo)志。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

舉個(gè)例子,一些可以在筆記本電腦上運(yùn)行的小模型,其性能可與需要超級(jí)計(jì)算機(jī)訓(xùn)練,以及需要大量 GPU 推理的 GPT-3 相媲美。換句話說,算法改進(jìn)使得用更少的計(jì)算資源即可訓(xùn)練和推理具備相同性能的模型,而這種模式在業(yè)內(nèi)以及出現(xiàn)了多次。

這一次世界終于注意到了,是因?yàn)樗鼇碜灾袊囊患覍?shí)驗(yàn)室,但小模型性能提升并不是什么新鮮事。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

目前行業(yè)的趨勢是,AI 實(shí)驗(yàn)室在投入的絕對資金上不斷增加,以獲取更高的智能水平。

據(jù)估算,算法效率每年進(jìn)步 4 倍,即每過一年,用于達(dá)到相同性能的計(jì)算資源減少 4 倍。

Anthropic 的 CEO Dario 認(rèn)為,算法進(jìn)步甚至?xí),可以?shí)現(xiàn) 10 倍的提升。

就 GPT-3 質(zhì)量的推理價(jià)格而言,成本已經(jīng)下降了 1200 倍。

在研究 GPT-4 的成本時(shí),我們也看到了類似的下降趨勢,盡管處于曲線的較早階段。時(shí)間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。

在這種情況下,我們看到算法改進(jìn)和優(yōu)化使得成本降低 10 倍,同時(shí)性能提升 10 倍。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

需要說明的是,DeepSeek 的獨(dú)特之處在于他們率先實(shí)現(xiàn)了這種成本和性能水平。

雖然 Mistral 和 Llama 模型也曾在開源模型上做過類似的事情,但 DeepSeek 做到的程度獨(dú)樹一幟。如果到了年底,成本再下降 5 倍,也請不要感到驚訝。

R1 憑什么迅速追上 OpenAI o1

大家熱議的另一個(gè)話題,是 R1 能夠達(dá)到與 o1 相當(dāng)?shù)男Ч,?o1 僅在 9 月發(fā)布。

僅僅幾個(gè)月時(shí)間,DeepSeek 是如何如此迅速地趕上的呢?

問題的關(guān)鍵在于,推理能力形成了一種全新的范式。

推理范式迭代速度更快,且以較少的計(jì)算資源即可獲得顯著收益。正如我們在擴(kuò)展定律報(bào)告中提到的,以往的范式依賴于預(yù)訓(xùn)練,而這種方式不僅成本越來越高,且已經(jīng)難以取得穩(wěn)健的進(jìn)步。

新的推理范式,專注于通過合成數(shù)據(jù)生成和在現(xiàn)有模型上進(jìn)行后訓(xùn)練中的強(qiáng)化學(xué)習(xí)來提升推理能力,從而以更低的成本實(shí)現(xiàn)更快的進(jìn)步。

較低的入門門檻加上易于優(yōu)化,使得 DeepSeek 能夠比過去更快地復(fù)制 o1 方法。隨著各方探索如何在這一新范式下進(jìn)一步擴(kuò)展,我們預(yù)計(jì)不同模型在匹配性能的時(shí)間差距將會(huì)拉大。

需要注意的是,R1 論文中沒有提及所使用的計(jì)算資源。這絕非偶然  為了生成用于后訓(xùn)練的合成數(shù)據(jù),R1 需要大量的計(jì)算資源,更不用說強(qiáng)化學(xué)習(xí)了。

R1 是一款非常優(yōu)秀的模型,但它披露的一些基準(zhǔn)測試也具有誤導(dǎo)性。R1 特意沒有提及那些它并不領(lǐng)先的基準(zhǔn)測試,雖然在推理性能上 R1 與 o1 不相上下,但在每項(xiàng)指標(biāo)上它并不都是明顯的贏家,在許多情況下甚至不如 o1。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

這里我們還沒有提到 o3。o3 的能力明顯高于 R1 和 o1。實(shí)際上,OpenAI 最近分享了 o3 的結(jié)果(還提前發(fā)布了 o3-mini ),其基準(zhǔn)測試的擴(kuò)展呈垂直趨勢。

這似乎再次證明了「深度學(xué)習(xí)遭遇瓶頸」,但這個(gè)瓶頸不同以往。

萬字揭秘DeepSeek:頂尖AI人才年薪千萬,訓(xùn)練成本被低估

與 Google 的推理模型不相上下

盡管 R1 的炒作熱潮不斷,但很多人忽略了,一家市值 2.5 萬億美元的美國公司在上個(gè)月以更低的價(jià)格發(fā)布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。

贊助本站

相關(guān)熱詞: seek hopper gpu 工資 人才 年薪

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港