當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > 萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:53 瀏覽：241次

導(dǎo)讀：這可能是迄今為止海外對 DeepSeek 最全面的一份分析報(bào)告，來自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式，R1 和 o1 等模型的性能對比，人均年薪千萬的頂尖人才，還指出目前 DeepSeek 的成本估算是錯(cuò)誤的，推測其擁有大約 5 萬塊Hopper GPU……關(guān)于 DeepSeek目前很多甚囂塵上的傳言，這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。圖靈獎(jiǎng)得主楊 ......

這可能是迄今為止海外對 DeepSeek 最全面的一份分析報(bào)告，來自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。

從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式，R1 和 o1 等模型的性能對比，人均年薪千萬的頂尖人才，還指出目前 DeepSeek 的成本估算是錯(cuò)誤的，推測其擁有大約 5 萬塊Hopper GPU……

關(guān)于 DeepSeek目前很多甚囂塵上的傳言，這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

圖靈獎(jiǎng)得主楊立昆最近再次發(fā)表了關(guān)于 DeepSeek 的觀點(diǎn)，他指出硅谷某些圈子的通病，是認(rèn)定別處的創(chuàng)新都是靠作弊得來的。

而科技要快速進(jìn)步，恰恰需要讓更多人才參與并共享創(chuàng)新成果。在 DeepSeek 的開源模型上，我們也看到了這種愿景。

報(bào)告原文：

https://semianalysis.com/2025/01/31/deepseek-debates/

APPSO 整理了這篇分析報(bào)告中的關(guān)鍵要點(diǎn)：

推測 DeepSeek 大約有5萬塊 Hopper GPU，在 GPU 上的投資總額超過 5 億美元。

廣為討論的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費(fèi)，這只是模型總成本的一部分。

DeepSeek 團(tuán)隊(duì)目前約 150 人，從北大浙大等中國高校招聘人才，年薪可達(dá)千萬。

多頭潛在注意力（MLA）是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng)新，將每次查詢所需的 KV 緩存減少了約 93.3%。

在推理性能上 R1 與 o1 不相上下，而 o3 的能力明顯高于 R1 和 o1。

DeepSeek 風(fēng)暴席卷全球

過去一周，DeepSeek 成為了全世界人們唯一熱議的話題。

目前，DeepSeek 的日活（據(jù)悉超過 1900萬）已經(jīng)遠(yuǎn)高于 Claude、Perplexity 甚至 Gemini。

然而，對于長期關(guān)注 AI 行業(yè)的人，這個(gè)消息不算新鮮。我們已經(jīng)討論 DeepSeek 數(shù)月，對這家公司并不陌生，但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認(rèn)為 DeepSeek 極具才華，而美國更廣泛的公眾并不在意。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

當(dāng)世界終于關(guān)注到這家公司，其中狂熱的輿論并沒有完全反映它的真實(shí)情況。

我們想強(qiáng)調(diào)的是，輿論已經(jīng)發(fā)生了轉(zhuǎn)變。上個(gè)月，當(dāng) Scaling Laws （擴(kuò)展定律）被打破時(shí)，我們就已揭穿了這個(gè)神話；如今，算法改進(jìn)的速度過快，而這在某種程度上對英偉達(dá)和 GPU 不利。

現(xiàn)在大家討論的是，DeepSeek 效率如此之高，以至于我們不再需要更多的計(jì)算資源，而由于模型的變革，出現(xiàn)了巨大的產(chǎn)能過剩。

雖然杰文斯悖論（Jevons Paradox）也被過度炒作，但它更接近現(xiàn)實(shí)，因?yàn)檫@些模型已經(jīng)引發(fā)了需求，對 H100 和 H200 的定價(jià)產(chǎn)生了實(shí)質(zhì)性的影響。

編者注：杰文斯悖論簡單來說就是，當(dāng)某種資源的使用效率提高后，雖然單次使用時(shí)消耗更少，但因?yàn)槌杀窘档�、使用更方便，反而可能讓人們用得更多，�?dǎo)致整體消耗量反而上升。

5 萬塊 Hopper GPU

幻方量化是一家中國對沖基金，也是最早在其交易算法中采用 AI 的先行者。他們早早就意識(shí)到 AI 在金融以外領(lǐng)域的潛力以及擴(kuò)展能力的重要性，因此不斷增加 GPU 的供應(yīng)。

經(jīng)過使用數(shù)千個(gè) GPU 集群進(jìn)行模型實(shí)驗(yàn)后，幻方量化在 2021 年，在任何出口限制出臺(tái)之前，就投資了 10000 個(gè) A100 GPU。

這筆投資得到了回報(bào)。隨著幻方量化的不斷進(jìn)步，他們意識(shí)到是時(shí)候在 2023 年 5 月剝離出「DeepSeek」，以更專注地追求進(jìn)一步的 AI 能力。

當(dāng)時(shí)由于外部投資者對 AI 缺乏興趣（主要擔(dān)心商業(yè)模式問題），幻方量化自籌資金成立了這家公司。如今，幻方量化與 DeepSeek 經(jīng)常共享資源，包括人力和計(jì)算資源。

如今，DeepSeek 已經(jīng)發(fā)展成為一項(xiàng)嚴(yán)肅且協(xié)同的重要項(xiàng)目，絕非很多媒體所稱的「副業(yè)項(xiàng)目」。

我們相信即使考慮到出口管制因素，他們在 GPU 上的投資總額超過 5 億美元。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

我們認(rèn)為，他們大約擁有 50000 個(gè) Hopper GPU，但這并不等同于擁有 50000 個(gè) H100 GPU。

英偉達(dá)根據(jù)不同法規(guī)要求推出了不同版本的 H100（例如 H800、H20），目前只有 H20 可供中國大模型公司使用。需要注意的是，H800 的計(jì)算能力與 H100 相同，但其網(wǎng)絡(luò)帶寬較低。

我們認(rèn)為 DeepSeek 擁有大約 10000 個(gè) H800 和大約 10000 個(gè) H100。此外，他們還訂購了更多的 H20，過去 9 個(gè)月內(nèi)，英偉達(dá)已為中國市場生產(chǎn)了超過 1000000 個(gè)此類 GPU。

這些 GPU 在幻方量化和 DeepSeek 之間共享，并在地理上有所分布。它們被用于交易、推理、訓(xùn)練和研究。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

我們的分析顯示，DeepSeek 的服務(wù)器資本支出總額約為 16 億美元，其中與運(yùn)營這些集群相關(guān)的成本高達(dá) 9.44 億美元。

同樣，由于資源集中化是一大挑戰(zhàn)，所有 AI 實(shí)驗(yàn)室和超大規(guī)模云服務(wù)商都擁有比單次訓(xùn)練運(yùn)行所使用的 GPU 數(shù)量要多得多，用于研究和訓(xùn)練的任務(wù)。

年薪近千萬，在中國高校挖頂尖人才

DeepSeek 完全從中國招聘人才，不拘泥于以往的資歷，而是高度重視能力與好奇心。DeepSeek 定期在北京大學(xué)、浙江等頂尖高校舉辦招聘活動(dòng)，許多員工均畢業(yè)于這些院校。

崗位職責(zé)并完全固定，招聘時(shí)會(huì)有一定靈活性，招聘廣告甚至宣稱可以無限制調(diào)用 10000 多個(gè) GPU 。

這些職位競爭極為激烈，據(jù)稱對有潛力的候選人提供的薪資超過 130 萬美元（約合 934 萬人民幣），遠(yuǎn)高于中國大型科技公司和 AI 實(shí)驗(yàn)室（如 Moonshot）等競爭對手。

目前 DeepSeek 約有 150 名員工，但正在迅速擴(kuò)張。

歷史證明，一家資金充足且專注的小型初創(chuàng)公司往往能夠突破界限。

DeepSeek 不具備像 Google 那樣的官僚主義，由于其自籌資金，能夠迅速推進(jìn)新想法。

然而，與 Google 類似，DeepSeek（在大多數(shù)情況下）自建數(shù)據(jù)中心，而不依賴外部方或供應(yīng)商。這為進(jìn)一步實(shí)驗(yàn)提供了更大空間，使他們能夠在整個(gè)技術(shù)棧上實(shí)現(xiàn)創(chuàng)新。

我們認(rèn)為，他們是當(dāng)今唯一最優(yōu)秀的「開源權(quán)重」實(shí)驗(yàn)室，超越了 Meta 的 Llama 項(xiàng)目、Mistral 以及其他競爭者。

DeepSeek 的極低成本被誤讀了

DeepSeek 的價(jià)格與效率引發(fā)了硅谷科技圈地震的關(guān)鍵。

然而，關(guān)于 DeepSeek V3 的訓(xùn)練成本為 600 萬美元這個(gè)廣為流傳的數(shù)字，其實(shí)是片面的。這相當(dāng)于只關(guān)注產(chǎn)品物料清單中的某一部分，并將其視為全部成本。預(yù)訓(xùn)練成本僅僅是總成本中很小的一部分。

我們認(rèn)為，預(yù)訓(xùn)練所支出的成本，遠(yuǎn)遠(yuǎn)不能代表模型所花費(fèi)的總成本。

我們相信 DeepSeek 在硬件上的支出遠(yuǎn)超過 5 億美元。他們?yōu)榱碎_發(fā)新的架構(gòu)創(chuàng)新，在模型開發(fā)過程中，花費(fèi)了大量資金用于測試新思路、新架構(gòu)和消融實(shí)驗(yàn)。

多頭潛在注意力（Multi-Head Latent Attention） DeepSeek 的一項(xiàng)關(guān)鍵創(chuàng)新，耗時(shí)數(shù)月開發(fā)，花費(fèi)了整個(gè)團(tuán)隊(duì)的大量人力和 GPU 計(jì)算時(shí)間。

論文中提到的 600 萬美元成本僅指預(yù)訓(xùn)練過程中 GPU 的花費(fèi)，這只是模型總成本的一部分。研發(fā)費(fèi)用以及硬件本身的總體擁有成本等重要部分并未包含在內(nèi)。

作為參考，Claude 3.5 Sonnet 的訓(xùn)練成本達(dá)數(shù)千萬美元，如果那就是 Anthropic 的全部成本，那么他們就沒必要從 Google 融資數(shù)十億、從亞馬遜融資數(shù)十億美元。因?yàn)檫@是他們進(jìn)行實(shí)驗(yàn)、提出新架構(gòu)、收集和清洗數(shù)據(jù)、支付員工工資的必要成本。

那么，DeepSeek 是如何獲得如此大規(guī)模的集群的呢？出口管制的滯后是關(guān)鍵，我們會(huì)在下文將詳細(xì)討論。

V3 讓性能差距縮小的秘訣

毫無疑問，V3 是一款令人印象深刻的模型，但值得強(qiáng)調(diào)的是，它的「令人印象深刻」是相對于什么而言。

許多人將 V3 與 GPT-4o 進(jìn)行比較，并強(qiáng)調(diào) V3 在性能上超越了 4o，但 GPT-4o 是在 2024 年 5 月發(fā)布的。以當(dāng)下 AI 的發(fā)展速度，算法改進(jìn)方面那個(gè)時(shí)候和現(xiàn)在已是天壤之別。此外，我們并不驚訝在經(jīng)過一定時(shí)間后，用更少的計(jì)算資源就能實(shí)現(xiàn)相當(dāng)或更強(qiáng)的能力。

推理成本大幅下降正是 AI 改進(jìn)的標(biāo)志。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

舉個(gè)例子，一些可以在筆記本電腦上運(yùn)行的小模型，其性能可與需要超級(jí)計(jì)算機(jī)訓(xùn)練，以及需要大量 GPU 推理的 GPT-3 相媲美。換句話說，算法改進(jìn)使得用更少的計(jì)算資源即可訓(xùn)練和推理具備相同性能的模型，而這種模式在業(yè)內(nèi)以及出現(xiàn)了多次。

這一次世界終于注意到了，是因?yàn)樗鼇碜灾袊囊患覍?shí)驗(yàn)室，但小模型性能提升并不是什么新鮮事。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

目前行業(yè)的趨勢是，AI 實(shí)驗(yàn)室在投入的絕對資金上不斷增加，以獲取更高的智能水平。

據(jù)估算，算法效率每年進(jìn)步 4 倍，即每過一年，用于達(dá)到相同性能的計(jì)算資源減少 4 倍。

Anthropic 的 CEO Dario 認(rèn)為，算法進(jìn)步甚至?xí)�，可以�?shí)現(xiàn) 10 倍的提升。

就 GPT-3 質(zhì)量的推理價(jià)格而言，成本已經(jīng)下降了 1200 倍。

在研究 GPT-4 的成本時(shí)，我們也看到了類似的下降趨勢，盡管處于曲線的較早階段。時(shí)間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。

在這種情況下，我們看到算法改進(jìn)和優(yōu)化使得成本降低 10 倍，同時(shí)性能提升 10 倍。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

需要說明的是，DeepSeek 的獨(dú)特之處在于他們率先實(shí)現(xiàn)了這種成本和性能水平。

雖然 Mistral 和 Llama 模型也曾在開源模型上做過類似的事情，但 DeepSeek 做到的程度獨(dú)樹一幟。如果到了年底，成本再下降 5 倍，也請不要感到驚訝。

R1 憑什么迅速追上 OpenAI o1

大家熱議的另一個(gè)話題，是 R1 能夠達(dá)到與 o1 相當(dāng)?shù)男Ч�，�?o1 僅在 9 月發(fā)布。

僅僅幾個(gè)月時(shí)間，DeepSeek 是如何如此迅速地趕上的呢？

問題的關(guān)鍵在于，推理能力形成了一種全新的范式。

推理范式迭代速度更快，且以較少的計(jì)算資源即可獲得顯著收益。正如我們在擴(kuò)展定律報(bào)告中提到的，以往的范式依賴于預(yù)訓(xùn)練，而這種方式不僅成本越來越高，且已經(jīng)難以取得穩(wěn)健的進(jìn)步。

新的推理范式，專注于通過合成數(shù)據(jù)生成和在現(xiàn)有模型上進(jìn)行后訓(xùn)練中的強(qiáng)化學(xué)習(xí)來提升推理能力，從而以更低的成本實(shí)現(xiàn)更快的進(jìn)步。

較低的入門門檻加上易于優(yōu)化，使得 DeepSeek 能夠比過去更快地復(fù)制 o1 方法。隨著各方探索如何在這一新范式下進(jìn)一步擴(kuò)展，我們預(yù)計(jì)不同模型在匹配性能的時(shí)間差距將會(huì)拉大。

需要注意的是，R1 論文中沒有提及所使用的計(jì)算資源。這絕非偶然為了生成用于后訓(xùn)練的合成數(shù)據(jù)，R1 需要大量的計(jì)算資源，更不用說強(qiáng)化學(xué)習(xí)了。

R1 是一款非常優(yōu)秀的模型，但它披露的一些基準(zhǔn)測試也具有誤導(dǎo)性。R1 特意沒有提及那些它并不領(lǐng)先的基準(zhǔn)測試，雖然在推理性能上 R1 與 o1 不相上下，但在每項(xiàng)指標(biāo)上它并不都是明顯的贏家，在許多情況下甚至不如 o1。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

這里我們還沒有提到 o3。o3 的能力明顯高于 R1 和 o1。實(shí)際上，OpenAI 最近分享了 o3 的結(jié)果（還提前發(fā)布了 o3-mini ），其基準(zhǔn)測試的擴(kuò)展呈垂直趨勢。

這似乎再次證明了「深度學(xué)習(xí)遭遇瓶頸」，但這個(gè)瓶頸不同以往。

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估

與 Google 的推理模型不相上下

盡管 R1 的炒作熱潮不斷，但很多人忽略了，一家市值 2.5 萬億美元的美國公司在上個(gè)月以更低的價(jià)格發(fā)布了一款推理模型：Google 的 Gemini Flash 2.0 Thinking。

相關(guān)熱詞： seek hopper gpu 工資人才年薪

上一篇：普通人如何用機(jī)器人創(chuàng)業(yè)？專家：低成本可升級(jí)人形機(jī)器人將開啟財(cái)富增長新時(shí)代

下一篇：DeepSeek火爆引爭議，中國AI“軟、硬”挑戰(zhàn)猶存亟待破局

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:53 瀏覽：241次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:53 瀏覽：241次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

萬字揭秘DeepSeek：頂尖AI人才年薪千萬，訓(xùn)練成本被低估
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-04 18:08:53 瀏覽：241次