本文約6,000字,建議收藏閱讀
作者|北灣南巷
出品|芯片技術(shù)與工藝
DeepSeek 是近年來在人工智能(AI)領(lǐng)域嶄露頭角的大模型之一,專注于自然語言處理(NLP)與生成式 AI(AIGC)。其核心目標是優(yōu)化 AI 大模型的計算效率,降低訓練成本,同時提升模型推理的性能與可用性。
DeepSeek 通過一系列技術(shù)創(chuàng)新,如高效的 Transformer 架構(gòu)優(yōu)化、混合精度訓練、計算并行優(yōu)化以及分布式存儲管理,使得 AI 訓練和推理的計算需求大幅降低。這些優(yōu)化不僅提升了 AI 模型在推理端的響應(yīng)速度,也降低了 AI 應(yīng)用在實際落地中的算力成本,使得大規(guī)模 AI 計算資源的門檻有所降低,推動了 AI 技術(shù)的進一步普及。
DeepSeek 在 AI 領(lǐng)域的影響主要體現(xiàn)在以下幾個方面:
1. 提高 AI 計算效率:優(yōu)化的計算架構(gòu)使得訓練成本大幅下降,同時提升推理階段的執(zhí)行效率。
2. 降低 AI 模型訓練門檻:減少對高性能 GPU 計算資源的需求,使得更多企業(yè)可以在有限預(yù)算下訓練 AI 大模型。
3. 促進 AI 應(yīng)用的普及:高效的推理優(yōu)化降低了 AI 應(yīng)用的運行成本,有助于推動 AI 在金融、醫(yī)療、智能駕駛等多個領(lǐng)域的商業(yè)化落地。
4. 影響全球 AI 芯片市場:DeepSeek 可能改變市場對算力需求的結(jié)構(gòu)性認知,進而影響 AI 芯片供應(yīng)鏈的布局和投資策略。
#01AI 大模型對算力的需求趨勢 近年來,AI 大模型的發(fā)展速度驚人,從 OpenAI 的 GPT 系列、Google 的 Gemini 到 Meta 的 LLaMA,AI 訓練和推理的算力需求呈指數(shù)級增長。這種增長趨勢主要體現(xiàn)在以下幾個方面:
序號
主題
詳情說明
1
訓練階段的算力需求持續(xù)攀升
- AI模型參數(shù)規(guī)模不斷擴大,如GPT-3(1750億參數(shù))、GPT-4(預(yù)計超1萬億參數(shù))。
- 訓練大模型需要大量高性能計算資源,如NVIDIA H100、A100,AMD MI300,以及國產(chǎn)AI訓練芯片(華為騰910B、壁仞B(yǎng)R100)。
- 訓練計算能力以GPU小時(GPU-hour)或FLOPs衡量,訓練頂級AI模型可能需數(shù)千萬H100 GPU小時。
2
推理階段的算力需求急劇增長
- 訓練完成的AI模型需部署到云端或終端設(shè)備,支持實際應(yīng)用(如聊天機器人、搜索引擎、智能客服等)。
- AI應(yīng)用用戶規(guī)模快速擴大,如ChatGPT、Copilot、Claude、文心一言等日活用戶達千萬級,推理計算需求甚至超過訓練需求。
- 端側(cè)AI(如智能手機、車載AI助手)推動邊緣計算芯片發(fā)展,進一步提升AI推理市場對高效算力的需求。
3
AI計算架構(gòu)向多樣化發(fā)展
- 過去AI訓練和推理主要依賴GPU,但ASIC(如TPU、寒武紀思元芯片)、FPGA、RISC-V及異構(gòu)計算芯片逐步進入AI計算市場。
- 云計算廠商(AWS、Google Cloud、阿里云、華為云)推出專屬AI計算加速芯片,如AWS Inferentia、Google TPU、阿里含光、華為騰等,優(yōu)化大規(guī)模AI任務(wù)計算效率。
AI 大模型的發(fā)展推動了算力需求的持續(xù)增長,并形成了從訓練到推理全鏈條的計算產(chǎn)業(yè)生態(tài)。然而,DeepSeek 的出現(xiàn)可能會改變這一趨勢,它通過優(yōu)化計算架構(gòu)降低訓練成本,使得 AI 計算市場的需求結(jié)構(gòu)發(fā)生潛在變化。 1.1 DeepSeek 對芯片算力市場的短期與長期影響 鑒于 DeepSeek 的技術(shù)創(chuàng)新,將從短期和長期兩個層面探討其對 AI 芯片市場的影響:
影響維度
影響內(nèi)容
可能的短期和長期影響
短期影響:AI 訓練算力需求的變化
- DeepSeek通過優(yōu)化計算效率,降低AI大模型的訓練成本,DeepSeek V3 僅需278.8萬GPU小時,比Llama 3的3930萬H100 GPU小時低90%以上。
- 訓練成本顯著降低,推動AI大模型訓練效率提升。
- 訓練算力需求下降可能導致高端AI計算芯片(如NVIDIA H100、AMD MI300、華為騰910)的短期需求減少。
- 高端AI計算芯片短期需求減少,影響AI服務(wù)器和數(shù)據(jù)中心投資回報。
- 可能導致市場調(diào)整對AI芯片企業(yè)(如NVIDIA、AMD、華為、壁仞、寒武紀)的未來需求預(yù)期,進而影響股價波動。
- 市場調(diào)整,可能引發(fā)AI芯片企業(yè)股價短期波動。
長期影響:AI 推理算力需求的增長
- 盡管DeepSeek降低了訓練成本,AI應(yīng)用普及將推動推理計算需求增長。
- 推理計算需求增大,推動高效推理芯片(如NVIDIA L40S、AWS Inferentia、Google TPU)需求上升。
- 大規(guī)模AI推理將需要在云端、邊緣側(cè)甚至終端設(shè)備上進行,可能導致推理芯片市場擴展。
- AI計算市場將從“訓練主導”轉(zhuǎn)向“推理主導”,影響云計算和服務(wù)器芯片市場格局。
- 國產(chǎn)AI芯片企業(yè)(如華為騰、壁仞科技、天數(shù)智芯等)可能在推理端獲得更大市場份額。
- 國產(chǎn)AI生態(tài)崛起,推動國產(chǎn)AI芯片在推理端的市場占有率增長。
結(jié)構(gòu)性變化:算力架構(gòu)多樣化發(fā)展 隨著 AI 算力需求的變化,未來可能出現(xiàn)多種計算架構(gòu)共存的局面,如 RISC-V AI 處理器、異構(gòu)計算 SoC、低功耗 AI 加速芯片等,以滿足不同場景的 AI 計算需求。
AI 計算芯片的競爭焦點將從“大規(guī)模訓練”轉(zhuǎn)向“高效推理”,未來 AI 芯片設(shè)計將更關(guān)注功耗優(yōu)化、定制化計算單元,以及適應(yīng) AI 算法快速迭代的能力。
綜上,DeepSeek 在優(yōu)化 AI 訓練成本的同時,也將推動 AI 計算市場從訓練算力主導向推理算力主導的方向轉(zhuǎn)型。 1.2DeepSeek 的技術(shù)創(chuàng)新DeepSeek 作為新一代 AI 大模型,在技術(shù)上進行了多方面的創(chuàng)新,尤其在模型架構(gòu)優(yōu)化、訓練方法改進和推理階段優(yōu)化方面,實現(xiàn)了對計算資源的高效利用。其核心目標是降低 AI 訓練成本、減少計算資源消耗,同時提升推理性能,從而在 AI 計算市場上形成競爭優(yōu)勢。
模型架構(gòu)優(yōu)化:如何降低訓練成本和計算資源消耗 DeepSeek 通過對 Transformer 結(jié)構(gòu)進行深度優(yōu)化,降低了 AI 訓練對計算資源的消耗,同時提升了算力利用率。其主要技術(shù)創(chuàng)新包括以下幾個方面:
序號
優(yōu)化技術(shù)
詳細說明
1
高效Transformer結(jié)構(gòu)
- 傳統(tǒng)Transformer采用自注意力機制(Self-Attention),計算復(fù)雜度為O(N),處理長文本時訓練成本高。
- 優(yōu)化措施:
- 稀疏注意力(Sparse Attention):裁剪不必要的依賴關(guān)系,僅保留關(guān)鍵部分,提高計算效率。
- 分層注意力(Hierarchical Attention):低層進行局部注意力計算,高層進行全局注意力計算,減少計算開銷。
- 旋轉(zhuǎn)位置編碼(RoPE):提升長序列學習能力,減少GPU顯存占用。
- 效果:降低訓練計算量,使相同算力下可訓練更大規(guī)模的模型。
2
MoE(專家混合模型)
- MoE機制通過動態(tài)計算分配減少訓練過程中不必要的計算:
- 動態(tài)專家路由(Dynamic Expert Routing):僅激活部分“專家”網(wǎng)絡(luò),而非整個模型,減少計算資源使用。
- 門控機制(Gating Mechanism):根據(jù)輸入數(shù)據(jù)特征,自動選擇最合適的專家模型,降低冗余計算。
- 效果:相比全連接Transformer,計算量不變但表達能力更強,同時減少GPU資源消耗。
3
計算并行優(yōu)化
- 采用多種并行計算方法提升訓練效率:
- 數(shù)據(jù)并行(Data Parallelism):訓練數(shù)據(jù)拆分到多個GPU,提高吞吐量。
- 模型并行(Model Parallelism):分割模型參數(shù)至多個GPU,適用于超大規(guī)模模型訓練。
- 流水線并行(Pipeline Parallelism):將模型拆分成多個階段,不同GPU處理不同階段計算,減少等待時間。
- 效果:提升大規(guī)模訓練效率,在相同硬件資源下完成更大規(guī)模的訓練任務(wù)。
4
混合精度訓練(Mixed Precision Training)
- 采用FP16、BF16和INT8混合精度計算,降低顯存占用,提高計算效率:
- FP16(半精度浮點數(shù)):減少存儲空間,加速矩陣運算。
- BF16(腦浮點數(shù)):減少精度損失,保持計算穩(wěn)定性。
- INT8量化:推理階段使用低精度整數(shù)計算,進一步降低計算開銷。
- 效果:減少顯存占用,提高AI訓練和推理性能。
相比傳統(tǒng) FP32 精度訓練,混合精度計算可減少 50% 以上的顯存占用,同時提升計算速度,使得 DeepSeek 訓練更高效。
DeepSeek-R1 是參數(shù)數(shù)量最多的模型,超過600B,但其在交互過程中使用的參數(shù)數(shù)量相對較少,這可能意味著它在設(shè)計上更加高效,或者在實際應(yīng)用中并未充分利用其全部參數(shù)。 訓練方法改進:DeepSeek 的計算效率相比傳統(tǒng) AI 模型的提升 DeepSeek 在訓練過程中采用了一系列優(yōu)化策略,使得其相比傳統(tǒng) AI 模型的計算效率大幅提升。
序號
優(yōu)化技術(shù)
詳細說明
1
去冗余數(shù)據(jù)訓練
- 高質(zhì)量數(shù)據(jù)篩選:DeepSeek不直接使用互聯(lián)網(wǎng)數(shù)據(jù),而是經(jīng)過過濾、清理和優(yōu)化,確保數(shù)據(jù)質(zhì)量,提高訓練效率。
- 去重與去噪:采用高效去重算法,減少重復(fù)數(shù)據(jù)計算開銷,使模型更快收斂。
- 效果:減少無用數(shù)據(jù)計算需求,提高訓練效率,避免模型過度學習噪聲數(shù)據(jù)。
2
分布式存儲與計算
- 高效計算架構(gòu):結(jié)合NVLink高速互連、RDMA(遠程直接內(nèi)存訪問)、InfiniBand低延遲網(wǎng)絡(luò),提高數(shù)據(jù)傳輸效率。
- 減少GPU間通信開銷:優(yōu)化數(shù)據(jù)調(diào)度機制,降低GPU之間的數(shù)據(jù)傳輸時間。
- 存儲優(yōu)化:采用高性能SSD進行數(shù)據(jù)緩存,加快數(shù)據(jù)讀取速度。
- 效果:相比傳統(tǒng)AI練,整體訓練效率提升30%-50%,減少訓練時間和算力消耗。
3
自適應(yīng)優(yōu)化器
- 優(yōu)化器類型:采用Lion、AdaFactor等自適應(yīng)學習率優(yōu)化器,相比AdamW計算更高效。
- 減少計算開銷:優(yōu)化參數(shù)更新策略,提高計算效率。
- 提高訓練穩(wěn)定性:減少學習率震蕩,提高收斂速度。
- 效果:加快訓練收斂,提高訓練穩(wěn)定性,減少計算資源消耗。
這些優(yōu)化器改進使得 DeepSeek 訓練更高效,所需 GPU 計算資源比傳統(tǒng)模型減少 20%-40%。 推理階段的優(yōu)化:DeepSeek 在推理端的資源消耗 DeepSeek 在推理端進行了多方面優(yōu)化,以降低計算資源需求,提高 AI 應(yīng)用的響應(yīng)速度。
序號
優(yōu)化技術(shù)
詳細說明
1
動態(tài)推理機制
- 注意力緩存(KV Cache):緩存多輪對話或長文本生成時的注意力計算結(jié)果,減少重復(fù)計算,提高推理速度。
- 分塊推理(Chunk-based Inference):將大規(guī)模推理任務(wù)拆分成小塊,在不同GPU上并行執(zhí)行,提高吞吐量。
- 效果:推理階段計算成本降低30%-50%,減少延遲,提高用戶體驗。
2
模型剪枝與量化
- 剪枝(Pruning):去除低權(quán)重神經(jīng)元連接,降低計算需求,提高推理效率。
- 量化(Quantization):采用8-bit甚至4-bit計算,減少計算資源消耗,同時保持推理精度。
- 效果:支持低功耗設(shè)備,如邊緣設(shè)備和智能手機,推動AI應(yīng)用普及。
3
推理計算框架優(yōu)化
- TensorRT(NVIDIA):加速GPU計算,提高推理吞吐量。
- ONNX Runtime:提升跨平臺推理性能,優(yōu)化推理效率。
- LLM.CPP:適用于CPU推理,降低對高端GPU的依賴。
- 效果:增強推理計算的靈活性,提高推理性能,適配不同硬件環(huán)境。
這些優(yōu)化確保 DeepSeek 可在不同硬件環(huán)境下高效運行,降低企業(yè) AI 應(yīng)用的成本。DeepSeek 通過 架構(gòu)優(yōu)化、訓練方法改進和推理階段優(yōu)化,使得 AI 計算資源的利用率大幅提升。
相比傳統(tǒng) AI 模型,DeepSeek 訓練效率提升 50%以上,推理計算成本降低 30%-50%,對芯片算力市場的影響深遠。 1.3 DeepSeek 對芯片算力市場的短期影響 DeepSeek 作為 AI 領(lǐng)域的新型大模型,其在模型架構(gòu)、訓練方法和推理階段的優(yōu)化,使得 AI 計算資源的使用效率大幅提升。這些技術(shù)改進不僅降低了 AI 訓練和推理的算力需求,還對整個芯片市場產(chǎn)生了直接的短期影響,主要體現(xiàn)在以下幾個方面: 訓練算力需求下降:如何影響 GPU 及 AI 服務(wù)器市場
序號
影響領(lǐng)域
詳細說明
1
DeepSeek降低訓練算力需求
- 稀疏注意力(Sparse Attention)與MoE專家混合模型(Mixture of Experts):減少不必要的計算量,訓練時僅激活部分計算單元。
- 分布式訓練優(yōu)化:提高GPU計算利用率,減少GPU數(shù)量需求。
- 混合精度訓練(FP16/BF16/INT8):降低顯存占用,提高計算吞吐量。
- 效果:相比傳統(tǒng)訓練方式,DeepSeek可減少30%-50%的GPU需求,影響AI服務(wù)器市場及GPU供應(yīng)鏈。
2
AI服務(wù)器需求下滑
- 云廠商減少GPU服務(wù)器采購:AWS、Google Cloud、Azure等云計算廠商可能放緩對NVIDIA H100、GH200服務(wù)器的采購。
- AI初創(chuàng)企業(yè)減少資本支出:更多企業(yè)選擇租賃算力而非自建AI訓練基礎(chǔ)設(shè)施。
- 數(shù)據(jù)中心投資調(diào)整:部分AI服務(wù)器廠商(如Supermicro、浪潮Inspur)可能面臨短期出貨量下降壓力。
3
GPU市場的價格波動
- 高端GPU(H100)需求短暫回調(diào):中小AI企業(yè)的采購需求可能減少。
- 老一代GPU(A100、V100)降價:由于新AI訓練方法優(yōu)化,舊款GPU仍可部分滿足需求。
- NVIDIA可能調(diào)整產(chǎn)品節(jié)奏:加快新一代GPU(B100)的推出,以維持市場需求。
1.4 長期影響:算力需求的演進 隨著 AI 技術(shù)的持續(xù)發(fā)展,DeepSeek 等大模型的優(yōu)化不僅改變了短期的訓練算力需求,也將在長期內(nèi)塑造 AI 計算市場的演進方向。從推理階段的算力需求增長,到國產(chǎn) AI 生態(tài)的崛起,再到邊緣計算和端側(cè) AI 推理的發(fā)展,算力市場將經(jīng)歷深刻變革。 推理階段算力需求增長:大規(guī)模 AI 應(yīng)用對芯片算力的新需求
序號
影響領(lǐng)域
詳細說明
1
推理需求遠超訓練需求
- 推理頻次遠超訓練頻次:訓練一次大模型可能需要數(shù)周或數(shù)月,但模型訓練完成后,將被頻繁用于推理,例如ChatGPT需要持續(xù)推理計算。
- 實時性需求提升:AI應(yīng)用集成到搜索、辦公自動化(Copilot)、電商推薦等場景,對推理延遲要求更高,需更強算力支持。
- 高效推理優(yōu)化:推理芯片需具備更高效架構(gòu),如Transformer專用加速器(TPU)、自定義AI加速核心(ASIC)、稀疏計算優(yōu)化等。
- 影響:AI推理階段的算力需求將成為主要增長點,推動AI服務(wù)器、數(shù)據(jù)中心及云端推理加速芯片市場發(fā)展。
2
推理算力需求對GPU/AI加速芯片市場的影響
- 高端GPU仍然主導云端AI推理市場:NVIDIA H100、GH200、AMD MI300X仍是云端AI推理的核心計算設(shè)備,適用于大規(guī)模AI服務(wù)。
- 專用AI加速器(ASIC)市場擴大:谷歌TPU、亞馬遜Trainium & Inferentia、Meta MTIA及國產(chǎn)AI加速芯片(寒武紀思元、華為Ascend 310)等ASIC逐步搶占市場,提高推理效率。
- FPGA及可重構(gòu)計算興起:FPGA具備可編程性,適用于AI推理優(yōu)化,如Xilinx Versal AI、Intel Agilex FPGA,未來可能在AI加速領(lǐng)域占據(jù)一定市場份額。
圖中展示了DeepSeek的R1模型與其他公司最新模型在常用AI測試中的性能比較。圖表中列出了五個不同的測試類別:編碼(Coding)、定量推理(Quantitative reasoning)、推理和知識(Reasoning and knowledge)、以及科學推理和知識(Scientific reasoning and knowledge)?偟膩碚f,圖中展示了DeepSeek的R1模型在多個常用AI測試中優(yōu)于其他公司的最新模型,特別是在編碼和定量推理方面表現(xiàn)突出,得分接近滿分。 長期來看,推理算力市場將朝著 高效、低功耗、專用化 方向發(fā)展,并催生出更多 AI 計算架構(gòu)的創(chuàng)新。 邊緣計算與 AI 端側(cè)推理:對低功耗、高算力芯片的需求變化
序號
影響領(lǐng)域
詳細說明
1
AI計算逐步向邊緣和端側(cè)擴展
- 低時延應(yīng)用需求:自動駕駛、智能安防、工業(yè)檢測等應(yīng)用需要實時推理計算,云端計算的延遲無法滿足需求。
- 隱私與數(shù)據(jù)安全考量:醫(yī)療、金融、智能手機AI助手等應(yīng)用希望在本地進行推理計算,減少數(shù)據(jù)外傳,推動AI端側(cè)計算。
- 算力分布式部署:通過云-邊-端協(xié)同,提升AI計算的靈活性和適配性,提高算力利用率。
2
邊緣AI計算市場的芯片需求變化
- 高能效比AI處理器:如華為騰310、寒武紀MLU220、高通AI處理單元,提供高算力低功耗的邊緣AI計算能力。
- AI NPU加速單元:如蘋果M系列、三星Exynos、聯(lián)發(fā)科Dimensity,在移動端AI計算領(lǐng)域快速增長。
- RISC-V AI加速器:國產(chǎn)RISC-V AI處理器逐步崛起,可能成為未來AI端側(cè)計算的重要方向。
3
長期趨勢:AI 計算架構(gòu)的多樣化
- 云端高性能AI GPU計算:主導大規(guī)模訓練與推理計算。
- 本土AI服務(wù)器適配國產(chǎn)芯片:如華為騰、壁仞B(yǎng)R100等。
- 邊緣AI計算廣泛部署:推動AI NPU、FPGA、ASIC計算架構(gòu)發(fā)展。
- 端側(cè)AI計算普及化:如智能手機、可穿戴設(shè)備的AI處理能力提升。
長期來看,DeepSeek 及 AI 大模型的發(fā)展將推動 AI 計算市場向推理計算需求增長、國產(chǎn) AI 芯片崛起、邊緣計算和端側(cè) AI 普及三大方向發(fā)展。未來,全球 AI 計算市場的競爭將更加激烈,國產(chǎn) AI 計算生態(tài)也將迎來前所未有的機遇和挑戰(zhàn)。 #02總 結(jié) 隨著 DeepSeek 等大模型的優(yōu)化迭代,AI 訓練的計算成本逐步下降,使得企業(yè)和開發(fā)者可以更高效地構(gòu)建和部署 AI 模型。然而,這并不意味著算力市場的整體需求會下降,相反,推理端的算力需求仍在持續(xù)增長。AI 技術(shù)的發(fā)展正在推動算力市場從“訓練為主”向“訓練+推理并重”轉(zhuǎn)變,這將影響全球 AI 芯片產(chǎn)業(yè)格局,并給國產(chǎn)芯片廠商帶來機遇與挑戰(zhàn)。 DeepSeek 通過優(yōu)化 AI 訓練方式降低了算力成本,同時推動了推理端算力需求的增長。短期來看,算力市場可能出現(xiàn)波動,但長期趨勢仍然是算力需求持續(xù)增長。國產(chǎn) AI 芯片廠商迎來了新的發(fā)展機遇,同時也需要面對全球競爭和技術(shù)突破的挑戰(zhàn)。未來,國產(chǎn)算力產(chǎn)業(yè)需要在 AI 計算架構(gòu)、推理芯片、軟件生態(tài)等多個方面持續(xù)發(fā)力,以實現(xiàn)真正的自主可控 AI 計算生態(tài)。 參考: DeepSeek R1 AI model collects a lot of user data and distorts information about China
What is DeepSeek and why is it disrupting the AI sector? | Reuters
Three things to know as the dust settles from DeepSeek | MIT Technology Review
The Open Source Revolution in AI: DeepSeek's Challenge to the Status Quo - UNU Campus Computing Centre
Does China's DeepSeek-V3 make the computing power advantages of US AI companies less important?
DeepSeek Coder
Introducing DeepSeek-V3 | DeepSeek API Docs