當前位置：人工智能實驗室> 人工智能動態(tài) > 中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn)

中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-17 06:58:16 瀏覽：207次

導讀：僅僅不到30天，一些企業(yè)就已走過DeepSeek嘗鮮階段，從一體機，急速轉(zhuǎn)向推理集群。文｜牛慧DeepSeek爆火之后，進展之快，讓業(yè)界應接不暇。春節(jié)開工后首月，政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計，截止2月21日，已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機，來體驗DeepSeek的效果。這讓一體機商機幾乎是以往的百倍，呈現(xiàn)井 ......

中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn)

僅僅不到30天，一些企業(yè)就已走過DeepSeek嘗鮮階段，從一體機，急速轉(zhuǎn)向推理集群。

文｜�；�

DeepSeek爆火之后，進展之快，讓業(yè)界應接不暇。

春節(jié)開工后首月，政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計，截止2月21日，已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機，來體驗DeepSeek的效果。這讓一體機商機幾乎是以往的百倍，呈現(xiàn)井噴。

但僅僅不到30天，一些企業(yè)就已走過嘗鮮階段，從開箱即用的DeepSeek一體機，急速轉(zhuǎn)向可支撐高并發(fā)、低時延的大規(guī)模專家并行（EP）推理集群。

在這場算力迭代角逐中，騰大規(guī)�？绻�(jié)點專家并行（大EP）方案，因?qū)eepSeek模型的支持及在技術(shù)思路上的契合，成為國內(nèi)企業(yè)的主要選擇。英偉達H20因算力短板和出口管制等不確定因素，面臨挑戰(zhàn)。

企業(yè)推理需求激增，算力擴容

隨著DeepSeek引發(fā)的人工智能熱潮，中國企業(yè)正加速AI部署。

開年不到一個月，一些企業(yè)就已走過試用階段，開始探討算力擴容問題。比如，一些企業(yè)先接入DeepSeek，嘗鮮通用能力，之后開始將業(yè)務(wù)系統(tǒng)對接DeepSeek，結(jié)果用戶增長快速，并發(fā)量越來越大。在這種情況下，一臺一臺增加一體機的線性擴展方式，已經(jīng)不滿足他們的需求。

DeepSeek推動產(chǎn)業(yè)進入一個新階段當企業(yè)應用開始上量后，對推理部署提出了在高并發(fā)、低時延場景下，要實現(xiàn)高性價比、穩(wěn)定的要求。

隨著應用上量，目前市場上用戶推理算力的規(guī)模，從早期一兩臺一體機，即8卡、16卡規(guī)模，正在快速擴展到大幾十卡、一兩百卡以及千卡。而隨著應用范圍的擴大，推理算力的規(guī)模還在持續(xù)擴大中。

中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn)

為什么這輪企業(yè)推理需求會持續(xù)急劇擴大？

非常重要的一點是，DeepSeek給千行百業(yè)帶來了信心哪怕算力受限，依然能夠做出一流的模型。DeepSeek也開源了模型，很多企業(yè)有信心在強大的基礎(chǔ)大模型之上，實現(xiàn)人工智能的真正落地，這帶來了新一輪的百模千態(tài)。

DeepSeek借助MoE（混合專家模型）技術(shù)，通過大EP并行（大規(guī)�？绻�(jié)點專家并行）和超集群互聯(lián)技術(shù)，成功降低了對高算力單卡的依賴。

DeepSeek也開辟了新的訓練模式，讓企業(yè)應用大模型的路徑縮短了。以前搭建一個智能化平臺，架構(gòu)復雜、成本高昂。DeepSeek讓大家發(fā)現(xiàn)，原來二次訓練沒有那么復雜。從一些社區(qū)熱議的外掛知識庫，到先將模型蒸餾，再通過強化學習而不是之前的微調(diào)和RAG，也能將自身數(shù)據(jù)訓練到模型上去，這些過程比原來要快很多，所需的行業(yè)數(shù)據(jù)也至少少一個數(shù)量級，從而帶動企業(yè)快速做出場景。

客戶對AI的認知也發(fā)生了徹頭徹尾的變化。以前是大模型企業(yè)到客戶那里去“拿著錘子找釘子”，現(xiàn)在是客戶一下子拿出好多場景，主動要求做更多。

由于上述因素，千行百業(yè)以更快速度擁抱DeepSeek，企業(yè)進入DeepSeek與業(yè)務(wù)結(jié)合的階段。接下去，越來越多的智能體也將涌現(xiàn)，甚至業(yè)務(wù)系統(tǒng)與DeepSeek的對接，以及智能體的推廣是并行的。未來三個月，我們將看到不斷變革的過程。而這都要求智算市場做出及時反應，快速支撐。

DeepSeek開源周后，推理集群怎么選

就在業(yè)界對推理算力提出更高要求的時候，DeepSeek于2025年2月底舉辦了“開源周”活動，連續(xù)五天每天發(fā)布一個開源項目。

這些開源項目涉及大模型全流程。在推理加速上，DeepSeek也開源了不少技術(shù)。而人們發(fā)現(xiàn)，這些實踐都是在200多臺服務(wù)器集群環(huán)境下做出的，規(guī)模遠比企業(yè)目前一兩臺一體機要大得了。這也與當下企業(yè)推理擴容的方向一致。

值得關(guān)注的是，DeepSeek模型采用的MoE架構(gòu)，有大專家和小專家模式之分。大專家類似全科大夫，管的事情多，因此每個token激活的參數(shù)量多，計算量大，成本也高，走性能摸高之路。

DeepSeek則采用了小專家模式，如V2有160個專家，V3有256個專家，每次激活的參數(shù)量小，成本降低，在性能提升的同時，更有利于快速普及，而這兩種方案將共存。

DeepSeek的推理集群，也貼合了小專家MoE架構(gòu)，是一種大規(guī)�？绻�(jié)點專家并行（簡稱大EP并行）的方式。

它將眾多小專家分布到更多的卡上，如DeepSeek-R1推理集群，每卡部署 1～2個專家，每張卡占用的資源減少了，大量資源可用來支持更多并發(fā)用戶，也降低了對高算力單卡的依賴。通過各類技術(shù)創(chuàng)新，實現(xiàn)了高效并行計算，這為AI推理提供了參考之路。

在DeepSeek開源周之后，由于技術(shù)思路上的高度契合，騰和科大訊飛聯(lián)合團隊，率先實現(xiàn)了8機64卡的跨節(jié)點專家并行推理集群，這是繼DeepSeek公布其MoE模型訓練推理方案后，業(yè)界首個基于自研算力的解決方案。

在大EP方案中，因為有更多專家，帶來了負載均衡、卡間通信的挑戰(zhàn)。騰大EP方案采用了MoE負載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP（多token預測）等技術(shù)，來實現(xiàn)集群的高效性。

這些優(yōu)化技術(shù)，核心圍繞兩大方向：一是提高推理集群的吞吐，如MoE負載均衡，來服務(wù)更多用戶；另一是降低時延，如MLAPO融合算子等，這與用戶體驗息息相關(guān)。

具體而言，MoE負載均衡如何實現(xiàn)高吞吐？通俗說是要避免有的專家特別忙，有的則特別閑，還要解決專家之間交換意見占用了處理問題的時間等問題。通過自動尋優(yōu)、自動配比、自動預測、自動降解等創(chuàng)新，騰大EP方案實現(xiàn)了負載均衡，極大提高了集群的吞吐量。

MLAPO融合算子有如何降低時延？為了優(yōu)化模型的推理效率和顯存占用，DeepSeek采用了MLA（多頭潛在注意力機制）。在MLA的預處理階段，傳統(tǒng)方案是多算子串行，頻繁占用內(nèi)存、通信等資源；騰則將各種小算子融合成單一算子，把上述頻繁操作并行處理，降低計算耗時70%，也就降低了時延。

這些技術(shù)中，還值得關(guān)注的是PD分離部署，這其實是業(yè)界一個公開的推理優(yōu)化技術(shù)。生成式人工智能過程分為兩個階段，一是理解用戶問題，稱為預填充階段（Prefill），需要大量計算。另一是生成回復，稱為解碼（Decode），對計算要求降低、訪存要求提升。

之前兩階段由同一個節(jié)點完成，有資源競爭、推理延遲問題。業(yè)界目前將兩者分開部署，成為提升推理效率的關(guān)鍵技術(shù)。傳統(tǒng)的PD靜態(tài)分離方案不夠靈活，騰大EP提供了autoPD分離部署方案，適應動態(tài)調(diào)整的場景，系統(tǒng)有效吞吐提升50%以上。

經(jīng)過多點技術(shù)的優(yōu)化，目前騰大EP方案推理吞吐提升3.2倍，端到端時延降低50%，并在持續(xù)提升中。

在這里，要提到不少企業(yè)關(guān)注的英偉達H20，它被視為是替代H100的熱門之選。H20是H100的閹割版，其AI算力僅為H100的15%，因此在大模型預訓練上很難發(fā)揮作用。

在推理上，H20因為算力制約，只適應特定模型架構(gòu)，如稠密模型的長序列推理任務(wù)場景。

針對DeepSeek采用的MoE，以上述PD場景為例，在預填充階段（Prefill），需要較強算力，H20性能不占優(yōu)。在解碼（Decode）階段，在大EP的大批量（batch size）場景下，H20算力也極易觸及瓶頸，時延大幅增加，無法充分發(fā)揮DeepSeek專家并行機制帶來的高吞吐優(yōu)勢，因此，DeepSeek在推理服務(wù)上，也未采用H20。

H20目前被作為特定場景下的過渡性產(chǎn)品。

數(shù)智前線獲悉，在此前一體機市場上，騰份額已達到70%以上。而根據(jù)用戶的需求，騰大EP方案可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。企業(yè)之前采購的一體機，可通過軟件升級，擴展為大EP推理方案，實現(xiàn)平滑遷移，支撐企業(yè)加速AI部署帶來的智算市場爆發(fā)。

相關(guān)熱詞： deepseek 中國企業(yè) 中國中國企業(yè)500強一體機 ep

上一篇：AI“對話式搜索”向前 “關(guān)鍵詞搜索”退后

下一篇：百度AI重歸牌桌：一場由開放與速度重塑的科技突圍戰(zhàn)

中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-17 06:58:16 瀏覽：207次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn) 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-17 06:58:16 瀏覽：207次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

中國企業(yè)加速AI部署，昇騰大EP方案成首選，H20遇挑戰(zhàn)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-17 06:58:16 瀏覽：207次