展會信息港展會大全

中國企業(yè)加速AI部署,昇騰大EP方案成首選,H20遇挑戰(zhàn)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-03-17 06:58:16   瀏覽:207次  

導讀:僅僅不到30天,一些企業(yè)就已走過DeepSeek嘗鮮階段,從一體機,急速轉(zhuǎn)向推理集群。文|牛慧DeepSeek爆火之后,進展之快,讓業(yè)界應接不暇。春節(jié)開工后首月,政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計,截止2月21日,已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機,來體驗DeepSeek的效果。這讓一體機商機幾乎是以往的百倍,呈現(xiàn)井 ......

中國企業(yè)加速AI部署,昇騰大EP方案成首選,H20遇挑戰(zhàn)

僅僅不到30天,一些企業(yè)就已走過DeepSeek嘗鮮階段,從一體機,急速轉(zhuǎn)向推理集群。

文|;

DeepSeek爆火之后,進展之快,讓業(yè)界應接不暇。

春節(jié)開工后首月,政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計,截止2月21日,已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機,來體驗DeepSeek的效果。這讓一體機商機幾乎是以往的百倍,呈現(xiàn)井噴。

僅僅不到30天,一些企業(yè)就已走過嘗鮮階段,從開箱即用的DeepSeek一體機,急速轉(zhuǎn)向可支撐高并發(fā)、低時延的大規(guī)模專家并行(EP)推理集群

在這場算力迭代角逐中,騰大規(guī)?绻(jié)點專家并行(大EP)方案,因?qū)eepSeek模型的支持及在技術(shù)思路上的契合,成為國內(nèi)企業(yè)的主要選擇。英偉達H20因算力短板和出口管制等不確定因素,面臨挑戰(zhàn)。

01

企業(yè)推理需求激增,算力擴容

隨著DeepSeek引發(fā)的人工智能熱潮,中國企業(yè)正加速AI部署。

開年不到一個月,一些企業(yè)就已走過試用階段,開始探討算力擴容問題。比如,一些企業(yè)先接入DeepSeek,嘗鮮通用能力,之后開始將業(yè)務(wù)系統(tǒng)對接DeepSeek,結(jié)果用戶增長快速,并發(fā)量越來越大。在這種情況下,一臺一臺增加一體機的線性擴展方式,已經(jīng)不滿足他們的需求。

DeepSeek推動產(chǎn)業(yè)進入一個新階段當企業(yè)應用開始上量后,對推理部署提出了在高并發(fā)、低時延場景下,要實現(xiàn)高性價比、穩(wěn)定的要求

隨著應用上量,目前市場上用戶推理算力的規(guī)模,從早期一兩臺一體機,即8卡、16卡規(guī)模,正在快速擴展到大幾十卡、一兩百卡以及千卡。而隨著應用范圍的擴大,推理算力的規(guī)模還在持續(xù)擴大中。

中國企業(yè)加速AI部署,昇騰大EP方案成首選,H20遇挑戰(zhàn)

為什么這輪企業(yè)推理需求會持續(xù)急劇擴大?

非常重要的一點是,DeepSeek給千行百業(yè)帶來了信心哪怕算力受限,依然能夠做出一流的模型。DeepSeek也開源了模型,很多企業(yè)有信心在強大的基礎(chǔ)大模型之上,實現(xiàn)人工智能的真正落地,這帶來了新一輪的百模千態(tài)。

DeepSeek借助MoE(混合專家模型)技術(shù),通過大EP并行(大規(guī)?绻(jié)點專家并行)和超集群互聯(lián)技術(shù),成功降低了對高算力單卡的依賴。

DeepSeek也開辟了新的訓練模式,讓企業(yè)應用大模型的路徑縮短了。以前搭建一個智能化平臺,架構(gòu)復雜、成本高昂。DeepSeek讓大家發(fā)現(xiàn),原來二次訓練沒有那么復雜。從一些社區(qū)熱議的外掛知識庫,到先將模型蒸餾,再通過強化學習而不是之前的微調(diào)和RAG,也能將自身數(shù)據(jù)訓練到模型上去,這些過程比原來要快很多,所需的行業(yè)數(shù)據(jù)也至少少一個數(shù)量級,從而帶動企業(yè)快速做出場景。

客戶對AI的認知也發(fā)生了徹頭徹尾的變化。以前是大模型企業(yè)到客戶那里去“拿著錘子找釘子”,現(xiàn)在是客戶一下子拿出好多場景,主動要求做更多。

由于上述因素,千行百業(yè)以更快速度擁抱DeepSeek,企業(yè)進入DeepSeek與業(yè)務(wù)結(jié)合的階段。接下去,越來越多的智能體也將涌現(xiàn),甚至業(yè)務(wù)系統(tǒng)與DeepSeek的對接,以及智能體的推廣是并行的。未來三個月,我們將看到不斷變革的過程。而這都要求智算市場做出及時反應,快速支撐。

02

DeepSeek開源周后,推理集群怎么選

就在業(yè)界對推理算力提出更高要求的時候,DeepSeek于2025年2月底舉辦了“開源周”活動,連續(xù)五天每天發(fā)布一個開源項目。

這些開源項目涉及大模型全流程。在推理加速上,DeepSeek也開源了不少技術(shù)。而人們發(fā)現(xiàn),這些實踐都是在200多臺服務(wù)器集群環(huán)境下做出的,規(guī)模遠比企業(yè)目前一兩臺一體機要大得了。這也與當下企業(yè)推理擴容的方向一致。

值得關(guān)注的是,DeepSeek模型采用的MoE架構(gòu),有大專家和小專家模式之分。大專家類似全科大夫,管的事情多,因此每個token激活的參數(shù)量多,計算量大,成本也高,走性能摸高之路。

DeepSeek則采用了小專家模式,如V2有160個專家,V3有256個專家,每次激活的參數(shù)量小,成本降低,在性能提升的同時,更有利于快速普及,而這兩種方案將共存。

DeepSeek的推理集群,也貼合了小專家MoE架構(gòu),是一種大規(guī)?绻(jié)點專家并行(簡稱大EP并行)的方式。

它將眾多小專家分布到更多的卡上,如DeepSeek-R1推理集群,每卡部署 1~2個專家,每張卡占用的資源減少了,大量資源可用來支持更多并發(fā)用戶,也降低了對高算力單卡的依賴。通過各類技術(shù)創(chuàng)新,實現(xiàn)了高效并行計算,這為AI推理提供了參考之路。

在DeepSeek開源周之后,由于技術(shù)思路上的高度契合,騰和科大訊飛聯(lián)合團隊,率先實現(xiàn)了8機64卡的跨節(jié)點專家并行推理集群,這是繼DeepSeek公布其MoE模型訓練推理方案后,業(yè)界首個基于自研算力的解決方案。

在大EP方案中,因為有更多專家,帶來了負載均衡、卡間通信的挑戰(zhàn)。騰大EP方案采用了MoE負載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多token預測)等技術(shù),來實現(xiàn)集群的高效性。

這些優(yōu)化技術(shù),核心圍繞兩大方向:一是提高推理集群的吞吐,如MoE負載均衡,來服務(wù)更多用戶;另一是降低時延,如MLAPO融合算子等,這與用戶體驗息息相關(guān)。

具體而言,MoE負載均衡如何實現(xiàn)高吞吐?通俗說是要避免有的專家特別忙,有的則特別閑,還要解決專家之間交換意見占用了處理問題的時間等問題。通過自動尋優(yōu)、自動配比、自動預測、自動降解等創(chuàng)新,騰大EP方案實現(xiàn)了負載均衡,極大提高了集群的吞吐量。

MLAPO融合算子有如何降低時延?為了優(yōu)化模型的推理效率和顯存占用,DeepSeek采用了MLA(多頭潛在注意力機制)。在MLA的預處理階段,傳統(tǒng)方案是多算子串行,頻繁占用內(nèi)存、通信等資源;騰則將各種小算子融合成單一算子,把上述頻繁操作并行處理,降低計算耗時70%,也就降低了時延。

這些技術(shù)中,還值得關(guān)注的是PD分離部署,這其實是業(yè)界一個公開的推理優(yōu)化技術(shù)。生成式人工智能過程分為兩個階段,一是理解用戶問題,稱為預填充階段(Prefill),需要大量計算另一是生成回復,稱為解碼(Decode),對計算要求降低、訪存要求提升。

之前兩階段由同一個節(jié)點完成,有資源競爭、推理延遲問題。業(yè)界目前將兩者分開部署,成為提升推理效率的關(guān)鍵技術(shù)。傳統(tǒng)的PD靜態(tài)分離方案不夠靈活,騰大EP提供了autoPD分離部署方案,適應動態(tài)調(diào)整的場景,系統(tǒng)有效吞吐提升50%以上。

經(jīng)過多點技術(shù)的優(yōu)化,目前騰大EP方案推理吞吐提升3.2倍,端到端時延降低50%,并在持續(xù)提升中。

在這里,要提到不少企業(yè)關(guān)注的英偉達H20,它被視為是替代H100的熱門之選。H20是H100的閹割版,其AI算力僅為H100的15%,因此在大模型預訓練上很難發(fā)揮作用。

在推理上,H20因為算力制約,只適應特定模型架構(gòu),如稠密模型的長序列推理任務(wù)場景。

針對DeepSeek采用的MoE,以上述PD場景為例,在預填充階段(Prefill),需要較強算力,H20性能不占優(yōu)。在解碼(Decode)階段,在大EP的大批量(batch size)場景下,H20算力也極易觸及瓶頸,時延大幅增加,無法充分發(fā)揮DeepSeek專家并行機制帶來的高吞吐優(yōu)勢,因此,DeepSeek在推理服務(wù)上,也未采用H20。

H20目前被作為特定場景下的過渡性產(chǎn)品。

數(shù)智前線獲悉,在此前一體機市場上,騰份額已達到70%以上。而根據(jù)用戶的需求,騰大EP方案可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。企業(yè)之前采購的一體機,可通過軟件升級,擴展為大EP推理方案,實現(xiàn)平滑遷移,支撐企業(yè)加速AI部署帶來的智算市場爆發(fā)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港