在DeepSeek熱浪的席卷之下,各大國產(chǎn)GPU公司紛紛投身適配浪潮。
看似相同的動作,背后卻各有千秋。
如今,業(yè)內(nèi)報(bào)道多聚焦于適配 DeepSeek 的公司數(shù)量,卻很少有人去深究這些公司間的差異。究竟是技術(shù)路線存在分歧,還是性能表現(xiàn)高低有別?是生態(tài)建設(shè)各具特色,亦或是應(yīng)用場景有所不同?
01
適配模型,選原版還是蒸餾版?
從適配 Deepseek 模型的角度來看,芯片廠商的動作可大致歸為兩類。一類是對原生 R1 和 V3 模型進(jìn)行適配,另一類則是適配由 R1 蒸餾而來的小模型 。
至于這三者的區(qū)別:
Deepseek R1定位為推理優(yōu)先的模型,專為需要深度邏輯分析和問題解決的場景而設(shè)計(jì)。其在數(shù)學(xué)、編程和推理等多個(gè)任務(wù)上可達(dá)到高性能。
Deepseek V3定位為通用型的大語言模型,其在多種自然語言處理任務(wù)中實(shí)現(xiàn)高效、靈活的應(yīng)用,滿足多領(lǐng)域的需求。Deepseek R1/V3原版模型通常具有較大的參數(shù)量,結(jié)構(gòu)相對復(fù)雜。
DeepSeek-R1系列蒸餾模型是基于DeepSeek R1進(jìn)行蒸餾得到的輕量級版本,參數(shù)量較少,結(jié)構(gòu)更精簡旨在保持一定性能的同時(shí)降低資源消耗。適合輕量級部署和資源受限場景,如邊緣設(shè)備推理、中小企業(yè)快速驗(yàn)證 AI 應(yīng)用。
雖說各家均在搶占適配Deepseek的高地,但實(shí)際上各家所適配的模型類型也并不相同。
上圖可見,雖主流GPU廠商均在加速適配DeepSeek模型的節(jié)奏,但明確宣布適配DeepSeek R1及V3原版模型的只有一半左右。這類模型對芯片的計(jì)算能力、內(nèi)存帶寬以及多卡互聯(lián)等技術(shù)要求極高。其中包括華為騰、海光信息。
另一部分廠商則主要支持 DeepSeek-R1 系列蒸餾模型(參數(shù)規(guī)格在 1.5B - 8B 之間)。這些蒸餾模型的原始模型是通義千問和LLAMA,因此原本能夠支持通義千問和LLAMA模型的平臺,基本上就能適配這些DeepSeek的蒸餾模型,工作量也相對較小。包括摩爾線程、壁仞科技等。
不同大小的模型所適應(yīng)的場景不一樣,云端推理需要模型參數(shù)比較大,模型性能最好,主要適配原生 R1 或者 V3 模型;端側(cè)芯片主要適配 1.5B~8B 間的模型,這類模型推理結(jié)構(gòu)非常成熟,無需花費(fèi)額外的工作 。
02
不同公司,優(yōu)勢何在?
除了所適配的模型種類有別外,各家所選取的技術(shù)路線也有所不同,適配時(shí)遇到的難度也各不相同。
首先,從當(dāng)前的技術(shù)生態(tài)和實(shí)際應(yīng)用場景來看,DeepSeek模型的運(yùn)行和適配主要依賴于英偉達(dá)的硬件和編程語言,而各家廠商的適配能力則取決于其對原始開發(fā)生態(tài)的兼容性。
這也意味著,DeepSeek 目前主要適配英偉達(dá)芯片,這對其他硬件平臺的應(yīng)用和性能有一定影響。因此是否容易適配基于英偉達(dá)GPU開發(fā)的DeepSeek等大模型,與芯片是否兼容CUDA有關(guān)。能兼容CUDA的廠商,彼此間兼容程度也有不同。
其次,從性能表現(xiàn)來看,不同GPU的計(jì)算能力(如FLOPS、內(nèi)存帶寬)不同,也直接影響DeepSeek在處理大規(guī)模深度學(xué)習(xí)任務(wù)時(shí)的速度。某些GPU可能在能效比上表現(xiàn)更優(yōu),適合在低功耗環(huán)境下運(yùn)行DeepSeek。
接下來,讀者不妨看看主流芯片公司在適配 DeepSeek 時(shí),各自具備的優(yōu)勢與面臨的挑戰(zhàn)。
華為騰(Ascend)
騰擁有芯片+框架+工具鏈等全棧AI能力,與DeepSeek的技術(shù)棧適配潛力大。
從硬件方面來看,騰910芯片針對AI訓(xùn)練和推理優(yōu)化,算力密度高,尤其適合大規(guī)模模型訓(xùn)練。
從軟件生態(tài)方面來看,CANN異構(gòu)計(jì)算架構(gòu)和MindSpore框架深度綁定,若DeepSeek基于MindSpore優(yōu)化,騰適配性極強(qiáng);同時(shí)支持PyTorch/TensorFlow的遷移工具。
關(guān)于騰適配DeepSeek面臨的挑戰(zhàn),若DeepSeek依賴CUDA生態(tài),需通過華為的兼容層(如騰異構(gòu)計(jì)算加速庫)轉(zhuǎn)換,可能損失部分性能。
海光信息(DCU)
海光的優(yōu)勢是海光 DCU 兼容通用的“類CUDA”環(huán)境,以及擅長高性能計(jì)算。
從硬件方面來看,基于AMD CDNA架構(gòu)的DCU系列,兼容ROCm生態(tài),對CUDA代碼遷移友好,適合需兼容現(xiàn)有生態(tài)的DeepSeek場景。
從場景適配方面來看,在智算中心應(yīng)用成熟,若DeepSeek側(cè)重HPC+AI融合場景(如科學(xué)計(jì)算),海光更具優(yōu)勢。
關(guān)于海光適配DeepSeek面臨的挑戰(zhàn),或許在軟件工具鏈成熟度上。
燧原科技(邃思)
燧原的優(yōu)勢在于云端AI訓(xùn)練與推理。
在架構(gòu)設(shè)計(jì)方面,邃思芯片針對Transformer等大模型優(yōu)化,計(jì)算密度高,適合DeepSeek的大規(guī)模參數(shù)場景。
在軟件適配方面,燧原支持TF/PyTorch主流框架,提供自動化編譯工具,降低DeepSeek遷移成本。
關(guān)于燧原適配DeepSeek面臨的挑戰(zhàn),其生態(tài)影響力較弱,需依賴客戶定制化合作。
沐曦(MXN)
沐曦的優(yōu)勢在于GPU通用性與CUDA兼容性。
在兼容性方面,MXN系列兼容CUDA,若DeepSeek重度依賴CUDA生態(tài),沐曦的遷移成本相對較低。
在產(chǎn)品性能方面,沐曦GPU理論算力對標(biāo)國際旗艦產(chǎn)品,適合高算力需求場景。
關(guān)于沐曦適配DeepSeek面臨的挑戰(zhàn),產(chǎn)品量產(chǎn)進(jìn)度和實(shí)際落地案例較少,需驗(yàn)證穩(wěn)定性。
天數(shù)智芯(天垓)
天數(shù)智芯的優(yōu)勢在于兼容CUDA生態(tài)。
從生態(tài)適配方面,天垓BI芯片兼容CUDA,對已有代碼庫的DeepSeek項(xiàng)目友好。
關(guān)于天數(shù)智芯適配DeepSeek面臨的挑戰(zhàn),高端算力不足,支撐千億級大模型訓(xùn)練存在壓力。
壁仞科技(BR系列)
壁仞科技的單芯片算力峰值高。
從硬件指標(biāo)來看,高算力峰值使其適合需要極致算力的DeepSeek任務(wù)。
關(guān)于壁仞適配DeepSeek面臨的挑戰(zhàn),軟件棧成熟度待提升。
昆侖芯
與百度PaddlePaddle深度綁定,若DeepSeek與百度生態(tài)協(xié)同,適配性較強(qiáng)。
摩爾線程(MTT S系列)
聚焦圖形渲染與AI融合場景,適合DeepSeek的多模態(tài)應(yīng)用(如3D視覺),但通用計(jì)算能力有限。
云天勵(lì)飛/太初元
側(cè)重邊緣端推理,若DeepSeek部署在終端設(shè)備,這兩家更具優(yōu)勢。
龍芯
龍芯目前以CPU為主,GPU產(chǎn)品處于早期階段,適配DeepSeek暫不成熟。
在近期行業(yè)緊鑼密鼓地適配 DeepSeek 系列模型后,如何商用成為這一問題的焦點(diǎn)。
03
DeepSeek商用,有哪些形式?
云上部署
比如:DeepSeek模型通過華為云平臺提供服務(wù),企業(yè)客戶可以通過API調(diào)用或云服務(wù)直接使用DeepSeek的功能,如圖像識別、自然語言處理、語音識別等。企業(yè)根據(jù)實(shí)際使用量(如計(jì)算資源、API調(diào)用次數(shù))付費(fèi),降低前期投入成本。云服務(wù)模式無需企業(yè)本地部署硬件,能夠快速上線和應(yīng)用。
本地化部署
一體機(jī)形式:目前DeepSeek大模型一體機(jī)分為推理一體機(jī)和訓(xùn)推一體機(jī)。DeepSeek推理一體機(jī)內(nèi)置DeepSeek-R1 32B、70B、滿血版671B等不同尺寸模型,價(jià)格在幾十萬到數(shù)百萬不等,主要面向?qū)?shù)據(jù)安全、數(shù)據(jù)隱私較為敏感的企業(yè)用戶。而訓(xùn)推一體機(jī)的售價(jià)更高,用于DeepSeek-R1 32B模型的預(yù)訓(xùn)練和微調(diào)的一體機(jī)價(jià)格就達(dá)到數(shù)百萬。
企業(yè)自行部署:對于對性能要求極高的企業(yè)(如自動駕駛、金融風(fēng)控)或者對安全性需求極高的企業(yè)(如政府和金融機(jī)構(gòu)),DeepSeek模型可以本地部署在GPU芯片等硬件上,實(shí)現(xiàn)“滿血”性能。
從當(dāng)前的商用模式來看,由于本地部署GPU芯片和DeepSeek模型的成本較高,企業(yè)用戶會先在公有云上進(jìn)行測試,與需求是否適配,再考慮私有云部署、一體機(jī)等形式。因此,中小企業(yè)可能更傾向于通過云服務(wù)使用相關(guān)技術(shù)。
自然,部分對數(shù)據(jù)安全高度重視或急需高性能算力的企業(yè),不惜投入十萬乃至百萬資金,部署一體機(jī)以滿足自身需求。隨著 DeepSeek 開源模型的發(fā)展,其私有化部署需求日益凸顯,一體機(jī)化等相關(guān)市場正蓬勃發(fā)展,吸引眾多企業(yè)投身其中。
04
DeepSeek商業(yè)化,芯片公司誰做的更好?
在DeepSeek概念里,騰和海光的商業(yè)化都取得了不錯(cuò)的進(jìn)展。
一體機(jī)熱銷,騰得到利好
騰:70%的企業(yè)將基于騰向DeepSeek靠攏。
近日,DeepSeek一體機(jī)的發(fā)布廠商包括華鯤振宇、寶德、神州鯤泰、長江計(jì)算等,均基于騰產(chǎn)品構(gòu)建。
可以看到,隨著DeepSeek一體機(jī)的密集發(fā)布,騰的產(chǎn)業(yè)聯(lián)盟正在不斷擴(kuò)大。
據(jù)悉,目前已有超過80家企業(yè)基于騰快速適配或上線了DeepSeek系列模型,并對外提供服務(wù)。預(yù)計(jì)未來兩周內(nèi),還將有20多家企業(yè)完成上線。這意味著,國內(nèi)70%的企業(yè)將基于騰向DeepSeek靠攏。
相較于進(jìn)口GPU方案,騰芯片的本地化服務(wù)和團(tuán)隊(duì)對部署DeepSeek的效果影響顯著。以萬卡規(guī)模的數(shù)據(jù)中心為例,MindSpore工具鏈的自動并行功能使得分布式訓(xùn)練代碼量減少了70%。
海光:智算中心、金融等多場景滲透
海光與 DeepSeek 的合作覆蓋智算中心、金融、智能制造等核心場景。
在智算中心方面,海光信息聯(lián)合青云科技推出 “海光 DCU + 基石智算 + DeepSeek 模型” 方案,支持按 Token 計(jì)費(fèi)的靈活調(diào)用模式,降低企業(yè) AI 應(yīng)用門檻。
在金融科技方面,中科金財(cái)與海光信息技術(shù)股份有限公司聯(lián)合推出了軟硬一體解決方案。該方案融合了自研的多場景多基座大模型引擎與海光DCU系列加速卡,并完成了與DeepSeek模型的深度適配。
在智能制造方面,海光 DCU 通過適配 DeepSeek-Janus-Pro 多模態(tài)模型,賦能工業(yè)視覺檢測與自動化決策,助力三一重工等企業(yè)實(shí)現(xiàn)產(chǎn)線智能化升級。
在數(shù)據(jù)管理方面,空天數(shù)智打造的 “睿思矩陣數(shù)據(jù)存管用平臺” 全面適配海光 DCU,將 DeepSeek 嵌入平臺,作為 “超級引擎” 深入海量數(shù)據(jù),為自然資源、能源電力、航空航天等領(lǐng)域提供數(shù)據(jù)處理支持。
此外,新致軟件聯(lián)合中科海光,正式發(fā)布新致信創(chuàng)一體機(jī)以海光K100 GPU服務(wù)器為算力基石,深度融合新致新知人工智能平臺與DeepSeek系列大模型,為企業(yè)提供從芯片到模型的全棧國產(chǎn)化AI解決方案,開啟安全、高效、敏捷的智能化轉(zhuǎn)型新時(shí)代。
京東云也發(fā)布DeepSeek大模型一體機(jī),支持華為騰、海光等國產(chǎn)AI加速芯片。
05
國產(chǎn)GPU,機(jī)會來了
隨著DeepSeek一體機(jī)等應(yīng)用的推出和廣泛應(yīng)用,市場對國產(chǎn)芯片的需求正在顯著增加。
沐曦科技CTO楊建表示,大模型后訓(xùn)練部分預(yù)計(jì)今年會有更多非英偉達(dá)卡加入,DeepSeek推動的大模型私有化部署,對國產(chǎn)芯片而言也是機(jī)會。
“2025年國產(chǎn)GPU的一個(gè)機(jī)會在于私有化部署,基本上這個(gè)市場會以大模型后訓(xùn)練和推理為主。”楊建表示,基于英偉達(dá)應(yīng)用于AI領(lǐng)域的GPU進(jìn)入國內(nèi)市場的方式,英偉達(dá)卡在零售市場上基本消失了,而私有化部署較依賴零售市場。若私有化部署市場爆發(fā),國產(chǎn)卡將會有很大機(jī)會。
隨著海外芯片算力限制帶來的難題逼近,全球算力可能會形成兩條并行路線,逐漸脫鉤。到2026年、2027年,美國預(yù)訓(xùn)練和后訓(xùn)練的算力基座預(yù)計(jì)仍是英偉達(dá),在國內(nèi)則是有一部分由英偉達(dá)承擔(dān)、一部分由國產(chǎn)芯片承擔(dān)。其中,后訓(xùn)練部分今年逐漸會有更多非英偉達(dá)卡加入,這是因?yàn)楹笥?xùn)練對集群要求相對較低,不太需要千卡以上集群。
天數(shù)智芯相關(guān)人士也表示,隨著國產(chǎn)模型取得突破,對國產(chǎn)芯片適配需求增加,今年國產(chǎn)芯片有較大發(fā)展機(jī)會。
DeepSeek模型的火熱也暗含著AI應(yīng)用爆發(fā)的機(jī)會,芯片廠商將目光轉(zhuǎn)向AI應(yīng)用所需的推理算力。去年國內(nèi)評測芯片時(shí)主要著眼訓(xùn)練,將國產(chǎn)芯片作為英偉達(dá)訓(xùn)練的替代品,2025年開始將有一個(gè)變化,即大家會逐漸看國產(chǎn)芯片在推理市場的機(jī)會。
上海人工智能研究院數(shù)字經(jīng)濟(jì)研究中心資深咨詢顧問于清揚(yáng)提到DeepSeek對國產(chǎn)芯片的促進(jìn)!癉eepSeek通過強(qiáng)化學(xué)習(xí)機(jī)制將模型的無效訓(xùn)練降低60%,對并行計(jì)算的需求較傳統(tǒng)架構(gòu)降低40%,使國產(chǎn)芯片在特定計(jì)算任務(wù)中的能效比可達(dá)英偉達(dá)GPU的75%!
與此同時(shí),不僅限于GPU芯片,在AI推理側(cè)有細(xì)分優(yōu)勢的ASIC、FPGA等芯片也將有豐富的發(fā)展機(jī)會。值得注意的是,雖然前文所述DeepSeek的火熱給國產(chǎn)芯片公司帶來諸多機(jī)遇,但是由于DeepSeek對英偉達(dá)CUDA生態(tài)仍有明顯的路徑依賴,國產(chǎn)芯片公司還需在互聯(lián)和生態(tài)等諸多方面進(jìn)一步完善。