展會(huì)信息港展會(huì)大全

DeepSeek指路算力優(yōu)化路徑,國產(chǎn)AI有望實(shí)現(xiàn)生態(tài)閉環(huán)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-12 12:25:32   瀏覽:406次  

導(dǎo)讀:DeepSeek同時(shí)考慮算法精度和系統(tǒng)效率。除了極致的底層優(yōu)化,協(xié)同優(yōu)化也可能讓大模型在利用國產(chǎn)算力時(shí)達(dá)到甚至超越英偉達(dá)GPU的性能。從最頂層的產(chǎn)品應(yīng)用到底層的基礎(chǔ)設(shè)施,大模型的每一個(gè)層級(jí)都已經(jīng)形成了非常好的生態(tài),每一個(gè)層級(jí)上都存在著優(yōu)化空間。未來推理算力或?qū)⒂?-3個(gè)數(shù)量級(jí)的提升。訓(xùn)練算力需求仍會(huì)有所增長,總體來看,算力需求會(huì)激增,成本會(huì)更高,但算力成本還有巨 ......

DeepSeek同時(shí)考慮算法精度和系統(tǒng)效率。除了極致的底層優(yōu)化,協(xié)同優(yōu)化也可能讓大模型在利用國產(chǎn)算力時(shí)達(dá)到甚至超越英偉達(dá)GPU的性能。從最頂層的產(chǎn)品應(yīng)用到底層的基礎(chǔ)設(shè)施,大模型的每一個(gè)層級(jí)都已經(jīng)形成了非常好的生態(tài),每一個(gè)層級(jí)上都存在著優(yōu)化空間。

未來推理算力或?qū)⒂?-3個(gè)數(shù)量級(jí)的提升。訓(xùn)練算力需求仍會(huì)有所增長,總體來看,算力需求會(huì)激增,成本會(huì)更高,但算力成本還有巨大壓縮空間,單位算力成本將下降,效率得到提升。

“原來大家覺得訓(xùn)練模型只需要招一批算法工程師,再融一大筆錢,買一大批卡,這事就能干了。但現(xiàn)在不是了,現(xiàn)在還需要招一批懂系統(tǒng)的人,這是AI行業(yè)的一個(gè)很大變化!鄙虾=煌ù髮W(xué)長聘教軌副教授、無問芯穹首席科學(xué)家戴國浩日前在接受澎湃科技采訪時(shí)表示,DeepSeek使用的訓(xùn)練服務(wù)算力并沒有隨模型尺寸等比例成倍增加,而是通過底層優(yōu)化釋放底層硬件性能、軟硬件協(xié)同創(chuàng)新“壓榨”算力,大模型“煉制”開始追求極致性價(jià)比。

利用2048張H800 GPU,預(yù)估不到兩個(gè)月時(shí)間訓(xùn)練DeepSeek V3。H800每小時(shí)每卡2美元租賃成本,訓(xùn)練成本550萬美元左右,其中不包括前期探索模型架構(gòu)、消融實(shí)驗(yàn)等開銷。戴國浩表示,DeepSeek打響生態(tài)閉環(huán)第一槍,對(duì)國產(chǎn)算力優(yōu)化提出更清晰的路徑?傮w來看,算力需求會(huì)激增,推理算力或?qū)⒂?-3個(gè)數(shù)量級(jí)的提升,算力成本會(huì)更高,但算力成本還有巨大壓縮空間,單位算力成本將下降,效率得到提升。

DeepSeek指路算力優(yōu)化路徑,國產(chǎn)AI有望實(shí)現(xiàn)生態(tài)閉環(huán)

上海交通大學(xué)長聘教軌副教授、無問芯穹首席科學(xué)家戴國浩。

底層優(yōu)化釋放底層硬件性能

拆解DeepSeek的技術(shù)報(bào)告,相對(duì)于模型架構(gòu)、預(yù)訓(xùn)練方法和后訓(xùn)練方法,DeepSeek著重介紹系統(tǒng)架構(gòu)。相比之下,國外開源模型的公開技術(shù)報(bào)告中對(duì)于系統(tǒng)架構(gòu)的介紹篇幅較少。

戴國浩表示,DeepSeek的極致性價(jià)比來自于兩大類優(yōu)化,一是了解硬件細(xì)節(jié),實(shí)現(xiàn)極致的底層優(yōu)化;二是打通軟件硬件,實(shí)現(xiàn)聯(lián)合協(xié)同優(yōu)化。前者基于確定性的算法模型及底層硬件,開展通信優(yōu)化、內(nèi)存優(yōu)化,這些優(yōu)化不改變?nèi)魏纬绦驁?zhí)行結(jié)果。后者如混合精度的量化、對(duì)底層硬件的修改,擴(kuò)大系統(tǒng)的優(yōu)化空間。

例如在通信優(yōu)化上,DeepSeek采用雙向流水線機(jī)制,讓計(jì)算和通信將近100%重疊,實(shí)現(xiàn)更大的專家并行,使得模型能夠像流水線一樣“邊算邊傳”,這被認(rèn)為是使用有限資源訓(xùn)練更大模型的有效手段。在底層優(yōu)化上,PTX的優(yōu)化使得系統(tǒng)和模型可以更好地釋放底層硬件性能,這也是DeepSeek能夠更精細(xì)控制底層硬件、實(shí)現(xiàn)“邊算邊傳”的重要原因。

訓(xùn)練一個(gè)大模型,首先要有GPU。但開發(fā)者并不需要關(guān)注底層硬件的模樣,只需要通過Python等高層次語言或英偉達(dá)CUDA等硬件接口進(jìn)行編程,終調(diào)用底層的GPU。而能夠直接和底層硬件發(fā)生交互的PTX一般被隱藏在CUDA的驅(qū)動(dòng)中,PTX是比CUDA更底層的硬件接口編程語言。越接近底層的語言對(duì)硬件的利用效率越高,在同樣硬件能力下實(shí)現(xiàn)更精細(xì)的通信任務(wù)管理,將最費(fèi)時(shí)的跨界點(diǎn)通信效率提升60%,跑出效果更好的模型。

PTX編程并非行業(yè)機(jī)密,但此前幾乎所有大模型算法工程師不會(huì)接觸到這一層語言。因此,如果能夠編程和調(diào)用PTX,就可以更好地調(diào)用底層硬件。不過,戴國浩解釋,這并不意味著繞過了英偉達(dá)CUDA的壟斷。從編程范式來看,DeepSeek在某些代碼上繞過了CUDA的編程,但并未完全繞開CUDA生態(tài)。

軟硬件協(xié)同創(chuàng)新“壓榨”算力

“從最頂層的產(chǎn)品應(yīng)用到底層的基礎(chǔ)設(shè)施,大模型的每一個(gè)層級(jí)都已經(jīng)形成了非常好的生態(tài),每一個(gè)層級(jí)上都存在著優(yōu)化空間!贝鲊票硎,除了極致的底層優(yōu)化,協(xié)同優(yōu)化也可能讓大模型在利用國產(chǎn)算力時(shí)達(dá)到甚至超越英偉達(dá)GPU的性能。“原來的算法架構(gòu)只考慮算法精度,大家覺得只要算法足夠好就行了,但DeepSeek同時(shí)考慮算法精度和系統(tǒng)效率。”

例如英偉達(dá)H800集成了FP8計(jì)算單元,戴國浩表示,使用更低精度訓(xùn)練,理論上可帶來2倍的計(jì)算加速和50%的顯存降低。但由于低精度訓(xùn)練極易損失模型效果,以及大模型高昂的試錯(cuò)成本,開源社區(qū)中尚無項(xiàng)目實(shí)現(xiàn)大規(guī)模FP8預(yù)訓(xùn)練落地。而DeepSeek實(shí)現(xiàn)了FP8低比特訓(xùn)練出高質(zhì)量模型,堅(jiān)定“榨干”硬件所有潛力。

DeepSeek采用MLA(隱空間注意力計(jì)算機(jī)制)架構(gòu)和MoE(混合專家模型)架構(gòu),MLA架構(gòu)可進(jìn)一步降低推理消耗的內(nèi)存。在模型訓(xùn)練過程中,MoE架構(gòu)采用1個(gè)共享專家和256個(gè)路由專家,每個(gè)token激活8個(gè)路由專家。

據(jù)介紹,MoE架構(gòu)訓(xùn)練超大模型,最大的挑戰(zhàn)是負(fù)載均衡。DeepSeek引入一個(gè)專家偏見(expert bias),保證專家負(fù)載均衡,提升集群效率。專家偏見只影響專家路由,不產(chǎn)生任何梯度影響。專家偏見動(dòng)態(tài)調(diào)整,如果某個(gè)專家過載,就會(huì)降低偏見,如果某個(gè)專家負(fù)載不足,就會(huì)增加偏見。DeepSeek采用MoE架構(gòu),又在算法和軟件層面解決了MoE本身由于專家并行帶來的通信開銷問題,充分挖掘了算法、軟件、硬件協(xié)同創(chuàng)新。

打響國產(chǎn)AI生態(tài)閉環(huán)第一槍

“無論是底層優(yōu)化,還是協(xié)同優(yōu)化,必須要對(duì)底層硬件和系統(tǒng)有非常深刻的理解,既要懂算法,又要懂硬件!贝鲊票硎,以PTX編程為例,這需要開發(fā)者清晰了解英偉達(dá)的硬件是如何制造的,因此門檻高,大模型公司少有對(duì)PTX編程。業(yè)內(nèi)擁有系統(tǒng)優(yōu)化能力的團(tuán)隊(duì)懂PTX編程,但模型訓(xùn)練本身投入大,難以持續(xù)優(yōu)化。

DeepSeek打響了第一槍,對(duì)國產(chǎn)算力優(yōu)化提出了更清晰的路徑。降低算力成本是國內(nèi)發(fā)展大模型的核心之一。軟硬件協(xié)同路徑包含模型、系統(tǒng)、芯片等關(guān)鍵因素,在國外,這三者已經(jīng)形成了完備的閉環(huán)生態(tài)。戴國浩表示,在以往的認(rèn)知中,使用國外的芯片預(yù)訓(xùn)練、使用國外的模型做微調(diào),得到的模型跟國外的閉源或開源模型相比總存在一定差距,國內(nèi)的系統(tǒng)、芯片也難以形成閉環(huán)生態(tài)。但DeepSeek的出現(xiàn)使得國內(nèi)的模型超越了國外的模型,軟硬件協(xié)同降低了算力成本,這套方法論可以打破現(xiàn)在的閉環(huán)生態(tài)瓶頸。

戴國浩說,DeepSeek在論文中單獨(dú)用2頁文字提出對(duì)于未來硬件設(shè)計(jì)的發(fā)展建議,進(jìn)一步佐證了模型、系統(tǒng)、硬件的閉環(huán)路線。國外的閉環(huán)AI生態(tài)始終是一個(gè)同構(gòu)的AI系統(tǒng),其核心競爭力就在于CUDA-X的垂直整合能力。因此,他認(rèn)為,未來國內(nèi)AI發(fā)展要通過調(diào)動(dòng)跨越軟硬件和上下游生態(tài),加大模型、芯片、系統(tǒng)協(xié)同優(yōu)化和垂直打通,例如根據(jù)新一代模型架構(gòu)來定義未來芯片的底層電路實(shí)現(xiàn)、根據(jù)國產(chǎn)AI系統(tǒng)的互聯(lián)通信方式設(shè)計(jì)高效的混合專家模型架構(gòu)。

“如何將國內(nèi)的模型、系統(tǒng)和芯片形成自主可控的閉環(huán),這是未來一定會(huì)發(fā)生的事。”戴國浩表示,DeepSeek的崛起對(duì)國產(chǎn)算力的發(fā)展是好消息。未來推理算力或?qū)⒂?-3個(gè)數(shù)量級(jí)的提升。訓(xùn)練算力需求仍會(huì)有所增長。總體來看,算力需求會(huì)激增,成本會(huì)更高,但算力成本還有巨大壓縮空間,單位算力成本將下降,效率得到提升。

戴國浩判斷,未來大模型的發(fā)展趨勢(shì),一是繼續(xù)國產(chǎn)化,二是極致的軟硬件協(xié)同優(yōu)化帶來成本下降,提升模型訓(xùn)練和應(yīng)用的極致性價(jià)比。性價(jià)比越高,算力需求量就越大,算力越吃緊。當(dāng)前中國算力生態(tài)存在供不應(yīng)求和供過于求的雙重矛盾,中國特有的AI基礎(chǔ)設(shè)施格局是多模型和多芯片,存在大量異構(gòu)算力,需要把他們變得能用、好用,在使用閉環(huán)中形成硬件和算法的正向循環(huán)。戴國浩表示,要通過軟硬協(xié)同和多元異構(gòu)壓榨算力,降低獲取強(qiáng)大基座模型的成本,解決算力缺口,以有限算力實(shí)現(xiàn)國產(chǎn)模型能力趕超。

贊助本站

相關(guān)熱詞: deepseek 戴國浩 算力 算法 gpu

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港