展會信息港展會大全

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn),Google的解決方案
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-16 22:02:40   瀏覽:312次  

導(dǎo)讀:芝能智芯出品隨著機(jī)器學(xué)習(xí)應(yīng)用的迅猛發(fā)展,數(shù)據(jù)中心的電力需求呈現(xiàn)出前所未有的增長,特別是在大規(guī)模的批量同步訓(xùn)練工作負(fù)載下。這些工作負(fù)載的功率波動模式與傳統(tǒng)的數(shù)據(jù)中心有顯著不同,因此在保證機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的可靠性和可用性方面面臨巨大的挑戰(zhàn)。為了應(yīng)對這一問題,Google提出了一種基于全棧協(xié)同設(shè)計(jì)的創(chuàng)新方法,通過主動電源整形和智能功率調(diào)節(jié)緩解大規(guī)模ML工作負(fù)載所 ......

芝能智芯出品

隨著機(jī)器學(xué)習(xí)應(yīng)用的迅猛發(fā)展,數(shù)據(jù)中心的電力需求呈現(xiàn)出前所未有的增長,特別是在大規(guī)模的批量同步訓(xùn)練工作負(fù)載下。

這些工作負(fù)載的功率波動模式與傳統(tǒng)的數(shù)據(jù)中心有顯著不同,因此在保證機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的可靠性和可用性方面面臨巨大的挑戰(zhàn)。

為了應(yīng)對這一問題,Google提出了一種基于全棧協(xié)同設(shè)計(jì)的創(chuàng)新方法,通過主動電源整形和智能功率調(diào)節(jié)緩解大規(guī)模ML工作負(fù)載所帶來的功率和熱波動。

根據(jù)google提供的信息,來看看這一方法的實(shí)現(xiàn)原理、效果及其對行業(yè)的影響,并呼吁產(chǎn)業(yè)鏈各方共同合作,共同應(yīng)對未來機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施中電力和熱波動的挑戰(zhàn)。

Part 1

機(jī)器學(xué)習(xí)帶來的功率挑戰(zhàn)


機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn),Google的解決方案

與傳統(tǒng)數(shù)據(jù)中心工作負(fù)載的“長尾分布”不同,ML訓(xùn)練任務(wù)具有強(qiáng)同步性。

數(shù)萬個(gè)加速器需在同一時(shí)鐘周期內(nèi)執(zhí)行矩陣運(yùn)算,導(dǎo)致集群級功率需求呈現(xiàn)“脈沖式”特征,當(dāng)所有TPU同時(shí)進(jìn)入計(jì)算密集階段時(shí),功率瞬時(shí)拉升至峰值;

而在同步通信或數(shù)據(jù)加載階段,功率驟降。這種波動幅度可達(dá)數(shù)十兆瓦,且頻率極高(秒級周期重復(fù)),根源在于ML模型的訓(xùn)練機(jī)制:批處理數(shù)據(jù)分割、參數(shù)同步更新的迭代過程必然引發(fā)計(jì)算-通信交替的“鋸齒形”功率曲線。

高幅度、高頻次的功率波動對基礎(chǔ)設(shè)施造成連鎖反應(yīng),芯片最高溫度可控,但頻繁的溫度波動(如20°C峰谷差)會引發(fā)熱膨脹系數(shù)差異導(dǎo)致的機(jī)械應(yīng)力,加速熱界面材料老化,并加劇電遷移效應(yīng),鋁互連線的電阻率隨溫度變化,導(dǎo)致電流密度重新分布,可能引發(fā)局部斷路。

傳統(tǒng)數(shù)據(jù)中心通過錯(cuò)峰調(diào)度平滑負(fù)載,但ML集群的功率脈沖可能觸發(fā)電網(wǎng)保護(hù)機(jī)制(如過載跳閘)。若多個(gè)ML集群接入同一區(qū)域電網(wǎng),其波動疊加可能超出變壓器瞬時(shí)容量,導(dǎo)致區(qū)域性電壓驟降甚至停電。

傳統(tǒng)數(shù)據(jù)中心設(shè)計(jì)基于“平均功率”假設(shè),依賴被動式散熱(如風(fēng)冷)和超配電路(允許短期過載)。然而,ML負(fù)載的功率密度(如30kW/機(jī)架)和波動速度遠(yuǎn)超傳統(tǒng)場景。

風(fēng)冷系統(tǒng)響應(yīng)延遲約為分鐘級,無法匹配秒級溫度波動;超配設(shè)計(jì)的冗余容量被ML負(fù)載持續(xù)占滿,失去緩沖作用,迫使基礎(chǔ)設(shè)施進(jìn)入“硬約束”模式,進(jìn)一步限制ML任務(wù)吞吐量。

這些問題不僅影響數(shù)據(jù)中心的穩(wěn)定性和長期運(yùn)行,還可能導(dǎo)致運(yùn)營成本的增加,在新興的機(jī)器學(xué)習(xí)應(yīng)用環(huán)境中,如何有效管理功率和熱波動已成為提升數(shù)據(jù)中心效能和可持續(xù)性的一項(xiàng)關(guān)鍵任務(wù)。

Part 2

Google的

全棧協(xié)同設(shè)計(jì)解決方案


機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn),Google的解決方案

為了應(yīng)對這些挑戰(zhàn),Google提出了一種創(chuàng)新的解決方案,通過全棧協(xié)同設(shè)計(jì)來主動調(diào)節(jié)工作負(fù)載的功率分布,從而緩解功率和熱波動,結(jié)合了從硬件(如TPU加速器)到數(shù)據(jù)中心基礎(chǔ)設(shè)施的多個(gè)層面的優(yōu)化,使得功率波動得到有效的管理。

Google在其Tensor Processing Unit(TPU)編譯器中加入了儀器化功能,以監(jiān)測與功率波動相關(guān)的工作負(fù)載特征,特別是同步標(biāo)志。

通過動態(tài)平衡TPU計(jì)算塊的活動,Google能夠平滑計(jì)算負(fù)載的分布,從而減緩功率波動的幅度,顯著減少功率波動,還能夠控制系統(tǒng)的溫度波動,避免因熱量不均而引發(fā)硬件故障。

Google的核心創(chuàng)新在于將功率管理前移至編譯階段。TPU編譯器通過靜態(tài)代碼分析識別計(jì)算-通信邊界(如AllReduce操作),并插入“功率平滑指令”。例如,在同步通信階段,編譯器可動態(tài)調(diào)度計(jì)算塊的激活時(shí)序,使部分TPU核心提前進(jìn)入低功耗狀態(tài),而非瞬時(shí)全部關(guān)閉。

此舉將功率下降斜率從垂直陡降改為漸進(jìn)式過渡,避免電網(wǎng)側(cè)出現(xiàn)電流沖擊。在測試中,功率波動幅度從基線情況下降低了近50%,溫度波動幅度也從約20℃降至約10℃。

為了實(shí)現(xiàn)這一目標(biāo),系統(tǒng)的平均功耗略有增加,但性能影響幾乎可以忽略不計(jì),這一方法在降低功率波動和溫度波動方面的高效性。

這種全棧協(xié)同設(shè)計(jì)的優(yōu)勢在于,通過從硬件到軟件的緊密配合,能夠在不顯著犧牲性能的情況下,顯著降低功率和熱波動的影響。

更重要的是,這種方法具有高度的可擴(kuò)展性,可以在大規(guī)模數(shù)據(jù)中心中得到廣泛應(yīng)用,并且能夠與其他節(jié)能技術(shù)協(xié)同工作,如水冷、垂直電力輸送等。

● 全棧方法的關(guān)鍵在于打通芯片-機(jī)架-數(shù)據(jù)中心的控制環(huán)路:

◎芯片級:集成溫度傳感器與DVFS(動態(tài)電壓頻率調(diào)節(jié))聯(lián)動,當(dāng)檢測到局部熱點(diǎn)時(shí),優(yōu)先遷移計(jì)算任務(wù)至低溫區(qū)域,而非全局降頻。

◎機(jī)架級:引入RLCB(機(jī)架級電容組)作為“波動緩沖器”,在秒級時(shí)間尺度吸收/釋放電能,平滑上游供電壓力。

◎數(shù)據(jù)中心級:水冷系統(tǒng)與負(fù)載調(diào)度協(xié)同,例如在功率峰值期優(yōu)先冷卻高負(fù)載區(qū)域,并通過工作負(fù)載遷移實(shí)現(xiàn)熱均衡。

● Google 的方案并非單純追求技術(shù)最優(yōu),而是兼顧成本與行業(yè)協(xié)同

◎通過編譯器優(yōu)化使性能代價(jià)可控,任務(wù)執(zhí)行時(shí)間增加

◎在硬件兼容性上,TPU 定制化設(shè)計(jì)利于編譯器優(yōu)化的同時(shí),借助 OCP 推動標(biāo)準(zhǔn)化接口(如 RLCB 規(guī)格)讓其他廠商可復(fù)用部分模塊;

◎在軟件生態(tài)擴(kuò)展方面,向 ML 框架(如 TensorFlow)開放功耗 API,允許開發(fā)者定義任務(wù)優(yōu)先級以實(shí)現(xiàn) “能效感知” 的模型訓(xùn)練。

● 人工智能的算力的指數(shù)級增長已使單點(diǎn)技術(shù)創(chuàng)新難以應(yīng)對系統(tǒng)性風(fēng)險(xiǎn),全棧方法揭示了兩大趨勢:

其一,算力效率的競爭正從“峰值性能”轉(zhuǎn)向“可持續(xù)性能”,需在硬件設(shè)計(jì)、軟件調(diào)度、能源供給間實(shí)現(xiàn)全局最優(yōu);

其二,基礎(chǔ)設(shè)施可靠性成為ML模型迭代的隱形瓶頸,電熱波動可能直接制約模型訓(xùn)練周期與成本。

電力公司需重新定義電網(wǎng)容限標(biāo)準(zhǔn),硬件供應(yīng)商應(yīng)開發(fā)抗波動元件(如寬溫域電容),開發(fā)者需將“功率效率”納入模型評估指標(biāo),通過OCP推動的開放標(biāo)準(zhǔn),或?qū)⒊蔀橄乱淮G色算力基礎(chǔ)設(shè)施的基石。

小結(jié)

大規(guī)模同步的訓(xùn)練工作負(fù)載在電力和熱管理方面提出了新的挑戰(zhàn),基于全棧協(xié)同設(shè)計(jì)的主動電源整形方法,通過優(yōu)化硬件與軟件的協(xié)同作用,成功減緩了功率波動和溫度波動,提高了系統(tǒng)的可靠性和能源效率。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港