當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器學(xué)習(xí) > 機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:02:40 瀏覽：312次

導(dǎo)讀：芝能智芯出品隨著機(jī)器學(xué)習(xí)應(yīng)用的迅猛發(fā)展，數(shù)據(jù)中心的電力需求呈現(xiàn)出前所未有的增長，特別是在大規(guī)模的批量同步訓(xùn)練工作負(fù)載下。這些工作負(fù)載的功率波動模式與傳統(tǒng)的數(shù)據(jù)中心有顯著不同，因此在保證機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的可靠性和可用性方面面臨巨大的挑戰(zhàn)。為了應(yīng)對這一問題，Google提出了一種基于全棧協(xié)同設(shè)計(jì)的創(chuàng)新方法，通過主動電源整形和智能功率調(diào)節(jié)緩解大規(guī)模ML工作負(fù)載所 ......

芝能智芯出品

隨著機(jī)器學(xué)習(xí)應(yīng)用的迅猛發(fā)展，數(shù)據(jù)中心的電力需求呈現(xiàn)出前所未有的增長，特別是在大規(guī)模的批量同步訓(xùn)練工作負(fù)載下。

這些工作負(fù)載的功率波動模式與傳統(tǒng)的數(shù)據(jù)中心有顯著不同，因此在保證機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的可靠性和可用性方面面臨巨大的挑戰(zhàn)。

為了應(yīng)對這一問題，Google提出了一種基于全棧協(xié)同設(shè)計(jì)的創(chuàng)新方法，通過主動電源整形和智能功率調(diào)節(jié)緩解大規(guī)模ML工作負(fù)載所帶來的功率和熱波動。

根據(jù)google提供的信息，來看看這一方法的實(shí)現(xiàn)原理、效果及其對行業(yè)的影響，并呼吁產(chǎn)業(yè)鏈各方共同合作，共同應(yīng)對未來機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施中電力和熱波動的挑戰(zhàn)。

Part 1

機(jī)器學(xué)習(xí)帶來的功率挑戰(zhàn)

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案

與傳統(tǒng)數(shù)據(jù)中心工作負(fù)載的“長尾分布”不同，ML訓(xùn)練任務(wù)具有強(qiáng)同步性。

數(shù)萬個(gè)加速器需在同一時(shí)鐘周期內(nèi)執(zhí)行矩陣運(yùn)算，導(dǎo)致集群級功率需求呈現(xiàn)“脈沖式”特征，當(dāng)所有TPU同時(shí)進(jìn)入計(jì)算密集階段時(shí)，功率瞬時(shí)拉升至峰值；

而在同步通信或數(shù)據(jù)加載階段，功率驟降。這種波動幅度可達(dá)數(shù)十兆瓦，且頻率極高（秒級周期重復(fù)），根源在于ML模型的訓(xùn)練機(jī)制：批處理數(shù)據(jù)分割、參數(shù)同步更新的迭代過程必然引發(fā)計(jì)算-通信交替的“鋸齒形”功率曲線。

高幅度、高頻次的功率波動對基礎(chǔ)設(shè)施造成連鎖反應(yīng)，芯片最高溫度可控，但頻繁的溫度波動（如20°C峰谷差）會引發(fā)熱膨脹系數(shù)差異導(dǎo)致的機(jī)械應(yīng)力，加速熱界面材料老化，并加劇電遷移效應(yīng)，鋁互連線的電阻率隨溫度變化，導(dǎo)致電流密度重新分布，可能引發(fā)局部斷路。

傳統(tǒng)數(shù)據(jù)中心通過錯(cuò)峰調(diào)度平滑負(fù)載，但ML集群的功率脈沖可能觸發(fā)電網(wǎng)保護(hù)機(jī)制（如過載跳閘）。若多個(gè)ML集群接入同一區(qū)域電網(wǎng)，其波動疊加可能超出變壓器瞬時(shí)容量，導(dǎo)致區(qū)域性電壓驟降甚至停電。

傳統(tǒng)數(shù)據(jù)中心設(shè)計(jì)基于“平均功率”假設(shè)，依賴被動式散熱（如風(fēng)冷）和超配電路（允許短期過載）。然而，ML負(fù)載的功率密度（如30kW/機(jī)架）和波動速度遠(yuǎn)超傳統(tǒng)場景。

風(fēng)冷系統(tǒng)響應(yīng)延遲約為分鐘級，無法匹配秒級溫度波動；超配設(shè)計(jì)的冗余容量被ML負(fù)載持續(xù)占滿，失去緩沖作用，迫使基礎(chǔ)設(shè)施進(jìn)入“硬約束”模式，進(jìn)一步限制ML任務(wù)吞吐量。

這些問題不僅影響數(shù)據(jù)中心的穩(wěn)定性和長期運(yùn)行，還可能導(dǎo)致運(yùn)營成本的增加，在新興的機(jī)器學(xué)習(xí)應(yīng)用環(huán)境中，如何有效管理功率和熱波動已成為提升數(shù)據(jù)中心效能和可持續(xù)性的一項(xiàng)關(guān)鍵任務(wù)。

Part 2

Google的

全棧協(xié)同設(shè)計(jì)解決方案

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案

為了應(yīng)對這些挑戰(zhàn)，Google提出了一種創(chuàng)新的解決方案，通過全棧協(xié)同設(shè)計(jì)來主動調(diào)節(jié)工作負(fù)載的功率分布，從而緩解功率和熱波動，結(jié)合了從硬件（如TPU加速器）到數(shù)據(jù)中心基礎(chǔ)設(shè)施的多個(gè)層面的優(yōu)化，使得功率波動得到有效的管理。

Google在其Tensor Processing Unit（TPU）編譯器中加入了儀器化功能，以監(jiān)測與功率波動相關(guān)的工作負(fù)載特征，特別是同步標(biāo)志。

通過動態(tài)平衡TPU計(jì)算塊的活動，Google能夠平滑計(jì)算負(fù)載的分布，從而減緩功率波動的幅度，顯著減少功率波動，還能夠控制系統(tǒng)的溫度波動，避免因熱量不均而引發(fā)硬件故障。

Google的核心創(chuàng)新在于將功率管理前移至編譯階段。TPU編譯器通過靜態(tài)代碼分析識別計(jì)算-通信邊界（如AllReduce操作），并插入“功率平滑指令”。例如，在同步通信階段，編譯器可動態(tài)調(diào)度計(jì)算塊的激活時(shí)序，使部分TPU核心提前進(jìn)入低功耗狀態(tài)，而非瞬時(shí)全部關(guān)閉。

此舉將功率下降斜率從垂直陡降改為漸進(jìn)式過渡，避免電網(wǎng)側(cè)出現(xiàn)電流沖擊。在測試中，功率波動幅度從基線情況下降低了近50%，溫度波動幅度也從約20℃降至約10℃。

為了實(shí)現(xiàn)這一目標(biāo)，系統(tǒng)的平均功耗略有增加，但性能影響幾乎可以忽略不計(jì)，這一方法在降低功率波動和溫度波動方面的高效性。

這種全棧協(xié)同設(shè)計(jì)的優(yōu)勢在于，通過從硬件到軟件的緊密配合，能夠在不顯著犧牲性能的情況下，顯著降低功率和熱波動的影響。

更重要的是，這種方法具有高度的可擴(kuò)展性，可以在大規(guī)模數(shù)據(jù)中心中得到廣泛應(yīng)用，并且能夠與其他節(jié)能技術(shù)協(xié)同工作，如水冷、垂直電力輸送等。

● 全棧方法的關(guān)鍵在于打通芯片-機(jī)架-數(shù)據(jù)中心的控制環(huán)路：

◎芯片級：集成溫度傳感器與DVFS（動態(tài)電壓頻率調(diào)節(jié)）聯(lián)動，當(dāng)檢測到局部熱點(diǎn)時(shí)，優(yōu)先遷移計(jì)算任務(wù)至低溫區(qū)域，而非全局降頻。

◎機(jī)架級：引入RLCB（機(jī)架級電容組）作為“波動緩沖器”，在秒級時(shí)間尺度吸收/釋放電能，平滑上游供電壓力。

◎數(shù)據(jù)中心級：水冷系統(tǒng)與負(fù)載調(diào)度協(xié)同，例如在功率峰值期優(yōu)先冷卻高負(fù)載區(qū)域，并通過工作負(fù)載遷移實(shí)現(xiàn)熱均衡。

● Google 的方案并非單純追求技術(shù)最優(yōu)，而是兼顧成本與行業(yè)協(xié)同

◎通過編譯器優(yōu)化使性能代價(jià)可控，任務(wù)執(zhí)行時(shí)間增加

◎在硬件兼容性上，TPU 定制化設(shè)計(jì)利于編譯器優(yōu)化的同時(shí)，借助 OCP 推動標(biāo)準(zhǔn)化接口（如 RLCB 規(guī)格）讓其他廠商可復(fù)用部分模塊；

◎在軟件生態(tài)擴(kuò)展方面，向 ML 框架（如 TensorFlow）開放功耗 API，允許開發(fā)者定義任務(wù)優(yōu)先級以實(shí)現(xiàn) “能效感知” 的模型訓(xùn)練。

● 人工智能的算力的指數(shù)級增長已使單點(diǎn)技術(shù)創(chuàng)新難以應(yīng)對系統(tǒng)性風(fēng)險(xiǎn)，全棧方法揭示了兩大趨勢：

◎其一，算力效率的競爭正從“峰值性能”轉(zhuǎn)向“可持續(xù)性能”，需在硬件設(shè)計(jì)、軟件調(diào)度、能源供給間實(shí)現(xiàn)全局最優(yōu)；

◎其二，基礎(chǔ)設(shè)施可靠性成為ML模型迭代的隱形瓶頸，電熱波動可能直接制約模型訓(xùn)練周期與成本。

電力公司需重新定義電網(wǎng)容限標(biāo)準(zhǔn)，硬件供應(yīng)商應(yīng)開發(fā)抗波動元件（如寬溫域電容），開發(fā)者需將“功率效率”納入模型評估指標(biāo)，通過OCP推動的開放標(biāo)準(zhǔn)，或?qū)⒊蔀橄乱淮G色算力基礎(chǔ)設(shè)施的基石。

小結(jié)

大規(guī)模同步的訓(xùn)練工作負(fù)載在電力和熱管理方面提出了新的挑戰(zhàn)，基于全棧協(xié)同設(shè)計(jì)的主動電源整形方法，通過優(yōu)化硬件與軟件的協(xié)同作用，成功減緩了功率波動和溫度波動，提高了系統(tǒng)的可靠性和能源效率。

上一篇：國內(nèi)團(tuán)隊(duì)首次突破人形機(jī)器人復(fù)雜場景隨意站起技術(shù)

下一篇：馬斯克要做“最聰明”大模型

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:02:40 瀏覽：312次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:02:40 瀏覽：312次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

機(jī)器學(xué)習(xí)帶來電力和熱管理新挑戰(zhàn)，Google的解決方案
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:02:40 瀏覽：312次