IT之家 8 月 7 日消息,Meta 公司于 8 月 5 日發(fā)布博文,表示為了滿(mǎn)足大規(guī)模分布式 AI 訓(xùn)練對(duì)網(wǎng)絡(luò)的需求,構(gòu)建了基于 RoCEv2 協(xié)議的大規(guī)模 AI 網(wǎng)絡(luò)。
RoCEv2 的全稱(chēng)是 RDMA Over Converged Ethernet version 2,是一種節(jié)點(diǎn)間通信傳輸方式,用于大部分人工智能容量。
Meta 公司已成功擴(kuò)展了 RoCE 網(wǎng)絡(luò),從原型發(fā)展到部署了眾多集群,每個(gè)集群可容納數(shù)千個(gè) GPU。
這些 RoCE 集群支持廣泛的生產(chǎn)型分布式 GPU 訓(xùn)練工作,包括排名、內(nèi)容推薦、內(nèi)容理解、自然語(yǔ)言處理和 GenAI 模型訓(xùn)練等工作負(fù)載。
Meta 公司為分布式 AI 訓(xùn)練專(zhuān)門(mén)建立了一個(gè)專(zhuān)用的后端網(wǎng)絡(luò),能夠獨(dú)立于數(shù)據(jù)中心網(wǎng)絡(luò)的其他部分進(jìn)行發(fā)展、運(yùn)行和擴(kuò)展。
訓(xùn)練集群依賴(lài)于兩個(gè)獨(dú)立的網(wǎng)絡(luò):前端(FE)網(wǎng)絡(luò)用于數(shù)據(jù)攝娶檢查點(diǎn)和日志記錄等任務(wù),后端(BE)網(wǎng)絡(luò)用于訓(xùn)練,如下圖所示:
訓(xùn)練機(jī)架連接到數(shù)據(jù)中心網(wǎng)絡(luò)的 FE 和 BE。FE 的網(wǎng)絡(luò)層次包括機(jī)架交換機(jī) (RSW)、結(jié)構(gòu)交換機(jī)(FSW)等,其中包含存儲(chǔ)倉(cāng)庫(kù),為 GPU 提供訓(xùn)練工作負(fù)載所需的輸入數(shù)據(jù)。
后端結(jié)構(gòu)是一個(gè)專(zhuān)門(mén)的結(jié)構(gòu),它以無(wú)阻塞的架構(gòu)連接所有 RDMA 網(wǎng)卡,無(wú)論它們的物理位置如何,在集群中的任意兩個(gè) GPU 之間提供高帶寬、低延遲和無(wú)損傳輸。
為了應(yīng)對(duì) LLM 模型訓(xùn)練對(duì) GPU 規(guī)模的需求,Meta 設(shè)計(jì)了聚合訓(xùn)練交換機(jī)(ATSW)層,將多個(gè) AI 區(qū)域互連起來(lái)。此外,Meta 還優(yōu)化路由、擁塞控制等方面,以提升網(wǎng)絡(luò)性能。
IT之家附上參考地址