IT之家 10 月 29 日消息,科技媒體 servethehome 昨日(10 月 28 日)發(fā)布博文,應(yīng) xAI 公司邀請(qǐng),參觀了 Colossus 全球最大 AI 訓(xùn)練集群。
IT之家曾于今年 9 月報(bào)道,xAI 在 Supermicro 的幫助下,在短短 122 天時(shí)間內(nèi)搭建 10 萬張英偉達(dá) H100,而該公司計(jì)劃未來將再翻倍增加 10 萬張 GPU,其中 5 萬張為更先進(jìn)的 H200。
xAI Colossus 配備了英偉達(dá) HGX H100 服務(wù)器,每臺(tái)服務(wù)器內(nèi)含 8 張 H100 GPU,所有服務(wù)器都在 Supermicro 的 4U水冷系統(tǒng)中運(yùn)行,確保高效散熱。
每個(gè)機(jī)架可容納 8 臺(tái)服務(wù)器,8 臺(tái)服務(wù)器組成 1 個(gè)陣列,意味著每個(gè)陣列有 512 個(gè) GPU。Colossus 集群內(nèi)有超過 1,500 個(gè) GPU 機(jī)架,支持高帶寬的網(wǎng)絡(luò)互聯(lián)。
每個(gè) GPU 配備 400GbE 的網(wǎng)絡(luò)接口控制器,確保每臺(tái) HGX H100 服務(wù)器達(dá)到 3.6 Terabit 每秒的以太網(wǎng)帶寬。
xAI 采用了 Supermicro 的 4U 通用 GPU 系統(tǒng),這些系統(tǒng)具備先進(jìn)的液冷技術(shù),提升了散熱效率,確保了高性能計(jì)算的穩(wěn)定性。液冷設(shè)計(jì)使得系統(tǒng)在運(yùn)行高負(fù)荷任務(wù)時(shí),能夠保持較低的溫度,延長(zhǎng)設(shè)備使用壽命。
此次展示獲得了埃隆·馬斯克及其團(tuán)隊(duì)的特別批準(zhǔn),由于構(gòu)建全球最大 AI 集群的敏感性,部分內(nèi)容在視頻中進(jìn)行了模糊處理,Supermicro 贊助了這次巡展,顯示出其在行業(yè)中的重要地位。