芯東西4月10日報道,昨夜,英特爾在年度Intel Vision大會上重磅推出新一代AI訓(xùn)練芯片Gaudi 3,正面向英偉達(dá)旗艦芯片發(fā)起挑戰(zhàn)。
會上,英特爾CEO基辛格揮舞著Gaudi 3,跟隨現(xiàn)場伴奏開心地?fù)u晃起身體,隨后宣布Gaudi 3的戰(zhàn)績:相比英偉達(dá)上一代旗艦H100 GPU,Gaudi 3的訓(xùn)練性能可提高70%,推理性能提高50%,能效提高40%,同時價格低得多。
在跑1800億參數(shù)Falcon模型時,Gaudi 3的推理速度比英偉達(dá)H200快30%。
Gaudi 3采用臺積電5nm制程、128GB HBM2e DRAM內(nèi)存、第五代Tensor Core架構(gòu),內(nèi)存帶寬高達(dá)3.7TB/s,共有24個200Gb以太網(wǎng)端口。不過英特爾沒有公布這塊芯片的晶體管總數(shù)。
和英偉達(dá)、AMD一樣,英特爾在最新AI芯片中通過“芯片拼裝”設(shè)計來超越reticle極限。
Gaudi 3基于統(tǒng)一內(nèi)存架構(gòu),將將64個Tensor Core封裝在兩個計算Tile中,共享96MB緩存池,借助高速互連技術(shù),兩個計算Tile能宛如一個完整芯片一樣運(yùn)行。
相比上一代Gaudi 2,Gaudi 3在BF16精度下可提供4倍的AI計算能力、1.5倍的內(nèi)存帶寬、2倍的網(wǎng)絡(luò)帶寬,支持大規(guī)模系統(tǒng)橫向擴(kuò)展,最多可擴(kuò)展至8192個芯片的參考架構(gòu)。
基辛格說,Gaudi 3將幫助AI經(jīng)歷三個階段,從AI Copilot時代邁向AI Agent時代,然后抵達(dá)全功能AI時代,即用于自動化復(fù)雜的、企業(yè)范圍的結(jié)果。
他預(yù)言當(dāng)發(fā)展到第三階段,功能自動化帶來的效率意味著或?qū)⒊霈F(xiàn)“一人擁有10億美元資產(chǎn)的公司”。
英特爾計劃從第一季度和第二季度分別開始向OEM/ODM合作伙伴提供風(fēng)冷版和液冷版的Gaudi 3芯片樣品,從第三季度開始加大風(fēng)冷部件的出貨量,第四季度加大液冷設(shè)計的出貨量。英特爾還將在開發(fā)者云中提供Gaudi 3的支持。
Gaudi 3應(yīng)該會是英特爾最后一代對標(biāo)H100的AI訓(xùn)練芯片。畢竟對于今年剛發(fā)布過最新旗艦GPU芯片B200的英偉達(dá)來說,H100/H200已經(jīng)是上一代的事了。英偉達(dá)Blackwell GPU將在今年晚些時候上市,可以想見Gaudi 3搶占市場份額的機(jī)會多狹窄,面臨的競爭壓力將有多大。
令人稍有困惑的是,根據(jù)英特爾路線圖,Gaudi 3后續(xù)產(chǎn)品將變成IP融入到英特爾的Falcon Shores平臺里,也就是說英特爾GPU Max和專用AI芯片產(chǎn)品線將在2025年融合。
按這個發(fā)展走向,很難說英特爾什么時候會推出下一代專用AI芯片,如果英特爾一直基于現(xiàn)有芯片參與市場競爭,或者將研發(fā)重心向GPU傾斜,Gaudi 3可能會成為“時代的眼淚”。
一、罕見披露FP8浮點(diǎn)性能,訓(xùn)練130億參數(shù)模型比H100快70%
負(fù)責(zé)研發(fā)專用AI芯片的英特爾Habana團(tuán)隊一向不喜歡用FLOPS來展現(xiàn)AI性能,而是傾向于突出其在實(shí)際應(yīng)用中的性能。
原因之一是,F(xiàn)LOPS限定條件多,比如測量精度、是稀疏型還是稠密型、利用率多高……這些因素會可能導(dǎo)致理論和實(shí)際性能差別很大。
不過這次,他們相當(dāng)罕見地披露了Gaudi 3在FP8精度下的總吞吐量1835TFLOPS,達(dá)到上一代FP8性能的2倍。
在稠密型FP16/BF16精度下,英特爾Gaudi 3的浮點(diǎn)性能可達(dá)到1835TFLOPS,高于英偉達(dá)H100/H200的989TFLOPS、AMD MI300X的1307TFLOPS。
但如果比FP8精度,H100/H200和MI300X的浮點(diǎn)算力較FP16翻倍到1979TFLOPS、2614TFLOPS,性能反超不支持稀疏化的Gaudi 3。
不過換個角度來看,Gaudi 3在FP16/BF16精度下能實(shí)現(xiàn)接近競品FP8精度下的性能,已經(jīng)足見其性能優(yōu)勢。
與英偉達(dá)旗艦GPU相比,英特爾新一代AI訓(xùn)練芯片Gaudi 3的性能提升如下:
1、訓(xùn)練Llama 7B、13B以及GPT-3 175B模型,速度比H100快40%~70%。
看起來,Gaudi 3在訓(xùn)練參數(shù)規(guī)模較小的模型時更能展現(xiàn)出訓(xùn)練優(yōu)勢,訓(xùn)練1750億參數(shù)GPT-3模型是用了基于1028個節(jié)點(diǎn)、8192個Gaudi 3的集群。
2、跑Llama 7B、70B以及Falcon 180B模型,推理速度比H100快50%,推理能效提高40%,在較長輸入和輸出序列上的推理性能優(yōu)勢更大。
3、跑Llama 7B、70B以及Falcon 180B模型,推理速度最多可以比H200快30%。
從圖表中可以看到,在跑Llama 7B、70B時,Gaudi 3與H200 PK得略顯吃力。
雖然英特爾披露的這些數(shù)據(jù)不好驗證真實(shí)性,但從過往來看,英特爾一向光明磊落,積極參與權(quán)威基準(zhǔn)測試MLPerf,無懼披露真實(shí)AI性能、與英偉達(dá)旗艦芯片產(chǎn)品同臺較量,很有大將風(fēng)范。
這多少會帶來更可靠的印象,進(jìn)而持續(xù)擴(kuò)大英特爾Gaudi系列在AI訓(xùn)練市場競爭的贏面。
二、雙芯設(shè)計,臺積電5nm,128GB內(nèi)存
英特爾Gaudi 3采用將兩個計算Tile、8個HBM封裝在一起的設(shè)計方式,共有96MB SRAM、8個矩陣數(shù)學(xué)引擎和64個Tensor Core。這種將兩塊芯片當(dāng)一塊芯片用的拼裝思路,與英偉達(dá)上個月發(fā)布的Blackwell芯片相似。
Gaudi 3采用臺積電5nm、128GB HBM2e,內(nèi)存帶寬達(dá)3.7TB/s。從這些保守的制程和內(nèi)存選擇,很難看出它對最強(qiáng)AI訓(xùn)練芯片的勢在必得。
現(xiàn)在市面上最先進(jìn)的制程已經(jīng)是3nm,其競品英偉達(dá)H100和AMD MI300X都已經(jīng)用上更先進(jìn)的HBM3高帶寬內(nèi)存。
英偉達(dá)H200采用141GB HBM3e,內(nèi)存帶寬達(dá)4.8TB/s;AMD MI300X采用192GB HBM3,內(nèi)存帶寬達(dá)5.3TB/s。無論是內(nèi)存的容量還是帶寬,都比Gaudi 3更有競爭力。
據(jù)外媒報道,Habana首席運(yùn)營官Eitan Medina解釋說,堅持采用HBM2e的原因是風(fēng)險管理,其方法是只使用在流片前已在硅片中得到驗證的IP,Gaudi 3流片時根本沒有經(jīng)過驗證符合其標(biāo)準(zhǔn)的物理層。
相比單芯片性能,英特爾強(qiáng)調(diào)的是大量Gaudi 3芯片互連形成的集群能提供更高的性價比和TCO。
現(xiàn)在AI計算競賽的焦點(diǎn)在大模型上,單卡內(nèi)存根本不夠用,需要將多個AI芯片連接在一起來支撐大模型訓(xùn)練及推理。
性能比拼也不再是看單卡峰值性能,而是比拼大規(guī)模擴(kuò)展后的整體系統(tǒng)性能和TCO,即達(dá)到同等算力,誰能節(jié)省更多的電力和成本。
因此先進(jìn)互連技術(shù)對數(shù)據(jù)中心越來越重要。
H100/H200采用英偉達(dá)專用互連技術(shù)NVLink,總帶寬達(dá)900GB/s;MI300X采用AMD專用互連技術(shù)Infinity Fabric,總帶寬達(dá)896GB/s。
對比之下,Gaudi 3采用的是常規(guī)的ROCe,集成了24個200Gb以太網(wǎng)端口,總帶寬達(dá)1.2TB/s。其中有3個端口用于節(jié)點(diǎn)外通信,剩下1Tb/s用于服務(wù)器內(nèi)芯片之間通信。
英特爾稱,通過將以太網(wǎng)網(wǎng)卡集成到其加速器中,使用傳統(tǒng)的主干葉架構(gòu)擴(kuò)展以支持512個甚至1024個節(jié)點(diǎn)的集群變得更加容易。
這種以太網(wǎng)設(shè)置的另一種好處是吸引那些不想投資或換用專有互連技術(shù)的客戶。
通過超以太網(wǎng)聯(lián)盟,英特爾正驅(qū)動面向AI高速互連技術(shù)(AI Fabrics)的開放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新,并推出一系列面向AI優(yōu)化的以太網(wǎng)解決方案,以大規(guī)?v向和橫向擴(kuò)展芯片,支持越來越龐大的AI模型的訓(xùn)練與推理。
其產(chǎn)品組合包括英特爾AI網(wǎng)絡(luò)連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統(tǒng),以及一系列面向英特爾代工的AI互聯(lián)軟硬件參考設(shè)計。
除了網(wǎng)絡(luò)外,軟件也是英特爾的重頭戲。英特爾認(rèn)為大多數(shù)程序員都在AI框架級別或者更高級別進(jìn)行編程,使用CUDA進(jìn)行低級編程已經(jīng)不那么普遍,也就是說英偉達(dá)的軟件生態(tài)護(hù)城河已經(jīng)不像原來那樣堅不可摧。
目前英特爾正在不斷優(yōu)化遷移工具和牽頭參與行業(yè)標(biāo)準(zhǔn)的制定,向市場提供CUDA替代方案。
三、可擴(kuò)展至8192芯,提供15EFLOPS算力
總結(jié)一下英特爾Gaudi 3的主要亮點(diǎn):
1、AI專用計算引擎:有獨(dú)特的異構(gòu)計算引擎,由64個AI定制和可編程TPC以及8個MME組成。每個Gaudi 3 MME能執(zhí)行64000 次并行操作,實(shí)現(xiàn)高計算效率,使其擅長處理復(fù)雜的矩陣運(yùn)算、加速并行AI操作。該芯片支持多種數(shù)據(jù)類型,包括FP8和BF16。
2、滿足大語言模型要求的內(nèi)存容量:128GB HBMe2、3.7TB/s內(nèi)存帶寬、96MB板載SRAM提供了充足內(nèi)存,可在更少的Gaudi 3芯片上處理大型生成式AI數(shù)據(jù)集。
3、面向企業(yè)生成式AI的高效系統(tǒng)擴(kuò)展:Gaudi 3集成了24個200Gb以太網(wǎng)端口,提供靈活且開放標(biāo)準(zhǔn)的網(wǎng)絡(luò),支持大型計算集群,可高效地橫向和縱向擴(kuò)展至數(shù)千個節(jié)點(diǎn)。
4、開放行業(yè)軟件,提高開發(fā)者效率:Gaudi軟件集成了PyTorch框架,并提供優(yōu)化的Hugging Face社區(qū)模型,使生成式AI開發(fā)人員能夠在高抽象級別上進(jìn)行操作,從而提高易用性和工作效率,并易于跨硬件類型遷移模型。
英特爾已經(jīng)開發(fā)了一個端到端AI軟件棧,包括從固件、庫、驅(qū)動程序到開各種AI應(yīng)用所需的模型、框架和工具。
5、Gaudi 3 PCIe add-in卡:專為實(shí)現(xiàn)高效率和低功耗而設(shè)計,非常適合微調(diào)、推理和檢索增強(qiáng)生成 (RAG) 等工作負(fù)載,采用全高、雙寬、10.5英寸長設(shè)計,被動冷卻,TDP僅為600W。
除了PCIe add-in卡,Gaudi 3還提供符合OCP標(biāo)準(zhǔn)的OAM模塊、搭載8個加速器的通用基板。PCIe規(guī)格與OAM版本相同,功耗更低。OAM的TDP在風(fēng)冷版可達(dá)900W,液冷版可達(dá)1200W。
英特爾也為Gaudi 3開發(fā)了參考架構(gòu)。
搭載8個Gaudi 3的單個節(jié)點(diǎn),F(xiàn)P8性能可達(dá)14.7PFLOPS,擁有1024GB內(nèi)存和8.4TB/s網(wǎng)絡(luò)帶寬。512個節(jié)點(diǎn),可提供7.5EFLOPS算力,有524.3TB內(nèi)存容量、614TB/s網(wǎng)絡(luò)帶寬。
Gaudi 3最多可擴(kuò)展到由8192個芯片組成的1024個節(jié)點(diǎn)的集群,可提供15EFLOPS算力、1PB內(nèi)存容量、1.229PB/網(wǎng)絡(luò)帶寬。
結(jié)語:大規(guī)模AI計算已經(jīng)進(jìn)入系統(tǒng)競賽
在Intel Vision大會上,“生成式AI”這一主題可以說是貫穿全程,從數(shù)據(jù)中心的大規(guī)模AI訓(xùn)練與推理,到AI PC改變端側(cè)生產(chǎn)力,英特爾正竭力展示自己作為先進(jìn)芯片技術(shù)領(lǐng)導(dǎo)者的競爭力。
如今談到大模型訓(xùn)練芯片,英偉達(dá)當(dāng)仁不讓是首選供應(yīng)商,但這棵搖錢樹早已被其他芯片大廠和創(chuàng)業(yè)新秀盯上,英特爾便是其中之一。英特爾正通過推出更具性價比的可擴(kuò)展系統(tǒng)來打破這種一家獨(dú)大的局面,這將為市場帶來另一種選擇。
大規(guī)模AI計算已經(jīng)進(jìn)入系統(tǒng)競賽,無論是守擂者英偉達(dá),還是英特爾、AMD、Cerebras、Groq等追擊者,都明顯加大對先進(jìn)Chiplet封裝、先進(jìn)存儲、先進(jìn)互連技術(shù)的重視,通過從超越制程和reticle極限的芯片內(nèi)部設(shè)計優(yōu)化,到擴(kuò)展至大型集群系統(tǒng)的技術(shù)升級,為整個數(shù)據(jù)中心的AI計算提供更高性能和能效的加速。
除了Gaudi 3,英特爾還在Intel Vision大會上分享了數(shù)據(jù)中心至強(qiáng)處理器和AI PC的進(jìn)展,并現(xiàn)場連線遠(yuǎn)在英特爾晶圓廠的同事,演示如何在AI PC上用先進(jìn)AI技術(shù)輔助芯片檢測。
英特爾宣布面向數(shù)據(jù)中心、云和邊緣的下一代處理器進(jìn)行品牌煥新,即英特爾至強(qiáng)6。配備能效核的至強(qiáng)6(此前代號為Sierra Forest)將于2024年第二季度推出,配備性能核的至強(qiáng)6(此前代號為Granite Rapids)將緊隨其后推出。
配備性能核的英特爾至強(qiáng)6包含了對MXFP4數(shù)據(jù)格式的軟件支持,與使用FP16的第四代至強(qiáng)處理器相比,可將下一個token的延遲時間縮短至原來的15%,能運(yùn)行700億參數(shù)Llama-2模型。
英特爾預(yù)計將于今年出貨4000萬臺AI PC,以及超過230種的設(shè)計,覆蓋輕薄PC和游戲掌機(jī)設(shè)備。新一代英特爾酷睿Ultra客戶端處理器家族(代號Lunar Lake)將于今年推出,具備超過100 TOPS平臺算力,NPU算力超過46TOPS。