亚洲av日韩av无码av,中文字幕天天躁日日躁狠狠躁97

導(dǎo)讀：芯東西4月10日報道，昨夜，英特爾在年度Intel Vision大會上重磅推出新一代AI訓(xùn)練芯片 Gaudi 3 ，正面向英偉達(dá)旗艦芯片發(fā)起挑戰(zhàn)。會上，英特爾CEO基辛格揮舞著Gaudi 3，跟隨現(xiàn)場伴奏開心地?fù)u晃起身體，隨后宣布Gaudi 3的戰(zhàn)績：相比英偉達(dá)上一代旗艦H100 GPU...

芯東西4月10日報道，昨夜，英特爾在年度Intel Vision大會上重磅推出新一代AI訓(xùn)練芯片Gaudi 3，正面向英偉達(dá)旗艦芯片發(fā)起挑戰(zhàn)。

會上，英特爾CEO基辛格揮舞著Gaudi 3，跟隨現(xiàn)場伴奏開心地?fù)u晃起身體，隨后宣布Gaudi 3的戰(zhàn)績：相比英偉達(dá)上一代旗艦H100 GPU，Gaudi 3的訓(xùn)練性能可提高70%，推理性能提高50%，能效提高40%，同時價格低得多。

在跑1800億參數(shù)Falcon模型時，Gaudi 3的推理速度比英偉達(dá)H200快30%。

Gaudi 3采用臺積電5nm制程、128GB HBM2e DRAM內(nèi)存、第五代Tensor Core架構(gòu)，內(nèi)存帶寬高達(dá)3.7TB/s，共有24個200Gb以太網(wǎng)端口。不過英特爾沒有公布這塊芯片的晶體管總數(shù)。

和英偉達(dá)、AMD一樣，英特爾在最新AI芯片中通過“芯片拼裝”設(shè)計來超越reticle極限。

Gaudi 3基于統(tǒng)一內(nèi)存架構(gòu)，將將64個Tensor Core封裝在兩個計算Tile中，共享96MB緩存池，借助高速互連技術(shù)，兩個計算Tile能宛如一個完整芯片一樣運(yùn)行。

相比上一代Gaudi 2，Gaudi 3在BF16精度下可提供4倍的AI計算能力、1.5倍的內(nèi)存帶寬、2倍的網(wǎng)絡(luò)帶寬，支持大規(guī)模系統(tǒng)橫向擴(kuò)展，最多可擴(kuò)展至8192個芯片的參考架構(gòu)。

基辛格說，Gaudi 3將幫助AI經(jīng)歷三個階段，從AI Copilot時代邁向AI Agent時代，然后抵達(dá)全功能AI時代，即用于自動化復(fù)雜的、企業(yè)范圍的結(jié)果。

他預(yù)言當(dāng)發(fā)展到第三階段，功能自動化帶來的效率意味著或?qū)⒊霈F(xiàn)“一人擁有10億美元資產(chǎn)的公司”。

英特爾計劃從第一季度和第二季度分別開始向OEM/ODM合作伙伴提供風(fēng)冷版和液冷版的Gaudi 3芯片樣品，從第三季度開始加大風(fēng)冷部件的出貨量，第四季度加大液冷設(shè)計的出貨量。英特爾還將在開發(fā)者云中提供Gaudi 3的支持。

Gaudi 3應(yīng)該會是英特爾最后一代對標(biāo)H100的AI訓(xùn)練芯片。畢竟對于今年剛發(fā)布過最新旗艦GPU芯片B200的英偉達(dá)來說，H100/H200已經(jīng)是上一代的事了。英偉達(dá)Blackwell GPU將在今年晚些時候上市，可以想見Gaudi 3搶占市場份額的機(jī)會多狹窄，面臨的競爭壓力將有多大。

令人稍有困惑的是，根據(jù)英特爾路線圖，Gaudi 3后續(xù)產(chǎn)品將變成IP融入到英特爾的Falcon Shores平臺里，也就是說英特爾GPU Max和專用AI芯片產(chǎn)品線將在2025年融合。

按這個發(fā)展走向，很難說英特爾什么時候會推出下一代專用AI芯片，如果英特爾一直基于現(xiàn)有芯片參與市場競爭，或者將研發(fā)重心向GPU傾斜，Gaudi 3可能會成為“時代的眼淚”。

一、罕見披露FP8浮點(diǎn)性能，訓(xùn)練130億參數(shù)模型比H100快70%

負(fù)責(zé)研發(fā)專用AI芯片的英特爾Habana團(tuán)隊一向不喜歡用FLOPS來展現(xiàn)AI性能，而是傾向于突出其在實(shí)際應(yīng)用中的性能。

原因之一是，F(xiàn)LOPS限定條件多，比如測量精度、是稀疏型還是稠密型、利用率多高……這些因素會可能導(dǎo)致理論和實(shí)際性能差別很大。

不過這次，他們相當(dāng)罕見地披露了Gaudi 3在FP8精度下的總吞吐量1835TFLOPS，達(dá)到上一代FP8性能的2倍。

在稠密型FP16/BF16精度下，英特爾Gaudi 3的浮點(diǎn)性能可達(dá)到1835TFLOPS，高于英偉達(dá)H100/H200的989TFLOPS、AMD MI300X的1307TFLOPS。

但如果比FP8精度，H100/H200和MI300X的浮點(diǎn)算力較FP16翻倍到1979TFLOPS、2614TFLOPS，性能反超不支持稀疏化的Gaudi 3。

不過換個角度來看，Gaudi 3在FP16/BF16精度下能實(shí)現(xiàn)接近競品FP8精度下的性能，已經(jīng)足見其性能優(yōu)勢。

與英偉達(dá)旗艦GPU相比，英特爾新一代AI訓(xùn)練芯片Gaudi 3的性能提升如下：

1、訓(xùn)練Llama 7B、13B以及GPT-3 175B模型，速度比H100快40%~70%。

看起來，Gaudi 3在訓(xùn)練參數(shù)規(guī)模較小的模型時更能展現(xiàn)出訓(xùn)練優(yōu)勢，訓(xùn)練1750億參數(shù)GPT-3模型是用了基于1028個節(jié)點(diǎn)、8192個Gaudi 3的集群。

2、跑Llama 7B、70B以及Falcon 180B模型，推理速度比H100快50%，推理能效提高40%，在較長輸入和輸出序列上的推理性能優(yōu)勢更大。

3、跑Llama 7B、70B以及Falcon 180B模型，推理速度最多可以比H200快30%。

從圖表中可以看到，在跑Llama 7B、70B時，Gaudi 3與H200 PK得略顯吃力。

雖然英特爾披露的這些數(shù)據(jù)不好驗證真實(shí)性，但從過往來看，英特爾一向光明磊落，積極參與權(quán)威基準(zhǔn)測試MLPerf，無懼披露真實(shí)AI性能、與英偉達(dá)旗艦芯片產(chǎn)品同臺較量，很有大將風(fēng)范。

這多少會帶來更可靠的印象，進(jìn)而持續(xù)擴(kuò)大英特爾Gaudi系列在AI訓(xùn)練市場競爭的贏面。

二、雙芯設(shè)計，臺積電5nm，128GB內(nèi)存

英特爾Gaudi 3采用將兩個計算Tile、8個HBM封裝在一起的設(shè)計方式，共有96MB SRAM、8個矩陣數(shù)學(xué)引擎和64個Tensor Core。這種將兩塊芯片當(dāng)一塊芯片用的拼裝思路，與英偉達(dá)上個月發(fā)布的Blackwell芯片相似。

Gaudi 3采用臺積電5nm、128GB HBM2e，內(nèi)存帶寬達(dá)3.7TB/s。從這些保守的制程和內(nèi)存選擇，很難看出它對最強(qiáng)AI訓(xùn)練芯片的勢在必得。

現(xiàn)在市面上最先進(jìn)的制程已經(jīng)是3nm，其競品英偉達(dá)H100和AMD MI300X都已經(jīng)用上更先進(jìn)的HBM3高帶寬內(nèi)存。

英偉達(dá)H200采用141GB HBM3e，內(nèi)存帶寬達(dá)4.8TB/s；AMD MI300X采用192GB HBM3，內(nèi)存帶寬達(dá)5.3TB/s。無論是內(nèi)存的容量還是帶寬，都比Gaudi 3更有競爭力。

據(jù)外媒報道，Habana首席運(yùn)營官Eitan Medina解釋說，堅持采用HBM2e的原因是風(fēng)險管理，其方法是只使用在流片前已在硅片中得到驗證的IP，Gaudi 3流片時根本沒有經(jīng)過驗證符合其標(biāo)準(zhǔn)的物理層。

相比單芯片性能，英特爾強(qiáng)調(diào)的是大量Gaudi 3芯片互連形成的集群能提供更高的性價比和TCO。

現(xiàn)在AI計算競賽的焦點(diǎn)在大模型上，單卡內(nèi)存根本不夠用，需要將多個AI芯片連接在一起來支撐大模型訓(xùn)練及推理。

性能比拼也不再是看單卡峰值性能，而是比拼大規(guī)模擴(kuò)展后的整體系統(tǒng)性能和TCO，即達(dá)到同等算力，誰能節(jié)省更多的電力和成本。

因此先進(jìn)互連技術(shù)對數(shù)據(jù)中心越來越重要。

H100/H200采用英偉達(dá)專用互連技術(shù)NVLink，總帶寬達(dá)900GB/s；MI300X采用AMD專用互連技術(shù)Infinity Fabric，總帶寬達(dá)896GB/s。

對比之下，Gaudi 3采用的是常規(guī)的ROCe，集成了24個200Gb以太網(wǎng)端口，總帶寬達(dá)1.2TB/s。其中有3個端口用于節(jié)點(diǎn)外通信，剩下1Tb/s用于服務(wù)器內(nèi)芯片之間通信。

英特爾稱，通過將以太網(wǎng)網(wǎng)卡集成到其加速器中，使用傳統(tǒng)的主干葉架構(gòu)擴(kuò)展以支持512個甚至1024個節(jié)點(diǎn)的集群變得更加容易。

這種以太網(wǎng)設(shè)置的另一種好處是吸引那些不想投資或換用專有互連技術(shù)的客戶。

通過超以太網(wǎng)聯(lián)盟，英特爾正驅(qū)動面向AI高速互連技術(shù)（AI Fabrics）的開放式以太網(wǎng)網(wǎng)絡(luò)創(chuàng)新，并推出一系列面向AI優(yōu)化的以太網(wǎng)解決方案，以大規(guī)�？v向和橫向擴(kuò)展芯片，支持越來越龐大的AI模型的訓(xùn)練與推理。

其產(chǎn)品組合包括英特爾AI網(wǎng)絡(luò)連接卡（AI NIC）、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統(tǒng)，以及一系列面向英特爾代工的AI互聯(lián)軟硬件參考設(shè)計。

除了網(wǎng)絡(luò)外，軟件也是英特爾的重頭戲。英特爾認(rèn)為大多數(shù)程序員都在AI框架級別或者更高級別進(jìn)行編程，使用CUDA進(jìn)行低級編程已經(jīng)不那么普遍，也就是說英偉達(dá)的軟件生態(tài)護(hù)城河已經(jīng)不像原來那樣堅不可摧。

目前英特爾正在不斷優(yōu)化遷移工具和牽頭參與行業(yè)標(biāo)準(zhǔn)的制定，向市場提供CUDA替代方案。

三、可擴(kuò)展至8192芯，提供15EFLOPS算力

總結(jié)一下英特爾Gaudi 3的主要亮點(diǎn)：

1、AI專用計算引擎：有獨(dú)特的異構(gòu)計算引擎，由64個AI定制和可編程TPC以及8個MME組成。每個Gaudi 3 MME能執(zhí)行64000 次并行操作，實(shí)現(xiàn)高計算效率，使其擅長處理復(fù)雜的矩陣運(yùn)算、加速并行AI操作。該芯片支持多種數(shù)據(jù)類型，包括FP8和BF16。

2、滿足大語言模型要求的內(nèi)存容量：128GB HBMe2、3.7TB/s內(nèi)存帶寬、96MB板載SRAM提供了充足內(nèi)存，可在更少的Gaudi 3芯片上處理大型生成式AI數(shù)據(jù)集。

3、面向企業(yè)生成式AI的高效系統(tǒng)擴(kuò)展：Gaudi 3集成了24個200Gb以太網(wǎng)端口，提供靈活且開放標(biāo)準(zhǔn)的網(wǎng)絡(luò)，支持大型計算集群，可高效地橫向和縱向擴(kuò)展至數(shù)千個節(jié)點(diǎn)。

4、開放行業(yè)軟件，提高開發(fā)者效率：Gaudi軟件集成了PyTorch框架，并提供優(yōu)化的Hugging Face社區(qū)模型，使生成式AI開發(fā)人員能夠在高抽象級別上進(jìn)行操作，從而提高易用性和工作效率，并易于跨硬件類型遷移模型。

英特爾已經(jīng)開發(fā)了一個端到端AI軟件棧，包括從固件、庫、驅(qū)動程序到開各種AI應(yīng)用所需的模型、框架和工具。

5、Gaudi 3 PCIe add-in卡：專為實(shí)現(xiàn)高效率和低功耗而設(shè)計，非常適合微調(diào)、推理和檢索增強(qiáng)生成 (RAG) 等工作負(fù)載，采用全高、雙寬、10.5英寸長設(shè)計，被動冷卻，TDP僅為600W。

除了PCIe add-in卡，Gaudi 3還提供符合OCP標(biāo)準(zhǔn)的OAM模塊、搭載8個加速器的通用基板。PCIe規(guī)格與OAM版本相同，功耗更低。OAM的TDP在風(fēng)冷版可達(dá)900W，液冷版可達(dá)1200W。

英特爾也為Gaudi 3開發(fā)了參考架構(gòu)。

搭載8個Gaudi 3的單個節(jié)點(diǎn)，F(xiàn)P8性能可達(dá)14.7PFLOPS，擁有1024GB內(nèi)存和8.4TB/s網(wǎng)絡(luò)帶寬。512個節(jié)點(diǎn)，可提供7.5EFLOPS算力，有524.3TB內(nèi)存容量、614TB/s網(wǎng)絡(luò)帶寬。

Gaudi 3最多可擴(kuò)展到由8192個芯片組成的1024個節(jié)點(diǎn)的集群，可提供15EFLOPS算力、1PB內(nèi)存容量、1.229PB/網(wǎng)絡(luò)帶寬。

結(jié)語：大規(guī)模AI計算已經(jīng)進(jìn)入系統(tǒng)競賽

在Intel Vision大會上，“生成式AI”這一主題可以說是貫穿全程，從數(shù)據(jù)中心的大規(guī)模AI訓(xùn)練與推理，到AI PC改變端側(cè)生產(chǎn)力，英特爾正竭力展示自己作為先進(jìn)芯片技術(shù)領(lǐng)導(dǎo)者的競爭力。

如今談到大模型訓(xùn)練芯片，英偉達(dá)當(dāng)仁不讓是首選供應(yīng)商，但這棵搖錢樹早已被其他芯片大廠和創(chuàng)業(yè)新秀盯上，英特爾便是其中之一。英特爾正通過推出更具性價比的可擴(kuò)展系統(tǒng)來打破這種一家獨(dú)大的局面，這將為市場帶來另一種選擇。

大規(guī)模AI計算已經(jīng)進(jìn)入系統(tǒng)競賽，無論是守擂者英偉達(dá)，還是英特爾、AMD、Cerebras、Groq等追擊者，都明顯加大對先進(jìn)Chiplet封裝、先進(jìn)存儲、先進(jìn)互連技術(shù)的重視，通過從超越制程和reticle極限的芯片內(nèi)部設(shè)計優(yōu)化，到擴(kuò)展至大型集群系統(tǒng)的技術(shù)升級，為整個數(shù)據(jù)中心的AI計算提供更高性能和能效的加速。

除了Gaudi 3，英特爾還在Intel Vision大會上分享了數(shù)據(jù)中心至強(qiáng)處理器和AI PC的進(jìn)展，并現(xiàn)場連線遠(yuǎn)在英特爾晶圓廠的同事，演示如何在AI PC上用先進(jìn)AI技術(shù)輔助芯片檢測。

英特爾宣布面向數(shù)據(jù)中心、云和邊緣的下一代處理器進(jìn)行品牌煥新，即英特爾至強(qiáng)6。配備能效核的至強(qiáng)6（此前代號為Sierra Forest）將于2024年第二季度推出，配備性能核的至強(qiáng)6（此前代號為Granite Rapids）將緊隨其后推出。

配備性能核的英特爾至強(qiáng)6包含了對MXFP4數(shù)據(jù)格式的軟件支持，與使用FP16的第四代至強(qiáng)處理器相比，可將下一個token的延遲時間縮短至原來的15%，能運(yùn)行700億參數(shù)Llama-2模型。

英特爾預(yù)計將于今年出貨4000萬臺AI PC，以及超過230種的設(shè)計，覆蓋輕薄PC和游戲掌機(jī)設(shè)備。新一代英特爾酷睿Ultra客戶端處理器家族（代號Lunar Lake）將于今年推出，具備超過100 TOPS平臺算力，NPU算力超過46TOPS。

英特爾甩出全新AI訓(xùn)練芯片！跑千億大模型速度超H200，罕見披露AI浮點(diǎn)性能
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:15:20 瀏覽：11491次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

英特爾甩出全新AI訓(xùn)練芯片！跑千億大模型速度超H200，罕見披露AI浮點(diǎn)性能 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:15:20 瀏覽：11491次