最近機(jī)構(gòu)把博通(Broadcom)ASIC/DSA的概念炒的很熱。根據(jù)摩根士丹利預(yù)測,高端定制ASIC芯片市場規(guī)模將在200億至300億美元之間,年復(fù)合增長率(CAGR)為20%。(編者:DSA不僅沒“死”,而且迸發(fā)出更強(qiáng)的力量)目前博通和Marvell兩家公司占據(jù)60%以上的市場份額。其中博通占據(jù)約 55-60% 的市場份額,且增長率超過英偉達(dá);Marvell 緊隨其后,占據(jù)約 13-15% 的市場份額。
博通在數(shù)據(jù)中心和網(wǎng)絡(luò)增長率超過英偉達(dá)(來源:互聯(lián)網(wǎng))
但是,撥開ASIC概念的面紗,一個產(chǎn)品或企業(yè)是否能持續(xù)向上發(fā)展,更要看技術(shù)和產(chǎn)品的本質(zhì)或基本面。不是所有的GPGPU都叫英偉達(dá):很多非英偉達(dá)的GPU企業(yè),在實際的大模型部署中并未受到市場的熱捧。同樣,不是所有的ASIC都叫博通定制AI芯片。博通已經(jīng)具備了其他ASIC/DSA企業(yè)不具備的關(guān)鍵優(yōu)勢,其他的AI ASIC企業(yè)在短期內(nèi)還難以沖擊博通的產(chǎn)業(yè)地位。本文將對博通的優(yōu)勢進(jìn)行技術(shù)底層的深度分析。
1 ASIC/DSA與博通的領(lǐng)先優(yōu)勢1.1 ASIC和DSA的概念
與CPU、GPGPU等通用集成電路不同,ASIC(Application Specific Integrated Circuit)是專門為特定應(yīng)用設(shè)計的集成電路。在應(yīng)用和算法不變的前提下,ASIC一般具有高效能、低功耗和低成本的優(yōu)勢。
ASIC成為數(shù)字貨幣挖礦的首選(來源:chipstrat)
例如在數(shù)字貨幣領(lǐng)域,挖礦算法相對穩(wěn)定,ASIC礦機(jī)表現(xiàn)出比傳統(tǒng)GPU更理想的能效比和性價比,在2013年之后成為數(shù)字貨幣挖礦的首選。
相對ASIC這種傳統(tǒng)的叫法,現(xiàn)在業(yè)內(nèi)更習(xí)慣把博通AI專用加速芯片歸類為DSA。領(lǐng)域?qū)S眉铀倨鳎―omain Specific Accelerator,DSA)是指為特定領(lǐng)域或應(yīng)用定制的加速器。一方面,針對云場景的博通AI芯片不僅僅面向某個特定應(yīng)用(例如聊天、辦公處理、圖像識別),更多的時候要處理包含多個應(yīng)用范疇的AI領(lǐng)域的計算加速;另一方面,博通給其AI芯片架構(gòu)起名XPU,也預(yù)示著其AI芯片將具備一定的領(lǐng)域通用性。
博通累積的定制芯片設(shè)計經(jīng)歷(來源:博通)
1.2 博通定制AI芯片的優(yōu)勢
根據(jù)JP摩根的說法,在Google、Meta、字節(jié)跳動之后,OpenAI也成了博通AI DSA的客戶。這些客戶將與博通合作開發(fā)下一代XPU架構(gòu),該架構(gòu)基于3nm/2nm和3D SOIC技術(shù)(注:博通提供的SOIC為大寫,與TSMC的SoIC寫法不同);同時該架構(gòu)將集成博通的200Gbps/Channel SerDes技術(shù)。
根據(jù)這一分析,博通AI DSA的主要優(yōu)勢應(yīng)包括:
1)博通為Google定制數(shù)代TPU的設(shè)計流程與優(yōu)化技術(shù);
2)博通的3D/3.5D SOIC技術(shù);
3)博通的高速互連與CPO技術(shù)。
博通XPU的核心技術(shù)(來源:博通)
我們可以看到,同時掌握這幾個核心技術(shù)的,全世界恐怕也只有博通。包括英偉達(dá)在3D IC技術(shù)方面還沒有特別具體的公開進(jìn)展。換句話說,博通的這些客戶大概率是希望通過與博通合作獲得高配版的TPU方案。
2D到4D先進(jìn)封裝集成技術(shù)(來源:互聯(lián)網(wǎng))
2 DSA定制加速芯片與Trillium TPU2.1 基本架構(gòu)
根據(jù)博通公開的信息,定制AI芯片(XPU)的架構(gòu)由其客戶決定,博通會提供相應(yīng)的設(shè)計流程和性能優(yōu)化技術(shù)。
由于博通已公開的信息有限,那了解博通定制加速芯片技術(shù)的最好參照就是Google的Trillium TPU,也就是TPU v6。
TPU架構(gòu)圖與性能提升(來源:Nextplatform)
相較前一代TPU,4nm工藝的Trillium TPU具備以下改進(jìn):
相較前一代TPU的性能提升
分析
推理吞吐量提高 3 倍
帶寬加倍+單芯片計算核心加倍
能效提高67%
工藝前進(jìn)+電路優(yōu)化
每塊芯片的峰值計算性能顯著提升 4.7 倍
標(biāo)稱算力變?yōu)樵瓉?倍+算力利用率提升
芯片間互連 (ICI) 帶寬加倍
預(yù)估是互連通道數(shù)量加倍
預(yù)測的Trillium TPU架構(gòu)(將TPUv5e鏡像并形成Virtual Core)
預(yù)計博通為Google等客戶同時提供了Matirx計算單元的定制設(shè)計及其與HBM的接口IP(主要是PHY)。根據(jù)上面的性能提升分析,可以大致推斷博通在定制加速芯片方面的關(guān)鍵優(yōu)勢在于矩陣計算單元的電路優(yōu)化和矩陣單元之間的互連性能提升。
2.2 博通定制設(shè)計技術(shù)的積累
乍一看,似乎博通有的別家也都有。但如果深入分析,就可以看到博通在這幾年的發(fā)展中已經(jīng)積累了大量的成體系的高性能計算/互連IP核和相關(guān)技術(shù)。
博通定制技術(shù)能力與IP核(來源:博通)
按照博通的公開信息,除了傳統(tǒng)的CPU/DSP IP核外,博通還具有交換、互連接口、存儲接口等關(guān)鍵IP核。這些成體系的IP核可以幫助博通降低ASIC/DSA產(chǎn)品成本和研發(fā)周期,特別是降低不同IP核聯(lián)合使用的設(shè)計風(fēng)險。
Google、Meta等企業(yè)也具備足夠的芯片設(shè)計能力,但對他們來說,采用博通的成體系的IP核設(shè)計高性能AI芯片可以更省錢更節(jié)約時間。僅就這一點,就已形成了博通獨特的護(hù)城河。
3 3.5D XDSiP架構(gòu)技術(shù)3.1 3.5D XDSiP概況
博通的第二個殺手锏就是3.5D XDSiP技術(shù)。
隨著芯片越做越大,光刻技術(shù)線寬越來越逼近原子尺度。算力芯片的性能提升也逐漸變緩。
工藝提升變緩導(dǎo)致XPU性能提升變緩(來源:博通)
為了對抗工藝進(jìn)步變緩帶來的技術(shù)挑戰(zhàn)。博通準(zhǔn)備的方案是在原有2.5D方案基礎(chǔ)之上堆疊計算核心的3.5D SiP技術(shù)。據(jù)傳博通正為客戶開發(fā)五種以上的 3.5D 產(chǎn)品,并將于2026 年2月開始生產(chǎn)發(fā)貨。(消息來源:eenewseurope.com)
3.5D 與2.5D技術(shù)對比(來源:博通)
在3.5D XDSiP技術(shù)中,博通整合了3D IC、2.5D CoWoS、D2D(Die to Die互連)等技術(shù)。
在每個3.5D XPU中,可集成了超過6000mm的芯片面積和多組HBM:
1)2個計算大核(圖中Compute Core),分別堆疊在具備D2D和HBM接口的2個邏輯Die上;
2)每個邏輯Die與4組HBM連接
3)每個邏輯Die與IO Die通過D2D互連;
4)每個IO Die包括 100GE/200GE互連(網(wǎng)絡(luò)/交換機(jī))與PCIe Gen5/6接口;
5)2組計算核心形成一個Virtual Core,剛好與Trillium TPU的Virtual Core對應(yīng)。
6)計算大核與邏輯Die通過Face to Face(Top Metal對Top Metal)方式進(jìn)行鍵合。F2F的好處在于兩個Die之間的高速互連無需通過TSV。
3.2 3.5D IC與F2F 技術(shù)
先進(jìn)存儲集成方案與發(fā)展預(yù)測(來源:中存算)
業(yè)內(nèi)最先進(jìn)的封裝/集成技術(shù)正在從3D過渡到3.5D。3.5D技術(shù)包括了三維堆疊和平行的基于Interposer/封裝基板擴(kuò)展。理想情況下,3D IC是2D SoC的最佳擴(kuò)展方案,但在實際設(shè)計中一些3D IC遇到了過于集中的散熱挑戰(zhàn)。因此結(jié)合了2.5D和3D架構(gòu)的3.5D IC方案被研發(fā)出來,其本質(zhì)是散熱與集成度的折衷方案。
三星的3.5D方案(最右,來源:三星)
3.5D IC技術(shù)的特點包括:
1)提供足夠的物理空間分離以有效解決散熱和串?dāng)_問題。
2)提供了異質(zhì)集成方法,特別是添加更多大容量SRAM存儲的方法。在先進(jìn)工藝中,大容量SRAM不再以與數(shù)字晶體管以相同的密度Scaling down,更適合通過垂直堆疊Die來增加大容量SRAM面積。
3)通過提升互連接口密度和互連區(qū)域總面積,3.5D可縮短信號傳輸距離,并提高處理速度。
其中2)和3)對于大模型所需的大容量存儲和高速數(shù)據(jù)交互至關(guān)重要,有助于計算系統(tǒng)的Scale up(向上性能擴(kuò)展)。
相對3D IC方案,3.5D方案將高密度熱量分散開,等效于增大散熱面積,避免了HBM和CPO(共光學(xué)封裝)與計算Die的熱量垂直疊加。
博通3.5D方案另外一個典型的特點是Face to Face(面對面,F(xiàn)2F)堆疊結(jié)構(gòu)。與F2B(Face to Back)技術(shù)相比,F(xiàn)2F結(jié)構(gòu)無需再通過高高大大的TSV進(jìn)行Die間的信號傳輸,減少了寄生電容與電阻,將堆疊Die之間信號密度的提高約7倍,同時使用Top Metal直連代替Die之間的PHY,將3D堆疊的接口功耗降低了約10倍。
Face to Back與 Face to Face鍵合方式對比(來源:博通)
3.3 3D/3.5D IC技術(shù)產(chǎn)業(yè)鏈與設(shè)計挑戰(zhàn)
可能3D/3.5D看起來只是比2D/2.5D加了1,但實際上產(chǎn)業(yè)鏈整合難度和設(shè)計挑戰(zhàn)升級不小。目前3D/3.5D IC方案并未形成標(biāo)準(zhǔn),方案多樣化,需要嚴(yán)格按照不同供應(yīng)鏈條的設(shè)計要求進(jìn)行,且缺乏成熟標(biāo)準(zhǔn)的EDA設(shè)計工具與參考流程。換句話說,無論是巨頭還是創(chuàng)企在3D/3.5D IC領(lǐng)域都還處于摸著石頭過河的階段。
3D/3.5D IC產(chǎn)業(yè)鏈(來源:中存算)
對芯片設(shè)計企業(yè)來說,除了在2D/2.5D芯片設(shè)計中需要面對的電源與信號完整性挑戰(zhàn)外(3D/3.5D的電源與信號完整性挑戰(zhàn)更加苛刻),還需要面對TSV冗余/修復(fù)、3D/3.5D立體布局布線和立體結(jié)構(gòu)熱分析的挑戰(zhàn)。特別是散熱問題在3D/3.5D芯片中可能引發(fā)晶圓形變,導(dǎo)致芯片失效和良率大幅下降。
3D/3.5D IC(包括3D/3.5D存算一體芯片)設(shè)計的挑戰(zhàn)(來源:中存算)
如果想要達(dá)到博通定制AI芯片的水平,在3D/3.5D設(shè)計能力方面需要進(jìn)行非常多的積累,這也不是一般的ASIC企業(yè)能完成的。
4 光互連CPO技術(shù)4.1 Scale up與Scale out面臨的挑戰(zhàn)
僅在單臺服務(wù)器上運行AI計算,目前已經(jīng)很難滿足大模型不斷增長的訓(xùn)練和集群數(shù)據(jù)存儲/處理要求。集群設(shè)計者往往面臨兩種不同的方案:使用更強(qiáng)的處理器/芯片和更大的存儲進(jìn)行垂直擴(kuò)展(Scale up),或?qū)⒐ぷ髫?fù)載分配到能夠滿足其性能需求的新服務(wù)器上進(jìn)行水平擴(kuò)展(Scale out)。
對于算力芯片,單個Die的面積受到光刻尺度的限制。單純的Scale up事實上面臨半導(dǎo)體設(shè)備制造能力的限制。如果要在長程范圍集成更強(qiáng)大的算力/存力(Scale out),就需要借助更高帶寬的光互連技術(shù)。這也是目前光模塊在計算集群中廣泛使用的重要原因。
但是,PCB互連和卡間互連的信號損耗、延遲功耗都遠(yuǎn)大于Die內(nèi)。400G、800G光模塊的功耗約為10W/15W。對于48口交換機(jī),功耗就是48×15=720W。在一些計算服務(wù)器集群,光模塊占據(jù)30%-50%以上功耗,并占據(jù)較大比例的通信延遲。大功率的電氣連接同時在連接器上導(dǎo)致了嚴(yán)重的信號完整性問題。
4.2 CPO技術(shù)簡介
傳統(tǒng)PCB與卡間互連的信號損耗遠(yuǎn)大于Die內(nèi)(來源:博通)
光互連功耗占比逐年提升(來源:George@fs.com)
博通解決Scale out問題的殺手锏就是光互連技術(shù),確切的說是片上可集成CPO(Co-Packaging Optics)技術(shù)。
共封裝光學(xué) (CPO) 是一種將光學(xué)和硅異質(zhì)集成在單個封裝基板上的技術(shù),可將光學(xué)器件直接集成到芯片封裝中。該技術(shù)旨在解決下一代互連帶寬和功率挑戰(zhàn)。CPO將光學(xué)引擎下移到交換或計算芯片附近,減少了金屬導(dǎo)線(例如PCB銅線)傳輸距離,其占用空間、帶寬密度、能源成本、延遲比可插拔光學(xué)器件更好。
2.5D/3D CPO與光模塊、OBO、NPO的對比(來源:ALPHAWAVE SEMI)
CPO具備如下特點或優(yōu)勢,使得CPO成為數(shù)據(jù)密集型AI和HPC應(yīng)用的理想方案:
1)減少銅線傳輸損耗。與可插拔光學(xué)器件不同,CPO信號(從計算Die)無需通過損耗大的銅線鏈路穿過電路板到達(dá)板卡或服務(wù)器接口面板。與之相反,CPO將光纖直接連接到計算Die/芯片邊緣,從而實現(xiàn)芯片和光纖之間的短距離、低損耗通信。
2)減少了數(shù)字信號處理器 (DSP);贒SP 的重定時器已成為高速可插拔光學(xué)器件中必備的組件,DSP會使整個系統(tǒng)功率提高 25-30%。在CPO中,由于消除了銅互連損耗,可以無需DSP進(jìn)行主動分析和補(bǔ)償信號衰減。
3)高帶寬和低延遲。由于減少了銅線傳輸損耗和DSP傳輸延遲,CPO可以實現(xiàn)更高的帶寬和更低的延遲。
4)更好的信號完整性和更低的誤碼率。與傳統(tǒng)光通信系統(tǒng)相比,CPO通過減少電氣連接和信號轉(zhuǎn)換,降低了信號衰減和干擾的可能性。這提高了數(shù)據(jù)傳輸質(zhì)量和信號完整性,降低誤碼率并提高系統(tǒng)可靠性。
我們結(jié)合完整的3.5D剖面結(jié)構(gòu)來看,CPO的光學(xué)部分與HBM結(jié)構(gòu)對稱。通過Interposer或substrate與計算Die連接,這種方案的互連代價遠(yuǎn)小于現(xiàn)有的光模塊方案。
CPO與3.5D集成工藝結(jié)合(來源:臺積電)
4.3 博通的CPO技術(shù)特點
根據(jù)已公開資料,博通的CPO設(shè)計能力涵蓋了TH4-Humboldt和TH5-Baily兩種。作為制造商,臺積電預(yù)計在2025年下半年將CPO投入量產(chǎn),為博通提供1.6T光傳輸產(chǎn)品。除了博通外,英偉達(dá)也是臺積電CPO的首批客戶,使用CPO技術(shù)為NVLink升級。
TH4-Humboldt等2.5D集成將 PIC(光學(xué)IC)和 EIC(電學(xué)IC)并排倒裝放置在Interposer上,保持了類似于3D集成的互連性能和密度。TH5-Baily等3D集成將PIC放置在EIC之上,提供更高的互連密度,同時也會引入更復(fù)雜的熱設(shè)計挑戰(zhàn)。
博通的兩種CPO方案(來源:博通)
以博通的典型CPO方案為例,整體封裝結(jié)構(gòu)為CoWoS,計算Die(ASIC)通過Interposer/Package Substrate與CPO互連,互連接口為高速IO(例如Serdes/D2D)。
博通CPO+ASIC/DSA+HBM結(jié)構(gòu)(來源:博通)
4.4 CPO方案的設(shè)計難度與擴(kuò)展
當(dāng)然CPO設(shè)計并不簡單,想要進(jìn)入CPO設(shè)計領(lǐng)域需要很強(qiáng)的資金實力和技術(shù)儲備。對于典型的CPO設(shè)計來說,完整的設(shè)計流程/挑戰(zhàn)包括:
1)計算Die高速接口IP/波形矯正電路設(shè)計能力
2)混合信號接口IC設(shè)計能力
3)光學(xué)器件制造/集成能力
4)2.5D/3D測試方案與集成方案設(shè)計能力
5)硅光電路設(shè)計能力
CPO方案的設(shè)計挑戰(zhàn)(來源:博通)
博通在2021年就為其交換機(jī)制定了CPO路線。到2024年才形成完整的CPO設(shè)計方案。如此看來,想成為博通定制AI芯片,絕大部分海外廠商還需要在CPO集成設(shè)計能力方面下大工夫。
除了計算Die與交換機(jī)互連外,預(yù)計博通也計劃使用CPO實現(xiàn)CPU和GPU到各種設(shè)備的直連,實現(xiàn)資源池化和設(shè)備間的內(nèi)存共享。CPO技術(shù)與3.5D IC技術(shù)具備天然的整合優(yōu)勢,或許CPO+3.5D IC會成為未來大算力AI芯片的標(biāo)配之一。
博通的CPO方案布局(來源:博通)
5 DSA與GPGPU的名利場
按照牧本定律,半導(dǎo)體芯片會在通用化/標(biāo)準(zhǔn)化和定制的兩種相反趨勢振蕩,這一振蕩周期約為10年。大概10年前,Alexnet算法一鳴驚人,帶飛了英偉達(dá)GPGPU的銷量。那么,10年后的今天,博通已經(jīng)擁有除了生態(tài)之外的AI芯片的頂級技術(shù)。在博通股價大漲之后,估計很多人會有一個疑問:博通定制AI芯片是否能夠以定制AI芯片成為新的主流呢
牧本定律
我們分析,這一問題的答案主要取決于2點:
1)大模型算法架構(gòu)是否會止步于Transformer。目前Transformer架構(gòu)的競爭者包括北美的Mamba和中國的RWKV。這兩者都以RNN+長程注意力機(jī)制的方式試圖減小巨大KV Cache帶來的計算成本上升,在長序列處理方面具有顯著優(yōu)勢。初步預(yù)測,要么Transformer在3-5年內(nèi)有巨大升級,要么Mamba/ RWKV等新架構(gòu)代替Transformer。
2)英偉達(dá)是否會自廢內(nèi)功更多的擁抱ASIC/DSA思路。事實上在早期的V100架構(gòu)中,英偉達(dá)就已經(jīng)引入了類似DSA的TensorCore,以提升傳統(tǒng)GPGPU的GEMM性能,F(xiàn)在,面對新的挑戰(zhàn),據(jù)稱英偉達(dá)專門成立了ASIC設(shè)計部門,目前尚無法確定英偉達(dá)是否會更多的采用DSA的思路來縮減傳統(tǒng)GPU的計算單元。
但不管怎么說,想成為AI芯片這個領(lǐng)域的“武林盟主”,在3.5D IC和光互連方面都要有“幾把刷子”。以往的ASIC/GPU積累,正成為人人都有的常規(guī)技術(shù),只有不斷的產(chǎn)業(yè)創(chuàng)新,才能坐穩(wěn)算力霸主的位子。