上周五美股博通大漲24.43%、市值站上萬億美元后,本周一博通股價又上漲了11.21%,市值達1.17萬億美元。該公司拿出超市場預(yù)期的一份最新財報后,市場對于AI定制芯片的興趣仍在高漲。即便周二美股多只芯片股普跌,博通周二股價回調(diào)跌3.91%,收盤市值也仍在1.1萬億美元以上。
在AI領(lǐng)域,博通涉足定制或?qū)S眉呻娐罚ˋSIC)和以太網(wǎng)網(wǎng)絡(luò)部件,博通與三家大型云廠商合作開發(fā)定制AI芯片。作為一種更專用的芯片,ASIC和更通用的GPU(圖形處理器)站在了對立面,前者是谷歌、Meta、亞馬遜和諸多創(chuàng)業(yè)公司的陣營,后者則主要站著英偉達和AMD。
博通股價起飛只是ASIC反攻GPU陣營的一個前奏。除了用自研ASIC替代英偉達GPU的云廠商,ASIC領(lǐng)域的創(chuàng)業(yè)潮也在涌動,創(chuàng)業(yè)公司正在世界范圍內(nèi)尋找客戶。在業(yè)內(nèi)人士看來,GPU和ASIC之爭更像是一場通用和專用陣營之爭,在AI最終定型之前,兩種芯片都不會完全取代對方,這場博弈也不一定以一輸一贏為結(jié)果。
誰在給博通們創(chuàng)造業(yè)績?
GPU霸主英偉達在聚光燈下站了太久,人們可能容易忽略背后各云廠商的造芯努力,它們設(shè)計的ASIC滲透率可能比很多人想象的更深。
ASIC包含多類芯片,諸如TPU(Tensor Processing Unit,張量處理器)、LPU(語言處理器)、NPU(神經(jīng)網(wǎng)絡(luò)處理器)等。云廠商中,谷歌多年前就布局TPU,其第六代TPU Trillium在本月正式向客戶開放使用;Meta今年推出了專為AI訓(xùn)練和推理設(shè)計的定制芯片MTIA v2;亞馬遜有Trainium2,并計劃明年發(fā)布Trainium3;微軟則有自研AI芯片Azure Maia。
或許是因為不對外銷售芯片,這些云廠商的AI芯片比較少受到市場關(guān)注。但實際上,這些云廠商已在自己的數(shù)據(jù)中心部署ASIC芯片并著力擴大這些芯片的使用。
以谷歌為代表,TechInsights數(shù)據(jù)顯示,去年谷歌已悄然成為全球第三大數(shù)據(jù)中心處理器設(shè)計公司,位列CPU霸主英特爾和GPU霸主英偉達之后。谷歌內(nèi)部工作負載運行TPU而不對外出售芯片。
亞馬遜則向OpenAI的競爭對手Anthropic進行多次投資,加深與該公司的綁定。Anthropic就用了亞馬遜的Trainium。亞馬遜近日透露,建設(shè)給Anthropic使用的Rainier超級計算機集群項目很快會完成,亞馬遜還在建設(shè)更多產(chǎn)能以滿足其他客戶用Trainium的需求。
定制芯片廠商博通、Marvell的相關(guān)訂單就是來自這些云廠商。其中,谷歌、Meta的ASIC芯片與博通合作定制。除了谷歌,摩根大通分析師預(yù)測,Meta有望成為下一個為博通帶來10億美元收入的ASIC客戶。亞馬遜則與芯片廠商Marvell合作。本月初,亞馬遜AWS剛與Marvell達成一項為期五年的協(xié)議,雙方擬擴大在AI和數(shù)據(jù)中心連接產(chǎn)品方面的合作,以便亞馬遜部署半導(dǎo)體產(chǎn)品組合和專用網(wǎng)絡(luò)硬件。
體現(xiàn)在業(yè)績上,2024財年,博通收入同比增長44%,達到創(chuàng)紀錄的516億美元。該財年,博通人工智能收入同比增長220%,達到122億美元,推動公司的半導(dǎo)體收入達到創(chuàng)紀錄的301億美元。博通還展望2025財年第一季度收入同比增長22%。
據(jù)Marvell本月早些時候發(fā)布的2025財年第三季度財報,該季度公司營收則為15.16億美元,同比增長7%,環(huán)比增長19%,該公司稱環(huán)比增長幅度高于此前指引的中點,并預(yù)測下一季度營收還將環(huán)比增長19%。Marvell表示,第三季度的業(yè)績表現(xiàn)和對第四季度業(yè)績表現(xiàn)強勁的預(yù)期主要是由定制AI芯片項目推動的,這些項目已經(jīng)開始量產(chǎn),并預(yù)計2026財年需求還將保持強勁勢頭。
除了谷歌、Meta、亞馬遜這些云廠商,OpenAI、蘋果也多次傳出與這類ASIC定制芯片廠商合作的消息。近日蘋果便傳出正在開發(fā)AI服務(wù)器芯片、正與博通合作開發(fā)該芯片網(wǎng)絡(luò)技術(shù)的消息,OpenAI此前傳出已與博通合作數(shù)月構(gòu)建AI推理芯片。
ASIC創(chuàng)業(yè)公司網(wǎng)羅客戶
云廠商自研大模型并通過投資綁定了一些大模型創(chuàng)業(yè)公司,與ASIC定制廠商合作的自研芯片用于這些大模型訓(xùn)練和推理,不需要依賴外售。ASIC創(chuàng)業(yè)公司則不同,它們選擇了不同的芯片代工商,并需要自己尋找客戶。
其中,推出了晶圓級芯片的Cerebras Systems將芯片交給臺積電生產(chǎn),Etched的Sohu芯片采用臺積電4nm工藝。采用近存計算架構(gòu)的Groq LPU芯片對制程的要求沒有那么高,用了GlobalFoundries的14nm工藝。
這些ASIC創(chuàng)業(yè)公司正在全世界范圍內(nèi)網(wǎng)羅客戶,從正加碼布局AI的中東國家搜尋客戶成為一些ASIC創(chuàng)業(yè)公司的共同選擇。據(jù)Cerebras Systems公開的數(shù)據(jù),2023年Cerebras Systems凈銷售額近7900萬美元,今年上半年達1.364億美元。2023年該公司來自阿聯(lián)酋阿布扎比的G42公司的收入占總收入83%,G42還承諾在明年購買價值14.3億美元的Cerebras Systems產(chǎn)品和服務(wù)。
記者9月在沙特阿拉伯的AI峰會上也看到了Cerebras Systems、Groq和另一家AI芯片初創(chuàng)公司SambaNova Systems的身影。Cerebras Systems當時與沙特阿美簽署了諒解備忘錄,沙特阿美計劃用Cerebras Systems的產(chǎn)品訓(xùn)練和部署大模型。
Groq則與沙特阿美的數(shù)字與技術(shù)子公司合作,計劃在沙特建設(shè)全球最大規(guī)模的推理數(shù)據(jù)中心,該數(shù)據(jù)中心今年年底建成投運,初期包括1.9萬個Groq LPU,未來有望擴展至20萬個 LPU。據(jù)SymbaNova Systems官網(wǎng)消息,該公司也與迪拜公司Solidus AI Tech合作,計劃為歐洲的高性能計算數(shù)據(jù)中心提供SymbaNova Cloud,并與在中東、南亞、歐洲、非洲地區(qū)開展業(yè)務(wù)的Canvass AI公司合作,向企業(yè)提供AI解決方案。
此外,據(jù)企業(yè)官網(wǎng)消息,SymbaNova Systems與美國阿貢國家實驗室合作。Groq則與面向美國和加拿大政府部門提供IT方案的廠商Carahsoft 合作,并與能源領(lǐng)域的Earth Wind&Power合作,計劃在挪威建設(shè)AI計算中心。
專用與通用之爭
GPU和ASIC目前的優(yōu)缺點都很明顯。GPU勝在通用,能運行諸多算法,且英偉達CUDA生態(tài)成熟,具備易用性,缺點在于通用的GPU在算力和功耗上會有一定浪費。ASIC相對專用,針對特定算法的設(shè)計使算力和功耗表現(xiàn)可能更優(yōu)。以Groq的LPU為例,該公司稱LPU速度比英偉達GPU快十倍,但價格和耗電量都僅為后者的十分之一。不過,越是專用的ASIC越難容忍太多算法,原本在GPU上跑的大模型要遷移至ASIC上運行不一定容易,整體上易用性也低于GPU。
在ASIC愈來愈猛的攻勢下,兩類芯片是否即將決出勝負?或者說,資本市場對博通的看好是不是“反噬”了對英偉達的市場預(yù)期?在博通市值站上萬億美元之時,美股上周五至本周二,英偉達股價連跌三天!澳阈枰ミ_,但我認為市場也在說,除此之外還有其他受益者!毙磐型顿Y公司Truist聯(lián)席首席投資官基思勒納(Keith Lerner)評論稱。不過,一些芯片業(yè)內(nèi)人士認為,GPU與ASIC之爭可以看作通用芯片與專用芯片之爭,從這個層面看,兩種芯片在一段時間之內(nèi)都有騰挪的空間,并非簡單的一方取代一方的關(guān)系。
從使用場景看,一名業(yè)內(nèi)人士告訴記者,GPU仍要用在大量并行化通用用例中,在此之外的其他需求可以使用成本更低的ASIC,例如在推理端使用低功耗的AISC。麥肯錫的研究也認為,未來AI工作量主要轉(zhuǎn)向推理,到2030年,配備ASIC芯片的AI加速器將處理大多數(shù)AI工作負載。
但具體未來ASIC能拿下多大的AI芯片市場份額,可能仍有變數(shù),這種變數(shù)來自GPU對ASIC芯片優(yōu)點的吸收。安謀科技產(chǎn)品總監(jiān)鮑敏祺向記者表示,GPU不一定會被其他芯片取代。GPU主要在AI云端應(yīng)用,GPU更容易接入openCL cuda或者SYCL這種軟件編程生態(tài)模式,具備便利性。而從能效角度看,GPU會帶來更多的多線程上下文切換開銷,這些開銷不容忽視。由此看,未來在端側(cè)場景,GPU和其他芯片會逐步走向融合,而不是互相取代。就像英偉達H100的Tensor Core(張量處理單元)已經(jīng)引入了更多Tensor專用的技術(shù),芯片之間已經(jīng)在取對方的長處逐步彌補自身的短處。
千芯科技董事長陳巍也認為,針對諸如能耗高等短板,GPU仍能在自身范疇內(nèi)進行改良,這種改良正是吸收了專用芯片的長處。
“GPU和其他AI芯片架構(gòu)之間,兩方面力量在博弈,新舊此消彼長。微軟、特斯拉、谷歌等已經(jīng)走向研究更專用的芯片的路線,英偉達雖然做的還是GPU,但它的路線也從原來的傳統(tǒng)GPU轉(zhuǎn)向更專用的計算結(jié)構(gòu),其Tensor Core部分已經(jīng)明顯超過原來的CUDA Core部分! 陳巍告訴記者。
目前已經(jīng)出現(xiàn)了越來越專門針對大模型的ASIC芯片,通過更極致的專用性提高芯片效率。例如Etched將主流大模型所基于的Transformer架構(gòu)固定在芯片Sohu上,聲稱一臺集成8塊Sohu的服務(wù)器性能匹敵160個英偉達H100 GPU。陳巍告訴記者,他猜測后續(xù)也可能出現(xiàn)針對大模型應(yīng)用的專用GPU,GPU廠商有比較高的概率會進一步改進Tensor Core結(jié)構(gòu),從而犧牲掉一部分對顯存的支持能力。
不過,這種極致的專用性也是一把雙刃劍。另有業(yè)內(nèi)人士向記者表示,當前AI的主流架構(gòu)是Transformer,未來隨著AI架構(gòu)演進,Transformer不一定是終局,在此過程中,通用的GPU一直能被采用,但當AI主流架構(gòu)發(fā)生變化時,特別專用的ASIC芯片將無法適應(yīng)。
從這個層面看,ASIC也需要考慮舍棄通用性的風險。“(GPU通用性的重要性)確如此! 鮑敏祺告訴記者,當Transformer改變,GPU將有優(yōu)勢。以NPU為例,一方面,原本的DSA(特定領(lǐng)域架構(gòu))可能無法應(yīng)對算法流程變化,因此對一些向量計算需要考慮引入更多通用能力。另一方面,在具備通用計算能力的情況下,芯片則可能沒有針對特定計算類型進行優(yōu)化,導(dǎo)致遇到性能瓶頸。因此設(shè)計時既要引入更多通用計算能力以適應(yīng)算法等的變化,又要平衡通用計算能力和執(zhí)行特定任務(wù)的性能。
(本文來自第一財經(jīng))