在人工智能 (AI) 時(shí)代,AI 芯片大廠英偉達(dá)的 GPU 成為了最強(qiáng)搶手的芯片,也讓英偉達(dá)一躍成為了全球市值最高的企業(yè)。英偉達(dá) CEO 黃仁勛曾多次公開(kāi)表示,全球公司正在從基于 CPU 的通用計(jì)算向基于 GPU 的加速計(jì)算和生成式 AI 過(guò)渡。然而,不管計(jì)算領(lǐng)域的潮流如何更迭,不可否認(rèn)的是,CPU 依然是這個(gè) AI 加速計(jì)算時(shí)代的發(fā)展基石。
△Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven
在 2024 年 11 月 21 日于深圳召開(kāi)的“Arm Tech Symposia 年度技術(shù)大會(huì)”上,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven 也指出,“無(wú)論是現(xiàn)在還是未來(lái),Arm CPU 都將是 AI 運(yùn)行的基石,同時(shí)結(jié)合 Arm 面向基礎(chǔ)設(shè)施、汽車、終端等多個(gè)市場(chǎng)推出的 Arm 計(jì)算子系統(tǒng) (CSS),以及強(qiáng)大的 Arm 生態(tài)優(yōu)勢(shì),Arm 已成功轉(zhuǎn)型為面向未來(lái)的應(yīng)用廣泛且至關(guān)重要的計(jì)算平臺(tái)技術(shù)提供商!
AI 時(shí)代,CPU 為何依然是基石?
雖然目前在云端 AI 市場(chǎng),以英偉達(dá)為代表的 GPU 廠商占據(jù)了很大的市場(chǎng)份額,黃仁勛也多次強(qiáng)調(diào),“英偉達(dá)將可以利用 GPU 完全取代傳統(tǒng)的基于 CPU 的數(shù)據(jù)中心”。但事實(shí)上,GPU 所能夠取代的只是被用于 AI 計(jì)算的 CPU,或者說(shuō)將 AI 計(jì)算負(fù)載從 CPU 上部分卸載下來(lái)。
因?yàn)閷?duì)于任何 AI 基礎(chǔ)設(shè)施或者 AI 設(shè)備來(lái)說(shuō),CPU 都是最為關(guān)鍵的“大腦”,它具有非常靈活地負(fù)責(zé)各種類型的通用計(jì)算與控制的能力,相比之下 GPU 更多的還是面向圖形計(jì)算和 AI 加速計(jì)算,無(wú)法替代 CPU 的通用計(jì)算能力。所以,不管是英偉達(dá)還是 AMD 的八張 GPU 加速卡的服務(wù)器,其中都必須搭載 2 個(gè) CPU。即便是的英偉達(dá)目前最強(qiáng)的 AI 芯片 GB200 當(dāng)中,也依然集成了其自研的基于 Arm 架構(gòu)的 Grace CPU。
而目前云端的主流 AI 加速計(jì)算方案也都是基于“CPU+”的模式,比如 CPU+FPGA、CPU+GPU、CPU+TPU、CPU+ASIC(包括各類 NPU)等。正如前面所說(shuō)的,CPU是通用計(jì)算內(nèi)核,在負(fù)責(zé)通用計(jì)算與控制的任務(wù)的同時(shí),也能夠靈活地應(yīng)對(duì)各種類型的 AI 計(jì)算需求,但是效率偏低,因此需要配合其他類型的芯片來(lái)提升 AI 計(jì)算的效率。
比如,AISC、TPU 針對(duì)特定的 AI 算法計(jì)算效率最高,但是也僅僅針對(duì)特定的 AI 算法,靈活性較低;FPGA 可編程特性帶來(lái)了更高的靈活性和計(jì)算效率,但是卻有著芯片面積、功耗、成本等方面的缺點(diǎn);相比較而言 GPU 在 AI 計(jì)算效率、靈活性等方面的比較均衡,但隨著云端 GPU 的成本的越來(lái)越高昂;此外,AI 加速計(jì)算的需求也開(kāi)始更多地從訓(xùn)練轉(zhuǎn)向推理,也推動(dòng)了對(duì)于 CPU+ASIC 或者其他混合式 AI 加速計(jì)算方案的需求增長(zhǎng)。但不管怎樣,CPU 依然是各類 AI 加速計(jì)算方案的核心。
特別是隨著生成式 AI 開(kāi)始進(jìn)入到邊緣側(cè)的趨勢(shì)之下,也推動(dòng)了 AI 加速計(jì)算從云端轉(zhuǎn)向?qū)τ诔杀尽⒐、能效、隱私保護(hù)更為敏感的邊緣側(cè),CPU 對(duì)于 AI 的重要性也更為“凸顯”。
比如目前常見(jiàn)智能手機(jī) SoC,其內(nèi)部的 AI 計(jì)算基本都采用的是異構(gòu)計(jì)算的架構(gòu),即在利用 NPU 進(jìn)行專用 AI 加速的同時(shí),還將利用 CPU、GPU、DSP 來(lái)協(xié)同進(jìn)行 AI 計(jì)算,因?yàn)檫@樣的計(jì)算架構(gòu)能夠利用最適合的內(nèi)核來(lái)運(yùn)行對(duì)應(yīng)的 AI 算法,可以極大的提升 AI 計(jì)算的能效。
再比如對(duì)于一些成本和功耗敏感的物聯(lián)網(wǎng)設(shè)備來(lái)說(shuō),其內(nèi)部甚至都沒(méi)有 GPU、NPU 等內(nèi)核,其所有的計(jì)算任務(wù)可能都將是基于 CPU 來(lái)做的,同樣對(duì)于 AI 的計(jì)算也需要依托于 CPU 來(lái)完成。
雖然目前在云端 AI 計(jì)算市場(chǎng)主要由英特爾、AMD 的 CPU,以及英偉達(dá) GPU 所統(tǒng)治,但是 Arm 也早已經(jīng)向云端 AI 計(jì)算市場(chǎng)發(fā)起挑戰(zhàn),并已經(jīng)取得了一些成績(jī)。而在邊緣側(cè)的 AI 計(jì)算領(lǐng)域,Arm 更無(wú)疑是最大的“贏家”。
James McNiven 透露,截至 2025 年底,全球?qū)⒂谐^(guò) 1,000 億臺(tái)基于 Arm 架構(gòu)的設(shè)備可具備 AI 功能,囊括了手機(jī)、PC、穿戴設(shè)備、汽車、服務(wù)器等幾乎所有主要類型的 AI 設(shè)備。
面向 AI 時(shí)代,Arm 已成為 AI 計(jì)算的基石
早在 2021 年 3 月底,Arm 就發(fā)布了全新的 64 位指令集 Armv9,這是Arm架構(gòu)十年來(lái)最大的一次版本升級(jí),帶來(lái)了AI和安全等方面的全面升級(jí)。
具體來(lái)說(shuō),Armv9升級(jí)了SVE2指令集,可以支持從128位擴(kuò)展至2048位的矢量計(jì)算,顯著增強(qiáng)了處理器對(duì)矢量計(jì)算的支持,這對(duì)于需要大量矩陣運(yùn)算的AI和機(jī)器學(xué)習(xí)應(yīng)用來(lái)說(shuō),將帶來(lái)極大的性能提升。
同時(shí),Armv9還通過(guò)優(yōu)化機(jī)器學(xué)習(xí)指令集,提升了機(jī)器學(xué)習(xí)的處理能力。Armv9還推出了CCA機(jī)密計(jì)算機(jī)體系架構(gòu),引入動(dòng)態(tài)域技術(shù),增強(qiáng)了系統(tǒng)安全性,保護(hù)數(shù)據(jù)不會(huì)輕易被破解和攻擊,進(jìn)一步提升了AI應(yīng)用的安全性。
此外,Armv9還具有極高的可擴(kuò)展性,使得它能夠廣泛應(yīng)用于從智能終端設(shè)備到大型數(shù)據(jù)中心的各種計(jì)算場(chǎng)景。
可以說(shuō),Armv9從設(shè)計(jì)之初,面向的就是未來(lái)AI時(shí)代的計(jì)算需求。
James McNiven表示:“Armv9 專為人工智能打造,將引領(lǐng) Arm 計(jì)算平臺(tái)邁入下一個(gè)輝煌的 10 年。得益于SVE2 指令集、伸縮矩陣擴(kuò)展 (SME) 、CCA等關(guān)鍵技術(shù), Armv9 不僅能帶來(lái)卓越的性能、安全性、可擴(kuò)展性,還能在生態(tài)系統(tǒng)內(nèi)實(shí)現(xiàn)無(wú)縫遷移,進(jìn)而帶來(lái)更加出色的整體效能。”
談到Armv9如何面向多元化的應(yīng)用場(chǎng)景,為客戶提供更具創(chuàng)新性、差異化的解決方案,James McNiven進(jìn)一步解釋稱, “在人工智能領(lǐng)域我們也意識(shí)到異構(gòu)計(jì)算是必要的,意味著我們需要靈活調(diào)配計(jì)算資源,這就是Arm的優(yōu)勢(shì)所在。我們一直在 CPU、GPU、NPU 當(dāng)中添加人工智能的能力,能夠?qū)崿F(xiàn)靈活的組合,但這還遠(yuǎn)遠(yuǎn)不夠。對(duì)于 Arm 的計(jì)算平臺(tái)來(lái)說(shuō),我們不再是簡(jiǎn)單的將這些模塊堆砌在一起,我們將其做成一個(gè)整合的完整的解決方案為大家?guī)?lái)更多價(jià)值,我們稱之為 Arm 計(jì)算子系統(tǒng) (CSS)!
近幾年來(lái),Arm也已經(jīng)面向基礎(chǔ)設(shè)施、終端等多個(gè)市場(chǎng)推出了 Arm 計(jì)算子系統(tǒng) (CSS),旨在提高前沿 AI 體驗(yàn)的性能、效率和可訪問(wèn)性,幫助生態(tài)系統(tǒng)合作伙伴更輕松、更快速地打造自己的芯片解決方案。使得 Arm 作為計(jì)算平臺(tái)不僅僅惠及單一領(lǐng)域,而是能夠服務(wù)于整個(gè)生態(tài)體系。
目前眾多芯片設(shè)計(jì)廠商基于 Arm 架構(gòu)的處理器正在數(shù)據(jù)中心基礎(chǔ)設(shè)施市場(chǎng)、智能手機(jī)、AI PC、智能汽車等邊緣設(shè)備的 AI 方面發(fā)揮至關(guān)重要的“基石”性作用。
比如在數(shù)據(jù)中心(服務(wù)器)市場(chǎng),近年來(lái)亞馬遜云科技(Graviton系列)、阿里巴巴(倚天系列)、微軟 (Cobalt 100)、谷歌(Axion系列)、華為(鯤鵬系列)等頭部的云服務(wù)廠商都推出了自研的服務(wù)器 CPU,同時(shí)也有像 Ampere等第三方的服務(wù)器 CPU 廠商,均推出了基于 Arm CPU 架構(gòu)的產(chǎn)品。
為了助力 Arm 服務(wù)器 CPU 廠商的設(shè)計(jì),Arm 在 2023 年 10 月還整合了特殊應(yīng)用 IC (ASIC) 設(shè)計(jì)公司、IP 供應(yīng)商、電子設(shè)計(jì)自動(dòng)化 (EDA) 工具供應(yīng)商、晶圓廠與固件開(kāi)發(fā)商等業(yè)界領(lǐng)導(dǎo)企業(yè)資源,推出了“Arm 全面設(shè)計(jì)” (Arm Total Design),致力于加速并簡(jiǎn)化 Neoverse CSS 構(gòu)架系統(tǒng)的開(kāi)發(fā),協(xié)助各方進(jìn)行創(chuàng)新、加速產(chǎn)品上市時(shí)程,并降低打造客制化芯片所需的成本與阻力。今年 6 月,聯(lián)發(fā)科就有宣布加入 Arm 全面設(shè)計(jì) (Arm Total Design) 生態(tài)項(xiàng)目,不排除聯(lián)發(fā)科也可能基于 Arm 架構(gòu)開(kāi)發(fā)服務(wù)器 CPU。截至今年 10 月,參與 Arm 全面設(shè)計(jì)的企業(yè)已迅速成長(zhǎng)至30 家,并已經(jīng)開(kāi)始加速基于 Neoverse N 系列或 V 系列 CSS 的測(cè)試芯片與小芯片產(chǎn)品的開(kāi)發(fā)。
在智能手機(jī)市場(chǎng),Arm 是當(dāng)之無(wú)愧的霸主。目前幾乎所有的智能手機(jī) SoC 都是基于 Arm CPU 架構(gòu)(包括蘋(píng)果 A 系列處理器和高通驍龍?zhí)幚砥鳎⑶医^大多數(shù)的智能手機(jī) SoC 還采用了 Arm GPU 和互連技術(shù)。同時(shí),在 Arm PC 市場(chǎng),得益于 Arm 指令集所帶來(lái)的高性能、低功耗能力的加持,蘋(píng)果的 M 系列處理器大獲成功,并實(shí)現(xiàn)在 Mac 產(chǎn)品上對(duì)于英特爾處理器的全面替代;同樣,高通去年推出的全新 AI PC 處理器驍龍 X 系列也是基于 Arm 指令集架構(gòu)的。
今年 5 月底,Arm 還發(fā)布了首款面向智能手機(jī)和 PC 等終端產(chǎn)品的 Arm 計(jì)算子系統(tǒng) 終端 CSS,帶來(lái)了最新的 Armv9.2 指令集的 CPU 集群,加入了對(duì)于 SVE、SVE2 指令的支持,包括最高性能的 Cortex-X925 CPU、最高效的 Cortex-A725 CPU、更新后的 Arm Cortex-A520 CPU,此外還帶來(lái)了性能最高、效率最高的 GPUArm Immortalis-G925 GPU 等。
聯(lián)發(fā)科最新推出的天璣 9400 旗艦移動(dòng)平臺(tái)就是搭載 Arm Cortex-X925和 Immortalis-G925,為其第二代全大核架構(gòu)、游戲性能及生成式 AI 體驗(yàn)的提升提供了全面的助力。聯(lián)發(fā)科天璣 9400 已被包括 vivo、OPPO、Redmi 等品牌廠商的旗艦手機(jī)所采用。
在汽車市場(chǎng),全球 15 家頂級(jí)汽車芯片制造商均已授權(quán)使用 Arm IP。100% 的高級(jí)駕駛輔助系統(tǒng) (ADAS) 芯片供應(yīng)商正在基于 Arm 技術(shù)開(kāi)發(fā)其下一代芯片。85% 的車載信息娛樂(lè)系統(tǒng) (IVI) 采用 Arm 技術(shù)。據(jù)了解,Arm還將于2015年推出汽車計(jì)算子系統(tǒng)。
總結(jié)來(lái)說(shuō),經(jīng)過(guò)多年的發(fā)展,目前 Arm 已經(jīng)成為了數(shù)據(jù)中心、智能手機(jī)、AI PC、智能汽車、物聯(lián)網(wǎng)等眾多行業(yè)發(fā)展的關(guān)鍵基石。特別是隨著 Arm 轉(zhuǎn)型為計(jì)算平臺(tái)技術(shù)提供商,憑借業(yè)界領(lǐng)先的高能效、低功耗技術(shù)創(chuàng)新,Arm 也已經(jīng)成為了最普及的 AI 計(jì)算的基石。
面對(duì)AI帶來(lái)的巨大市場(chǎng)機(jī)遇,Arm認(rèn)為中國(guó)市場(chǎng)將是重中之重。James McNiven在此次大會(huì)上也指出:“我們相信中國(guó)的創(chuàng)新正在引領(lǐng)全球人工智能的變革,因?yàn)橹袊?guó)是全球最大的智能手機(jī)和智能汽車市場(chǎng)。”據(jù)市場(chǎng)預(yù)測(cè),在汽車領(lǐng)域,到2026年L3級(jí)的自動(dòng)駕駛車輛將會(huì)超過(guò)百萬(wàn)輛,而在今年年底將會(huì)有1.7億臺(tái)手機(jī)得到人工智能的加持。同時(shí),AI PC的市占率也將超越55%,以AI為主的數(shù)據(jù)中心增長(zhǎng)達(dá)到了5倍。預(yù)計(jì)到2032年,中國(guó)的人工智能市場(chǎng)規(guī)模將達(dá)到1.1萬(wàn)億。
多元且強(qiáng)大的軟件生態(tài)系統(tǒng):持續(xù)推動(dòng)軟硬件在 AI 應(yīng)用的協(xié)同創(chuàng)新
高效、節(jié)能的硬件 IP 是 Arm 的一大關(guān)鍵優(yōu)勢(shì),但是相對(duì)于其他處理器架構(gòu)來(lái)說(shuō),Arm 所擁有的龐大的跨平臺(tái)軟件應(yīng)用生態(tài)也是另一大關(guān)鍵優(yōu)勢(shì)。憑借多年來(lái)在 Arm CPU 平臺(tái)上進(jìn)行的大量的軟件開(kāi)發(fā)經(jīng)驗(yàn),Arm 打造了一整套的統(tǒng)一的開(kāi)發(fā)工具鏈,全面覆蓋了云、邊、端等應(yīng)用生態(tài),開(kāi)發(fā)者可以一次學(xué)習(xí),即可快速?gòu)?fù)用到其他領(lǐng)域。
比如,為了加速開(kāi)發(fā)者開(kāi)發(fā)基于 Arm 架構(gòu)的處理器的 AI 應(yīng)用的開(kāi)發(fā),Arm 今年還推出了全新的 KleidiAI 軟件庫(kù),具有高度優(yōu)化的機(jī)器學(xué)習(xí) (ML) 內(nèi)核的集合,使開(kāi)發(fā)人員能夠在通過(guò)高度優(yōu)化的生成式 AI 框架運(yùn)行 AI 工作負(fù)載時(shí)釋放 Arm CPU 的全部潛力。目前 KleidiAI 已經(jīng)用于 PyTorch、MediaPipe 和 Meta Llama3 的開(kāi)發(fā)。在此次Arm Tech Symposia 年度技術(shù)大會(huì)上,Arm還宣布KleidiAI已經(jīng)和騰訊混元模型集成,為端側(cè)AI的開(kāi)發(fā)性能提供支持。
可以說(shuō),Arm KleidiAI 軟件庫(kù)為軟件開(kāi)發(fā)者帶來(lái)充分利用硬件性能的能力,大幅簡(jiǎn)化人工智能的開(kāi)發(fā)。
以上種種,無(wú)不體現(xiàn)出 Arm 通過(guò)全面的軟件生態(tài)系統(tǒng)支持開(kāi)發(fā)者和企業(yè)的創(chuàng)新實(shí)踐,并在面向 AI 的軟硬件協(xié)同中所扮演的關(guān)鍵角色。據(jù) Arm 介紹,目前全球有 2,000 多萬(wàn)名軟件開(kāi)發(fā)者在基于 Arm 架構(gòu)的設(shè)備上構(gòu)建應(yīng)用。這也意味著更多的設(shè)備、行業(yè)和用例可以享受到在 Arm 平臺(tái)上運(yùn)行的能效優(yōu)勢(shì)、卓越性能以及加速開(kāi)發(fā)的助益。
小結(jié):
經(jīng)過(guò)多年來(lái)持續(xù)的技術(shù)創(chuàng)新和產(chǎn)品迭代,從邊緣設(shè)備上運(yùn)行工作負(fù)載的小型傳感器,到用于訓(xùn)練大型語(yǔ)言模型 (LLM) 的復(fù)雜工作負(fù)載的大型服務(wù)器,Arm CPU 已經(jīng)幾乎“無(wú)處不在”。特別是隨著 AI 時(shí)代的到來(lái),憑借在性能和能效之間的完美平衡,Arm CPU 也在根本上推動(dòng)了 AI 的變革,并將在未來(lái)幾十年持續(xù)占據(jù)不斷擴(kuò)展的AI生態(tài)系統(tǒng)的核心地位。
編輯:芯智訊-浪客劍