劃重點
01隨著企業(yè)重點轉向高級AI工作負載,數據中心傳統(tǒng)的以CPU為中心的服務器正在通過集成新的專用芯片或“協(xié)處理器”而得到增強。
02GPU已成為協(xié)處理器的首選,因為它們能夠以無與倫比的速度處理大量數據,但總體擁有成本可能非常高。
03芯片制造商、初創(chuàng)公司和云提供商正在構建專用AI處理器和加速器,如ASIC、FPGA和NPU,以應對不同規(guī)模和類型的AI工作負載。
04專家建議企業(yè)根據要處理的工作負載的規(guī)模和類型、數據、持續(xù)迭代/更改的可能性以及成本和可用性需求選擇合適的AI加速器。
05預計到2028年,AI硬件總體市場將達到1380億美元,以每年30%的速度增長。
以上內容由騰訊混元大模型生成,僅供參考
本文由半導體產業(yè)縱橫(ID:ICVIEWS)編譯自venturebeat
芯片制造商、初創(chuàng)公司和云提供商正在構建專用AI處理器和加速器。
數據中心是互聯(lián)網的后端。無論是 Netflix 還是 Google,所有大公司都利用數據中心及其托管的計算機系統(tǒng)向最終用戶提供數字服務。隨著企業(yè)的重點轉向高級 AI 工作負載,數據中心傳統(tǒng)的以 CPU 為中心的服務器正在通過集成新的專用芯片或“協(xié)處理器”而得到增強。
從本質上講,這些協(xié)處理器背后的想法是引入某種附加組件來增強服務器的計算能力。這使它們能夠處理 AI 訓練、推理、數據庫加速和網絡功能等工作負載的計算需求。在過去幾年中,以 Nvidia 為首的 GPU 已成為協(xié)處理器的首選,因為它們能夠以無與倫比的速度處理大量數據。根據Futurum Group的一項研究,由于需求增加,去年 GPU 占數據中心內支持 AI 用例的協(xié)處理器的 74% 。
研究顯示,GPU 的主導地位預計只會增長,到 2028 年,該類別的收入將以每年 30% 的速度增長,達到 1020 億美元。但問題是:雖然 GPU 憑借其并行處理架構成為加速各種大規(guī)模 AI 工作負載(如訓練和運行大規(guī)模、萬億參數語言模型或基因組測序)的強大伙伴,但它們的總體擁有成本可能非常高。例如,Nvidia 的旗艦GB200“超級芯片”結合了 Grace CPU 和兩個 B200 GPU,預計成本在 60,000 至 70,000 美元之間。一臺裝有 36 個這種超級芯片的服務器估計成本約為 200 萬美元。
雖然這在某些情況下可能有效,例如大型項目,但并非適用于每家公司。許多企業(yè) IT 經理都希望采用新技術來支持選定的低到中等密集型 AI 工作負載,并特別關注總體擁有成本、可擴展性和集成度。畢竟,大多數 AI 模型(深度學習網絡、神經網絡、大型語言模型等)都處于成熟階段,需求正在轉向 AI 推理和增強特定工作負載(如圖像識別、推薦系統(tǒng)或對象識別)的性能,同時保持高效。
這正是芯片制造商、初創(chuàng)公司和云提供商正在構建的專用 AI 處理器和加速器的新興領域。
人工智能處理器和加速器到底是什么?
從本質上講,AI 處理器和加速器是位于服務器 CPU 生態(tài)系統(tǒng)中的芯片,專注于特定的 AI 功能。它們通常圍繞三種關鍵架構:專用集成電路 (ASIC)、現場可編程門陣列 (FPGA) 和最新創(chuàng)新的神經處理單元 (NPU)。
ASIC 和 FPGA 已經存在了相當長一段時間,可編程性是兩者之間的唯一區(qū)別。ASIC 是為特定任務(可能與 AI 相關,也可能不相關)從頭定制的,而 FPGA 可以在后期重新配置以實現自定義邏輯。NPU 與兩者的區(qū)別在于,NPU 是一種專用硬件,只能加速 AI/ML 工作負載,如神經網絡推理和訓練。
Futurum 集團首席執(zhí)行官 Daniel Newman 告訴 Venturebeat:“加速器往往能夠單獨執(zhí)行任何功能,有時采用晶圓級或多芯片 ASIC 設計,它們能夠處理一些不同的應用程序。NPU 是專用芯片(通常是系統(tǒng)的一部分)的一個很好的例子,它可以處理許多矩陣數學和神經網絡用例以及使用更少功率的各種推理任務。”
這些加速器,尤其是為特定應用而構建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。
IBM 云和行業(yè)平臺總經理 Rohit Badlaney 告訴 VentureBeat:“GPU 設計主要以算術邏輯單元 (ALU) 為中心,這樣它們就可以同時執(zhí)行數千次計算,而 AI 加速器設計主要以張量處理器核心 (TPC) 或單元為中心。一般來說,AI 加速器的性能與 GPU 性能的比較取決于該設計的固定功能。”
目前,IBM 采用混合云方法,在整個堆棧中使用多個 GPU 和 AI 加速器,包括來自 Nvidia 和 Intel 的產品,為企業(yè)提供選擇,以滿足其獨特工作負載和應用的需求 - 高性能和高效率。
“我們的全棧解決方案旨在幫助改變企業(yè)、開發(fā)人員和開源社區(qū)構建和利用生成式人工智能的方式。人工智能加速器是我們認為對希望部署生成式人工智能的客戶非常有益的產品之一,"Badlaney 說。他補充說,雖然 GPU 系統(tǒng)最適合大型模型訓練和微調,但加速器同樣可以處理許多人工智能任務,而且成本更低。
例如,IBM 云虛擬服務器使用了英特爾的Gaudi 3加速器,并配備了專為推理和大內存需求設計的定制軟件棧。該公司還計劃通過由多個系統(tǒng)組成的小型集群,將加速器用于微調和小型訓練工作負載。
“人工智能加速器和 GPU 可以有效地用于一些類似的工作負載,例如從 LLM 和擴散模型(像穩(wěn)定擴散這樣的圖像生成)到標準物體識別、分類和語音配音。不過,人工智能加速器和 GPU 之間的優(yōu)勢和差異完全取決于硬件提供商的設計。Badlaney 解釋說:"例如,Gaudi 3 AI 加速器的設計旨在顯著提升計算能力、內存帶寬和基于架構的能效。
他說,這直接帶來了性價比優(yōu)勢。
除了英特爾,其他人工智能加速器也在市場上備受關注。這不僅包括為谷歌、AWS 和微軟等公共云提供商打造的定制芯片,還包括 Groq、Graphcore、SambaNova Systems 和 Cerebras Systems 等初創(chuàng)公司的專用產品(某些情況下是 NPU)。它們都以各自的方式脫穎而出,在不同領域向 GPU 發(fā)起挑戰(zhàn)。
在其中一個案例中,Tractable 是一家開發(fā)人工智能的公司,旨在分析財產和車輛損壞情況以進行保險理賠,該公司能夠利用 Graphcore 的智能處理單元-POD 系統(tǒng)(一種專門的 NPU 產品),與他們一直使用的 GPU 相比,性能大幅提升。
“Tractable 公司聯(lián)合創(chuàng)始人兼首席技術官 Razvan Ranca 在一篇博文中寫道:"我們看到速度提高了大約 5 倍。“這意味著研究人員現在可以運行的實驗數量可能是以前的五倍,這意味著我們加快了整個研發(fā)過程,并最終在我們的產品中建立了更好的模型"。
在某些情況下,AI 處理器還為訓練工作負載提供支持。例如,Aleph Alpha 數據中心的 AI 超級計算機正在使用Cerebras CS-3,該系統(tǒng)由這家初創(chuàng)公司的第三代 Wafer Scale Engine 提供支持,擁有 900,000 個 AI 核心,用于構建下一代自主 AI 模型。甚至谷歌最近推出的定制 ASIC TPU v5p也在為 Salesforce 和 Lightricks 等公司提供一些 AI 訓練工作負載。
選擇加速器的方法應該是怎樣的?
現在已經確定除了 GPU 之外還有許多 AI 處理器可以加速 AI 工作負載,尤其是推理,那么問題是:IT 經理如何選擇最佳投資方案?其中一些芯片可能具有良好的性能和效率,但由于其架構,它們在處理的 AI 任務類型方面可能會受到限制。其他芯片可能會做得更多,但與 GPU 相比,TCO 差異可能沒有那么大。
由于答案因芯片設計而異,VentureBeat 采訪的所有專家都建議選擇應基于要處理的工作負載的規(guī)模和類型、數據、持續(xù)迭代/更改的可能性以及成本和可用性需求。
幫助企業(yè)進行 AI 訓練和推理的Sustainable Metal Cloud首席技術官 Daniel Kearney 表示,企業(yè)運行基準測試來測試性價比優(yōu)勢也很重要,并確保他們的團隊熟悉支持各自 AI 加速器的更廣泛的軟件生態(tài)系統(tǒng)。
“雖然詳細的工作負載信息可能無法提前獲得,或者可能無法為決策提供支持,但建議使用代表性工作負載、真實世界測試和可用的同行評審真實世界信息進行基準測試和測試,以提供數據驅動的方法來為合適的工作負載選擇合適的 AI 加速器。這種前期調查可以節(jié)省大量時間和金錢,特別是對于大型且昂貴的培訓工作,”他建議道。
在全球范圍內,隨著推理工作的增長,包括 AI 芯片、加速器和 GPU 在內的 AI 硬件總體市場預計將以每年 30% 的速度增長,到 2028 年將達到 1380 億美元。
*聲明:本文系原作者創(chuàng)作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯(lián)系后臺。