展會(huì)信息港展會(huì)大全

AI推理計(jì)算的可能終局:存算一體芯片!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-07 07:32:10   瀏覽:128次  

導(dǎo)讀:作者 |晶上世界來源 |晶上世界生成式AI帶來無限商機(jī),但我們?nèi)匀幻媾R著一個(gè)阻礙廣泛采用的巨大挑戰(zhàn):運(yùn)行推理的高昂成本。訓(xùn)練大型語言模型(LLM)涉及的成本相當(dāng)驚人,主要體現(xiàn)在對大量GPU的需求及隨之而來的高額電費(fèi)上。據(jù)分析師預(yù)測,Meta在2024年可能需耗資約150億美元用于購置GPU。生成式AI的實(shí)現(xiàn)需要大量的內(nèi)存和帶寬以支持權(quán)重計(jì)算與數(shù)據(jù)處理,這構(gòu)成了大規(guī)模部署此類模 ......

作者 |晶上世界

來源 |晶上世界

生成式AI帶來無限商機(jī),但我們?nèi)匀幻媾R著一個(gè)阻礙廣泛采用的巨大挑戰(zhàn):運(yùn)行推理的高昂成本。

AI推理計(jì)算的可能終局:存算一體芯片!

訓(xùn)練大型語言模型(LLM)涉及的成本相當(dāng)驚人,主要體現(xiàn)在對大量GPU的需求及隨之而來的高額電費(fèi)上。據(jù)分析師預(yù)測,Meta在2024年可能需耗資約150億美元用于購置GPU。生成式AI的實(shí)現(xiàn)需要大量的內(nèi)存和帶寬以支持權(quán)重計(jì)算與數(shù)據(jù)處理,這構(gòu)成了大規(guī)模部署此類模型的主要挑戰(zhàn)之一。OpenAI的Sam Altman也坦承:“沒有根本性的突破,這一目標(biāo)難以達(dá)成!蹦壳,盡管CPU、GPU以及一些專門設(shè)計(jì)的加速器是支持AI運(yùn)算的首選方案,但它們依然受限于傳統(tǒng)的馮諾伊曼架構(gòu)。定制化的ASIC、FPGA和APU雖能提供更高的內(nèi)存帶寬和?匦阅,但運(yùn)行這些模型仍需消耗大量的RAM資源,使得生成式AI的經(jīng)濟(jì)性部署成為難題。即便面臨成本和技術(shù)上的限制,企業(yè)仍在迅速推進(jìn)多種AI模型的應(yīng)用,并刺激了對推理技術(shù)的需求。這意味著對計(jì)算能力提出了更高要求鑒于當(dāng)前模型遠(yuǎn)超以往非生成式機(jī)器學(xué)習(xí)模型的規(guī)模,生成式AI推理不僅需要更多的計(jì)算資源,還需要更大的內(nèi)存容量。此外,推理過程中的計(jì)算量不僅受到模型大小的影響,還與用戶輸入的提示長度相關(guān)。例如,當(dāng)OpenAI的GPT-4使用的提示長度從8K增加到32K時(shí),其運(yùn)行成本幾乎翻了一番。同時(shí),模型產(chǎn)生每個(gè)輸出token的速度也是影響用戶體驗(yàn)的重要因素。因此,內(nèi)存帶寬的重要性不言而喻,然而現(xiàn)有架構(gòu)下的內(nèi)存帶寬局限進(jìn)一步增加了推理過程的成本和能耗問題。

存儲(chǔ)和功率墻

術(shù)語“內(nèi)存墻”由William Wulf和Sally McKee于1995年提出,它涵蓋了存儲(chǔ)容量的限制以及存儲(chǔ)傳輸帶寬的問題。分布式推理作為一種策略,可以規(guī)避單個(gè)加速器在內(nèi)存容量和帶寬上的局限性,但這種方法同樣會(huì)遇到內(nèi)存墻問題特別是在加速器間的數(shù)據(jù)傳輸過程中出現(xiàn)的通信瓶頸,這比在同一芯片內(nèi)移動(dòng)數(shù)據(jù)要慢且效率低。生成內(nèi)容的過程依賴于從訓(xùn)練過的權(quán)重中進(jìn)行大量細(xì)微計(jì)算,這些計(jì)算通過GEMM(通用矩陣乘法)操作完成。盡管GEMM不需要龐大的處理器支持,但它依賴于快速且高效的小規(guī)模計(jì)算過程。“內(nèi)存墻”在這里構(gòu)成了障礙。在執(zhí)行每個(gè)操作時(shí),數(shù)據(jù)需要在DDR RAM與處理器之間以及處理器之間頻繁交換。即便這段距離僅有毫米之遙,由于馮諾依曼架構(gòu)下存儲(chǔ)與計(jì)算單元的分離,這一過程消耗了時(shí)間和能量,尤其當(dāng)涉及海量計(jì)算時(shí)。每次數(shù)據(jù)經(jīng)由存儲(chǔ)總線移動(dòng),DRAM訪問每字節(jié)大約消耗60皮焦耳的能量,相比之下,實(shí)際運(yùn)算僅需消耗50到60飛焦耳每字節(jié)。這意味著,在數(shù)據(jù)來回傳輸過程中消耗的能量是使用數(shù)據(jù)進(jìn)行計(jì)算所需能量的一千倍?紤]到全球范圍內(nèi)數(shù)百萬用戶的請求、數(shù)百個(gè)GPU的應(yīng)用,以及數(shù)千臺服務(wù)器和數(shù)據(jù)中心的運(yùn)作,這種能耗累積使得Sam Altman認(rèn)為,為解決此問題,我們需要在能源方面取得突破。存內(nèi)計(jì)算

如果在存儲(chǔ)和處理之間來回移動(dòng)數(shù)據(jù)的效率如此之低,那么我們是否可以將計(jì)算移到內(nèi)存中呢?近年來,存內(nèi)計(jì)算(in-memory computing,簡稱IMC)通過直接在內(nèi)存單元附近/內(nèi)部執(zhí)行MAC(乘-累加)操作而成為一種很有前途的替代方法。普渡大學(xué)的研究表明,與機(jī)器學(xué)習(xí)推理的既定基線相比,存內(nèi)計(jì)算架構(gòu)的能耗降低至0.12倍。位于比利時(shí)KU Leuven研究型大學(xué)的MICAS中心支持IMC,強(qiáng)調(diào)其降低訪問開銷和實(shí)現(xiàn)大規(guī)模并行化機(jī)會(huì)的能力,可能導(dǎo)致能源效率和吞吐量的數(shù)量級提高。該領(lǐng)域的早期探索將模擬IMC視為評估權(quán)重和在預(yù)訓(xùn)練的LLM上運(yùn)行推理的有效方法。然而,這種方法需要昂貴的數(shù)模轉(zhuǎn)換器和額外的錯(cuò)誤檢查。數(shù)字存內(nèi)計(jì)算(DIMC)提供了一種替代方案,避開了模擬IMC的挑戰(zhàn),提供無噪聲計(jì)算和更大的空間映射靈活性。與模擬相比,DIMC犧牲了一些面積效率,但為處理未來的AI需求提供了更多的靈活性和能力。KU Leuven的研究還支持SRAM作為IMC的首選解決方案,因?yàn)榕c基于NVM的解決方案相比,SRAM具有魯棒性和可靠性。AI推理計(jì)算的可能終局:存算一體芯片!

數(shù)字存內(nèi)計(jì)算核結(jié)構(gòu)DIMC有望徹底改變AI推理,降低成本并提高性能。鑒于生成式AI的采用速度很快,只有通過將計(jì)算引入內(nèi)存并提高性能來追求降低成本和功耗的新方法才有意義。通過減少不必要的數(shù)據(jù)移動(dòng),我們可以顯著提高AI的效率,并改善AI未來的經(jīng)濟(jì)狀況。相關(guān)產(chǎn)品落地存算一體技術(shù)作為解決馮諾依曼架構(gòu)下存儲(chǔ)墻問題的重要方案,吸引了國內(nèi)外眾多企業(yè)的研發(fā)投入。在全球范圍內(nèi),存算一體技術(shù)的研究和實(shí)踐正由傳統(tǒng)芯片巨頭如三星電子、SK海力士、臺積電、美光、IBM、英特爾等主導(dǎo)。SK海力士也展示了其基于GDDR的存內(nèi)計(jì)算產(chǎn)品,大幅提高了計(jì)算速度并降低了功耗。其他如臺積電、美光、IBM、英特爾等也都在存內(nèi)計(jì)算領(lǐng)域取得了積極進(jìn)展,探索將存儲(chǔ)與計(jì)算緊密結(jié)合的創(chuàng)新方案。2021年開始,存內(nèi)計(jì)算相關(guān)產(chǎn)品逐步落地。包括三星、海力士、TSMC在內(nèi)的國際巨頭以及Mythic等公司經(jīng)過技術(shù)沉淀,已經(jīng)開始試產(chǎn)存內(nèi)計(jì)算芯片。

三星展示了基于HBM2-PIM技術(shù)的存內(nèi)計(jì)算芯片、海力士展示了GDDR6-AiM的樣品,TSMC展示了其在SRAM、ReRAM、PCM、STT-MRAM等多種器件上實(shí)現(xiàn)存內(nèi)計(jì)算的探索成果。

存內(nèi)計(jì)算產(chǎn)業(yè)化初見成果,越來越多的存內(nèi)計(jì)算產(chǎn)品落地。美國處理器公司Mythic推出M1076處理器,采用模擬存內(nèi)計(jì)算方案,存儲(chǔ)介質(zhì)為Flash,在40nm制程工藝下實(shí)現(xiàn)25TOPS的算力與3W的功耗。

在國內(nèi),新興AI和存儲(chǔ)企業(yè)的蓬勃發(fā)展也為存算一體技術(shù)注入了新的活力。

2022年國內(nèi)知存科技推出首款量產(chǎn)存內(nèi)計(jì)算SOC芯片WTM2101,采用模擬存算計(jì)算范式,以Flash為介質(zhì),在40nm成熟工藝下以2.6x3.2mm極小封裝實(shí)現(xiàn)了50Gops的高算力,功耗低至5uA,已商用至智能可穿戴設(shè)備中;2023年后摩智能推出鴻途H30芯片,采用數(shù)字存算計(jì)算范式,以SRAM為介質(zhì),實(shí)現(xiàn)256TOPS的算力與35W的功耗。

AI推理計(jì)算的可能終局:存算一體芯片!

圖 3后摩鴻途H30芯片示意圖

AI推理計(jì)算的可能終局:存算一體芯片!

在高?蒲蟹矫,清華大學(xué)集成電路學(xué)院教授吳華強(qiáng)、strong>副教授高濱團(tuán)隊(duì)基于存內(nèi)計(jì)算計(jì)算范式,研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器(RRAM)存內(nèi)計(jì)算芯片。該研究成果以《面向邊緣學(xué)習(xí)的全集成類腦憶阻器芯片》為題在線發(fā)表在《Science》上[9]。北京大學(xué)集成電路學(xué)院與人工智能研究院黃如院士課題組基于存內(nèi)計(jì)算技術(shù),提出高效的無ADC架構(gòu)SRAM存內(nèi)計(jì)算加速引擎,并在ISSCC 2022上發(fā)表文章。

-END-本文內(nèi)容僅供交流學(xué)習(xí)之用,不構(gòu)成任何投資建議,部分圖片來自網(wǎng)絡(luò),且未能核實(shí)版權(quán)歸屬,不為商業(yè)用途,如有侵犯,敬請與我們聯(lián)系info@gsi24.com。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港