展會信息港展會大全

科學(xué)家提出存內(nèi)計算全新技術(shù)路徑,提升AI模型計算能效3個數(shù)量級
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-27 18:48:06   瀏覽:1631次  

導(dǎo)讀:隨著大數(shù)據(jù)時代 AI 模型參數(shù)量激增,AI 模型推理和訓(xùn)練的成本日益增高,使得 AI 模型難以有效地被布署到邊緣計算設(shè)備中。存內(nèi)計算技術(shù)是加速 AI 模型的主流路徑,它通過在存儲器內(nèi)部原位計算減少數(shù)據(jù)的搬運,來提高芯片算力與能效。但是,需要了解的是,傳統(tǒng)存內(nèi)計算(single-IMC,single-in-memory computing)架構(gòu)仍然需......

劃重點

01北京大學(xué)孫仲研究員團隊設(shè)計了一種全新技術(shù)路徑的存內(nèi)計算架構(gòu),稱為“雙存內(nèi)計算”(dual-IMC),以加速AI模型中的矩陣-向量乘法計算。

02雙存內(nèi)計算架構(gòu)基于非易失性存儲器陣列設(shè)計,能最大程度地加速AI模型推理和訓(xùn)練,提高芯片算力與能效。

03與傳統(tǒng)的存內(nèi)計算架構(gòu)相比,dual-IMC架構(gòu)使MVM的能效提高了3到4個數(shù)量級,有望應(yīng)用于邊緣計算系統(tǒng)和終端設(shè)備部署中。

04由于此創(chuàng)新技術(shù)路徑,雙存內(nèi)計算架構(gòu)簡化了硬件結(jié)構(gòu),同時在性能上取得了顯著的提升。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

隨著大數(shù)據(jù)時代 AI 模型參數(shù)量激增,AI 模型推理和訓(xùn)練的成本日益增高,使得 AI 模型難以有效地被布署到邊緣計算設(shè)備中。

存內(nèi)計算技術(shù)是加速 AI 模型的主流路徑,它通過在存儲器內(nèi)部原位計算減少數(shù)據(jù)的搬運,來提高芯片算力與能效。

但是,需要了解的是,傳統(tǒng)存內(nèi)計算(single-IMC,single-in-memory computing)架構(gòu)仍然需要在存儲器和處理器之間進行數(shù)據(jù)傳輸,僅部分地解決了數(shù)據(jù)搬運的問題,限制了 AI 模型加速器的進一步發(fā)展。

為了解決上述問題,北京大學(xué)孫仲研究員團隊設(shè)計了一種全新技術(shù)路徑的存內(nèi)計算架構(gòu),稱為“雙存內(nèi)計算”(dual-IMC,dual in-memory computing)。

該架構(gòu)能夠最大程度地加速 AI 模型中的矩陣-向量乘法(MVM,matrix-vector multiplication)計算,如卷積神經(jīng)網(wǎng)絡(luò)、二值神經(jīng)網(wǎng)絡(luò)、Transformer 模型等,從而實現(xiàn)高速、高能效的 AI 模型推理和訓(xùn)練。

該架構(gòu)基于非易失性存儲器陣列設(shè)計,使 MVM 的矩陣、向量元素均存儲在內(nèi)存陣列中并參與原位 MVM 運算。

“這種獨特的設(shè)計可完全消除數(shù)據(jù)的搬運,最大程度地發(fā)揮存內(nèi)計算的優(yōu)勢,從而實現(xiàn)真正意義上的存儲器內(nèi)計算!睂O仲表示。

與傳統(tǒng)的存內(nèi)計算架構(gòu)相比,dual-IMC 架構(gòu)使 MVM 的能效提高了 3 到 4 個數(shù)量級,有望應(yīng)用于邊緣計算系統(tǒng)和終端設(shè)備部署中,以構(gòu)建先進的神經(jīng)網(wǎng)絡(luò)加速器。

科學(xué)家提出存內(nèi)計算全新技術(shù)路徑,提升AI模型計算能效3個數(shù)量級

圖丨孫仲課題組(來源:該團隊)

北京航空航天大學(xué)康旺教授對該研究評價稱,該團隊提出并演示了一種用于矩陣向量乘法的全存內(nèi)計算新方法,使得參與運算的權(quán)重矩陣和向量都可以存儲在陣列中并參與原位計算,從而有望完全消除數(shù)據(jù)移動,提高存內(nèi)計算的能效。

他指出,“該工作雖然目前僅展示了較小規(guī)模的演示,但理論上可以擴展到更大規(guī)模陣列。這是一個很新穎的想法,相信未來它會對存內(nèi)計算領(lǐng)域(學(xué)術(shù)界和業(yè)界)產(chǎn)生實際的影響!

近日,相關(guān)論文以《用于加速神經(jīng)網(wǎng)絡(luò)的矩陣-向量乘法的雙存內(nèi)計算》(Dual in-memory computing of matrix-vector multiplication for accelerating neural networks)為題發(fā)表在 Cell 子刊 Device 上 [1]。

北京大學(xué)博士研究生王識清是論文第一作者,孫仲研究員擔(dān)任通訊作者。

科學(xué)家提出存內(nèi)計算全新技術(shù)路徑,提升AI模型計算能效3個數(shù)量級

圖丨相關(guān)論文(來源:Device)

目前,神經(jīng)網(wǎng)絡(luò)計算加速是發(fā)展計算范式和架構(gòu)的主要驅(qū)動力。在神經(jīng)網(wǎng)絡(luò)的推理和訓(xùn)練過程中,計算量最大的操作為 MVM。因此,利用非易失性存儲器加速 MVM 成為當(dāng)下學(xué)術(shù)界和工業(yè)界關(guān)注的熱點方向。

科學(xué)家提出存內(nèi)計算全新技術(shù)路徑,提升AI模型計算能效3個數(shù)量級

圖丨存內(nèi)計算技術(shù)全譜(來源:Nature Electronics)

但是,在加速 MVM 的傳統(tǒng)存內(nèi)計算架構(gòu)中,只有一個輸入操作數(shù),即權(quán)重矩陣存儲在內(nèi)存陣列中,而另一個輸入操作數(shù),即輸入向量仍然要在傳統(tǒng)的馮諾依曼架構(gòu)中流動。

這需要通過訪存片外主存和片上緩存,再經(jīng)過數(shù)模轉(zhuǎn)換之后作為模擬電壓向量輸入到陣列中進行 MVM 計算。

也就是說,傳統(tǒng)的 single-IMC 僅部分地解決了馮諾伊曼瓶頸問題,其仍然會帶來數(shù)據(jù)搬運和數(shù)模轉(zhuǎn)換的沉重負(fù)擔(dān),這從根本上限制了計算性能的提高。

此外,為了保證高計算并行度,計算時要同時開啟多行字線,這會導(dǎo)致陣列中產(chǎn)生較大的電流,這是 single-IMC 架構(gòu)的另一個缺點。

科學(xué)家提出存內(nèi)計算全新技術(shù)路徑,提升AI模型計算能效3個數(shù)量級

圖丨傳統(tǒng)的單存內(nèi)計算(single-IMC)架構(gòu)(來源:Device)

2023 年,孫仲課題組與合作者在 Nature Electronics 上發(fā)表論文,提出存內(nèi)計算技術(shù)全譜的概念,并對所有類型的存內(nèi)計算技術(shù)進行了原理性的分類 [2]。

此外,該團隊還在 Science Advances 報道了一種基于阻變存儲器陣列的新型模擬計算電路,使微秒級一步求解復(fù)雜的壓縮感知還原成為可能 [3]。

受存內(nèi)計算技術(shù)全譜概念的啟發(fā),研究人員設(shè)計了將兩個輸入操作數(shù)都存儲在內(nèi)存中的 dual-IMC 架構(gòu),其中矩陣(神經(jīng)網(wǎng)絡(luò)權(quán)重)和向量(神經(jīng)網(wǎng)絡(luò)輸入)都存儲在同一陣列中,以參與加速 MVM 的原位計算。

雙存內(nèi)計算架構(gòu)基于團隊在壓縮感知還原電路設(shè)計中原創(chuàng)的電導(dǎo)補償原理設(shè)計,僅需要施加極為簡單的獨熱編碼的數(shù)字電壓,就可以完成 MVM 計算。

計算過程中無需數(shù)模轉(zhuǎn)換器,從而進一步節(jié)省芯片面積,優(yōu)化了計算的延時和功耗。此外,每次 MVM 計算僅激活存儲器陣列的一行字線,這能夠減少陣列中累積的電流。

因此,dual-CIM 架構(gòu)完全消除了片外動態(tài)隨機存取存儲器(DRAM,Dynamic Random Access Memory)和片上靜態(tài)隨機存取存儲器(SRAM,Static Random-Access Memory)訪存造成的額外延時和功耗,同時也避免了這些易失性存儲器的靜態(tài)功耗。

王識清表示:“這一創(chuàng)新的技術(shù)路徑不僅簡化了硬件結(jié)構(gòu),而且在性能上也取得了顯著的提升。即便在最壞情況,在需要對特殊介質(zhì)進行寫入時,雙層存內(nèi)計算架構(gòu)仍能提供數(shù)倍的性能提升。”

科學(xué)家提出存內(nèi)計算全新技術(shù)路徑,提升AI模型計算能效3個數(shù)量級

圖丨雙存內(nèi)計算(dual-IMC)架構(gòu)(來源:Device)

基于制備的阻變存儲器陣列,該團隊對 dual-IMC 架構(gòu)進行了概念性的實驗驗證,并演示了該架構(gòu)在壓縮信號還原、卷積神經(jīng)網(wǎng)絡(luò)和二值神經(jīng)網(wǎng)絡(luò)中的應(yīng)用。

總的來說,該研究為后摩爾時代的計算性能提升提供了一種全新的技術(shù)方案,通過完全在存儲器內(nèi)部進行的矩陣-向量乘法操作,實現(xiàn)了顯著的加速和能效優(yōu)化,為神經(jīng)網(wǎng)絡(luò)和其他重要算法的硬件實現(xiàn)提供了新的可能性。

參考資料:

1.Wang,S.,Sun,Z. Dual in-memory computing of matrix-vector multiplication for accelerating neural networks. Device(2024). https://doi.org/10.1016/j.device.2024.100546

2.Sun, Z., Kvatinsky, S., Si, X. et al. A full spectrum of computing-in-memory technologies. Nature Electronics 6, 823835 (2023). https://doi.org/10.1038/s41928-023-01053-4

3.Wang,S. et al. In-memory analog solution of compressed sensing recovery in one step. Science Advances 9,50(2023). https://www.science.org/doi/10.1126/sciadv.adj2908

排版:劉雅坤

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港