生成式AI引領(lǐng)智能革命成為產(chǎn)業(yè)升級的核心動力并點燃了“百模大戰(zhàn)”。多樣化的大模型應(yīng)用激增對高性能AI芯片的需求,促使行業(yè)在摩爾定律放緩的背景下,加速推進2.5D、3D及3.5D異構(gòu)集成技術(shù)。與此同時,AI的驅(qū)動作用正在助力EDA和半導(dǎo)體產(chǎn)業(yè)實現(xiàn)顛覆性的變革。
在現(xiàn)今AI時代,AI芯片設(shè)計將面臨哪些挑戰(zhàn)?EDA與IP工具又將如何借助AI的力量來應(yīng)對這些挑戰(zhàn)?12月11-12日上海集成電路2024年度產(chǎn)業(yè)發(fā)展論壇暨第三十屆中國集成電路設(shè)計業(yè)展覽會(ICCAD - Expo 2024)上,楷登電子(Cadence)數(shù)字設(shè)計及簽核事業(yè)部產(chǎn)品驗證群總監(jiān)李玉童,以及楷登電子技術(shù)支持總監(jiān)李志勇分別帶來了題為《3D-IC 打破AI芯片的設(shè)計桎梏》以及《基于標準的協(xié)議對未來人工智能工作負載至關(guān)重要》的精彩演講,深入探討了這些問題。
3D-IC 打破AI芯片的設(shè)計桎梏
生成式AI推動了大模型應(yīng)用的蓬勃發(fā)展,這一浪潮已蔓延至EDA領(lǐng)域。在這一趨勢的引領(lǐng)下,Cadence推出了其全面的“芯片到系統(tǒng)”AI驅(qū)動的EDA工具平臺Cadence JedAI Platform,這一平臺正是AI大模型浪潮下應(yīng)運而生的創(chuàng)新工具。通過JedAI這個統(tǒng)一的數(shù)據(jù)平臺,可以有效地進行數(shù)據(jù)存儲、分類、壓縮和管理,推動 EDA 工具和設(shè)計流程的自我學(xué)習(xí)優(yōu)化,從而實現(xiàn)生產(chǎn)力的極大提升以及功耗、性能和面積(PPA)的進一步優(yōu)化。
李玉童在演講中介紹,JedAI平臺采用分層的大型語言模型(LLM)訓(xùn)練架構(gòu),包含四個層級。最底層是開源基礎(chǔ)模型,由第三方利用公共數(shù)據(jù)進行訓(xùn)練。在此基礎(chǔ)上,Cadence利用專有數(shù)據(jù)訓(xùn)練出專屬模型,以更好地滿足芯片設(shè)計客戶的需求?蛻艨梢栽贑adence模型的基礎(chǔ)上,使用自身的數(shù)據(jù)進行進一步訓(xùn)練,從而生成私有模型。最頂層是用戶界面,允許用戶通過自然語言輸入各種請求,與Cadence JedAI大型語言模型進行交互,以獲得所需的專業(yè)解答。諸如此類的大模型應(yīng)用中,AI芯片成為支撐引擎,為大模型應(yīng)用提供強有力的支持。而大模型應(yīng)用的繁盛,讓AI芯片的發(fā)展來到了一個新高度。
不難看出,LLM的參數(shù)量指數(shù)級增長對與處理器匹配的內(nèi)存系統(tǒng)提出了更高的要求,AI存儲要求更大容量、更大帶寬、更低功耗,從而使得AI芯片的設(shè)計面臨前所未有的挑戰(zhàn)。
HBM是此前克服“內(nèi)存墻”(Memory Walls)的主要解決方案,其強大的I/O并行化能力,使HBM成為Al系統(tǒng)中用于訓(xùn)練和推理的高規(guī)格存儲設(shè)備,且已經(jīng)成為大部分高端數(shù)據(jù)中心GPU和SoC的標配。當下業(yè)內(nèi)正在開發(fā)的DRAM-on-Logic堆疊方案,有望將AI芯片帶寬進一步提升至32TB/s,使得AI大模型應(yīng)用響應(yīng)速度進一步加快,更接近人類直接交流。然而, 3D堆疊技術(shù)雖然能解決AI芯片內(nèi)存墻的問題,卻也需要面對從2D到3D芯片設(shè)計方法轉(zhuǎn)變的挑戰(zhàn)。
李玉童詳細介紹了封裝級3D-IC和晶圓級3D-IC(3D-SoIC/X-Cube)、同構(gòu)與異構(gòu)3D-IC等3D-IC路線圖和挑戰(zhàn)。如果將多個2.5D、3D封裝的芯片堆疊到同一個系統(tǒng)級芯片封裝中,就得到了所謂的3.5D-IC。從2.5D到3D-IC乃至3.5D- IC,對于AI芯片而言,無論是帶寬,還是處理單位數(shù)據(jù)的能效比所帶來的優(yōu)勢都是無與倫比的。同時,因為芯片堆疊產(chǎn)生了與堆疊的不同組件和整個系統(tǒng)相關(guān)的新復(fù)雜性,該技術(shù)也在三維芯片架構(gòu)和系統(tǒng)規(guī)劃,不同層間的鍵合策略選擇,傳輸層和運算層的Bump對齊、時鐘樹協(xié)同優(yōu)化,以及系統(tǒng)層次的STA、IR-Drop、Thermal、LVS等方面帶來新的挑戰(zhàn)。
李玉童強調(diào),隨著摩爾定律逐漸失效,晶圓級3D-IC已成為行業(yè)的焦點,3D-IC的先進性將極大地豐富系統(tǒng)公司從系統(tǒng)方面提升芯片性能的手段。Cadence自2018年起就專注于各種類型的同構(gòu)異構(gòu)集成技術(shù),成為業(yè)內(nèi)首個推出從芯片到系統(tǒng)完整解決方案的EDA公司,并推出了業(yè)界首個高性能高集成度的CadenceIntegrity 3D-IC Platform平臺,整合了系統(tǒng)規(guī)劃、封裝和設(shè)計流程早中后期系統(tǒng)級分析功能,可提供芯片上(on-chip)以及芯片外(off-chip)的跨芯片的時序分析、供電網(wǎng)絡(luò)規(guī)劃、IR和熱分析以及不依賴第三方規(guī)則文件的系統(tǒng)級LVS/DRC物理驗證,幫助系統(tǒng)設(shè)計師從3D-IC項目初期規(guī)劃、分析三維芯片系統(tǒng)的堆疊方案選擇(2.5D/3D, Face2Face/Face2Back/Back2Back),并利用多物理場系統(tǒng)分析技術(shù),基于不同階段項目參考庫文件和網(wǎng)表從零到100%的不同完成度,探索、分析、迭代及決策3D-IC最佳系統(tǒng)架構(gòu)。
正是基于上述前瞻性研發(fā)布局,使得3D-IC設(shè)計實現(xiàn)團隊有充裕的三維物理時序功耗設(shè)計裕量進行跨芯片并行數(shù)字后端實現(xiàn),并無縫調(diào)用Cadence的Virtuoso和Allegro模擬和封裝實現(xiàn)平臺進行協(xié)同設(shè)計。
最后,李玉童分別通過客戶同構(gòu)設(shè)計、異構(gòu)設(shè)計芯片的流片項目為例,詳細闡述了在一個完整的設(shè)計流程內(nèi)如何通過該平臺來進行熱分析、功耗分析、裸片間靜態(tài)時序分析和物理驗證,優(yōu)化系統(tǒng)性能。他強調(diào),3D-IC技術(shù)的發(fā)展將為高帶寬AI芯片的性能提升帶來革命性的變化,Cadence將通過不斷創(chuàng)新和優(yōu)化其設(shè)計平臺,致力于幫助客戶克服技術(shù)挑戰(zhàn),實現(xiàn)更高的產(chǎn)品性能和市場競爭力。
基于標準的協(xié)議對未來人工智能工作負載至關(guān)重要
在分論壇上,李志勇首先分析了AI時代的市場趨勢和關(guān)鍵驅(qū)動因素,以及生成式AI對半導(dǎo)體行業(yè)的重大影響。在不同的AI應(yīng)用中,對處理器和SoC的需求各不相同,不同的工作負載需要不同的系統(tǒng)構(gòu)成。李志勇指出,無論是推理、訓(xùn)練、數(shù)據(jù)挖掘或圖形分析,異構(gòu)應(yīng)用都需要非常獨特的解決方案才能優(yōu)化實施。這些技術(shù)使用不同的系統(tǒng)架構(gòu)和資源,在HPC/AI領(lǐng)域并不存在一種適合所有情況的最佳系統(tǒng)架構(gòu)。也正是因此,面對不同AI應(yīng)用需求的各類AI處理器和SoC架構(gòu)將面臨前所未有的設(shè)計挑戰(zhàn)。
首先,數(shù)據(jù)傳輸設(shè)計是關(guān)鍵,通用設(shè)計的復(fù)用將帶來增量性能和成本方面的優(yōu)勢,包括計算、內(nèi)存和I/O等。其次,標準接口是設(shè)計的關(guān)鍵組成部分。當前市場上的各類主流及創(chuàng)新架構(gòu)均大量使用了各種標準接口,HPC、AI/ML和云對各類IP的需求正在不斷增加。最后,隨著摩爾定律來到極限,以UCIe和其他形式實現(xiàn)的D2D接口封裝和標準化方面的進步使分解和基于芯粒的設(shè)計正在成為現(xiàn)實。
Cadence通過不斷創(chuàng)新和優(yōu)化全棧IP解決方案,幫助客戶克服AI芯片設(shè)計挑戰(zhàn)。
在存儲接口方面,Cadence的協(xié)議選項涵蓋先進技術(shù)節(jié)點中所有最新標準和數(shù)據(jù)速率的深度解決方案組合,包括DDR、LPDDR、GDDR、HBM等,可幫助客戶利用多功能內(nèi)核以更快的速度完成更多任務(wù),全面滿足客戶從存儲到AI,再到圖形和內(nèi)存擴展器的各種應(yīng)用需求。
在高速串行接口方面,Cadence是唯一一家擁有8通道Gen6控制器和PHY測試芯片的IP提供商,同時,Cadence在PCIe 7也將保持領(lǐng)先,Gen7已經(jīng)向客戶演示了demo,并有望在2027年滿足市場需求。
在高速以太網(wǎng)方面,Cadence的解決方案包括業(yè)界領(lǐng)先的224G/112G/56G物理層IP和控制器IP,可支持高達800G/1.6T的子系統(tǒng),還展現(xiàn)出卓越的硅性能,在Cadence測試芯片和客戶生產(chǎn)芯片中均已得到驗證。
與此同時,隨著Chiplet成為后摩爾時代的共識,D2D接口IP需求迅速增加。Cadence已推出使用 UCle 標準接口實現(xiàn)處理器、系統(tǒng)IP 和內(nèi)存 IP 的高效集成解決方案,可滿足高性能計算、汽車和數(shù)據(jù)中心行業(yè)不斷變化的需求,并幫助客戶克服設(shè)計挑戰(zhàn)并加快產(chǎn)品上市時間。