展會(huì)信息港展會(huì)大全

萬(wàn)卡算力和萬(wàn)億參數(shù)大模型時(shí)代,AI存儲(chǔ)何時(shí)爆發(fā)?| ToB產(chǎn)業(yè)觀察
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-20 12:47:23   瀏覽:85次  

導(dǎo)讀:圖片系A(chǔ)I生成當(dāng)前,大模型最顯著的特征之一就是參數(shù)量呈指數(shù)級(jí)增長(zhǎng)。根據(jù)Scaling Law(尺度定律)的規(guī)則,人工智能神經(jīng)網(wǎng)絡(luò)的參數(shù)量越多,模型越大,對(duì)于知識(shí)的總結(jié)歸納和推理泛化能力就越強(qiáng)。因而,從ChatGPT出現(xiàn)驗(yàn)證了“涌現(xiàn)”能力,到如今的兩年里,業(yè)內(nèi)首要關(guān)注的就是算力,怎樣突破硬件算力,怎樣以盡可能少的Token數(shù)量訓(xùn)練好一個(gè)模型。但在這一顯著挑戰(zhàn)之外,數(shù)據(jù)量猛增 ......

萬(wàn)卡算力和萬(wàn)億參數(shù)大模型時(shí)代,AI存儲(chǔ)何時(shí)爆發(fā)?| ToB產(chǎn)業(yè)觀察

圖片系A(chǔ)I生成

當(dāng)前,大模型最顯著的特征之一就是參數(shù)量呈指數(shù)級(jí)增長(zhǎng)。根據(jù)Scaling Law(尺度定律)的規(guī)則,人工智能神經(jīng)網(wǎng)絡(luò)的參數(shù)量越多,模型越大,對(duì)于知識(shí)的總結(jié)歸納和推理泛化能力就越強(qiáng)。因而,從ChatGPT出現(xiàn)驗(yàn)證了“涌現(xiàn)”能力,到如今的兩年里,業(yè)內(nèi)首要關(guān)注的就是算力,怎樣突破硬件算力,怎樣以盡可能少的Token數(shù)量訓(xùn)練好一個(gè)模型。但在這一顯著挑戰(zhàn)之外,數(shù)據(jù)量猛增帶來(lái)的數(shù)據(jù)存儲(chǔ),可能是僅次于算力的另一大技術(shù)難點(diǎn)。

大模型“卷”向存儲(chǔ)

年初,一位長(zhǎng)期關(guān)注AI大模型應(yīng)用的CTO與鈦媒體APP交流中表示:“企業(yè)使用外部數(shù)據(jù)訓(xùn)練大模型,長(zhǎng)文本是關(guān)鍵思路之一。但問(wèn)題是,長(zhǎng)文本處理特別消耗內(nèi)存和硬件,因?yàn)槟P陀?xùn)練和推理的內(nèi)存變大,模型效果才能更好。這也導(dǎo)致在其每次查詢的成本高于GPT-4,而后者基于微調(diào)。這不是ToB企業(yè)能夠負(fù)擔(dān)得其起的!

他對(duì)鈦媒體APP解釋:微軟提出了大模型的“不可能三角”,如果希望模型的微調(diào)能力很強(qiáng),那么模型參數(shù)就不會(huì)很大,或者小樣本的學(xué)習(xí)能力不會(huì)很強(qiáng)。長(zhǎng)文本的邏輯是,讓小樣本學(xué)習(xí)的能力變強(qiáng),同時(shí)放棄微調(diào),這樣模型參數(shù)肯定就會(huì)相應(yīng)擴(kuò)大。

彼時(shí),正值國(guó)內(nèi)長(zhǎng)文本熱潮。除了最早的Kimi,阿里巴巴、百度、360等眾多廠商相繼宣布進(jìn)軍長(zhǎng)文本,從最初的可處理200萬(wàn)字上下文,迅速擴(kuò)張至1000萬(wàn)字長(zhǎng)文本能力。而在這股熱潮中,也同樣遺留了諸多待解決的問(wèn)題。

根據(jù)技術(shù)博客Medium上一位AI工程師Szymon Palucha的記錄:

以阿里開(kāi)源的Qwen2-7B(7億參數(shù))大模型為例。目前GPU顯存大小基本在80GB(以英偉達(dá)A100為例),那么如果拿不到更好的A100時(shí),他根據(jù)公式:參數(shù)模型內(nèi)存=7B*32位=7B*32/8字節(jié)=28B字節(jié)=28GB,測(cè)算出運(yùn)行該模型至少還需要28GB內(nèi)存,這還不算推理過(guò)程中對(duì)存儲(chǔ)產(chǎn)生的額外開(kāi)銷(xiāo)。

為此,最簡(jiǎn)單的辦法是降低參數(shù)精度,因?yàn)楝F(xiàn)在多數(shù)大模型可以半精度使用,而不會(huì)顯著影響準(zhǔn)確性。這意味著大模型在實(shí)際運(yùn)行時(shí),需要一定的內(nèi)存或存儲(chǔ)空間來(lái)存儲(chǔ)和處理數(shù)據(jù),大模型所需的內(nèi)存量會(huì)根據(jù)上下文窗口的大小而變化。窗口越大,所占用的內(nèi)存也就越多。

鈦媒體注意到,這也是當(dāng)下大模型應(yīng)用廠商在破解算力問(wèn)題之外,遇到的另一大技術(shù)困難點(diǎn),去年還沒(méi)有太多人關(guān)注數(shù)據(jù)量猛增帶來(lái)的數(shù)據(jù)存儲(chǔ)、內(nèi)存帶寬、時(shí)延等一系列問(wèn)題。并且隨著需求的爆發(fā),已經(jīng)帶來(lái)一些技術(shù)側(cè)產(chǎn)品側(cè)的演進(jìn)。

支持萬(wàn)卡算力和萬(wàn)億參數(shù)LLM,存儲(chǔ)兩道檻

目前全球的科技巨頭都在布局萬(wàn)卡算力集群和萬(wàn)億參數(shù)規(guī)模的大模型訓(xùn)練,對(duì)于這些集群而言,高性能的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)缺一不可。從存儲(chǔ)層面來(lái)看如何提供支撐?一是要至少達(dá)到TB級(jí)帶寬、百萬(wàn)級(jí)IOPS的存儲(chǔ)性能,未來(lái)可能會(huì)演變?yōu)閿?shù)十TB、上億級(jí)IOPS的需求;二是要提升數(shù)據(jù)跨域調(diào)度、數(shù)據(jù)安全、數(shù)據(jù)可持續(xù)性訪問(wèn)等能力。

回顧過(guò)去兩年間大模型帶來(lái)的存儲(chǔ)挑戰(zhàn),可以從三個(gè)階段總結(jié):

2022年初:大模型爆發(fā)初期,國(guó)內(nèi)有超過(guò)100家的大模型公司開(kāi)始迅速進(jìn)行市場(chǎng)布局。在這個(gè)階段,模型訓(xùn)練追求的就是“快”,通過(guò)IT基礎(chǔ)設(shè)施的方案優(yōu)化,有效地提升GPU效率,加速模型的訓(xùn)練并得到市場(chǎng)認(rèn)可,即可搶占市場(chǎng)先機(jī)。

為此,模型訓(xùn)練的數(shù)據(jù)加載、模型訓(xùn)練過(guò)程中的斷點(diǎn)續(xù)訓(xùn)要盡可能地降低對(duì)計(jì)算時(shí)間的占用,在萬(wàn)卡算力集群萬(wàn)億參數(shù)的大模型的快速訓(xùn)練時(shí),小于1分鐘斷點(diǎn)續(xù)訓(xùn),需要存儲(chǔ)提供TB級(jí)的帶寬,同時(shí)小模型的訓(xùn)練推理則對(duì)IOPS提出更高要求,存儲(chǔ)系統(tǒng)需提供超過(guò)百萬(wàn)級(jí)的IOPS。

2023年底到2024年初:隨著模型在各行業(yè)落地的需求,在很多的行業(yè)場(chǎng)景里,行業(yè)數(shù)據(jù)缺少積累,過(guò)去分散在各終端、地域數(shù)據(jù)的夸協(xié)議、夸地域高效率共享整合。這就要求存儲(chǔ)具備數(shù)據(jù)跨域調(diào)度,通過(guò)異構(gòu)納管實(shí)現(xiàn)全局命名空間管理,提升數(shù)據(jù)匯集、分析的效率。

2024年下半年開(kāi)始:模型的真實(shí)落地,對(duì)數(shù)據(jù)質(zhì)量要求更高,語(yǔ)料公司需要將數(shù)據(jù)匯集并進(jìn)行精加工。大模型的行業(yè)化落地過(guò)程中,為了提升通用模型的專業(yè)化能力,訓(xùn)練出精度更高的模型,要求有更高質(zhì)量的數(shù)據(jù)集。為得到高質(zhì)量數(shù)據(jù),原始數(shù)據(jù)要經(jīng)過(guò)粗加工、精加工等多個(gè)作業(yè)環(huán)節(jié)。這個(gè)階段,對(duì)數(shù)據(jù)的安全存儲(chǔ)和數(shù)據(jù)可持續(xù)性訪問(wèn)提出了更高要求。

浪潮信息存儲(chǔ)產(chǎn)品線副總經(jīng)理劉希猛指出,模型參數(shù)量、訓(xùn)練數(shù)據(jù)量、GPU算力、網(wǎng)卡性能、GPU規(guī)模近些年均在飛速增長(zhǎng),原有存儲(chǔ)不足以應(yīng)對(duì)AI的快速發(fā)展。無(wú)論是海量訓(xùn)練數(shù)據(jù)加載、PB級(jí)檢查點(diǎn)斷點(diǎn)續(xù)訓(xùn),還是高并發(fā)推理問(wèn)答等,存儲(chǔ)性能直接決定了整個(gè)訓(xùn)練推理過(guò)程中的GPU利用率。特別在萬(wàn)卡集群規(guī)模下,較差的存儲(chǔ)性能會(huì)嚴(yán)重增加GPU閑置時(shí)間,導(dǎo)致模型落地困難、業(yè)務(wù)成本劇增。因此,現(xiàn)代存儲(chǔ)已經(jīng)由傳統(tǒng)的數(shù)據(jù)載體和數(shù)據(jù)倉(cāng)儲(chǔ),轉(zhuǎn)化為AI發(fā)展的關(guān)鍵組件。存儲(chǔ)系統(tǒng)正逐漸演進(jìn)到提供更高的吞吐量,更低的時(shí)延,更高效的數(shù)據(jù)管理。

AI存儲(chǔ)何時(shí)爆發(fā)?

既然針對(duì)AI場(chǎng)景的存儲(chǔ)系統(tǒng)在前幾年并沒(méi)有得到太多重視,從需求側(cè),何時(shí)會(huì)迎來(lái)新的爆發(fā)點(diǎn)?“過(guò)去一年,存儲(chǔ)的增量市場(chǎng)基本全部來(lái)自于AI場(chǎng)景!眲⑾C蛯(duì)鈦媒體APP解釋。

如果將未來(lái)的AI市場(chǎng)分為大致兩類(lèi):一類(lèi)是AI產(chǎn)業(yè)化的市場(chǎng),在AI產(chǎn)業(yè)化進(jìn)程中,更多的關(guān)注點(diǎn)可能集中在了模型訓(xùn)練,緊隨其后的是語(yǔ)料生產(chǎn),然后是算法優(yōu)化。那么,存儲(chǔ)首先就會(huì)在模型訓(xùn)練、語(yǔ)料生產(chǎn)領(lǐng)域產(chǎn)生價(jià)值,特別是語(yǔ)料,從今年開(kāi)始就已有跡象,并在接下來(lái)兩年里實(shí)現(xiàn)快速增長(zhǎng)。

在劉希猛看來(lái),從目前來(lái)看,大模型訓(xùn)練中最緊缺的是數(shù)據(jù),各行業(yè)在可能都會(huì)開(kāi)始著手收集各自領(lǐng)域的數(shù)據(jù),并進(jìn)行相應(yīng)的數(shù)據(jù)加工處理。算力方面,盡管有人認(rèn)為算力建設(shè)已接近泡沫階段,甚至有些用力過(guò)猛。這一判斷可能在一定程度上具有方向性的正確性。接下來(lái),算力的發(fā)展可能會(huì)進(jìn)入一個(gè)相對(duì)平穩(wěn)的階段。

第二類(lèi)是產(chǎn)業(yè)的AI化,即大模型真正落地到行業(yè)并產(chǎn)業(yè)實(shí)際價(jià)值,可以觀察到一些領(lǐng)域已經(jīng)先行一步。例如,金融領(lǐng)域的量化交易、證券交易,在科研領(lǐng)域,AI也開(kāi)始被用來(lái)輔助科研工作。此外,制造業(yè)也是AI應(yīng)用的一個(gè)重要領(lǐng)域。這兩方面都會(huì)對(duì)AI存儲(chǔ)市場(chǎng)帶來(lái)比較好的促進(jìn)作用。

劉希猛還指出,當(dāng)前AI存儲(chǔ)面臨的挑戰(zhàn)尚未完全解決,若繼續(xù)向前發(fā)展,其實(shí)還是要從性能、效率以及可靠性三方面入手。一是高性能,以解決混合AI負(fù)載對(duì)存儲(chǔ)讀寫(xiě)帶寬、IOPS,以及低時(shí)延的要求;二是高效率,通過(guò)存儲(chǔ)支持文件、對(duì)象、大數(shù)據(jù)等非結(jié)構(gòu)化協(xié)議融合互通,全局命名空間等,減少多份數(shù)據(jù)重復(fù)存儲(chǔ),以及數(shù)據(jù)夸協(xié)議、夸區(qū)域、夸系統(tǒng)調(diào)度檢索的問(wèn)題;三是高韌性,通過(guò)故障的快速恢復(fù)、故障前的精準(zhǔn)預(yù)測(cè)降低系統(tǒng)異常時(shí)的性能影響,以及服務(wù)的連續(xù)性,同時(shí)強(qiáng)化數(shù)據(jù)保護(hù)與安全防護(hù)能力,保證數(shù)據(jù)的完整、一致、持續(xù)可訪問(wèn)。

目前國(guó)內(nèi)外在建千卡集群、萬(wàn)卡集群,且未來(lái)可能還會(huì)出現(xiàn)更大規(guī)模的集群。想要達(dá)到同等算力,若是采用國(guó)產(chǎn)GPU,可能需要不僅達(dá)到十萬(wàn)卡規(guī)模,而是更為龐大的集群。

隨著集群規(guī)模的擴(kuò)大,除了存儲(chǔ)本身面臨的挑戰(zhàn)外,還將帶來(lái)存儲(chǔ)整體方案的挑戰(zhàn)。這涉及從存儲(chǔ)到前端網(wǎng)絡(luò),再到算力節(jié)點(diǎn)的整個(gè)鏈條。其中,網(wǎng)絡(luò)的選擇成為一個(gè)關(guān)鍵問(wèn)題。國(guó)內(nèi)之所以更多地使用RoCE網(wǎng)絡(luò),是因?yàn)閲?guó)內(nèi)的集群規(guī)模需求更大,而IB網(wǎng)絡(luò)在擴(kuò)展規(guī)模上有所限制。RoCE網(wǎng)絡(luò)與存儲(chǔ)及上層之間的協(xié)同性,尤其是超大規(guī)模集群的協(xié)同性上,可能會(huì)成為新的關(guān)注點(diǎn)。

鈦媒體注意到,RDMA(Remote Direct Memory Access)全稱遠(yuǎn)程內(nèi)存直接訪問(wèn)技術(shù),是一種數(shù)據(jù)傳輸技術(shù)。目前算力集群對(duì)網(wǎng)絡(luò)的建設(shè)在2022年之前基本會(huì)選擇“二層虛擬網(wǎng)絡(luò)”,隨著AI應(yīng)用的爆發(fā),2023年至今已經(jīng)在嘗試智能無(wú)損網(wǎng)絡(luò)和以太網(wǎng),并且往往圍繞性能、成本、生態(tài)系統(tǒng)和兼容性等方面進(jìn)行權(quán)衡。RoCE就是一項(xiàng)基于以太網(wǎng)的RDMA技術(shù)。

甲骨文公司中國(guó)區(qū)技術(shù)咨詢部高級(jí)總監(jiān)嵇小峰與鈦媒體APP交流中同樣指出,大規(guī)模集群除了GPU數(shù)量多之外,同時(shí)具備網(wǎng)絡(luò)低延時(shí)和高帶寬的特性。從基礎(chǔ)設(shè)施角度來(lái)看,大量GPU集中部署會(huì)帶來(lái)供電和冷卻方面的巨大挑戰(zhàn)。同時(shí),在訓(xùn)練過(guò)程中,對(duì)存儲(chǔ)的需求同樣至關(guān)重要。因?yàn)橛?xùn)練往往涉及成千上萬(wàn)塊GPU的協(xié)同作業(yè),一旦有少數(shù)GPU(如一塊或兩塊)出現(xiàn)故障,整個(gè)訓(xùn)練進(jìn)度可能會(huì)因此延誤。

例如,今年9月亮相的Oracle Zettascale算力集群,目前可提供13萬(wàn)多顆GPU,相當(dāng)于可提供2.4 ZFLOPS的云端算力。為進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的低延遲和高帶寬,Oracle采用支持兩種網(wǎng)絡(luò)協(xié)議:InfiniBand和RoCEv2,這是一種增強(qiáng)版的以太網(wǎng)。這兩種技術(shù)均具備一種核心繞行機(jī)制,能讓網(wǎng)絡(luò)流量避開(kāi)常規(guī)路徑中必須穿越的某些組件,以實(shí)現(xiàn)更迅速的傳輸至目標(biāo)地。這樣的設(shè)計(jì)促進(jìn)了數(shù)據(jù)更快地抵達(dá)GPU,進(jìn)而提升了處理效率。

隨著AI存儲(chǔ)需求的不斷涌現(xiàn),包括GPU、模型架構(gòu)、存儲(chǔ)解決方案及網(wǎng)絡(luò)技術(shù)的各大廠商,正紛紛加速布局,力求在構(gòu)建超大規(guī)模集群的浪潮中搶占先機(jī)。(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達(dá))

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港