展會信息港展會大全

AI重構(gòu)基礎設施,數(shù)據(jù)中心進入“數(shù)據(jù)”本位時代丨ToB產(chǎn)業(yè)觀察
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-21 06:43:37   瀏覽:250次  

導讀:Gartner預計,到2028年,企業(yè)軟件應用程序包含具備自主性AI從不到1%提高到33%,30%的企業(yè)機構(gòu)將把數(shù)據(jù)變現(xiàn)或數(shù)據(jù)表納入其數(shù)據(jù)戰(zhàn)略。數(shù)據(jù)對于企業(yè)將越來越重要已經(jīng)成為共識;另一方面,隨著生成式AI的應用不斷涌現(xiàn),其訓練、推理所產(chǎn)生的數(shù)據(jù)量也在不斷增加。從本質(zhì)上看,人工智能的發(fā)展離不開算力、算法、數(shù)據(jù)這三大要素,算力的需求,以及算法的優(yōu)化僅是一方面,當下對于人工 ......

AI重構(gòu)基礎設施,數(shù)據(jù)中心進入“數(shù)據(jù)”本位時代丨ToB產(chǎn)業(yè)觀察

Gartner預計,到2028年,企業(yè)軟件應用程序包含具備自主性AI從不到1%提高到33%,30%的企業(yè)機構(gòu)將把數(shù)據(jù)變現(xiàn)或數(shù)據(jù)表納入其數(shù)據(jù)戰(zhàn)略。數(shù)據(jù)對于企業(yè)將越來越重要已經(jīng)成為共識;另一方面,隨著生成式AI的應用不斷涌現(xiàn),其訓練、推理所產(chǎn)生的數(shù)據(jù)量也在不斷增加。

從本質(zhì)上看,人工智能的發(fā)展離不開算力、算法、數(shù)據(jù)這三大要素,算力的需求,以及算法的優(yōu)化僅是一方面,當下對于人工智能發(fā)展來說,最迫切的需求在于高質(zhì)量的數(shù)據(jù)集。

AI、數(shù)據(jù)要素衍生存儲新需求

人工智能在重塑各行各業(yè)的過程中,作為底層支撐的數(shù)據(jù)中心也再被人工智能重構(gòu)著,IDC向著AIDC邁進的過程中,作為承載數(shù)據(jù)的“媒介”,存儲行業(yè)也再發(fā)生著變革。

在數(shù)據(jù)中心的這場變革中,數(shù)據(jù)中心在逐漸“回歸本質(zhì)”,在經(jīng)歷過以“人”為中心,以“服務器”為中心之后,數(shù)據(jù)中心真正來到了以“數(shù)據(jù)”為中心的時代。

從整個IDC行業(yè)發(fā)展上看,目前IDC產(chǎn)業(yè)發(fā)展可以大致分為算力、運力、存力三個部分。關于存力部分,今年中國算力大會上,中國信息通信研究院院長余曉暉曾指出,在過去的一年中,中國存力規(guī)模持續(xù)擴大,先進存力占比不斷提升。具體來看,截至2023年底,中國存力規(guī)模達到約1200EB,同比增加20%;先進存儲容量占比超過25%,同比增加20%。

中國電子技術標準化研究院發(fā)布的《AIGC數(shù)據(jù)存儲研究報告》(以下簡稱《報告》)中指出,AIGC促使“以數(shù)據(jù)為中心”的趨勢更加凸顯,數(shù)據(jù)的按需流動和存儲是支撐這一劃時代技術變革的關鍵基石之一。

在浪潮信息存儲首席架構(gòu)師孫斌看來,隨著AI應用的不斷發(fā)展,以及國家層面主推的數(shù)據(jù)要素市場化進程的推進,數(shù)據(jù)的重要性會越來越高;與此同時,對于存儲而言,會有越來越多近數(shù)據(jù)計算需求的涌現(xiàn),而這些需求也進一步要求了數(shù)據(jù)在調(diào)用過程中的速度,“就浪潮信息觀察來看,我們認為為了滿足近數(shù)據(jù)計算的需求,需要將數(shù)據(jù)存儲在計算場景更近的地方!睂O斌指出,“這也就導致了原先數(shù)據(jù)存儲架構(gòu)已經(jīng)不能滿足當下數(shù)據(jù)應用的需求,我們需要構(gòu)建新的存儲架構(gòu)來滿足需求!

從當下用戶的需求來看,目前存儲行業(yè)已經(jīng)不僅僅是解決數(shù)據(jù)的存儲就足夠的了。一方面,存儲還需要具備并行存儲的能力,以及解決數(shù)據(jù)流動的問題,并在此基礎上,為了滿足用戶對速度的要求,還需要提升數(shù)據(jù)訪問的效率;

另一方面,隨著大模型應用的落地,無論是企業(yè)內(nèi)部產(chǎn)生的數(shù)據(jù)量,還是社會公共數(shù)據(jù)量都呈現(xiàn)出幾何倍數(shù)式增長,如何做到更高效的存儲,節(jié)約數(shù)據(jù)存儲空間,也是企業(yè)在完成數(shù)據(jù)創(chuàng)造價值的同時,實現(xiàn)降本增效的過程中,不可避免的話題。

除此之外,《報告》中還指出,AIGC場景下,存儲面臨性能、效率和韌性方面的挑戰(zhàn),存儲底座需要“六維”協(xié)同并進:“六位一體”畫像,即需要具備數(shù)據(jù)流動(富元數(shù)據(jù)管理)、處理(數(shù)控分離、智能緩存優(yōu)化和多核并行優(yōu)化)、共享(非結(jié)構(gòu)化融合互通)、容納(4U60、5U105高密設計、QLC)、安全(故障恢復,系統(tǒng)故障預測)、管理(全局文件系統(tǒng))六種能力,從產(chǎn)品和方案上滿足AIGC對存儲的需求。

從介質(zhì)到架構(gòu),存儲行業(yè)的變革

新的需求自然也就推動存儲行業(yè)向前邁進,存儲架構(gòu)進入了變革的時期,存儲系統(tǒng)已經(jīng)不再是單純的數(shù)據(jù)存儲容器,而是成為了推動AI發(fā)展的核心組件,為了提高 GPU 的利用效率, 存儲系統(tǒng)必須能夠提供 TB 級的高帶寬和百萬級的高 IOPS, 以確保模型訓練的高效運行。

存儲行業(yè)不能光解決數(shù)據(jù)訪問性能、容量的問題,還要解決數(shù)據(jù)流動的問題,“若想解決數(shù)據(jù)流動的問題,數(shù)據(jù)中心內(nèi)部就需要一套全新的存儲架構(gòu),支撐混合負載,并通過一套系統(tǒng),統(tǒng)一各個來源的數(shù)據(jù)(比如交換來的、采集到的、合成數(shù)據(jù)等),實現(xiàn)數(shù)據(jù)全生命周期的應用!睂O斌指出。

以清華大學的某個生命科學研究項目為例,在研究過程中,研究人員會在小鼠血液中加入熒光劑,然后會使用RUSH中的28臺相機,以每秒30幀、連續(xù)72小時的方式對小鼠進行拍攝,最后將這些圖片拼接成三維圖像序列。

由于小鼠是活體的,其血液無時無刻不在流動,相機需要去追蹤每一個細胞的流動曲線,即使出現(xiàn)一幀的丟失,也會讓研究人員無法跟蹤到全過程,3D成像的拼接也無從談起,會導致耗時、耗資巨大的拍攝項目功虧一簣。清華大學范靜濤表示:“清華腦科研項目對于存儲的要求不僅在于容量,更大的挑戰(zhàn)是存儲要實時在線,不能丟幀!

除此之外,RUSH腦成像項目對于存儲系統(tǒng)所帶來的挑戰(zhàn)還有很多。比如,RUSH腦成像系統(tǒng)的攝像儀器每秒鐘會產(chǎn)生840個文件、每個文件24MB,這些海量的小文件非?简灤鎯ο到y(tǒng)的處理能力;又如,在某些生命科學成像觀測中,長達72小時的觀測會產(chǎn)生海量的文件,而且從第一個文件到寫滿,不能丟幀,這就需要確保長時間的穩(wěn)定寫入;再如,RUSH-II無法采用冷數(shù)據(jù)備份,所以需要采用創(chuàng)新數(shù)據(jù)冗余機制,確保數(shù)據(jù)不丟失。

此外,隨著AIGC走進各大高校,成為研究課題,也讓高校的師生對存儲系統(tǒng)有了新的要求,在某高校的AIGC案例中,原先利用高性能計算機計算一次僅需幾個小時,但是前期準備數(shù)據(jù)、調(diào)取數(shù)據(jù)的時間卻長達幾天,“系統(tǒng)需要重新全部調(diào)取數(shù)據(jù),數(shù)據(jù)量大,移動效率低,”孫斌指出,“而師生研究項目也要向?qū)W校租用服務器,耗時幾天調(diào)取數(shù)據(jù),會造成資源浪費和科研成本上升等問題!

面對這些挑戰(zhàn),對于存儲行業(yè)而言,首先需要解決的就是如何在更小的空間內(nèi),存儲更多的數(shù)據(jù)。一方面,通過對存儲系統(tǒng)的優(yōu)化,可以讓空間利用率更高,對此,孫斌表示,AI技術在存儲優(yōu)化方面也有一些應用場景,比如在緩存方面,通過AI技術,感知數(shù)據(jù)模式,從而重新調(diào)整緩存的調(diào)動,實現(xiàn)智能緩存;

另一方面,新的存儲介質(zhì)也成為了各個產(chǎn)業(yè)重點布局的焦點,目前比較常見的兩種存儲介質(zhì)就是HDD和SSD。HDD有大容量、低成本和長期可靠性等優(yōu)點,適合存儲冷數(shù)據(jù)和歸檔數(shù)據(jù);而SSD因其高性能、低延遲和抗震性等特點,正在逐漸成為主流。隨著QLC、 SSD等新型SSD技術的不斷發(fā)展,SSD的容量和成本將進一步優(yōu)化,使其在數(shù)據(jù)中心中的應用更加廣泛。對此,浪潮信息認為,在混合負載的場景中,閃存正在逐漸成為重要的支撐手段。

除了存儲介質(zhì)在發(fā)生轉(zhuǎn)變以外,存儲架構(gòu)也在AIGC的影響下,發(fā)生了變革;诖耍顺毙畔⒋鎯τ诮谔岢隽丝山M合分布式融合存儲(CDFS)的新模式,打造了三層三面兩體的可組合架構(gòu),“三層”分別為:數(shù)據(jù)編織層、微服務化功能層和硬件資源層;

“三面”分別為:控制面,進一步增強控制面,向全場景化方向演進,并實現(xiàn)多介質(zhì)、多協(xié)議存儲融合控制。數(shù)據(jù)面,解決CPU對數(shù)據(jù)I/O五類算子處理效率不高問題,突破單節(jié)點百萬級IOPS性能上限。智能面,通過智能節(jié)點,提供全局AI的能力,實現(xiàn)數(shù)據(jù)就緒!皟审w”則是為存儲平臺本體和管理編排體。

兩極化發(fā)展

在CDFS存儲架構(gòu)的基礎上,浪潮信息存儲還根據(jù)不同的場景,細分成了機柜級存儲底座(BoR)和數(shù)據(jù)中心級存儲底座(BOD)。存儲兩極化的趨勢,也恰好對應了當下數(shù)據(jù)中心的兩極化發(fā)展。

從目前趨勢上看,一方面,一些企業(yè)側(cè)應用的簡單的通算和用于模型推理使用的算力服務器,呈現(xiàn)出邊緣化、規(guī)模小等特點,而用戶需求則是在更小的空間內(nèi),實現(xiàn)更高效、更低成本的近數(shù)據(jù)計算。這也就對應了BoR的存儲架構(gòu),BoR底座下,領域?qū)S糜布?jié)點減少東西向交互帶寬50%以上,節(jié)約網(wǎng)絡資源、處理器資源,并通過定制化閃存模組,提供PB級存儲,機柜空間和功耗都能相對降低40%左右。

談及BoR面向的應用場景時,孫斌分享了一個比較典型的場景數(shù)據(jù)空間應用場景。該場景下,數(shù)據(jù)要素落地進入終端應用的時候("數(shù)據(jù)要素X"),相對來說是偏向近計算邊緣存儲的一個場景。“比如有一個需要使用某一行業(yè)數(shù)據(jù)的單位(邊緣,數(shù)據(jù)規(guī)模。┖鸵粋數(shù)據(jù)交易所(中心,數(shù)據(jù)規(guī)模大),那么這個單位把數(shù)據(jù)從交易所拿過來放在本地來做自己的應用時,對存儲等硬件層面的需求就是我們BoR所瞄定的場景。打個比方來理解,水電費、煤氣費這些代收費用在銀行里都有一臺前置機(BoR)來統(tǒng)管,大多數(shù)自來水公司、煤氣公司也都有一套前置機業(yè)務系統(tǒng)用來就近開展業(yè)務!

在前文提到的清華大學的案例中,清華大學就使用了浪潮信息提供的基于分布式存儲平臺AS13000的存儲解決方案,該方案提供了40個節(jié)點的存儲服務,存儲空間約為5PB,滿足20.16GB/s數(shù)據(jù)通量、最長拍攝時間72小時、拍攝過程中不丟幀等嚴格要求。

此外,RUSH腦成像系統(tǒng)還部署浪潮信息智能統(tǒng)一存儲管理平臺nfinistor,在數(shù)百萬個文件的環(huán)境下,通過人工智能技術實現(xiàn)存儲部署、運維、管理、調(diào)優(yōu)的自動化,實現(xiàn)了對于故障盤90%以上的預測準確率。

另一方面,對于通用大模型訓練、調(diào)優(yōu)等場景下,需要萬卡,甚至十萬卡的超大型數(shù)據(jù)中心或數(shù)據(jù)中心集群協(xié)同計算。在這個場景下,用戶需要實現(xiàn)跨云、跨系統(tǒng),甚至跨地域的協(xié)同計算能力。眾所周知,如果在協(xié)同訓練的過程中,某臺服務器宕機了,訓練將會終止,并重啟,這就對服務器單體的穩(wěn)定性和協(xié)同集群的穩(wěn)定性都提出了更高的考驗。對于為服務器輸送、保存數(shù)據(jù)的存儲系統(tǒng)而言,也就提出了更多的要求。

這種趨勢下,用戶需要一個能實現(xiàn)跨云、跨域、跨系統(tǒng)的,統(tǒng)一智能數(shù)據(jù)管理平臺,以及一套融合多種協(xié)議,多樣算力,多類別存儲介質(zhì)的分布式存儲融合架構(gòu)和一項全局全域的數(shù)據(jù)編織存儲能力。其中分布式融合架構(gòu)是支撐架構(gòu),包含協(xié)議融合、算力融合、介質(zhì)融合三種融合,通過融合實現(xiàn)了存儲資源的協(xié)同處理,按需分配;在分布式融合架構(gòu)之上,通過設備全生命周期管理、元數(shù)據(jù)統(tǒng)一視圖以及數(shù)據(jù)統(tǒng)一編排等,實現(xiàn)了設備統(tǒng)一、元數(shù)據(jù)統(tǒng)一和數(shù)據(jù)統(tǒng)一三個維度統(tǒng)一的智能數(shù)據(jù)管理平臺,簡化了數(shù)據(jù)管理復雜度,提升了數(shù)據(jù)流動效率,“這也是浪潮信息存儲推出BoD底座的核心理念。”孫斌如是說。

隨著推理市場逐漸升溫,未來用戶使用BoR架構(gòu)的場景會越來越多,“未來,企業(yè)會有越來越多近數(shù)據(jù)計算的需求,也就催生了近數(shù)據(jù)存儲的需求,用戶逐漸希望單機柜能實現(xiàn)的數(shù)據(jù)計算和處理的數(shù)據(jù)量級能有大幅提升,這也就推動了BoR在更多的場景落地!睂O斌強調(diào)。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達)

更多精彩內(nèi)容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

贊助本站

相關內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港