展會(huì)信息港展會(huì)大全

對(duì)話阿里云吳結(jié)生:AI時(shí)代,云上高性能計(jì)算的創(chuàng)新發(fā)展
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-06 08:31:21   瀏覽:64次  

導(dǎo)讀:劃重點(diǎn)01阿里云智能集團(tuán)副總裁吳結(jié)生預(yù)測(cè),到2027年,云端HPC市場(chǎng)規(guī)模將超過(guò)140億美元,比本地服務(wù)器市場(chǎng)增長(zhǎng)兩倍多。02云計(jì)算模式下的高性能計(jì)算具有彈性、異構(gòu)計(jì)算兼容性、快速部署和平臺(tái)化數(shù)據(jù)處理生態(tài)等優(yōu)勢(shì)。03為此,阿里云推出了E-HPC平臺(tái),同時(shí)支持AI作業(yè)和傳統(tǒng)HPC作業(yè),滿足多樣化負(fù)載需求。04除此之外,阿里云靈駿集群采用HPN 7.0網(wǎng)絡(luò)架構(gòu),提升大規(guī)模模型訓(xùn)練中的計(jì) ......

劃重點(diǎn)

01阿里云智能集團(tuán)副總裁吳結(jié)生預(yù)測(cè),到2027年,云端HPC市場(chǎng)規(guī)模將超過(guò)140億美元,比本地服務(wù)器市場(chǎng)增長(zhǎng)兩倍多。

02云計(jì)算模式下的高性能計(jì)算具有彈性、異構(gòu)計(jì)算兼容性、快速部署和平臺(tái)化數(shù)據(jù)處理生態(tài)等優(yōu)勢(shì)。

03為此,阿里云推出了E-HPC平臺(tái),同時(shí)支持AI作業(yè)和傳統(tǒng)HPC作業(yè),滿足多樣化負(fù)載需求。

04除此之外,阿里云靈駿集群采用HPN 7.0網(wǎng)絡(luò)架構(gòu),提升大規(guī)模模型訓(xùn)練中的計(jì)算效率和穩(wěn)定性。

05未來(lái),云計(jì)算廠商需不斷創(chuàng)新,提供多元化產(chǎn)品組合,幫助企業(yè)在不同負(fù)載場(chǎng)景中落地應(yīng)用,實(shí)現(xiàn)智能化創(chuàng)新。

以上內(nèi)容由大模型生成,僅供參考

Hyperion Research預(yù)計(jì),云端HPC市場(chǎng)的增長(zhǎng)速度將是本地服務(wù)器市場(chǎng)的兩倍多,到2027年,云端HPC市場(chǎng)規(guī)模預(yù)計(jì)將超過(guò)140億美元。

原先HPC(High performance computing,高性能計(jì)算)“高高在上”,幾乎只應(yīng)用在高精尖科研領(lǐng)域,但隨著以AI代表的新一代數(shù)字技術(shù)的應(yīng)用,HPC也在更多行業(yè)有了“大展拳腳”的機(jī)會(huì),在企業(yè)側(cè)的應(yīng)用場(chǎng)景也越來(lái)越多。

從HPC到CloudHPC

在阿里云智能集團(tuán)副總裁,彈性計(jì)算產(chǎn)品線負(fù)責(zé)人、存儲(chǔ)產(chǎn)品線負(fù)責(zé)人 吳結(jié)生看來(lái),如今已經(jīng)有很多行業(yè)應(yīng)用了高性能計(jì)算,且高性能計(jì)算的負(fù)載正呈現(xiàn)出多樣化發(fā)展的趨勢(shì),“當(dāng)下,很多基礎(chǔ)模型的預(yù)訓(xùn)練、自動(dòng)駕駛、生命科學(xué),以及工業(yè)制造、半導(dǎo)體芯片等行業(yè)和領(lǐng)域都應(yīng)用了高性能計(jì)算!眳墙Y(jié)生指出。

對(duì)話阿里云吳結(jié)生:AI時(shí)代,云上高性能計(jì)算的創(chuàng)新發(fā)展

阿里云智能集團(tuán)副總裁,彈性計(jì)算產(chǎn)品線負(fù)責(zé)人、存儲(chǔ)產(chǎn)品線負(fù)責(zé)人 吳結(jié)生

傳統(tǒng)模式下,HPC因其獨(dú)有的定位、復(fù)雜的架構(gòu),以及極高的運(yùn)維難度,造成了成本高昂,且適配業(yè)務(wù)發(fā)展特性較差,這也讓很多企業(yè)“望而卻步”。

而當(dāng)企業(yè)對(duì)于高性能計(jì)算的需求不斷增加時(shí),如何讓更多企業(yè)“用得起”和“用得好”高性能計(jì)算成為行業(yè)面臨的難題。

這時(shí)候,云計(jì)算就承擔(dān)起了讓HPC被更多企業(yè),更便捷應(yīng)用的重任。談及Cloud HPC的優(yōu)勢(shì)時(shí),吳結(jié)生告訴鈦媒體APP,以云計(jì)算的模式應(yīng)用高性能計(jì)算,具備了四個(gè)顯著的優(yōu)勢(shì):首先,是彈性的能力,通過(guò)云的方式,具有高度的彈性,可以彈性地分配、調(diào)用大規(guī)模資源,讓企業(yè)獲得的算力更高;其次,CloudHPC具備異構(gòu)計(jì)算的兼容性能力,以云的方式,可以對(duì)異構(gòu)芯片之間的算力進(jìn)行整合,兼容性更強(qiáng);第三,CloudHPC讓用戶具備了快速部署的能力;第四,與本地化的HPC相比,CloudHPC具備了平臺(tái)化的數(shù)據(jù)處理生態(tài)。

就數(shù)據(jù)處理能力,吳結(jié)生向鈦媒體APP舉例詳細(xì)介紹到,以汽車研發(fā)為例,汽車研發(fā)的過(guò)程中需要用到仿真計(jì)算,仿真計(jì)算在預(yù)處理的過(guò)程中會(huì)產(chǎn)生數(shù)據(jù),計(jì)算的過(guò)程中也會(huì)產(chǎn)生大量數(shù)據(jù),如何將處于不同位置的數(shù)據(jù)“挪動(dòng)”,整合到一起,就成為了傳統(tǒng)HPC時(shí)代的難題。

CloudHPC的出現(xiàn)很好的解決了這個(gè)問(wèn)題,吳結(jié)生告訴鈦媒體APP,通過(guò)彈性高性能計(jì)算集群,加上并行文件存儲(chǔ)系統(tǒng),可以免除數(shù)據(jù)的挪動(dòng),提升整個(gè)系統(tǒng)的能力,從而提升效率,縮短產(chǎn)品研發(fā)進(jìn)程。因此可以看出,云上的高性能計(jì)算,具備借助整個(gè)云平臺(tái),將包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和一些安全方面的能力疊加起來(lái)的優(yōu)勢(shì)。

“按需制宜”

從目前應(yīng)用趨勢(shì)上來(lái)看,用戶對(duì)于算力的需求的多樣化的。這種情況下,顯然單一的計(jì)算架構(gòu)已經(jīng)不能滿足所有用戶的需求。

“算力目前遇見的核心問(wèn)題就是:計(jì)算架構(gòu)的單一性與算力需求多樣性之間的矛盾!敝袊(guó)工程院院士鄔江興曾在2024年全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)上公開表示,“算力需求是多樣性的,面對(duì)不同的場(chǎng)景、不同的計(jì)算環(huán)境、不同的任務(wù)類型、不同的性能需求,需要不同的算力架構(gòu)?墒怯(jì)算架構(gòu)是單一的,目前的情況走下去,會(huì)有兩種發(fā)展結(jié)果:一個(gè)是‘削足適履’,一個(gè)是各自為政,都不是好的發(fā)展結(jié)果!

這樣的算力困境同樣發(fā)生在高性能計(jì)算領(lǐng)域,吳結(jié)生告訴鈦媒體APP,多元化的負(fù)載需求,也對(duì)高性能計(jì)算提出了新的挑戰(zhàn)。面對(duì)這些挑戰(zhàn),吳結(jié)生認(rèn)為,企業(yè)需要通過(guò)多樣化的產(chǎn)品、系統(tǒng)架構(gòu)和技術(shù)方案,來(lái)滿足不同負(fù)載對(duì)計(jì)算能力、存儲(chǔ)性能、網(wǎng)絡(luò)帶寬等方面的差異化需求。

從需求側(cè)出發(fā),根據(jù)不同的業(yè)務(wù)場(chǎng)景,以及場(chǎng)景下算力的耦合度和數(shù)據(jù)的密集度可以大致劃分為松耦合、緊耦合,吳結(jié)生告訴鈦媒體APP,算力越耦合,就越需要高性能的網(wǎng)絡(luò)連接能力,針對(duì)不同的業(yè)務(wù)場(chǎng)景,用戶應(yīng)該選擇相對(duì)應(yīng)的產(chǎn)品架構(gòu),這樣才能在確保計(jì)算效率的同時(shí),降低使用算力的成本。

對(duì)話阿里云吳結(jié)生:AI時(shí)代,云上高性能計(jì)算的創(chuàng)新發(fā)展

在松耦合場(chǎng)景下,用戶對(duì)于延遲的要求不是很高,對(duì)算力的類型也沒(méi)有要求(比如對(duì)CPU代系沒(méi)有強(qiáng)要求)。但是,該場(chǎng)景下,用戶對(duì)性價(jià)比的要求更高,他們需要以更低的成本,更高的彈性,實(shí)現(xiàn)算力的全局調(diào)度,“阿里云借助自身積累的云資源規(guī)模,加之創(chuàng)新性的CIPU(云基礎(chǔ)設(shè)施處理器)架構(gòu),提供E-HPCInstant來(lái)服務(wù)‘松耦合’的高性能計(jì)算負(fù)載,”吳結(jié)生指出,“通過(guò)E-HPCInstant對(duì)云上所有可用區(qū)的資源進(jìn)行不同代系的算力抽象,并實(shí)現(xiàn)全局的資源分配和任務(wù)調(diào)度,滿足用戶對(duì)于彈性的需求。”

吳結(jié)生以制藥行業(yè)為例分享了具體松耦合場(chǎng)景中的架構(gòu)經(jīng)驗(yàn),他表示,在該場(chǎng)景下,客戶有高吞吐量的彈性計(jì)算需求隨時(shí)需要大規(guī)模的CPU、GPU計(jì)算資源,計(jì)算峰值大、任務(wù)并發(fā)度高。阿里云的產(chǎn)品為客戶提供了彈性按需的海量資源:智能調(diào)度底層大規(guī);A(chǔ)設(shè)施,任意時(shí)刻提供10萬(wàn)核以上的資源保障,優(yōu)化大并發(fā)下計(jì)算和存儲(chǔ)性能,顯著提高藥物研發(fā)效率,只需原來(lái)1/3的成本。

在緊耦合場(chǎng)景下,大多業(yè)務(wù)場(chǎng)景都存在計(jì)算任務(wù)多、規(guī)模大、計(jì)算時(shí)間緊張等特點(diǎn),這種場(chǎng)景更為適合CloudHPC,利用云資源的規(guī)模大、并行計(jì)算能力強(qiáng)等特點(diǎn),滿足企業(yè)對(duì)于高性能計(jì)算的需求。

針對(duì)此,阿里云推出了高性能計(jì)算平臺(tái)E-HPC平臺(tái),可以同時(shí)提交AI作業(yè)和傳統(tǒng)HPC的作業(yè),在資源管理層,同時(shí)管理了HPC的Slurm集群和AI的ACK(K8s)集群,作業(yè)管理層根據(jù)作業(yè)類型將AI作業(yè)和HPC作業(yè)分別投遞到相應(yīng)的集群上運(yùn)行。

以汽車行業(yè)為例,目前的研發(fā)周期需要效率非常高,本地 HPC 集群硬件資源老化,嚴(yán)重影響業(yè)務(wù)進(jìn)度,并且業(yè)務(wù)流程割裂:線下前后處理與線上求解計(jì)算的流程割裂,數(shù)據(jù)挪動(dòng)頻繁。“如果建一個(gè)1000 臺(tái)機(jī)器這樣的一個(gè)超算集群,傳統(tǒng)方式肯定是幾個(gè)月。那么今天在云上10 萬(wàn)核的需求我們可以在不超過(guò)一天之內(nèi)建好。并且客戶可以利用云的資源規(guī)模去做彈性的資源分配。在云上可以獲取豐富的以及最新代際的算力形態(tài),滿足各種不同工作任務(wù)的這種負(fù)載的需求。”

在吳結(jié)生看來(lái),E-HPC高性能計(jì)算服務(wù)落地過(guò)程中最大的挑戰(zhàn)是任務(wù)的計(jì)算實(shí)例之間需要緊耦合的通信。面對(duì)這個(gè)痛點(diǎn),阿里云首先以CIPU作為所有底層物理資源的連接器,將底層物理資源統(tǒng)一納管,提高計(jì)算效率,進(jìn)而加速IO效率,通過(guò)eRMDA網(wǎng)絡(luò)大幅提升緊耦合的HPC工作負(fù)載性能,最終實(shí)現(xiàn)以更低成本,更快速度的交付能力。

除此之外,吳結(jié)生告訴鈦媒體APP,E-HPC還通過(guò)多層次的網(wǎng)絡(luò)拓補(bǔ)感知與彈性擴(kuò)容的能力,快速?gòu)棾鼍W(wǎng)絡(luò)拓?fù)渖峡拷腅CS計(jì)算集群,適應(yīng)緊耦合HPC作業(yè)極致性能要求。

AI時(shí)代,云上HPC如何更好用?

ChatGPT的橫空出世讓AI又一次成為了科技圈關(guān)注的焦點(diǎn)。這一輪的AI的火爆在吳結(jié)生看來(lái),也將徹底改變所有行業(yè),“當(dāng)下幾乎所有的行業(yè)龍頭公司都已經(jīng)是數(shù)據(jù)公司了,未來(lái)都將會(huì)是數(shù)據(jù)+AI的公司!眳墙Y(jié)生告訴鈦媒體APP。

“大模型的訓(xùn)練場(chǎng)景是比較傳統(tǒng)的高性能計(jì)算在云上的一種重新復(fù)興,我們稱之為極致緊耦合的場(chǎng)景。”吳結(jié)生將大模型廠商的算力需求總結(jié)為:這些企業(yè)需要穩(wěn)定大規(guī)模高性能的訓(xùn)練算力,并需要彈性拓展的推理算力,還需要數(shù)據(jù)處理的速度和彈性能力,以提高資源利用率并降低成本。

當(dāng)前大模型的預(yù)訓(xùn)練需要集群化,構(gòu)建萬(wàn)卡甚至更大的集群,且整個(gè)集群需要是一個(gè)龐大的“整體”,若其中一臺(tái)機(jī)器出問(wèn)題,都會(huì)造成訓(xùn)練中斷!按竽P偷挠(xùn)練就像是一排人兩個(gè)、兩個(gè)的將腿綁在一起,共同前進(jìn),這種并行的方式,一旦有一個(gè)人反應(yīng)慢了或者倒了以后,可能整個(gè)隊(duì)伍的前進(jìn)速度就被拖累了!眳墙Y(jié)生以一個(gè)生動(dòng)的比喻比擬了大模型的訓(xùn)練過(guò)程。“讓每張GPU卡,每臺(tái)機(jī)器都以相同的‘步伐’前進(jìn),才能提升整體的模型訓(xùn)練效率!眳墙Y(jié)生如是說(shuō)。

為了實(shí)現(xiàn)上述所描述的“相同步伐”,阿里云靈駿集群采用 HPN 7.0 的網(wǎng)絡(luò)架構(gòu),通過(guò)一系列的創(chuàng)新來(lái)支持更大的規(guī)模、更優(yōu)的效率和更高的穩(wěn)定性:一方面,阿里云為每臺(tái)機(jī)器 3.2T 的 RDMA 的計(jì)算連接,讓每臺(tái)服務(wù)器之間的通訊更順暢;另一方面,后端 GPU 互聯(lián)網(wǎng)絡(luò)和前端網(wǎng)絡(luò)分離,減少存儲(chǔ)的訪問(wèn)對(duì)算力通信的干擾,進(jìn)而提升了整體GPU集群的計(jì)算效率。

這樣的“相同步伐”也對(duì)存儲(chǔ)能力提出更高的要求。在大規(guī)模的模型訓(xùn)練過(guò)程中,經(jīng)常會(huì)遇到各種原因而被迫中斷!拔覀兊念^部大模型客戶提出了連續(xù)的、分鐘級(jí)的Checkpoint的讀寫要求,這對(duì)存儲(chǔ)的吞吐要求是非常高的,這是為什么在阿里云靈駿智算服務(wù)里面,提供了高性能的并行文件系統(tǒng)CPFS,滿足訓(xùn)練和推理的超高性能和成本優(yōu)化要求。通過(guò)CPFS,網(wǎng)絡(luò)的雙上聯(lián)、系統(tǒng)監(jiān)控、自定位和自愈等優(yōu)化,降低中斷次數(shù)和時(shí)間,使得我們訓(xùn)練時(shí)長(zhǎng)的有效率高達(dá)99%,” 吳結(jié)生指出。

無(wú)論是松耦合、緊耦合,還是極致緊耦合,面對(duì)多元化算力需求,CIPU 是阿里云基礎(chǔ)設(shè)施的基石,是差異化競(jìng)爭(zhēng)力的主要來(lái)源之一。通過(guò)CIPU架構(gòu),可以實(shí)現(xiàn)0虛擬化開銷,讓企業(yè)能更充分的利用CPU、GPU資源,從而減少開銷。除此之外,CIPU架構(gòu)還通過(guò)硬件加速的方式,進(jìn)一步提升IO和存儲(chǔ)性能,“目前,阿里云已經(jīng)推出了2.0版本的CIPU架構(gòu),整機(jī)穩(wěn)定性提升20%,帶寬性能可達(dá)400Gbps,VPC可達(dá)6000萬(wàn)pps,彈性RDMA可達(dá)5000萬(wàn)message/s,存儲(chǔ)性能可達(dá)360萬(wàn)IOPS,50GB/s,這些性能都達(dá)到了業(yè)內(nèi)領(lǐng)先水平!眳墙Y(jié)生指出。

當(dāng)下,每一家公司都是一個(gè)數(shù)據(jù)公司,很快每一家公司都會(huì)是一家數(shù)據(jù)+AI的公司,云計(jì)算一直在踐行 Scaling Law,高性能計(jì)算也將煥發(fā)新的動(dòng)能,云計(jì)算提供的規(guī)模化、高性能、可擴(kuò)展的算力與存力,會(huì)幫助企業(yè)在進(jìn)行業(yè)務(wù)規(guī)模的擴(kuò)展的同時(shí),應(yīng)對(duì)好數(shù)據(jù)規(guī)模的擴(kuò)展,充分使用好AI模型以及基于模型的各類應(yīng)用。我們也期待看到,云計(jì)算廠商可以不斷創(chuàng)新,提供多元化的產(chǎn)品組合,幫助企業(yè)在不同負(fù)載場(chǎng)景中落地應(yīng)用,實(shí)現(xiàn)智能化創(chuàng)新。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港