展會信息港展會大全

發(fā)展AI網(wǎng)絡(luò)面臨的四個關(guān)鍵技術(shù)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-15 11:11:00   瀏覽:3447次  

導(dǎo)讀:AI大模型時代,大模型參數(shù)量和訓(xùn)練集規(guī)模大幅增加,僅靠GPU芯片單體算力的提升已經(jīng)不能滿足需求,業(yè)界目光正從單體算力轉(zhuǎn)向了系統(tǒng)架構(gòu)層面的創(chuàng)新。其中,底層核心技術(shù)網(wǎng)絡(luò),成為關(guān)鍵突破口,全球各大公司紛紛進行相關(guān)產(chǎn)品技術(shù)的研發(fā)。AI網(wǎng)絡(luò)技術(shù)的角逐正在展...

AI大模型時代,大模型參數(shù)量和訓(xùn)練集規(guī)模大幅增加,僅靠GPU芯片單體算力的提升已經(jīng)不能滿足需求,業(yè)界目光正從單體算力轉(zhuǎn)向了系統(tǒng)架構(gòu)層面的創(chuàng)新。其中,底層核心技術(shù)網(wǎng)絡(luò),成為關(guān)鍵突破口,全球各大公司紛紛進行相關(guān)產(chǎn)品技術(shù)的研發(fā)。AI網(wǎng)絡(luò)技術(shù)的角逐正在展開。在近日舉辦的“2024開放計算中國峰會”上,英偉達網(wǎng)絡(luò)高級總監(jiān)宋慶春介紹了AI網(wǎng)絡(luò)的四大關(guān)鍵技術(shù):端到端的RDMA流量動態(tài)路由、AI云上AI業(yè)務(wù)的性能隔離、網(wǎng)絡(luò)計算和網(wǎng)絡(luò)數(shù)字孿生。

發(fā)展AI網(wǎng)絡(luò)面臨的四個關(guān)鍵技術(shù)

為了幫助客戶在云環(huán)境中構(gòu)建生成式AI或AI工作負(fù)載,提升網(wǎng)絡(luò)性能,英偉達推出了新的網(wǎng)絡(luò)平臺,即加速以太網(wǎng)平臺NVIDIA Spectrum-X。Spectrum-X平臺并非是一個單產(chǎn)品的形態(tài),而是涉及到Spectrum-4以太網(wǎng)交換機、BlueField-3 DPU、LinkX 線纜及模塊和相關(guān)軟件,能夠為生成式AI在云端提供規(guī);哪芰。

Spectrum-X的創(chuàng)新點有很多,動態(tài)路由就是其中之一。當(dāng)前國內(nèi)數(shù)據(jù)中心中,通用算力仍占算力資源的絕大多數(shù)。但是隨著應(yīng)用場景的變化,生成式AI云將成為數(shù)據(jù)中心發(fā)展的新趨勢。生成式AI云需要有很強的算力和云的靈活性。為了解決問題,英偉達推出面向AI的以太網(wǎng)絡(luò),針對AI業(yè)務(wù)進行端到端的優(yōu)化。端到端的RDMA流量動態(tài)路由可以讓網(wǎng)絡(luò)傳輸效率相比傳統(tǒng)的以太網(wǎng)絡(luò)提升1.6倍,實現(xiàn)端網(wǎng)協(xié)同,提升網(wǎng)絡(luò)擁塞問題。RDMA技術(shù)可以通過網(wǎng)絡(luò)把資料直接傳入計算機的存儲區(qū),將數(shù)據(jù)從一個系統(tǒng)快速移動到遠(yuǎn)程系統(tǒng)存儲器中,而不對操作系統(tǒng)造成任何影響,這樣就不需要用到多少計算機的處理功能。它消除了外部存儲器復(fù)制和上下文切換的開銷,因而能解放內(nèi)存帶寬和CPU周期用于改進應(yīng)用系統(tǒng)性能。

性能隔離技術(shù)也很重要。AI云上往往出現(xiàn)多個租戶同時運行應(yīng)用程序的情況,而且每個租戶又有可能運行多個任務(wù)。 如何讓多個任務(wù)相互隔離,且不僅任務(wù)之間相互隔離,運行任務(wù)的時候性能也相互隔離,每個任務(wù)都能實現(xiàn)和運行單一任務(wù)一樣的性能?這就需要用到性能隔離技術(shù)。該技術(shù)基于先進的擁塞控制技術(shù),解決了由于一個AI應(yīng)用的突發(fā)式的Incast通信造成的網(wǎng)絡(luò)擁塞影響其它應(yīng)用性能的問題,避免了犧牲流在云上的出現(xiàn)。這個技術(shù)在InfiniBand上多年以前就實現(xiàn)了,英偉達把性能隔離技術(shù)移植到Spectrum-X平臺,實現(xiàn)了以太網(wǎng)云上的業(yè)務(wù)性能隔離。

網(wǎng)絡(luò)計算則是指通過計算機網(wǎng)絡(luò)進行計算的方式,它將計算任務(wù)分配給多個網(wǎng)絡(luò)節(jié)點,并協(xié)同完成計算任務(wù)。網(wǎng)絡(luò)計算的特點則主要體現(xiàn)在其分布式和協(xié)同性。在數(shù)據(jù)存儲方面,網(wǎng)絡(luò)計算將數(shù)據(jù)分散存儲在多個節(jié)點上,這就使得數(shù)據(jù)更加安全可靠,且能夠更好地應(yīng)對并發(fā)訪問。在傳輸技術(shù)方面,網(wǎng)絡(luò)計算采用高速數(shù)據(jù)傳輸技術(shù),使得大規(guī)模數(shù)據(jù)的處理和傳輸變得更加高效。生成式AI云往往面臨資源利用率問題、長尾問題、多任務(wù)問題,網(wǎng)絡(luò)計算可以有效解決。

網(wǎng)絡(luò)數(shù)字孿生是物理網(wǎng)絡(luò)的虛擬表述,基于數(shù)據(jù)、模型和接口對物理網(wǎng)絡(luò)進行分析、診斷、仿真和控制,從而實現(xiàn)與物理網(wǎng)絡(luò)之間的實時交互映射。借助數(shù)字孿生網(wǎng)絡(luò)平臺,運營商可以很好地模擬、選擇、優(yōu)化解決方案,最終將它們部署到實際網(wǎng)絡(luò)中,這將降低對實際網(wǎng)絡(luò)的影響,減少一定的安全風(fēng)險。同時,數(shù)字孿生網(wǎng)絡(luò)結(jié)合大數(shù)據(jù)處理和建模技術(shù)可實現(xiàn)對現(xiàn)狀的評估、對過去的診斷和對未來的預(yù)測,模擬各種可能性,提供更全面的決策分析,有助于網(wǎng)絡(luò)實現(xiàn)預(yù)測性運維。現(xiàn)在的AI云規(guī)模通常都很大,投入也非常大。 如果直接構(gòu)建一個物理的系統(tǒng),在物理系統(tǒng)上做Debug的成本非常高。 先構(gòu)建AI數(shù)據(jù)中心的數(shù)字孿生虛擬數(shù)據(jù)中心,預(yù)先進行配置、調(diào)試、優(yōu)化、測試,可以有效降低成本。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港