當(dāng)前位置：人工智能實(shí)驗(yàn)室> IT新聞 > 騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng)

騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-07-01 瀏覽：616次

導(dǎo)讀：騰訊云副總裁王亞晨隨著大模型的火熱持續(xù)迭代，AI基礎(chǔ)設(shè)施愈發(fā)成為云廠商的核心競(jìng)爭(zhēng)力之一。 7月1日，騰訊宣布其自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí)，升級(jí)后的星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡，支持超10萬(wàn)卡大規(guī)模組網(wǎng)，網(wǎng)絡(luò)通信效率比 ......

騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng)

騰訊云副總裁王亞晨

隨著大模型的火熱持續(xù)迭代，AI基礎(chǔ)設(shè)施愈發(fā)成為云廠商的核心競(jìng)爭(zhēng)力之一。

7月1日，騰訊宣布其自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí)，升級(jí)后的星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡，支持超10萬(wàn)卡大規(guī)模組網(wǎng)，網(wǎng)絡(luò)通信效率比上一代提升60%，讓大模型訓(xùn)練效率提升20%。這意味著，如果原來(lái)訓(xùn)練中某個(gè)計(jì)算結(jié)果的同步需要花100秒完成，現(xiàn)在只需要40秒；原來(lái)需要花50天訓(xùn)練的模型，只需要花40天。

AI大模型就像是一場(chǎng)F1比賽，騰訊云專門設(shè)計(jì)了星脈高性能算力網(wǎng)絡(luò)“賽道”，并自研了TiTa和TCCL網(wǎng)絡(luò)協(xié)議作為“賽事指揮中心與專業(yè)車隊(duì)”，共同讓“騰訊云高性能計(jì)算集群HCC的GPU服務(wù)器”這臺(tái)馬力強(qiáng)大的F1賽車發(fā)揮最大的算力性能，助力客戶在AI大模型的競(jìng)爭(zhēng)中遙遙領(lǐng)先。

騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng)

AIGC的火熱推動(dòng)著AI大模型參數(shù)量從億級(jí)到萬(wàn)億級(jí)的飆升。模型參數(shù)規(guī)模與架構(gòu)升級(jí)對(duì)底層網(wǎng)絡(luò)網(wǎng)絡(luò)也提出了新的要求。

為支撐AIGC中海量數(shù)據(jù)的大規(guī)模訓(xùn)練，大量服務(wù)器通過(guò)高速網(wǎng)絡(luò)組成大規(guī)模算力集群，互聯(lián)互通，共同完成訓(xùn)練任務(wù)。

然而，集群規(guī)模越大，所產(chǎn)生的通信損耗會(huì)越高；同時(shí)，AI訓(xùn)練的通信模式，與傳統(tǒng)的通信模式差異較大，不同大模型架構(gòu)也存在著通信模式的差異。部分大模型訓(xùn)練過(guò)程中通信占比最大可達(dá)50%。同時(shí)，分布式計(jì)算模式也意味著，單點(diǎn)的故障將導(dǎo)致整個(gè)集群不可用，因此在故障的時(shí)候需要快速定位與恢復(fù)訓(xùn)練，把損失降到最低。

如何在大規(guī)模組網(wǎng)前提下，提升通信效率、降低通信占比，讓訓(xùn)練穩(wěn)定高可用，進(jìn)而提升GPU的利用率和模型訓(xùn)練效率，是AI網(wǎng)絡(luò)要解決的核心問(wèn)題。

數(shù)據(jù)顯示，星脈網(wǎng)絡(luò)2.0可實(shí)現(xiàn)大模型訓(xùn)練過(guò)程中，網(wǎng)絡(luò)通信占比（通信時(shí)間占總體時(shí)間比例）低至6%，遠(yuǎn)低于10%的業(yè)界水平；通信負(fù)載率達(dá)到90%，與IB網(wǎng)絡(luò)（Infiniband）持平，相較于標(biāo)準(zhǔn)以太網(wǎng)提升60%。整體能力處于業(yè)界頂尖水平。

四大組件全面升級(jí)，助力AI訓(xùn)練提速

騰訊自研星脈網(wǎng)絡(luò)是一套軟硬協(xié)同的高性能網(wǎng)絡(luò)體系，包括自研網(wǎng)絡(luò)設(shè)備、通信協(xié)議、通信庫(kù)以及運(yùn)營(yíng)系統(tǒng)四大關(guān)鍵組件，每個(gè)組件均采用了業(yè)界首創(chuàng)的騰訊核心技術(shù)。

硬件方面，騰訊星脈網(wǎng)絡(luò)是業(yè)界首個(gè)采用全自研網(wǎng)絡(luò)設(shè)備的高性能網(wǎng)絡(luò)，包括交換機(jī)、自研光模塊、網(wǎng)卡等。自研交換機(jī)從25.6T容量升級(jí)到51.2T，同時(shí)在業(yè)界率先引入400G硅光模塊，速率翻倍，讓網(wǎng)絡(luò)延遲降低40%，支持超10萬(wàn)卡大規(guī)模組網(wǎng)。

值得注意的是，星脈網(wǎng)絡(luò)2.0支持搭載騰訊自研的全新算力網(wǎng)卡，這是公共云業(yè)內(nèi)首款為AI訓(xùn)練設(shè)計(jì)的網(wǎng)卡，網(wǎng)卡采用最新一代 FPGA 芯片，整卡帶寬可達(dá)400Gbps，具備業(yè)界最高的3.2T整機(jī)通信帶寬。該自研算力網(wǎng)卡運(yùn)行著新一代騰訊自研通信協(xié)議TiTa，并搭載了騰訊獨(dú)有的主動(dòng)擁塞控制算法。

相比起上一代，TiTa協(xié)議2.0從部署在交換機(jī)轉(zhuǎn)移到了端側(cè)的網(wǎng)卡上，從原來(lái)的被動(dòng)擁塞算法升級(jí)到了更為智能的主動(dòng)擁塞控制算法，可主動(dòng)調(diào)整數(shù)據(jù)包發(fā)送速率，從而避免網(wǎng)絡(luò)擁堵；并通過(guò)擁堵智能調(diào)度，實(shí)現(xiàn)網(wǎng)絡(luò)擁塞快速自愈。這讓混合專家(MoE)模型訓(xùn)練下網(wǎng)絡(luò)通信性能相比1.0提升30%，帶來(lái)訓(xùn)練效率10%的提升。

專為星脈網(wǎng)絡(luò)設(shè)計(jì)的高性能集合通信庫(kù)TCCL，也進(jìn)行了升級(jí)。通過(guò)創(chuàng)新的NVLINK+NET異構(gòu)并行通信、Auto-Tune Network Expert自適應(yīng)算法等通信庫(kù)的升級(jí)，在MoE模型訓(xùn)練下，給星脈網(wǎng)絡(luò)帶來(lái)了30%的通信效率提升，讓模型訓(xùn)練效率提升10%。

TCCL 對(duì)外的接口跟原生通信庫(kù)接口完全一致的，主流AI大模型客戶不需要額外適配，只需要替換通信庫(kù)就可以發(fā)揮星脈的能力。

通信協(xié)議TiTa與通信庫(kù)TCCL的升級(jí)帶來(lái)的效果疊加，讓星脈網(wǎng)絡(luò)的通信效率提升60%，MoE大模型訓(xùn)練效率提升20%。

網(wǎng)絡(luò)的故障或任何單點(diǎn)的故障，將導(dǎo)致整個(gè)集群不可用，讓模型訓(xùn)練暫停。因此，網(wǎng)絡(luò)的高可用、穩(wěn)定性也極為重要。為確保星脈網(wǎng)絡(luò)的高可用，騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng)，這也是星脈網(wǎng)絡(luò)第四大關(guān)鍵組件。

運(yùn)營(yíng)系統(tǒng)2.0新增騰訊獨(dú)家技術(shù)靈境仿真平臺(tái)，從原來(lái)僅能定位網(wǎng)絡(luò)問(wèn)題，到可定位GPU節(jié)點(diǎn)問(wèn)題，實(shí)現(xiàn)萬(wàn)卡級(jí)訓(xùn)練故障卡頓、慢節(jié)點(diǎn)分鐘級(jí)定位。這對(duì)星脈網(wǎng)絡(luò)進(jìn)行了360度無(wú)死角的立體監(jiān)控，可以更快發(fā)現(xiàn)與定位網(wǎng)絡(luò)問(wèn)題，讓整體故障的排查時(shí)間再次大幅縮短，故障時(shí)盡快恢復(fù)續(xù)訓(xùn)。

打造最適合大模型的云

目前，騰訊云已經(jīng)面向AIGC場(chǎng)景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、AIGC存儲(chǔ)解決方案、向量數(shù)據(jù)庫(kù)以及行業(yè)大模型服務(wù)MaaS、天御AIGC內(nèi)容安全解決方案等大模型全鏈路云服務(wù)。超過(guò)80%的頭部大模型企業(yè)使用了騰訊云服務(wù)。

大模型訓(xùn)練集群在HCC將高性能云服務(wù)器作為節(jié)點(diǎn)，滿配最新代次的GPU，節(jié)點(diǎn)之間通過(guò)自研星脈網(wǎng)絡(luò)互聯(lián)，提供高性能、高帶寬和低延遲的一體化高性能計(jì)算產(chǎn)品。

騰訊云AIGC云存儲(chǔ)解決方案是國(guó)內(nèi)首個(gè)實(shí)現(xiàn)存儲(chǔ)引擎全面自研的云存儲(chǔ)解決方案，可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍，需要的時(shí)間縮短一半。

騰訊云向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB每日支撐超過(guò)3700億次向量檢索請(qǐng)求，可支持千億級(jí)向量規(guī)模存儲(chǔ)，百萬(wàn)級(jí) QPS 及毫秒級(jí)查詢延遲，適用于大模型的訓(xùn)練推理、RAG場(chǎng)景、AI應(yīng)用以及搜索推薦服務(wù)，實(shí)現(xiàn)企業(yè)數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍。

騰訊云打造了天御AIGC全鏈路的內(nèi)容安全解決方案，提供包含數(shù)據(jù)服務(wù)、安全專家、機(jī)器審核、版權(quán)保護(hù)、客戶體驗(yàn)管理五大服務(wù)體系，護(hù)航企業(yè)從模型訓(xùn)練到事后運(yùn)營(yíng)全過(guò)程的內(nèi)容安全建設(shè)。

同時(shí)，在自身AI基礎(chǔ)設(shè)施支撐下，騰訊自研的通用大模型騰訊混元大模型也在持續(xù)迭代。

借助基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、Angel機(jī)器學(xué)習(xí)平臺(tái)等自研底層技術(shù)，騰訊搭建起萬(wàn)卡AI訓(xùn)練集群，可以用更少的資源訓(xùn)練更大的模型，訓(xùn)練速度是主流框架的2.6倍；推理成本相比業(yè)界主流框架下降70%，并且支持國(guó)產(chǎn)主流硬件的適配。

騰訊混元已擴(kuò)展至萬(wàn)億級(jí)參數(shù)規(guī)模，采用混合專家模型(MoE)結(jié)構(gòu)，在通用基礎(chǔ)能力和專業(yè)應(yīng)用能力方面處于國(guó)內(nèi)主流大模型領(lǐng)先地位。無(wú)論是企業(yè)客戶還是個(gè)人開發(fā)者，都可以通過(guò)騰訊云上API直接調(diào)用騰訊混元，實(shí)現(xiàn)更便捷的智能化升級(jí)。騰訊還聯(lián)合生態(tài)伙伴，將大模型技術(shù)與20多個(gè)行業(yè)結(jié)合，提供超50個(gè)行業(yè)大模型解決方案。

大模型時(shí)代的來(lái)臨，將開創(chuàng)下一代云服務(wù)，騰訊云致力于打造“最適合大模型的云”，也將持續(xù)升級(jí)底層AI基礎(chǔ)設(shè)施，助力企業(yè)把握AI時(shí)代。

上一篇：創(chuàng)新領(lǐng)先，效能躍遷！英飛凌2024汽車創(chuàng)新峰會(huì)舉行

下一篇：全球Deepfake攻防挑戰(zhàn)賽啟動(dòng)，百萬(wàn)獎(jiǎng)金懸賞“AI打假”專家

騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-07-01 瀏覽：616次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng) 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-07-01 瀏覽：616次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

騰訊星脈網(wǎng)絡(luò)2.0全新發(fā)布，400G網(wǎng)絡(luò)接口，支持超10萬(wàn)卡大規(guī)模組網(wǎng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-07-01 瀏覽：616次