筑基面向MxN生態(tài)格局的AI Native基礎(chǔ)設(shè)施。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
據(jù)IPO早知道消息,在7月4日舉行的2024年世界人工智能大會(huì)AI基礎(chǔ)設(shè)施論壇上,無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪發(fā)布了全球首個(gè)千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺(tái),千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達(dá)到了97.6%。同時(shí),夏立雪宣布無問芯穹Infini-AI云平臺(tái)已集成大模型異構(gòu)千卡混訓(xùn)能力,是全球首個(gè)可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺(tái),具備萬卡擴(kuò)展性,支持包括AMD、華為騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練。7月起,通過試訓(xùn)申請(qǐng)的用戶,已可在Infini-AI上一鍵發(fā)起700億參數(shù)規(guī)模的大模型訓(xùn)練。
就在4個(gè)月前,無問芯穹Infini-AI大模型開發(fā)與服務(wù)云平臺(tái)宣布首次公測,已有智譜AI、月之暗面、生數(shù)科技等大模型公司客戶在Infini-AI上穩(wěn)定使用異構(gòu)算力,還有20余家AI Native應(yīng)用創(chuàng)業(yè)公司在Infini-AI上持續(xù)調(diào)用各種預(yù)置模型API,使用無問芯穹提供的工具鏈開發(fā)自身業(yè)務(wù)模型。此次發(fā)布全球首個(gè)可進(jìn)行千卡規(guī)模異構(gòu)芯片混訓(xùn)的平臺(tái),不僅是無問芯穹在異構(gòu)計(jì)算優(yōu)化與集群系統(tǒng)設(shè)計(jì)方面的深厚底蘊(yùn)和卓越技術(shù)的實(shí)力體現(xiàn),同時(shí)也是無問芯穹秉承“MxN”中間層生態(tài)理念的重要成果。
作為大模型生命周期中不可或缺的兩個(gè)階段,訓(xùn)練和推理均需要強(qiáng)大的計(jì)算資源支撐。然而,與國際上模型層與芯片層“相對(duì)集中”的格局相比,中國的模型層與芯片層更加“百花齊放”。然而,大量的異構(gòu)芯片也形成了“生態(tài)豎井”,不同硬件生態(tài)系統(tǒng)封閉且互不兼容,給算力的使用方帶來一系列技術(shù)挑戰(zhàn)。
據(jù)不完全統(tǒng)計(jì),宣布擁有千卡規(guī)模的中國算力集群已不少于100個(gè),出于諸多緣由,比如過度依賴單一硬件平臺(tái)可能會(huì)使企業(yè)面臨供應(yīng)鏈風(fēng)險(xiǎn),又比如國產(chǎn)芯片的性能快速提升為集群方提供了多種選擇,絕大部分集群已經(jīng)或正在從同構(gòu)轉(zhuǎn)向異構(gòu)。“生態(tài)豎井”的存在讓大多數(shù)企業(yè)和開發(fā)者對(duì)此望而卻步,即便算力集群眾多,也難以實(shí)現(xiàn)有效的整合與利用,這無疑是對(duì)算力資源的浪費(fèi)。“生態(tài)豎井”不僅成為構(gòu)建AI Native基礎(chǔ)設(shè)施的最大難點(diǎn),也是當(dāng)前大模型行業(yè)面臨“算力荒”的重要原因。
構(gòu)建適應(yīng)多模型與多芯片格局的AI Native基礎(chǔ)設(shè)施,無問芯穹的底層解法是,提供高效整合異構(gòu)算力資源的好用算力平臺(tái),以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件,讓異構(gòu)芯片真正轉(zhuǎn)化為大算力。這一系列研、產(chǎn)進(jìn)展背后,是無問芯穹研發(fā)團(tuán)隊(duì)在異構(gòu)芯片計(jì)算優(yōu)化與集群系統(tǒng)設(shè)計(jì)上的強(qiáng)大實(shí)力支撐。近日,無問芯穹與清華、上交的聯(lián)合研究團(tuán)隊(duì)發(fā)布了HETHUB,這是一個(gè)用于大規(guī)模模型的異構(gòu)分布式混合訓(xùn)練系統(tǒng),這是業(yè)內(nèi)首次實(shí)現(xiàn)六種不同品牌芯片間的交叉混合訓(xùn)練,且工程化完成度高。夏立雪介紹,這項(xiàng)技術(shù)工程化的初衷,是希望能夠通過整合更多異構(gòu)算力,繼續(xù)推高大模型技術(shù)能力的上限,同時(shí)通過打通異構(gòu)芯片生態(tài),持續(xù)降低大模型應(yīng)用落地成本。