展會信息港展會大全

通信效率超98%!壁仞科技實現(xiàn)中國首個三種異構(gòu)芯片混訓(xùn)技術(shù)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-05 08:58:30   瀏覽:1574次  

導(dǎo)讀:海外限令實施近一年后,AI 芯片公司壁仞科技(Biren Technology)如今罕見發(fā)聲,公布其在算力架構(gòu)層面的最新技術(shù)進展。 9月5日,鈦媒體AGI獨家獲悉 ,即將在2024全球AI芯片峰會上,壁仞科技將首次公布壁仞自主原創(chuàng)的異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,業(yè)界首次支持3...

海外限令實施近一年后,AI 芯片公司壁仞科技(Biren Technology)如今罕見發(fā)聲,公布其在算力架構(gòu)層面的最新技術(shù)進展。

9月5日,鈦媒體AGI獨家獲悉,即將在2024全球AI芯片峰會上,壁仞科技將首次公布壁仞自主原創(chuàng)的異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,業(yè)界首次支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個大模型,用一套統(tǒng)一方案支持多種不同型號、不同廠商的GPU,而且一行代碼適配多種框架。

壁仞HGCT的異構(gòu)協(xié)同通信效率大于98%、端到端訓(xùn)練效率90-95%,從而突破了大模型異構(gòu)算力孤島難題。

壁仞科技副總裁、AI軟件首席架構(gòu)師丁云帆向鈦媒體AGI獨家表示,這是業(yè)界首次支持3種及以上(壁仞GPU+英偉達GPU+其他國產(chǎn)芯片)異構(gòu)GPU同時訓(xùn)練一個大模型。同時,目前壁仞科技打造的軟硬一體、全棧優(yōu)化、異構(gòu)協(xié)同、開源開放的大模型整體解決方案可以實現(xiàn)千卡集群、千億參數(shù)的自動斷點續(xù)訓(xùn)小于10分鐘,15天連續(xù)訓(xùn)練不中斷,4天連續(xù)訓(xùn)練無故障。

壁仞科技還透露,其正聯(lián)合客戶、合作伙伴、科研機構(gòu)共同推動異構(gòu)GPU協(xié)同訓(xùn)練生態(tài),具體包括:中國移動、中國電信、商湯科技、國網(wǎng)智能電網(wǎng)研究院有限公司、上海智能算力科技有限公司、上海人工智能實驗室、中國信息通信研究院等。

據(jù)悉,在此之前,AI Infra公司無問芯穹的4+2芯片,最多支持2種GPU同時訓(xùn)練。

壁仞科技成立于2019年,主要研發(fā)高性能通用GPU,致力于做自主原創(chuàng)的高性能GPU軟硬件體系,打造國產(chǎn)自主智能計算產(chǎn)業(yè)生態(tài)。

壁仞科技創(chuàng)始人、董事長、CEO張文曾表示,“芯片行業(yè)特別是通用智能芯片行業(yè),是典型的資本密集和人才密集型的行業(yè),加上大規(guī)模場景應(yīng)用,構(gòu)成了推動企業(yè)邁向成功的三大要素。”

實際上,算力作為數(shù)字經(jīng)濟的核心生產(chǎn)力,是當(dāng)前推動AI、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)創(chuàng)新與應(yīng)用的基礎(chǔ)支撐,而GPU和 AI 芯片則是算力中的核心要素。

隨著ChatGPT引發(fā)全球 AI 大模型熱潮,算力需求不斷增長,研發(fā)成本不斷提升,同時各國面臨“主權(quán)AI”的爭奪。那么,如何在有限的大模型算力和集群規(guī)模下,利用軟件優(yōu)化效率和異構(gòu)集成方法,從而提高芯片性能,以及增長算力規(guī)模,就變得異常重要了。

但當(dāng)前,英偉達和國產(chǎn)芯片之間的異構(gòu)協(xié)同,即不同的GPU軟件棧如何相互融合,是當(dāng)前圍繞國產(chǎn)算力如何變得好用的重要課題之一。

以上海臨港的一個集群為例,其使用了22家國產(chǎn)芯片公司的58款 AI 芯片產(chǎn)品,通過多樣芯片擴大算力供給,使得適配訓(xùn)練框架消耗較長,總投入成本達到約10000人天。其中,適配成本約為3人天/算子,模型適配成本約為10人天/模型,通信庫和運行時適配成本約為500人天。同時大量的異構(gòu)芯片形成了算力孤島,無法有效聚合支持更大模型訓(xùn)練的算力需求。

丁云帆坦言,當(dāng)前異構(gòu)GPU協(xié)同訓(xùn)練仍然存在諸多挑戰(zhàn),如異構(gòu)GPU互聯(lián)互通難、異構(gòu)GPU通信效率低、異構(gòu)GPU協(xié)同訓(xùn)練木桶效益、異構(gòu)GPU協(xié)同調(diào)度難、如何兼容不同硬件(英偉達、多種國產(chǎn)芯片)等。

為了解決用戶需求和技術(shù)挑戰(zhàn),壁仞科技團隊攻堅異構(gòu)GPU訓(xùn)練難點,自主研發(fā)出原創(chuàng)異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,通過異構(gòu)調(diào)度、異構(gòu)通信、異構(gòu)拆分三層架構(gòu),實現(xiàn)了一套統(tǒng)一方案支持多種不同型號、不同廠商的GPU,業(yè)界首次支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個大模型。

壁仞科技表示,這一異構(gòu)GPU協(xié)同訓(xùn)練方案對于行業(yè)端有兩個意義:1、該方案最終價值實現(xiàn)了國產(chǎn)GPU和英偉達GPU的異構(gòu)共存,突破異構(gòu)算力孤島難題,加快國產(chǎn)GPU的落地遷移,助力國產(chǎn)大模型落地;2、該方案賦能整個算力產(chǎn)業(yè)發(fā)展,壁仞HGCT方案具備普適性、易用性、兼容性,助力最終客戶實現(xiàn)多種異構(gòu)算力聚合,最大化異構(gòu)GPU集群利用效率。

另外,基于已落地的千卡算力集群和技術(shù)能力,壁仞科技還推出BIRENSUPA生態(tài)方案,基于開放的 AI 算力軟件生態(tài)體系,賦能運營商、智算中心、大模型、能源、金融等領(lǐng)域的客戶和開發(fā)者。

“AI 芯片是一個技術(shù)密集型的產(chǎn)業(yè),首先要有足夠強的技術(shù),這不是‘紙上談兵’,而是需要人才、資金和產(chǎn)業(yè)領(lǐng)域的認(rèn)知度,芯片不能犯錯,只要有一處錯誤,有可能就是致命錯誤。因此,企業(yè)需跨過很多障礙,市場也需要給 AI 芯片企業(yè)更多的耐心。”丁云帆對鈦媒體App表示。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港