IT之家 12 月 10 日消息,訓(xùn)練 AI 模型的瓶頸,目前不再僅僅是架構(gòu)設(shè)計(jì),數(shù)據(jù)管理效率也至關(guān)重要。Meta AI 最新推出了開源可擴(kuò)展且高性能的數(shù)據(jù)加載(SPDL)工具,通過(guò)提升數(shù)據(jù)加載效率,最終加快 AI 訓(xùn)練速度。
SPDL 工具采用多線程技術(shù),在常規(guī) Python 解釋器中(未啟用 free-threading 選項(xiàng))實(shí)現(xiàn)了高吞吐量,資源占用更低,并兼容 Free-Threaded Python。
核心優(yōu)勢(shì)SPDL 包含任務(wù)執(zhí)行器(流水線抽象)、構(gòu)建流水線的實(shí)用工具以及高效且線程安全的媒體處理操作,其核心是異步事件循環(huán),負(fù)責(zé)調(diào)度新任務(wù)和響應(yīng)任務(wù)完成。SPDL 通過(guò)將同步操作委托給線程異步執(zhí)行,實(shí)現(xiàn)真正的并發(fā)。
相比較傳統(tǒng)基于進(jìn)程(process)的處理方式,SPDL 工具升級(jí)改用基于線程(thread)的加載方式,有效避免了進(jìn)程間通信的開銷,顯著提升了數(shù)據(jù)傳輸速度。
該工具的另一個(gè)亮點(diǎn)在于預(yù)取和緩存技術(shù),確保 GPU 始終有數(shù)據(jù)可供處理,最大程度減少 GPU 空閑時(shí)間,提高系統(tǒng)整體效率。
無(wú)論是單 GPU 還是大型集群,SPDL 支持跨分布式系統(tǒng)工作,可以高效處理復(fù)雜任務(wù);SPDL 工具還無(wú)縫兼容主流 AI 框架 PyTorch,方便團(tuán)隊(duì)快速采用。
性能Meta 表示相比傳統(tǒng)基于進(jìn)程的方案,SPDL 吞吐量提升 2-3 倍;此外在禁用 GIL 的 Free-Threaded Python 環(huán)境中,SPDL 吞吐量提升 30%。
SPDL 提供性能監(jiān)控和調(diào)優(yōu)工具,方便用戶深入了解數(shù)據(jù)加載過(guò)程并進(jìn)行優(yōu)化。
IT之家附上參考地址