轉(zhuǎn)載整理自 智子引擎
量子位 | 公眾號(hào) QbitAI
隨著多模態(tài)大模型的快速發(fā)展,當(dāng)前主流多模態(tài)大模型具備完成多種任務(wù)的能力(圖文描述、視覺(jué)問(wèn)答、文字識(shí)別、圖標(biāo)理解、目標(biāo)檢測(cè)等)。但是,這些不同的多模態(tài)任務(wù)往往具有完全不同的數(shù)據(jù)分布,導(dǎo)致在模型訓(xùn)練過(guò)程中遇到“多任務(wù)沖突”的問(wèn)題,尤其在模型參數(shù)量較小時(shí),這種問(wèn)題尤為突出。如何才能在有限增加模型參數(shù)量以及訓(xùn)練成本的條件下,高效地?cái)U(kuò)展模型容量,緩解多模態(tài)大模型“多任務(wù)沖突”問(wèn)題?
近日,針對(duì)這一挑戰(zhàn),來(lái)自大模型初創(chuàng)公司智子引擎的研究團(tuán)隊(duì)開(kāi)源了基于MoE架構(gòu)的多模態(tài)大模型Awaker2.5-VL。Awaker2.5-VL通過(guò)設(shè)置多個(gè)專家,擴(kuò)展了模型在不同任務(wù)上的能力,有效地緩解了多模態(tài)“多任務(wù)沖突”的問(wèn)題。該模型還對(duì)MoE中門控網(wǎng)絡(luò)的路由策略進(jìn)行了細(xì)致的研究,并設(shè)計(jì)了一個(gè)簡(jiǎn)單且十分有效的路由策略,提升了模型訓(xùn)練的穩(wěn)定性。目前,Awaker2.5-VL的論文和代碼已經(jīng)公開(kāi),后續(xù)還會(huì)更新更強(qiáng)的版本。
論文地址:https://arxiv.org/abs/2411.10669
代碼倉(cāng)庫(kù):https://github.com/MetabrainAGI/Awaker
模型架構(gòu)Awaker2.5-VL采用參數(shù)高效的LoRA-MoE架構(gòu),如下圖(左)所示。該架構(gòu)包含多個(gè)Task Expert和一個(gè)Global Expert,分別學(xué)習(xí)專用知識(shí)和通用知識(shí),每個(gè)專家都是一個(gè)LoRA結(jié)構(gòu)。此外,該架構(gòu)還包含一個(gè)門控網(wǎng)絡(luò)用于控制專家的激活。這種MoE架構(gòu)可以在Attention、MLP等結(jié)構(gòu)中執(zhí)行快速插入的操作,并且還可以通過(guò)調(diào)整每個(gè)LoRA的秩自行調(diào)整模型的參數(shù)量。Awaker2.5-VL還設(shè)計(jì)了一個(gè)簡(jiǎn)化版的MoE架構(gòu),如下圖(右)所示,在這個(gè)簡(jiǎn)化版MoE中,門控網(wǎng)絡(luò)被移除,而是由其它層MoE共享的路由結(jié)果控制專家的激活。Awaker2.5-VL在基座模型中的不同模塊穿插使用這兩種MoE架構(gòu)。
Awaker2.5-VL采用的兩種MoE架構(gòu)
Awaker2.5-VL針對(duì)MoE架構(gòu)中門控網(wǎng)絡(luò)的路由策略進(jìn)行了研究,并設(shè)計(jì)了一種簡(jiǎn)單且有效的Instance-level的路由策略。該策略將圖片和問(wèn)題的Embedding作為門控網(wǎng)絡(luò)的輸入,并且為了保持訓(xùn)練和推理時(shí)路由的一致性,訓(xùn)練時(shí)數(shù)據(jù)中的label部分不參與路由。此外,與傳統(tǒng)MoE不同的是,Awaker2.5-VL每一層MoE的門控網(wǎng)絡(luò)都共享相同的輸入。這種簡(jiǎn)單高效的路由策略降低了模型的復(fù)雜度,提高了模型的穩(wěn)定性。
模型訓(xùn)練Awaker2.5-VL以Qwen2-VL-7B-Instruct作為基座模型進(jìn)行實(shí)現(xiàn),總模型參數(shù)量為10.8B。訓(xùn)練分為三個(gè)階段,如下圖所示。第一階段,初始化訓(xùn)練。在該階段基座模型被凍結(jié),并設(shè)置一個(gè)單LoRA進(jìn)行訓(xùn)練。第二階段,MoE訓(xùn)練。該階段進(jìn)行整個(gè)MoE模塊的訓(xùn)練(包括每個(gè)專家和門控網(wǎng)絡(luò)),其中每個(gè)專家都使用第一階段訓(xùn)練的LoRA進(jìn)行參數(shù)初始化。第三階段,指令微調(diào)階段。該階段將MoE的門控網(wǎng)絡(luò)凍結(jié),僅訓(xùn)練每個(gè)“專家”,將進(jìn)一步加強(qiáng)模型的指令跟隨能力。同時(shí),該階段的訓(xùn)練策略也適用于基座模型在其他下游任務(wù)微調(diào)的場(chǎng)景。
Awaker2.5-VL的三階段訓(xùn)練過(guò)程
Awaker2.5-VL一共使用了1200萬(wàn)的指令數(shù)據(jù)進(jìn)行模型訓(xùn)練,其中包括700萬(wàn)的英文數(shù)據(jù)和500萬(wàn)的中文數(shù)據(jù)。英文數(shù)據(jù)主要來(lái)源于開(kāi)源數(shù)據(jù),包括Cambrian (2M)、LLaVAOneVision (4M)、Infinity-MM (800K)、MathV360k (360K)等。中文數(shù)據(jù)則是智子引擎團(tuán)隊(duì)的自建數(shù)據(jù)集,包括圖文描述、圖文問(wèn)答、目標(biāo)檢測(cè)、文字識(shí)別等多種任務(wù)數(shù)據(jù)。
模型性能Awaker2.5-VL主要在MME-Realworld系列和MMBench系列Benchmark上分別進(jìn)行了中文測(cè)評(píng)和英文測(cè)評(píng)。MME-Realworld是當(dāng)前最難、規(guī)模最大多模態(tài)評(píng)測(cè)基準(zhǔn),而MMBench是主流多模態(tài)大模型參評(píng)最多的評(píng)測(cè)基準(zhǔn)之一。
Awaker2.5-VL在MME-Realworld和MME-Realworld-CN都位列榜首,且是目前唯一在該Benchmark上“及格”(超過(guò)60分)的模型?紤]到MME-Realworld主要面向自動(dòng)駕駛、遙感、視頻監(jiān)控等復(fù)雜場(chǎng)景,Awaker2.5-VL在MME-Realworld上的出色表現(xiàn)很好地展示它在落地應(yīng)用中的巨大潛力。
Awaker2.5-VL分別在MMBench、MMBench_v1.1、MMBench_CN、MMBench_CN_v1.1四個(gè)榜單進(jìn)行了測(cè)評(píng),并且分別以英文能力平均分?jǐn)?shù)(MMBench和MMBench_v1.1)和中文能力平均分?jǐn)?shù)(MMBench_CN和MMBench_CN_v1.1)進(jìn)行排序。Awaker2.5-VL在中文場(chǎng)景和英文場(chǎng)景中分別位列第9和第7。在同量級(jí)參數(shù)量的模型中,Awaker2.5-VL表現(xiàn)遠(yuǎn)超其他模型。這就是說(shuō)Awaker2.5-VL能夠兼顧模型效果和資源消耗,也進(jìn)一步證明它具有極大的落地應(yīng)用價(jià)值。
模型應(yīng)用2024年,智子引擎已經(jīng)成功地將Awaker2.5-VL應(yīng)用于多個(gè)復(fù)雜的實(shí)際場(chǎng)景,包括國(guó)家電網(wǎng)、社會(huì)治理、服務(wù)型機(jī)器人等。在即將到來(lái)的2025年,智子引擎將繼續(xù)探索Awaker2.5-VL更多的落地應(yīng)用場(chǎng)景。為了鼓勵(lì)這種探索,智子引擎選擇開(kāi)源Awaker2.5-VL,基于戰(zhàn)略合作伙伴清昴智能的華為騰原生工具鏈MLGuider-Ascend,Awaker2.5-VL已適配騰全產(chǎn)品線,希望更多生態(tài)伙伴能夠參與進(jìn)來(lái)。同時(shí),為了加速國(guó)產(chǎn)化AI進(jìn)程,Awaker系列開(kāi)源模型與清昴智能已形成標(biāo)準(zhǔn)的騰國(guó)產(chǎn)方案,將上線至騰平臺(tái),歡迎大家關(guān)注和使用。