AI未來指北特約作者 蘇揚
編輯 鄭可君
智源研究院(以下簡稱智源)于12月19日公布了最新一期FlagEval大模型評測榜單,結(jié)果顯示語言模型的能力趨于穩(wěn)定,國產(chǎn)多模態(tài)模型能力則在快速進化。
FlagEval是智源2023年6月上公布的大模型評測體系,目前已覆蓋800+開源、閉源模型以及90多個評測數(shù)據(jù)集和200萬條評測題目。此次評測覆蓋國內(nèi)外100余個開源、閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型。
林詠華現(xiàn)場介紹FlagEval新一期評測覆蓋的大模型類別
語言模型評測覆蓋國內(nèi)外40多個模型,主客觀評測總計2.2萬道題目,字節(jié)Doubao-pro-32k-preview和OpenAI o1 mini-2024-09-12分別在主觀(含價值觀)、客觀(不含價值觀)評測中排行第一。
智源研究院副院長、總工程師林詠華強調(diào),語言模型主觀評測僅評測對話模型,重點考察模型的中文能力,“語言模型,針對一般中文場景的開放式問答或者生成任務(wù),模型能力已趨于飽和穩(wěn)定,但是復雜場景任務(wù)上的表現(xiàn),國內(nèi)頭部語言模型仍然與國際一流水平存在顯著差距!
視覺語言多模態(tài)模型(以文字、圖片等多模態(tài)信息輸入,以文本輸出)評測,總計采用了2.5萬道題目,涉及40個模型,OpenAI GPT-4o-2024-11-20位列第一。
該項評測下排名前5的模型當中,開源模型僅有阿里巴巴Qwen2-VL-72B-Instruct一家。“開源模型數(shù)量大增,但商業(yè)機構(gòu)的閉源模型發(fā)展速度超過開源模型。”林詠華說。
林詠華在演講中透露,“較好的開源模型在圖文理解任務(wù)上,正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識別,以及復雜圖文數(shù)據(jù)分析能力仍有提升空間!
文生圖、文生視頻多模態(tài)模型評測當中,騰訊Hunyuan Image與快手可靈1.5(高品質(zhì))分別位居第一,兩項評測排名前5均為閉源模型。
林詠華表示,“互聯(lián)網(wǎng)大廠,尤其短視頻大廠,得益于海量高質(zhì)數(shù)據(jù),在文生圖、文生視頻上進步明顯,且第一梯隊模型能力接近!
對于文生圖模型,林詠華表示今年上半年參評的模型普遍無法生成正確的中文文字,此次頭部模型已經(jīng)具備該能力,但她也強調(diào)復雜場景,復雜數(shù)量關(guān)系等生成上仍然存在問題!(參評模型)普遍存在復雜場景人物變形的情況,針對常識或知識性推理任務(wù),大于3的數(shù)量關(guān)系依然無法處理,涉及中國文化和古詩詞理解的場景對于模型而言是不小的挑戰(zhàn)!
而對于文生視頻模型,林詠華強調(diào):“畫質(zhì)提升、動態(tài)性強,轉(zhuǎn)場流暢,但普遍存在大幅度動作變形、無法理解物理規(guī)律、穿模等問題。”
林詠華表示,“因為采用的是無監(jiān)督學習,所以(我們)不只是發(fā)布評測結(jié)果,也是對模型能力的探索!
在林詠華看來,語言模型已經(jīng)從基礎(chǔ)能力攀升,進入復雜應(yīng)用落地的階段,而多模態(tài)模型的能力明顯比上半年優(yōu)秀,但目前仍然處于能力攀升階段。
為了確保評測的客觀公正,智源表示目前已經(jīng)就FlagEval的評測方法與工具與全國10余家高校和機構(gòu)合作,為規(guī)避數(shù)據(jù)集泄露風險以及數(shù)據(jù)集飽和度問題,本次評測吸納了近期發(fā)布的數(shù)據(jù)集并持續(xù)動態(tài)更新評測數(shù)據(jù),替換了98%的題目,并提升了題目的難度。
智源強調(diào)稱開源模型均采用模型發(fā)布方推薦的推理代碼及運行環(huán)境,同時采用統(tǒng)一通用的提示詞。在文生視頻主觀能力、語音大模型能力等評測專項當中,都引入了專家評估團隊,且所有人工評測均為多人評價擬合的結(jié)果,主觀評測每題至少3人閱卷,文生視頻則至少有7人閱卷。
盡管在客觀、公正上做了大量前置準備,林詠華也不否認目前評測存在的局限性,包括范圍局限、時間局限、數(shù)據(jù)局限等,“中文評測數(shù)據(jù)的廣度、多樣性都不如英文,全球?qū)W界和開源社區(qū)發(fā)布的大量數(shù)據(jù)集都還是英文!
公開資料顯示,類似FlagEval的大模型評測體系還包括上海人工智能實驗室的司南(OpenCompass 2.0)、信通院的“方升”、HuggingFace上的Open LLM LeaderBoard等。
以司南為例,在今年1月下旬亮相時對外稱其試圖將模型在知識、語言、理解、推理和考試等五大能力維度的表現(xiàn)進行量化,其2023年度大模型評測榜單顯示,GPT-4 Turbo從150多個模型當中脫穎而出,在各項評測中均獲最佳表現(xiàn)。
評測體系琳瑯滿目,統(tǒng)一的必要性就成了需要關(guān)注的問題,對此林詠華持正面態(tài)度,她認為(統(tǒng)一)的確會避免很多重復的工作,但也強調(diào)不同機構(gòu)之間在標準、技術(shù)上很難對齊,“智源也在組織統(tǒng)一標準的事情,我們也是IEEE大模型評測小組成員,目前聯(lián)動了30多家相關(guān)企業(yè),但這個標準在全球執(zhí)行,難度還是挺大的!