智東西(公眾號:zhidxcom)
作者 | 徐豫
編輯 | 漠影
還有不到一周就2025年了,各大社交音娛平臺相繼自動彈出“年度報告”的搜索選項。身處AI元年,AI模型這份年終答卷,自然也少不了。
智東西12月25日報道,智源研究院12月19日發(fā)布了FlagEval“百!痹u測結(jié)果,今年國產(chǎn)大模型與海外大模型戰(zhàn)況焦灼。
在其閉源大模型評測能力總榜中,字節(jié)跳動的豆包通用模型pro拿到主觀評測最高分,OpenAI的o1-mini拿到客觀評測最高分;多模態(tài)模型評測總榜前三名依次是OpenAI的GPT-4o、字節(jié)跳動的豆包視覺理解模型、Anthropic的Claude 3.5 Sonnet。
▲大語言模型評測能力榜單前三名(圖片來源:智源研究院)
此次評測包含國內(nèi)外累計100多個開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型,新增了對于AI模型任務(wù)解決能力、真實金融量化交易場景應(yīng)用能力、辯論能力的考量標(biāo)準(zhǔn)。
同時,為了盡可能降低數(shù)據(jù)集泄露風(fēng)險,并減少數(shù)據(jù)集飽和度問題,本次評測吸納了近期發(fā)布的數(shù)據(jù)集、持續(xù)動態(tài)更新評測數(shù)據(jù)、替換了98%的題目以及提升了題目的難度。
其實去年6月,智源研究院就上線了大模型評測平臺FlagEval,到現(xiàn)在該平臺已有基于AI的輔助評測模型FlagJudge、多模態(tài)評測框架FlagEvalMM和針對大模型新能力的評測集。其與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的、對話場景下的幻覺評測集,包含超18000個輪次對話和超14萬個回答。
從智源評測最新結(jié)果可以看出,今年下半年大模型發(fā)展更側(cè)重綜合能力提升與實際應(yīng)用;多模態(tài)模型快速發(fā)展,該領(lǐng)域內(nèi)涌現(xiàn)了不少新廠商與新AI模型;語言模型的發(fā)展則相對放緩。
得益于多模態(tài)能力的提升,AI模型最新K12學(xué)科測驗綜合得分相較于半年前提升了12.86%,但是仍與北京海淀學(xué)生平均水平存在差距。不過,AI模型普遍存在“文強(qiáng)理弱”的偏科情況,在英語和歷史文科試題的表現(xiàn)上,已有AI模型超越了人類考生的平均分。
谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、階躍星辰Step 1V、南洋理工大學(xué)LLaVA-Onevision等7家AI模型的英語學(xué)科綜合得分高于人類考生;階躍星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro、南洋理工大學(xué)LLaVA-Onevision等12家AI模型的歷史學(xué)科綜合得分高于人類考生。
▲大模型K12學(xué)科測驗歷史學(xué)科卷面分?jǐn)?shù)榜單前五名(圖片來源:智源研究院)
一、豆包中文對話能力最強(qiáng),OpenAI o1系列推理水平斷層領(lǐng)先
基于智源評測結(jié)果,今年多款國產(chǎn)大模型綜合能力超過海外知名大模型。
在閉源大模型主觀評測中,豆包通用模型pro和百度ERNIE 4.0 Turbo的綜合評分均領(lǐng)先于OpenAI的o1-preview、o1-mini、GPT-4o;而在開源大模型主觀評測中,阿里巴巴Qwen2.5的綜合評分高于Meta Llama 3.3和Llama 3.1。
主觀評測更偏重考察大模型中文能力,而國產(chǎn)大模型在中文語言能力上具有普遍優(yōu)勢。
因此,從實際綜合評分可以看出,國產(chǎn)大模型占據(jù)了閉源大模型主觀評測榜單的大半壁江山。其前20名中共有15款國產(chǎn)大模型,占比75%,包括豆包通用模型pro、百度ERNIE 4.0 Turbo、阿里巴巴Qwen-Max、智譜華章GLM-4-Plus、階躍星辰Step 2等。
▲大語言模型評測能力榜單主觀評測前五名(圖片來源:智源研究院)
不過,如果把大模型放在客觀評測池子里比較,國產(chǎn)大模型的表現(xiàn)仍與海外大模型有著一定差距。
OpenAI的o1-mini獲得客觀評測的最高分64.57,同樣屬于o1系列的o1-preview,以60.36的綜合評分位列榜單第二。該項評測中阿里巴巴的Qwen-Max和豆包通用模型pro各自的綜合評分為57.60和56.49,與o1-mini之間大概有7分的分差,與o1-preview之間大概有3分的分差。
▲大語言模型評測能力榜單客觀評測前五名(圖片來源:智源研究院)
結(jié)合各項細(xì)分能力的評分來看,國產(chǎn)大模型更“重文輕理”,主要在推理、數(shù)學(xué)、代碼等方面落后于OpenAI的大模型。例如,即便是側(cè)重中文語境,OpenAI o1-preview仍拿到主觀評測任務(wù)解決板塊的最高分85.37,與第二名的79.52分和第三名的77.41分相比領(lǐng)先優(yōu)勢較為明顯。
二、多模態(tài)評測,國產(chǎn)大模型各擅勝場
據(jù)智源研究院調(diào)研,今年市面上頭部模型的多模態(tài)能力得到大幅提升,上半年參評的模型普遍無法生成正確的中文文字,但年末參評的頭部模型已經(jīng)具備中文文字生成能力。
從此次多模態(tài)模型評測數(shù)據(jù)來看,視覺語言模型平均排名前三分別是OpenAI的GPT-4o、豆包視覺理解模型和Anthropic的Claude 3.5 Sonnet。這三者中豆包的通用知識、文字識別等中文能力與其他兩家拉開了較大差距,若單看英文圖表理解表現(xiàn)則Claude的排名最靠前。
▲視覺語言模型排行榜前三名(圖片來源:智源研究院)
面對文本、圖片、視頻、語音等多模態(tài)數(shù)據(jù)的處理時,豆包文生圖模型、豆包視頻生成模型“即夢P2.0 pro”分別在相應(yīng)測試中位列全球第二,騰訊Hunyuan Image文生圖水平全球第一,快手可靈1.5(高品質(zhì)版)文生視頻水平全球第一,阿里巴巴Qwen2-Audio語音語言水平全球第一。
▲文生視頻模型排行榜前三名(左),文生圖模型排行榜前三名(右)(圖片來源:智源研究院)
目前,AI文生圖的技術(shù)整體趨于成熟,但AI文生視頻領(lǐng)域仍有較多挑戰(zhàn)。現(xiàn)階段,熱門的AI文生視頻模型有可靈1.5(高品質(zhì)版)、即夢P2.0 pro、愛詩科技PixVerse V3、Minimax海螺AI、Pika同名AI模型Pika 1.5等。
其中,位列榜單第一、二名的可靈和即夢均可生成時長10s的視頻,所生成的視頻在圖文一致性上也打成平手,但前者在AI視頻真實性和視頻質(zhì)量略勝一籌,后者則在AI視頻美學(xué)質(zhì)量和分辨率上實現(xiàn)反超。
上述幾家多模態(tài)模型中,只有阿里巴巴的走開源路線。對于多模態(tài)開源模型的實際效果,智源研究院方面稱,雖然開源模型架構(gòu)趨同,即通常采用語言塔和視覺塔的架構(gòu),但具體表現(xiàn)不一。其中較好的開源模型,在圖文理解任務(wù)上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識別,以及復(fù)雜圖文數(shù)據(jù)分析能力仍有提升空間。
三、AI模型更擅長反駁辯題,還可任職金融行業(yè)初級崗位
智源研究院在AI模型的年末評測中,新設(shè)置了對其辯論能力和金融量化交易能力的考核維度。
不到3個月前,智源研究院推出了一個名為FlagEval Debate的AI模型辯論平臺。該平臺主要從邏輯推理、觀點(diǎn)理解和語言表達(dá)等核心能力維度,深入評估AI語言模型的能力差異。
據(jù)最新評測結(jié)果,一方面AI大模型普遍缺乏辯論框架意識,不具備圍繞辯題、以整體邏輯綜合闡述的能力;另一方面AI大模型在辯論中仍然存在“幻覺”問題,給出的論據(jù)通常經(jīng)不起推敲。
相比于“正方”,AI大模型似乎更適合做辯論賽的“反方”。此次評測結(jié)果表明AI大模型更擅長反駁,各個模型所突出的辯論維度趨同。不過,遇到不同的辯題時AI模型間的表現(xiàn)差距會較為顯著。
總體來看,在FlagEval Debate評測中,Anthropic Claude 3.5 Sonnet、零一萬物Yi-Lighting、OpenAI o1-preview的綜合水平排行前三。
而在金融量化交易領(lǐng)域,此次評測發(fā)現(xiàn)大模型已具備生成有回撤收益的策略代碼的能力,能開發(fā)量化交易典型場景里的代碼,頭部AI模型能力已接近初級量化交易員的水平。
該榜單前5名依次是深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro和智譜華章的GLM-4-Plus。此外,百度、騰訊、字節(jié)跳動、商湯、阿里巴巴、百川智能和零一萬物等7家國產(chǎn)大模型開發(fā)商均有產(chǎn)品上榜。
▲金融量化交易評測榜單前五名(圖片來源:智源研究院)
智源研究院主要用知識問答、交易策略的跑通率和夏普指數(shù)、指標(biāo)計算的跑通率和準(zhǔn)確率、計算性能的跑通率這6項指標(biāo),來比較AI模型的金融量化交易能力。
其中,在知識問答方面,AI模型整體差異較小且整體分?jǐn)?shù)偏高,大部分得分介于0.97到1之間,最低分為Meta Llama 3.1的0.69。然而,面對實際代碼生成任務(wù)時,各AI模型差異較大,并且整體能力偏弱。
結(jié)語:國產(chǎn)大模型競爭加劇,下半場比拼商用質(zhì)量
在這場“百家爭鳴”中,國產(chǎn)大模型開發(fā)商們不僅鞏固了其AI模型的中文能力優(yōu)勢,還進(jìn)一步開發(fā)了文生圖、文生視頻、文生語音等多模態(tài)模型潛力。
過去一年,大模型領(lǐng)域也迎來了諸多新拐點(diǎn),Scaling Law相對放緩、AI模型的數(shù)學(xué)能力從中學(xué)生水平躍升到博士生水平、OpenAI 12月底剛發(fā)布的推理模型o3性能接近甚至超過了人類水平、背靠AI模型的AI Agent概念和產(chǎn)品熱度攀升。
下一步,AI模型將從卷參數(shù)量邁向卷應(yīng)用場景,催熟商業(yè)化落地的效率和效益。