三级片毛片视频无码区,欧美日韩一级AⅤ在线影院 ,97国产精品视频观看

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:54:05 瀏覽：195次

導(dǎo)讀：智東西（公眾號：zhidxcom）作者 | 徐豫編輯 | 漠影還有不到一周就2025年了，各大社交音娛平臺相繼自動彈出“年度報告”的搜索選項。身處AI元年，AI模型這份年終答卷，自然也少不了。智東西12月25日報道，智源研究院12月19日發(fā)布了FlagEval“百模”評測結(jié)果，今年國產(chǎn)大模型與海外大模型戰(zhàn)況焦灼。在其閉源大模型評測能力總榜中，字節(jié)跳動的豆包通用模型pro拿到主觀評測最高分 ......

智東西（公眾號：zhidxcom）

作者 | 徐豫

編輯 | 漠影

還有不到一周就2025年了，各大社交音娛平臺相繼自動彈出“年度報告”的搜索選項。身處AI元年，AI模型這份年終答卷，自然也少不了。

智東西12月25日報道，智源研究院12月19日發(fā)布了FlagEval“百�！痹u測結(jié)果，今年國產(chǎn)大模型與海外大模型戰(zhàn)況焦灼。

在其閉源大模型評測能力總榜中，字節(jié)跳動的豆包通用模型pro拿到主觀評測最高分，OpenAI的o1-mini拿到客觀評測最高分；多模態(tài)模型評測總榜前三名依次是OpenAI的GPT-4o、字節(jié)跳動的豆包視覺理解模型、Anthropic的Claude 3.5 Sonnet。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲大語言模型評測能力榜單前三名（圖片來源：智源研究院）

此次評測包含國內(nèi)外累計100多個開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型，新增了對于AI模型任務(wù)解決能力、真實金融量化交易場景應(yīng)用能力、辯論能力的考量標(biāo)準(zhǔn)。

同時，為了盡可能降低數(shù)據(jù)集泄露風(fēng)險，并減少數(shù)據(jù)集飽和度問題，本次評測吸納了近期發(fā)布的數(shù)據(jù)集、持續(xù)動態(tài)更新評測數(shù)據(jù)、替換了98%的題目以及提升了題目的難度。

其實去年6月，智源研究院就上線了大模型評測平臺FlagEval，到現(xiàn)在該平臺已有基于AI的輔助評測模型FlagJudge、多模態(tài)評測框架FlagEvalMM和針對大模型新能力的評測集。其與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的、對話場景下的幻覺評測集，包含超18000個輪次對話和超14萬個回答。

從智源評測最新結(jié)果可以看出，今年下半年大模型發(fā)展更側(cè)重綜合能力提升與實際應(yīng)用；多模態(tài)模型快速發(fā)展，該領(lǐng)域內(nèi)涌現(xiàn)了不少新廠商與新AI模型；語言模型的發(fā)展則相對放緩。

得益于多模態(tài)能力的提升，AI模型最新K12學(xué)科測驗綜合得分相較于半年前提升了12.86%，但是仍與北京海淀學(xué)生平均水平存在差距。不過，AI模型普遍存在“文強(qiáng)理弱”的偏科情況，在英語和歷史文科試題的表現(xiàn)上，已有AI模型超越了人類考生的平均分。

谷歌Gemini 1.5 Pro、阿里巴巴Qwen-VL-Max、Anthropic Claude 3.5 Sonnet、階躍星辰Step 1V、南洋理工大學(xué)LLaVA-Onevision等7家AI模型的英語學(xué)科綜合得分高于人類考生；階躍星辰Step 1V、阿里巴巴Qwen-VL和Qwen-VL-Max、谷歌Gemini 1.5 Pro、南洋理工大學(xué)LLaVA-Onevision等12家AI模型的歷史學(xué)科綜合得分高于人類考生。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲大模型K12學(xué)科測驗歷史學(xué)科卷面分?jǐn)?shù)榜單前五名（圖片來源：智源研究院）

一、豆包中文對話能力最強(qiáng)，OpenAI o1系列推理水平斷層領(lǐng)先

基于智源評測結(jié)果，今年多款國產(chǎn)大模型綜合能力超過海外知名大模型。

在閉源大模型主觀評測中，豆包通用模型pro和百度ERNIE 4.0 Turbo的綜合評分均領(lǐng)先于OpenAI的o1-preview、o1-mini、GPT-4o；而在開源大模型主觀評測中，阿里巴巴Qwen2.5的綜合評分高于Meta Llama 3.3和Llama 3.1。

主觀評測更偏重考察大模型中文能力，而國產(chǎn)大模型在中文語言能力上具有普遍優(yōu)勢。

因此，從實際綜合評分可以看出，國產(chǎn)大模型占據(jù)了閉源大模型主觀評測榜單的大半壁江山。其前20名中共有15款國產(chǎn)大模型，占比75%，包括豆包通用模型pro、百度ERNIE 4.0 Turbo、阿里巴巴Qwen-Max、智譜華章GLM-4-Plus、階躍星辰Step 2等。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲大語言模型評測能力榜單主觀評測前五名（圖片來源：智源研究院）

不過，如果把大模型放在客觀評測池子里比較，國產(chǎn)大模型的表現(xiàn)仍與海外大模型有著一定差距。

OpenAI的o1-mini獲得客觀評測的最高分64.57，同樣屬于o1系列的o1-preview，以60.36的綜合評分位列榜單第二。該項評測中阿里巴巴的Qwen-Max和豆包通用模型pro各自的綜合評分為57.60和56.49，與o1-mini之間大概有7分的分差，與o1-preview之間大概有3分的分差。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲大語言模型評測能力榜單客觀評測前五名（圖片來源：智源研究院）

結(jié)合各項細(xì)分能力的評分來看，國產(chǎn)大模型更“重文輕理”，主要在推理、數(shù)學(xué)、代碼等方面落后于OpenAI的大模型。例如，即便是側(cè)重中文語境，OpenAI o1-preview仍拿到主觀評測任務(wù)解決板塊的最高分85.37，與第二名的79.52分和第三名的77.41分相比領(lǐng)先優(yōu)勢較為明顯。

二、多模態(tài)評測，國產(chǎn)大模型各擅勝場

據(jù)智源研究院調(diào)研，今年市面上頭部模型的多模態(tài)能力得到大幅提升，上半年參評的模型普遍無法生成正確的中文文字，但年末參評的頭部模型已經(jīng)具備中文文字生成能力。

從此次多模態(tài)模型評測數(shù)據(jù)來看，視覺語言模型平均排名前三分別是OpenAI的GPT-4o、豆包視覺理解模型和Anthropic的Claude 3.5 Sonnet。這三者中豆包的通用知識、文字識別等中文能力與其他兩家拉開了較大差距，若單看英文圖表理解表現(xiàn)則Claude的排名最靠前。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲視覺語言模型排行榜前三名（圖片來源：智源研究院）

面對文本、圖片、視頻、語音等多模態(tài)數(shù)據(jù)的處理時，豆包文生圖模型、豆包視頻生成模型“即夢P2.0 pro”分別在相應(yīng)測試中位列全球第二，騰訊Hunyuan Image文生圖水平全球第一，快手可靈1.5（高品質(zhì)版）文生視頻水平全球第一，阿里巴巴Qwen2-Audio語音語言水平全球第一。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲文生視頻模型排行榜前三名（左），文生圖模型排行榜前三名（右）（圖片來源：智源研究院）

目前，AI文生圖的技術(shù)整體趨于成熟，但AI文生視頻領(lǐng)域仍有較多挑戰(zhàn)。現(xiàn)階段，熱門的AI文生視頻模型有可靈1.5（高品質(zhì)版）、即夢P2.0 pro、愛詩科技PixVerse V3、Minimax海螺AI、Pika同名AI模型Pika 1.5等。

其中，位列榜單第一、二名的可靈和即夢均可生成時長10s的視頻，所生成的視頻在圖文一致性上也打成平手，但前者在AI視頻真實性和視頻質(zhì)量略勝一籌，后者則在AI視頻美學(xué)質(zhì)量和分辨率上實現(xiàn)反超。

上述幾家多模態(tài)模型中，只有阿里巴巴的走開源路線。對于多模態(tài)開源模型的實際效果，智源研究院方面稱，雖然開源模型架構(gòu)趨同，即通常采用語言塔和視覺塔的架構(gòu)，但具體表現(xiàn)不一。其中較好的開源模型，在圖文理解任務(wù)上正在縮小與頭部閉源模型的能力差距，而長尾視覺知識與文字識別，以及復(fù)雜圖文數(shù)據(jù)分析能力仍有提升空間。

三、AI模型更擅長反駁辯題，還可任職金融行業(yè)初級崗位

智源研究院在AI模型的年末評測中，新設(shè)置了對其辯論能力和金融量化交易能力的考核維度。

不到3個月前，智源研究院推出了一個名為FlagEval Debate的AI模型辯論平臺。該平臺主要從邏輯推理、觀點(diǎn)理解和語言表達(dá)等核心能力維度，深入評估AI語言模型的能力差異。

據(jù)最新評測結(jié)果，一方面AI大模型普遍缺乏辯論框架意識，不具備圍繞辯題、以整體邏輯綜合闡述的能力；另一方面AI大模型在辯論中仍然存在“幻覺”問題，給出的論據(jù)通常經(jīng)不起推敲。

相比于“正方”，AI大模型似乎更適合做辯論賽的“反方”。此次評測結(jié)果表明AI大模型更擅長反駁，各個模型所突出的辯論維度趨同。不過，遇到不同的辯題時AI模型間的表現(xiàn)差距會較為顯著。

總體來看，在FlagEval Debate評測中，Anthropic Claude 3.5 Sonnet、零一萬物Yi-Lighting、OpenAI o1-preview的綜合水平排行前三。

而在金融量化交易領(lǐng)域，此次評測發(fā)現(xiàn)大模型已具備生成有回撤收益的策略代碼的能力，能開發(fā)量化交易典型場景里的代碼，頭部AI模型能力已接近初級量化交易員的水平。

該榜單前5名依次是深度求索的DeepSeek-V2.5、OpenAI的GPT-4o、OpenAI的o1-mini、谷歌的Gemini 1.5 Pro和智譜華章的GLM-4-Plus。此外，百度、騰訊、字節(jié)跳動、商湯、阿里巴巴、百川智能和零一萬物等7家國產(chǎn)大模型開發(fā)商均有產(chǎn)品上榜。

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)

▲金融量化交易評測榜單前五名（圖片來源：智源研究院）

智源研究院主要用知識問答、交易策略的跑通率和夏普指數(shù)、指標(biāo)計算的跑通率和準(zhǔn)確率、計算性能的跑通率這6項指標(biāo)，來比較AI模型的金融量化交易能力。

其中，在知識問答方面，AI模型整體差異較小且整體分?jǐn)?shù)偏高，大部分得分介于0.97到1之間，最低分為Meta Llama 3.1的0.69。然而，面對實際代碼生成任務(wù)時，各AI模型差異較大，并且整體能力偏弱。

結(jié)語：國產(chǎn)大模型競爭加劇，下半場比拼商用質(zhì)量

在這場“百家爭鳴”中，國產(chǎn)大模型開發(fā)商們不僅鞏固了其AI模型的中文能力優(yōu)勢，還進(jìn)一步開發(fā)了文生圖、文生視頻、文生語音等多模態(tài)模型潛力。

過去一年，大模型領(lǐng)域也迎來了諸多新拐點(diǎn)，Scaling Law相對放緩、AI模型的數(shù)學(xué)能力從中學(xué)生水平躍升到博士生水平、OpenAI 12月底剛發(fā)布的推理模型o3性能接近甚至超過了人類水平、背靠AI模型的AI Agent概念和產(chǎn)品熱度攀升。

下一步，AI模型將從卷參數(shù)量邁向卷應(yīng)用場景，催熟商業(yè)化落地的效率和效益。

相關(guān)熱詞： ai模型 openai 豆包智東西智源研究院測評

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:54:05 瀏覽：195次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu) 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:54:05 瀏覽：195次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI大模型評測：豆包中文對話最強(qiáng)，OpenAI o1推理和數(shù)學(xué)占優(yōu)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-25 19:54:05 瀏覽：195次