展會信息港展會大全

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-07 07:19:37   瀏覽:173次  

導(dǎo)讀:明敏 克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI剛剛,大模型競技場榜單上再添一款國產(chǎn)模型來自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以總分1332的成績位列總榜第七。同時還一舉超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。特別是在編程、數(shù)學(xué)等方面表現(xiàn)格外突出,能夠與滿血o1、DeepSeek-R1并列第一。Chatbot Arena是由LMSYS Org推出的大模型性能測試平臺,目前集成了190 ......

明敏 克雷西 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

剛剛,大模型競技場榜單上再添一款國產(chǎn)模型

來自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以總分1332的成績位列總榜第七。

同時還一舉超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

特別是在編程、數(shù)學(xué)等方面表現(xiàn)格外突出,能夠與滿血o1、DeepSeek-R1并列第一。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

Chatbot Arena是由LMSYS Org推出的大模型性能測試平臺,目前集成了190多種模型,采用模型兩兩組隊交給用戶盲測,根據(jù)真實對話體驗對模型能力進(jìn)行投票。

也正因此, Chatbot Arena LLM Leaderboard是全球頂級大模型的最權(quán)威、最重要的競技場。

在其新開的網(wǎng)頁應(yīng)用開發(fā)WebDev榜單上,Qwen2.5-Max也沖進(jìn)了前十。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

對此lmsys官方評價說,中國AI正在快速縮小差距!

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

并且親身使用過的網(wǎng)友表示,相比之下Qwen的表現(xiàn)更加穩(wěn)定。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

還有人說,Qwen很快就會取代硅谷的所有普通模型。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

四種單項能力登頂綜合榜單前三名中第一、二名被谷歌Gemini家族包攬,GPT-4o和DeepSeek-R1并列第三。

Qwen2.5-Max則是和o1-preview一起并列第七名,稍遜于滿血o1。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

接下來Qwen2.5-Max在各個單項中的表現(xiàn)。

在邏輯性較強的數(shù)學(xué)和代碼任務(wù)當(dāng)中,Qwen2.5-Max的成績都超過了o1-mini,和滿血o1以及DeepSeek-R1并列第一。

并且在數(shù)學(xué)榜單上并列第一的模型當(dāng)中,Qwen2.5-Max是唯一一個非推理模型。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

如果仔細(xì)觀察具體的對戰(zhàn)記錄,還可以發(fā)現(xiàn),Qwen2.5-Max在代碼能力上和滿血o1進(jìn)行PK的勝率達(dá)到了69%。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

復(fù)雜提示詞任務(wù)中,Qwen2.5-Max和o1-preview并列第二,如果僅限英文則可以排到第一,和o1-preview、DeepSeek-R1等平起平坐。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

另外,Qwen2.5-Max的多輪對話能力也和DeepSeek-R1并列第一;長文本(不低于500tokens)則排行第三,超過了o1-preview。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

此外,阿里還在技術(shù)報告中展示了Qwen2.5-Max在一些經(jīng)典榜單上的表現(xiàn)。

其中指令模型的對比當(dāng)中,Qwen2.5-Max在Arena-Hard(近似人類偏好)、MMLU-Pro(大學(xué)水平知識)等基準(zhǔn)當(dāng)中,都和GPT-4o以及Claude 3.5-Sonnet處于近似或更高的水準(zhǔn)。

在開源的基座模型對比當(dāng)中,Qwen2.5-Max的成績也全面超過了DeepSeek-V3,并遙遙領(lǐng)先于Llama 3.1-405B。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

至于base model,Qwen2.5-Max在大多數(shù)基準(zhǔn)測試中,也都展現(xiàn)出了顯著的優(yōu)勢(閉源模型base model無法訪問,只能比較開源模型)。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

代碼/推理突出,支持ArtifactsQwen2.5-Max上線后,大量網(wǎng)友都來實測。

目前發(fā)現(xiàn)它在代碼、推理等方面的表現(xiàn)突出。

比如讓它用JavaScript寫一個象棋游戲。

因為具備Artifacts功能,一句話開發(fā)的小游戲,可立刻開玩:

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

它生成的代碼往往更簡單易讀好用。

復(fù)雜提示詞的推理問題上,Qwen2.5-Max快速又準(zhǔn)確:

您的團(tuán)隊處理客戶請求共有3步:

數(shù)據(jù)收集(階段A):每個請求需要5分鐘。處理(階段B):每個請求需要10分鐘。驗證(階段C):每個請求花費8分鐘。

團(tuán)隊當(dāng)前按順序操作,但您正在考慮并行工作流。如果每個階段分配兩個人,并允許并行工作流程,則每小時的產(chǎn)出將增加20%。然而,添加并行工作流在操作開銷上要多花費15%?紤]到時間和成本,你是否應(yīng)該使用并行工作流程來優(yōu)化效率?

Qwen2.5-Max不到30秒就可以完成全部推理,將整體過程清晰分為5步:當(dāng)前工作流分析、并行工作流分析、成本含義、成本效率權(quán)衡、結(jié)論。

最終很快得出結(jié)論:應(yīng)該使用并行工作流程。

與同為非推理模型的DeepSeek-V3相比,Qwen2.5-Max的回答更簡潔迅速。

亦或是讓它生成一個由ASCII數(shù)字組成的旋轉(zhuǎn)球體,離視角最近的數(shù)字是純白的,最遠(yuǎn)的逐漸變成灰色,背景是黑色。

數(shù)單詞中特定字母的數(shù)量更是不在話下。

如果你也想上手實測,Qwen2.5-Max已在Qwen Chat平臺上線,可免費體驗。

企業(yè)用戶可以在阿里云百煉調(diào)用Qwen2.5-Max模型的API。

阿里Qwen2.5-Max反超DeepSeek-V3!網(wǎng)友:中國AI正在快速縮小差距

感興趣的同學(xué),速來嘗鮮吧~

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港