展會信息港展會大全

AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-18 22:06:16   瀏覽:258次  

導(dǎo)讀:機(jī)器之心報(bào)道編輯:杜偉、陳陳Scale AI 等提出的新基準(zhǔn)再次暴露了大語言模型的弱點(diǎn)。又又又一個(gè)超高難度的推理基準(zhǔn)測試向 AI 發(fā)出了挑戰(zhàn)!大語言模型的進(jìn)展伴隨著評估基準(zhǔn)的不斷進(jìn)步,各種難度、覆蓋不同學(xué)科的評估基準(zhǔn)被用來測試這些模型的各項(xiàng)能力。比如前幾天,Center for AI Safety(AI 安全中心)與 Scale AI 聯(lián)合打造了全新基準(zhǔn):Humanity's Last Exam,即「人類的最 ......

機(jī)器之心報(bào)道

編輯:杜偉、陳陳

Scale AI 等提出的新基準(zhǔn)再次暴露了大語言模型的弱點(diǎn)。

又又又一個(gè)超高難度的推理基準(zhǔn)測試向 AI 發(fā)出了挑戰(zhàn)!大語言模型的進(jìn)展伴隨著評估基準(zhǔn)的不斷進(jìn)步,各種難度、覆蓋不同學(xué)科的評估基準(zhǔn)被用來測試這些模型的各項(xiàng)能力。比如前幾天,Center for AI Safety(AI 安全中心)與 Scale AI 聯(lián)合打造了全新基準(zhǔn):Humanity's Last Exam,即「人類的最后考試」,簡稱 HLE。這個(gè)新基準(zhǔn)對主流的推理模型提出了巨大挑戰(zhàn),結(jié)果顯示 DeepSeek-R1、o1 的準(zhǔn)確度都低于 10%。如今,一個(gè)比「人類的最后考試」更苛刻的基準(zhǔn)出現(xiàn)了,它就是同樣由 Scale AI、Center for AI Safety 以及 MIT 的研究者聯(lián)合推出的 ENIGMAEVAL。這是一個(gè)針對高難度問題的基準(zhǔn),其格式多種多樣,涵蓋了從解謎尋寶(puzzle hunts)抽取的文本和圖像難題。Puzzle hunts 是一種團(tuán)隊(duì)解謎競賽,測試了參與者的邏輯推理、創(chuàng)造性思維、團(tuán)隊(duì)協(xié)作以及跨學(xué)科知識運(yùn)用能力。它們通常包含一系列復(fù)雜的謎題,每個(gè)謎題的解答可能會涉及文字游戲、數(shù)學(xué)、密碼學(xué)、圖像分析、程序編寫、文化常識等多個(gè)領(lǐng)域。對于 ENIGMAEVAL 基準(zhǔn),研究者使用了原始的多模態(tài)問題和高質(zhì)量的人工轉(zhuǎn)錄版本,從而評估大語言模型的端到端能力以及它們的獨(dú)立推理能力。這種設(shè)計(jì)選擇使得研究者能夠區(qū)分模型的性能限制源于它們的推理能力,而不是解析復(fù)雜文檔或處理不同模態(tài)的能力。AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

論文標(biāo)題:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges

論文地址:https://arxiv.org/pdf/2502.08859

榜單地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基準(zhǔn)上,研究者對現(xiàn)有多模態(tài)和推理基準(zhǔn)上表現(xiàn)優(yōu)異的前沿語言模型進(jìn)行了評估。結(jié)果顯示,包括 OpenAI o1 在內(nèi)的 SOTA 模型在普通謎題(Normal)上的準(zhǔn)確率最高僅為 7.0% 左右,在困難謎題(Hard)上的準(zhǔn)確率則降至 0%,遠(yuǎn)遠(yuǎn)不及經(jīng)驗(yàn)豐富的人類解謎者。AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

有趣的是,從轉(zhuǎn)錄的謎題到原始 PDF 版的謎題,模型性能可能會急劇下降,這表明了一些前沿模型仍然受限于 OCR 和解析能力。雖然研究者最開始假設(shè)原始謎題格式可能會造成額外的困難,但對模型成功案例的詳細(xì)分析表明,它們已經(jīng)針對復(fù)雜文檔的處理進(jìn)行了很好的優(yōu)化。AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

研究者表示,ENIGMAEVAL 將與「人類的最后考試」一起構(gòu)建全新的 LLM 基準(zhǔn),通過極具挑戰(zhàn)性的任務(wù)揭露當(dāng)前大語言模型的局限性。正如一些網(wǎng)友評論所說,看起來 AI 離真正理解世界還有很長的路要走。AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

另外,該基準(zhǔn)測試中沒有將 DeepSeek R1 納入在內(nèi),所以很好奇它的表現(xiàn)如何。AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

ENIGMAEVAL 基準(zhǔn)ENIGMAEVAL 包含 1184 道謎題,每個(gè)謎題通常需要一群經(jīng)驗(yàn)豐富的人花費(fèi)數(shù)小時(shí)甚至數(shù)天才能解決。其有兩種格式:(1)原始 PDF 的 PNG 圖像(如頁面截圖),用于測試模型端到端的性能;(2)結(jié)構(gòu)化的文本 - 圖像表示,保留了語義關(guān)系和視覺元素,用于有針對性地評估模型多模態(tài)推理能力,同時(shí)減少干擾和預(yù)處理負(fù)擔(dān)。ENIGMAEVAL 來源如下(表 1),按照難度分組為 Normal (949 道題)和 Hard (235 道題)兩大部分:AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

普通謎題示例(Normal):AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

困難謎題示例(Hard):AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

除了這些謎題,本文還收集了相應(yīng)的解決方案文檔,以 PDF 或 HTML 頁面的形式提供。實(shí)驗(yàn)本文在 ENIGMAEVAL 基準(zhǔn)上測試了最先進(jìn)的 LLM 的深度推理能力。結(jié)果模型在解答謎題方面的表現(xiàn)并不出色 。所有前沿的視覺 - 語言模型在此次評估中的準(zhǔn)確率都顯著偏低,即便是領(lǐng)先的模型(o1)在常規(guī)難度部分也僅達(dá)到 7.0% 的準(zhǔn)確率,在困難難度部分更是達(dá)到了 0%(見表 2)。所有測試模型在困難難度部分完全失。(zhǔn)確率為 0%),這強(qiáng)調(diào)了這些模型在面對更為復(fù)雜的謎題變體時(shí)所遭遇的重大挑戰(zhàn)。AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

此外,本文還使用 o1 模型對其自身生成的答案進(jìn)行審核,以檢查是否存在抄襲或荒謬的推理鏈條,這是通過將前沿模型生成的逐步解決方案與官方謎題解析(附錄 B.3)進(jìn)行對比來實(shí)現(xiàn)的。每一個(gè)被 o1 標(biāo)記的案例都經(jīng)了人工檢查,結(jié)果發(fā)現(xiàn)審核模型幻覺般地提供了抄襲的證據(jù),這表明實(shí)驗(yàn)所采用的模型是獨(dú)立得出正確答案的。THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港