国内拍自产精品视频在线,欧美在线一区二区

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-18 22:06:16 瀏覽：258次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：杜偉、陳陳Scale AI 等提出的新基準(zhǔn)再次暴露了大語言模型的弱點(diǎn)。又又又一個(gè)超高難度的推理基準(zhǔn)測試向 AI 發(fā)出了挑戰(zhàn)！大語言模型的進(jìn)展伴隨著評估基準(zhǔn)的不斷進(jìn)步，各種難度、覆蓋不同學(xué)科的評估基準(zhǔn)被用來測試這些模型的各項(xiàng)能力。比如前幾天，Center for AI Safety（AI 安全中心）與 Scale AI 聯(lián)合打造了全新基準(zhǔn)：Humanity's Last Exam，即「人類的最 ......

機(jī)器之心報(bào)道

編輯：杜偉、陳陳

Scale AI 等提出的新基準(zhǔn)再次暴露了大語言模型的弱點(diǎn)。

又又又一個(gè)超高難度的推理基準(zhǔn)測試向 AI 發(fā)出了挑戰(zhàn)！大語言模型的進(jìn)展伴隨著評估基準(zhǔn)的不斷進(jìn)步，各種難度、覆蓋不同學(xué)科的評估基準(zhǔn)被用來測試這些模型的各項(xiàng)能力。比如前幾天，Center for AI Safety（AI 安全中心）與 Scale AI 聯(lián)合打造了全新基準(zhǔn)：Humanity's Last Exam，即「人類的最后考試」，簡稱 HLE。這個(gè)新基準(zhǔn)對主流的推理模型提出了巨大挑戰(zhàn)，結(jié)果顯示 DeepSeek-R1、o1 的準(zhǔn)確度都低于 10%。如今，一個(gè)比「人類的最后考試」更苛刻的基準(zhǔn)出現(xiàn)了，它就是同樣由 Scale AI、Center for AI Safety 以及 MIT 的研究者聯(lián)合推出的 ENIGMAEVAL。這是一個(gè)針對高難度問題的基準(zhǔn)，其格式多種多樣，涵蓋了從解謎尋寶（puzzle hunts）抽取的文本和圖像難題。Puzzle hunts 是一種團(tuán)隊(duì)解謎競賽，測試了參與者的邏輯推理、創(chuàng)造性思維、團(tuán)隊(duì)協(xié)作以及跨學(xué)科知識運(yùn)用能力。它們通常包含一系列復(fù)雜的謎題，每個(gè)謎題的解答可能會涉及文字游戲、數(shù)學(xué)、密碼學(xué)、圖像分析、程序編寫、文化常識等多個(gè)領(lǐng)域。對于 ENIGMAEVAL 基準(zhǔn)，研究者使用了原始的多模態(tài)問題和高質(zhì)量的人工轉(zhuǎn)錄版本，從而評估大語言模型的端到端能力以及它們的獨(dú)立推理能力。這種設(shè)計(jì)選擇使得研究者能夠區(qū)分模型的性能限制源于它們的推理能力，而不是解析復(fù)雜文檔或處理不同模態(tài)的能力。 AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

論文標(biāo)題：ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges

論文地址：https://arxiv.org/pdf/2502.08859

榜單地址：https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基準(zhǔn)上，研究者對現(xiàn)有多模態(tài)和推理基準(zhǔn)上表現(xiàn)優(yōu)異的前沿語言模型進(jìn)行了評估。結(jié)果顯示，包括 OpenAI o1 在內(nèi)的 SOTA 模型在普通謎題（Normal）上的準(zhǔn)確率最高僅為 7.0% 左右，在困難謎題（Hard）上的準(zhǔn)確率則降至 0%，遠(yuǎn)遠(yuǎn)不及經(jīng)驗(yàn)豐富的人類解謎者。 AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

有趣的是，從轉(zhuǎn)錄的謎題到原始 PDF 版的謎題，模型性能可能會急劇下降，這表明了一些前沿模型仍然受限于 OCR 和解析能力。雖然研究者最開始假設(shè)原始謎題格式可能會造成額外的困難，但對模型成功案例的詳細(xì)分析表明，它們已經(jīng)針對復(fù)雜文檔的處理進(jìn)行了很好的優(yōu)化。 AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

研究者表示，ENIGMAEVAL 將與「人類的最后考試」一起構(gòu)建全新的 LLM 基準(zhǔn)，通過極具挑戰(zhàn)性的任務(wù)揭露當(dāng)前大語言模型的局限性。正如一些網(wǎng)友評論所說，看起來 AI 離真正理解世界還有很長的路要走。 AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

另外，該基準(zhǔn)測試中沒有將 DeepSeek R1 納入在內(nèi)，所以很好奇它的表現(xiàn)如何。 AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

ENIGMAEVAL 基準(zhǔn)ENIGMAEVAL 包含 1184 道謎題，每個(gè)謎題通常需要一群經(jīng)驗(yàn)豐富的人花費(fèi)數(shù)小時(shí)甚至數(shù)天才能解決。其有兩種格式：（1）原始 PDF 的 PNG 圖像（如頁面截圖），用于測試模型端到端的性能；（2）結(jié)構(gòu)化的文本 - 圖像表示，保留了語義關(guān)系和視覺元素，用于有針對性地評估模型多模態(tài)推理能力，同時(shí)減少干擾和預(yù)處理負(fù)擔(dān)。ENIGMAEVAL 來源如下（表 1），按照難度分組為 Normal （949 道題）和 Hard （235 道題）兩大部分： AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

普通謎題示例（Normal）： AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

困難謎題示例（Hard）： AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

除了這些謎題，本文還收集了相應(yīng)的解決方案文檔，以 PDF 或 HTML 頁面的形式提供。實(shí)驗(yàn)本文在 ENIGMAEVAL 基準(zhǔn)上測試了最先進(jìn)的 LLM 的深度推理能力。結(jié)果模型在解答謎題方面的表現(xiàn)并不出色。所有前沿的視覺 - 語言模型在此次評估中的準(zhǔn)確率都顯著偏低，即便是領(lǐng)先的模型（o1）在常規(guī)難度部分也僅達(dá)到 7.0% 的準(zhǔn)確率，在困難難度部分更是達(dá)到了 0%（見表 2）。所有測試模型在困難難度部分完全失�。�(zhǔn)確率為 0%），這強(qiáng)調(diào)了這些模型在面對更為復(fù)雜的謎題變體時(shí)所遭遇的重大挑戰(zhàn)。 AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

此外，本文還使用 o1 模型對其自身生成的答案進(jìn)行審核，以檢查是否存在抄襲或荒謬的推理鏈條，這是通過將前沿模型生成的逐步解決方案與官方謎題解析（附錄 B.3）進(jìn)行對比來實(shí)現(xiàn)的。每一個(gè)被 o1 標(biāo)記的案例都經(jīng)了人工檢查，結(jié)果發(fā)現(xiàn)審核模型幻覺般地提供了抄襲的證據(jù)，這表明實(shí)驗(yàn)所采用的模型是獨(dú)立得出正確答案的。THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

相關(guān)熱詞： 謎題雙子座語言模型機(jī)器之心 scale ai eval flash

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-18 22:06:16 瀏覽：258次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-18 22:06:16 瀏覽：258次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-18 22:06:16 瀏覽：258次