新品亚洲高潮喷水精品视频,一本一本久久α久久精品

導(dǎo)讀：新智元報道編輯：編輯部 HYZ【新智元導(dǎo)讀】OpenAI下一代模型o3，重磅誕生了！陶哲軒預(yù)言難住AI好幾年的數(shù)學(xué)測試，它瞬間破解，編程水平位于全球前200，在ARC-AGI基準(zhǔn)中更是驚人，打破所有AI紀(jì)錄接近人類水平，離AGI更近一步。12天最后一天，OpenAI下一代推理模型o3真的出世了！奧特曼、Mark Chen、任泓宇和ARC Prize基金會主席Greg Kamradt為我們做了介紹正如所爆料那樣，突如 ......

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

新智元報道

編輯：編輯部 HYZ【新智元導(dǎo)讀】OpenAI下一代模型o3，重磅誕生了！陶哲軒預(yù)言難住AI好幾年的數(shù)學(xué)測試，它瞬間破解，編程水平位于全球前200，在ARC-AGI基準(zhǔn)中更是驚人，打破所有AI紀(jì)錄接近人類水平，離AGI更近一步。12天最后一天，OpenAI下一代推理模型o3真的出世了！ OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

奧特曼、Mark Chen、任泓宇和ARC Prize基金會主席Greg Kamradt為我們做了介紹正如所爆料那樣，突如其來的o3成為整場直播的「壓軸菜」。奧特曼表示，之所以跳過o2，是因為對伙伴的尊重，以及延續(xù)OpenAI一貫「起名特別差」的傳統(tǒng)。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

要知道，距離9月o1的出世，才過去了整整3個月的時間。o3的迭代速度，證明了Scaling Law似乎并未終結(jié)。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

根據(jù)Keras之父發(fā)布的報告稱，o3在低計算量模式下，每個任務(wù)需要花費(fèi)高達(dá)20美金，而在高計算量模式中每個任務(wù)則需要數(shù)千美元。o3數(shù)學(xué)代碼封神，粉碎o1

在多項基準(zhǔn)測試中，o3再次刷新SOTA，就數(shù)學(xué)、代碼、軟件工程等領(lǐng)域，完全粉碎了滿血版o1！在AIME 2024數(shù)學(xué)競賽評測中，o3取得了96.7%的準(zhǔn)確率，性能直接飆升13.4%；在博士級科學(xué)問答基準(zhǔn)GPQA Diamond上，o3準(zhǔn)確率為87.7%，相較于上一代o1提升9.7%。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在今年11月Epoch AI發(fā)布的數(shù)學(xué)基準(zhǔn)Frontier Math上，o3準(zhǔn)確率高達(dá)25.2%。這個基準(zhǔn)中，今天所有模型的準(zhǔn)確率都低于2%，但是在激進(jìn)的測試時間設(shè)置下，o3已經(jīng)能夠達(dá)到25%的準(zhǔn)確率。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

如今，這一說法又被OpenAI o3推翻了。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在軟件工程SWE-bench Verified基準(zhǔn)上，o3的代碼性能從o1的48.9%狂飆22.8%，達(dá)到了71.7%。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在Codeforces中，o3的Elo得分為2727，相較o1提升了800多分。這個表現(xiàn)，已經(jīng)達(dá)到了International Grandmaster的水平，相當(dāng)于位列175名的人類選手。甚至，超過了OpenAI的研究高級副總裁。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

除o3之外，o3-mini同樣在數(shù)學(xué)、編碼、博士級科學(xué)問答、函數(shù)調(diào)用等基準(zhǔn)上，取得了新的突破。它真正定義了一種新的成本效益推理前沿。奧特曼表示，這兩款新模型將面向研究人員測試，并期待未來盡快推出上線。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

OpenAI研究科學(xué)家Sebastien Bubeck稱，o3在Frontier Maths取得25%準(zhǔn)確率，在菲爾茲獎得主Tim Gowers看來極其驚人。這暗示了AI發(fā)展火花加速迸發(fā)。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

網(wǎng)友紛紛表示，就在今天，我們已經(jīng)實現(xiàn)了AGI！ OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

o3-mini：三種「思考模式」，計算越多能力越強(qiáng)

o3-mini作為o3系列的新成員，與o1-mini一樣，將為開發(fā)者帶來高性價比的AI體驗。在編程能力評測中，o3-mini展現(xiàn)出驚人的實力。通過「自適應(yīng)思考時間」（adaptive thinking time）機(jī)制，o3能夠根據(jù)任務(wù)難度自動調(diào)整推理深度。由此，它才實現(xiàn)了在代碼生成方面超越了前代o1。更令人驚嘆的是，其運(yùn)行速度和成本僅為o1的1/10。o3-mini引入了三檔思考級別低強(qiáng)度推理、中等強(qiáng)度推理、高強(qiáng)度推理，可以根據(jù)具體需求去調(diào)整模型的推理深度。簡言之，簡單任務(wù)能夠得到快速響應(yīng)。而復(fù)雜的問題，模型則可開啟更深度的思考模式。

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

任泓宇（左）本科畢業(yè)于北大，后在斯坦福獲得博士學(xué)位，負(fù)責(zé)o3-mini的訓(xùn)練具體來說，在Codeforces測試中，o3-mini的Elo評分隨著思考時間的增加，性能逐步的到提升。甚至，在中等強(qiáng)度思下，o3-mini（medium）已經(jīng)超了滿血版o1的表現(xiàn)。雖然o3-mini（high）在高強(qiáng)度思考下，仍落后于o3，但幾乎差別不大。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

而且，在成本和思考速度方面，o3-mini取得了超越o1-mini更好的性能。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在演示中，研究者要求模型使用Python實現(xiàn)代碼生成器和執(zhí)行器。啟動之后，就像運(yùn)行Python腳本一樣，模型將在本地啟動一個服務(wù)器，帶有一個包含文本框的UI。然后我們就可以在其中發(fā)出編碼請求了，它會請求調(diào)用o3-mini API，它將解決任務(wù)，返回一段代碼。代碼會保存在本地桌面上，然后打開終端自動執(zhí)行代碼。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

以下，就是模型生成的代碼，用時僅38秒。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

把代碼復(fù)制粘貼到服務(wù)器上，并運(yùn)行。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

然后，便可獲得對應(yīng)的UI界面一個文本框。我們可以在其中輸入代碼，比如打出OpenAI和一個隨機(jī)數(shù)，它就會將請求發(fā)送到o3-mini（medium）。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

模型果然按要求輸出OpenAI，以及41這個數(shù)字。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在下面這個任務(wù)中，研究者要求模型用較低的推理能力，來評估o3-mini在難度很高的GPQA數(shù)據(jù)集上的表現(xiàn)。模型首先需要從該URL下載原始文件，然后需要識別哪些部分是問題，哪些是答案，哪些是選項。最后，模型需要整理出所有的問題，并嘗試作答，解析結(jié)果，最后進(jìn)行評分。模型的運(yùn)行速度極快，因為它調(diào)用的是o3-mini，并使用了較低的推理計算。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

可以看到，結(jié)果為61.62%，和正式評估幾乎一模一樣。而且這個運(yùn)行極快的低推理能力模型，整個評估過程只用了一分鐘。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

除了代碼成績亮眼，o3-mini也展現(xiàn)出了卓越的數(shù)學(xué)能力。在AIME 2024數(shù)學(xué)競賽測試中，o3-mini（low）已經(jīng)接近o1 mini的水平。o3-mini（medium）以78.2%的準(zhǔn)確率超越了o1（圖中實心部分），而o3-mini（high）進(jìn)一步提升了性能。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在延遲方面表現(xiàn)，o3-mini（low）大幅降低了延遲，降低至1秒內(nèi)，媲美GPT-4的即時響應(yīng)。o3-mini（medium）的延遲比o1-mini快一半。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

當(dāng)然，OpenAI為了滿足開發(fā)者的需求，o3-mini提供了全套API功能，包括函數(shù)調(diào)用、結(jié)構(gòu)化輸出、開發(fā)者消息。更難能可貴的是，在這些功能上，o3-mini的性能不僅完全對標(biāo)o1，并在多數(shù)評測中取得了更好的表現(xiàn)。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

另外，在具有挑戰(zhàn)性的GPQA數(shù)據(jù)集測試中，o3-mini展現(xiàn)出穩(wěn)定的性能，即便是在低強(qiáng)度思考模式下，o3-mini（low）也達(dá)到了62%的準(zhǔn)確率。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

o3-mini暫時只向安全研究院開放測試，可以直接在OpenAI網(wǎng)站中進(jìn)行申請。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

ARC-AGI基準(zhǔn)

ARC Prize Foundation是一家非營利組織，使命是在基準(zhǔn)測試期間成為AGI的北極星。他們的第一個基準(zhǔn)ARC-AGI，是由Keras之父Franois Chollet于2019年在關(guān)于智力測量的論文中發(fā)表的，它在AI領(lǐng)域已經(jīng)保持5年不敗。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

擊敗ARC-AGI的系統(tǒng)，將成為邁向AGI的重要里程碑。它的全部內(nèi)容，都是輸入示例和輸出示例，目標(biāo)是了解變換的規(guī)則，猜出輸出的示例。而它的每項任務(wù)，都需要不同的技能。比如下面這個任務(wù)，憑人類直覺，很容易猜出最后一張圖應(yīng)該是什么，但AI很難理解。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

在這個任務(wù)中，則是需要在黃色方塊中，數(shù)一下共有多少種顏色的方塊，然后用它創(chuàng)建一個邊框。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

研究者使用了兩個ARC-AGI 數(shù)據(jù)集對 o3 進(jìn)行了測試：半私有評估：100個私有任務(wù)，用于評估過擬合

公共評估：400個公共任務(wù)

他們在兩種計算水平下進(jìn)行了測試，樣本規(guī)模分別為6（高效模式）和1024（低效模式，計算量是高效模式的172倍）。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

厲害的是，在這個基準(zhǔn)測試中，o3在低計算模式下，在半私有評估中的得分為75.7%；在高計算模式下，得分為87.5%。具體來說，高計算模式下的得分為 75.7%，符合 RC-AGI-Pub的預(yù)算限制（成本低于1萬美元），因此在公共排行榜上排名第一。低計算模式下的得分為 87.5%，雖然成本較高，但仍然表明在新任務(wù)上的性能隨著計算量的增加而提升。這點(diǎn)尤為重要，因為人類在該任務(wù)上的表現(xiàn)通常在85%的水平。超過這一數(shù)字，就意味著達(dá)到了一個重要的里程碑，因為此前從未有任何AI系統(tǒng)實現(xiàn)過這一成就。這標(biāo)志著ARC-AGI領(lǐng)域的一個全新突破。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

ARC Prize Foundation的主席表示，看到這些分?jǐn)?shù)時，他意識到需要稍微改變一下自己的世界觀，修正對AI究竟能做哪些事情的直覺。而且要知道，目前還僅是AI的早期階段，所以我們就更需要ARC-AGI這樣的持久性基準(zhǔn)測試，來對進(jìn)展進(jìn)行評估和引導(dǎo)了。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

OpenAI o3，還不是AGI

總之，這是AI能力的一次令人驚訝且意義重大的躍升，展現(xiàn)了GPT系列模型前所未有的新任務(wù)適應(yīng)能力。要知道，ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%，歷時4年。盡管成本較高，但o3的這些成績并不僅僅是通過在基準(zhǔn)測試上應(yīng)用暴力計算得來的。可以說，o3的性能不是一次漸進(jìn)式的改進(jìn)，而是一次真正的突破，標(biāo)志著AI能力相比此前的LLM局限性，實現(xiàn)了質(zhì)的飛躍。能夠適應(yīng)從未遇到過的任務(wù)，意味著o3在ARC-AGI領(lǐng)域的表現(xiàn)已接近人類水平。當(dāng)然，這種通用性伴隨著高昂的成本，目前還不算經(jīng)濟(jì)：我們可以花大約5美元，讓人類解決一個ARC-AGI任務(wù)，僅消耗幾美分的能源。而o3在低計算模式下每個任務(wù)需要17-20美元。但成本效益可能會在未來顯著提升，所以，AI在較短的時間內(nèi)，將代替人類的動作。o3 相較于GPT系列的改進(jìn)，證明了架構(gòu)的重要性。要知道，我們無法通過給GPT-4增加更多計算量，來獲得這樣的結(jié)果。簡單地擴(kuò)大我們從2019年到2023年所做的事情（采用相同的架構(gòu)，在更多數(shù)據(jù)上訓(xùn)練一個更大的版本）是不夠的。而這一次，OpenAI找到了全新的思路！實現(xiàn)AGI了嗎？ARC-AGI以一種飽和或低要求基準(zhǔn)測試無法實現(xiàn)的方式，展現(xiàn)了泛化能力。然而，需要注意的是，ARC-AGI并不是AGI的試金石它只是一種研究工具，旨在聚焦于AI領(lǐng)域中最具挑戰(zhàn)性的未解決問題。通過ARC-AGI，并不意味著實現(xiàn)AGI。我們無法認(rèn)為o3是AGI，它在簡單任務(wù)上仍然表現(xiàn)不佳，這表明它與人類智能之間存在根本性的差異。此外，數(shù)據(jù)表明，即將推出的ARC-AGI-2基準(zhǔn)測試對o3來說，仍將是一個重大挑戰(zhàn)，即使在高計算模式下，其得分可能會低于30%（而一個聰明的人類無需訓(xùn)練仍能超過95%）。這表明，人類仍然有可能創(chuàng)建具有挑戰(zhàn)性且未飽和的基準(zhǔn)測試，而無需依賴專業(yè)領(lǐng)域知識。當(dāng)創(chuàng)建那些對普通人來說很簡單，但對AI來說很困難的任務(wù)變得完全不可能時，就是AGI真正到來的時候。和舊模型的區(qū)別為什么o3得分比o1高出這么多？又為什么o1得分比GPT-4o高出這么多？這一系列結(jié)果為通用人工智能（AGI）的持續(xù)探索提供了寶貴的數(shù)據(jù)點(diǎn)。大模型本質(zhì)上是向量程序的存儲庫。當(dāng)給出提示詞時，LLM會提取提示詞對應(yīng)的程序，并在當(dāng)前輸入上「執(zhí)行」。也就是說，它們是通過被動接觸人類生成內(nèi)容來存儲和操作化數(shù)百萬個有用的小程序的一種方式。這種「記憶、提取、應(yīng)用」的模式可以在適當(dāng)?shù)挠?xùn)練數(shù)據(jù)下，實現(xiàn)對任意任務(wù)的任意技能水平，但它無法適應(yīng)新任務(wù)或即時掌握新技能（也就是說，這里沒有流體智力的作用）。這一局限性在ARC-AGI測試中，表現(xiàn)得尤為明顯GPT-3得分為0，GPT-4得分接近0，而GPT-4o達(dá)到了 5%。將這些模型擴(kuò)展到可能的極限，也未能讓 ARC-AGI 的得分接近多年前基本的暴力枚舉方法所能達(dá)到的水平（高達(dá)50%）。而要適應(yīng)新任務(wù)，需要兩樣?xùn)|西。第一，需要知識一組可重用的函數(shù)或程序供調(diào)用。LLM在這方面已經(jīng)綽綽有余。第二，需要在面對新任務(wù)時將這些函數(shù)重新組合成一個全新的程序的能力一個能夠建模當(dāng)前任務(wù)的程序，也就是程序合成。而LLM長期以來缺乏這一特性，O系列模型卻帶了新的突破。o3模型的核心創(chuàng)新在于，實現(xiàn)了token空間內(nèi)自研語言程序搜索和執(zhí)行。它在測試時會搜索可能的CoT空間，尋找描述解決任務(wù)所需的步驟，由評估模型引導(dǎo)搜索過程。這種方式可能與AlphaZero的蒙特卡洛樹搜索并無太大差異。 OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題

值得注意的是，Demis Hassabis在去年6月的一次采訪中暗示，DeepMind一直在研究這一想法這項研究已經(jīng)醞釀許久。因此，盡管單次生成（single-generation）的LLM在應(yīng)對新任務(wù)方面表現(xiàn)不佳，但o3通過生成并執(zhí)行自己的程序克服了這一問題，其中程序本身（即CoT）成為知識重組的產(chǎn)物。盡管這并不是測試時，知識重組的唯一可行方法（也可以進(jìn)行測試時訓(xùn)練，或在潛在空間中搜索），但根據(jù)這些最新的ARC-AGI數(shù)據(jù)，它代表了當(dāng)前的最先進(jìn)水平。實質(zhì)上，o3本質(zhì)上是一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式。在測試時搜索「程序」空間，探索自然語言程序，描述解決當(dāng)前任務(wù)步驟的CoT空間，并由一個基礎(chǔ)LLM提供引導(dǎo)。這一過程，可能需要處理千萬個token，消耗大量的計算資源，花費(fèi)數(shù)千美元，因為需要探索眾多路徑并進(jìn)行回溯。o3雖然取得了突破，但仍有兩個主要的限制。首先，其生成了自然語言指令，而非可執(zhí)行程序，缺乏直接執(zhí)行和評估能力。其次，依賴專家標(biāo)注的、人工生成的CoT數(shù)據(jù)，無法自主獲得程序生成和評估能力。盡管如此，o3的表現(xiàn)仍證實了直覺引導(dǎo)的測試時搜索的巨大潛力。可以說，o3是具有里程碑意義的成就，為未來AGI下一步探索指明了方向。參考資料：https://x.com/OpenAI/status/1870164871289155937https://arcprize.org/blog/oai-o3-pub-breakthrough

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：165次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：165次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI o3震撼覺醒，AGI今夜降臨？血洗o1，破解陶哲軒最難數(shù)學(xué)題
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：165次