新智元報(bào)道
編輯:編輯部 HYZ【新智元導(dǎo)讀】OpenAI o3的智商,竟然已經(jīng)高達(dá)157,碾壓99%的人類?這張OpenAI模型智商圖全網(wǎng)瘋轉(zhuǎn)。甚至有人大膽預(yù)測(cè):達(dá)到陶哲軒智商(225-230)的大模型,應(yīng)該會(huì)很快出現(xiàn)了。o3智商竟有157,堪比愛(ài)因斯坦?
今天,一張OpenAI模型智商圖,在全網(wǎng)傳遍了。
基于編程競(jìng)賽Codeforces排名評(píng)分
圖中清晰可見(jiàn),能夠達(dá)到o3智商水平的人類大約占比僅有0.0075%。
13333人當(dāng)中,也僅有1人IQ是o3級(jí)別的。對(duì)于GPT-4o,6人當(dāng)中就有1人能夠達(dá)到IQ 115的水平。
從GPT-4o、到o1系,再到o3系,模型IQ逐漸遞增,也僅用了1年時(shí)間,實(shí)現(xiàn)了質(zhì)的飛躍。即便是最強(qiáng)o1 pro(IQ為139),o3完全領(lǐng)先近20分。
有網(wǎng)友表示,用不了多久,我們口袋里就會(huì)擁有一個(gè)IQ 157的智能。
還有人稱,陶哲軒智商大約在225-230之間,未來(lái)模型很快就能達(dá)到這個(gè)水平。
o3超高智商背后
o3發(fā)布之后,很多人都認(rèn)為AGI實(shí)現(xiàn)了。
從o1到o3,OpenAI僅用了3個(gè)月;從o1 pro到o3,僅用了1個(gè)月。種種跡象表明,Scaling Law并未終結(jié)。
過(guò)去五年,OpenAI模型在ARC-AGI上的得分,也說(shuō)明了一切。
OpenAI研究員Nat McAleese在o3發(fā)布當(dāng)天,分享了一些關(guān)于模型的介紹。
他表示,o3代表著通過(guò)強(qiáng)化學(xué)習(xí)在通用領(lǐng)域的巨大進(jìn)步。
o1是首個(gè)大規(guī)模推理模型,也僅僅是一個(gè)通過(guò)RL訓(xùn)練的大模型。o3是通過(guò)在o1基礎(chǔ)上,進(jìn)一步scaling強(qiáng)化學(xué)習(xí)而開(kāi)發(fā)的。
我們已經(jīng)看到,o3在世界上最具競(jìng)爭(zhēng)的編程基準(zhǔn)CodeForces中得分超2700,完全達(dá)到了國(guó)際大師的水平。
與此同時(shí),o3在數(shù)學(xué)基準(zhǔn)FrontierMath驚艷表現(xiàn)令人生畏,甚至擊穿了陶哲軒的預(yù)言。
在Keras之父Franois Chollet轉(zhuǎn)寫(xiě)的報(bào)告中,也解釋了o3與以往舊模型之間的區(qū)別:
o3的核心創(chuàng)新點(diǎn)在于,實(shí)現(xiàn)了token空間內(nèi)自研語(yǔ)言程序搜索和執(zhí)行。在測(cè)試時(shí),它會(huì)搜索可能的CoT空間,并尋描述解決任務(wù)所需的步驟,由評(píng)估模型引導(dǎo)搜索過(guò)程。
而且,他表示,這種方式與AlphaZero的蒙特卡洛樹(shù)搜索并無(wú)太大差異。
本質(zhì)上,o3是一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式。
不過(guò),即便o3進(jìn)化速度如此瘋狂,OpnenAI研究員Will depue表示,這還不是AGI,我們還有很長(zhǎng)的路要走。
o3 ARC-AGI測(cè)試被曝「作弊」?
而且就在最近,o3的ARC-AGI測(cè)試結(jié)果,在圈內(nèi)引起了不小的爭(zhēng)議。
要知道,這個(gè)基準(zhǔn)設(shè)立的初衷,就是專門(mén)找到那些對(duì)人類很容易,對(duì)AI來(lái)說(shuō)卻很難的題目。
根據(jù)OpenAI的說(shuō)法,在ARC-AGI這個(gè)基準(zhǔn)測(cè)試中,o3在低計(jì)算模式下,在半私有評(píng)估中的得分為75.7%;在高計(jì)算模式下,得分為87.5%。
而人類在該任務(wù)上的表現(xiàn)通常在85%的水平,也就是說(shuō),o3在高計(jì)算模式下,已經(jīng)超越了人類。
這個(gè)結(jié)果,引起了多人的質(zhì)疑:OpenAI不會(huì)專門(mén)針對(duì)這個(gè)任務(wù)做過(guò)訓(xùn)練吧?
要知道,在直播的第12天,奧特曼專門(mén)強(qiáng)調(diào)過(guò),「并未對(duì)模型做過(guò)特殊處理」。
對(duì)此,心細(xì)的網(wǎng)友們紛紛展開(kāi)調(diào)查。
比如這位名為Knight Lee的網(wǎng)友,就表示o3在ARC-AGI上的分?jǐn)?shù)是經(jīng)過(guò)微調(diào)的,而之前的AI分?jǐn)?shù)并沒(méi)有被微調(diào)。
他表示,o3的一個(gè)主要優(yōu)勢(shì),就是接受過(guò)示例測(cè)試問(wèn)題的明確訓(xùn)練而已。
之所以有這樣的觀點(diǎn),是他引用了ARC-AGI設(shè)計(jì)師Franois Chollet的說(shuō)法
OpenAI分享說(shuō),他們測(cè)試的o3是在公共訓(xùn)練集75%的數(shù)據(jù)上進(jìn)行訓(xùn)練的。他們尚未透露更多細(xì)節(jié)。我們尚未測(cè)試未經(jīng)ARC數(shù)據(jù)訓(xùn)的模型,因此尚不清楚其性能有多少歸因于ARC-AGI數(shù)據(jù)。
這個(gè)這個(gè)說(shuō)法為真,那o3所取得的分?jǐn)?shù),顯然占了很大便宜。
OpenAI研究員Zach Stein-Perlman反駁說(shuō),他們沒(méi)有針對(duì)ARC對(duì)o3做過(guò)微調(diào)。
不過(guò)今天出來(lái)的o3智商157的結(jié)果,至少可以為它的性能稍稍正名了。
o4才是Orion?
而且,在o3之后,或許還會(huì)有IQ更強(qiáng)的模型現(xiàn)身。
Information獨(dú)家爆料稱,o3并不是代號(hào)為Orion的模型。相對(duì)的,Orion可能會(huì)作為o4的基礎(chǔ)模型。
OpenAI研究員Jason Wei稱,從o1到o3僅用了3個(gè)月的時(shí)間,這表明在新范式下,進(jìn)展遠(yuǎn)快于預(yù)訓(xùn)練范式每1-2年更新一次模型的速度。
推理模型的優(yōu)勢(shì)在于,利用更多計(jì)算資源思考之后,能夠彌補(bǔ)預(yù)訓(xùn)練的放緩速度。
也正因此,o3推理代價(jià)是高昂的。ARC-AGI基準(zhǔn)測(cè)試報(bào)告中,已經(jīng)披露了o3在每個(gè)高計(jì)算任務(wù)中的成本會(huì)超過(guò)1000美金。
這也充分解釋了,OpenAI博士級(jí)AI助手能達(dá)到每月2000美元的原因。
另一位OpenAI研究員John Hallman對(duì)此表示,當(dāng)Sam和我們研究人員說(shuō)AGI即將到來(lái)時(shí),我們不是為了給你畫(huà)大餅,不是為了推2000美元的訂閱,也不是為了誘騙你投資我們的下一輪融資。它真的要來(lái)了。
目前,不清楚的是,o3對(duì)普通ChatGPT用戶能帶來(lái)多大幫助。
o3可能在編程、數(shù)學(xué)、科學(xué)領(lǐng)域表現(xiàn),對(duì)編程、數(shù)學(xué)和科學(xué)領(lǐng)域的人員幫助最大,包括那些研究極其困難問(wèn)題(如核聚變能源)的研究人員。
而對(duì)于普通用戶而言,新模型可能有點(diǎn)「大材小用」。
雖然o3表現(xiàn)出色,其他科技巨頭也不甘示弱。
谷歌強(qiáng)勢(shì)推出了Gemini 2.0 Flash、視頻模型Veo 2,以及由耗資30億美金聘請(qǐng)AI研究員Noam Shazeer開(kāi)發(fā)的推理模型。
一些對(duì)價(jià)格敏感的開(kāi)發(fā)者,紛紛轉(zhuǎn)向了谷歌Flash模型。
可以看出,推理模型仍將繼續(xù)超進(jìn)化迭代,2025年也將會(huì)如今年一樣令人興奮。
參考資料:https://x.com/i_dg23/status/1871135348069482993https://x.com/kimmonismus/status/1871162085675253977https://x.com/SmokeAwayyy/status/1871273888191221922https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi