2024年12月21日,OpenAI在其為期12天發(fā)布會(huì)活動(dòng)的最后一天,正式發(fā)布了備受期待的o3系列模型。在外界普遍認(rèn)為AI發(fā)展速度趨緩之際,OpenAI帶來(lái)了“改變游戲規(guī)則”的重大突破,向AGI邁出關(guān)鍵一步。
在被視為通用人工智能(AGI)重要衡量標(biāo)準(zhǔn)的ARC-AGI測(cè)試中,o3模型創(chuàng)下新紀(jì)錄:低算力配置下便以75.7%的得分登頂公共排行榜,而高算力版本更是達(dá)到87.5%的驚人成績(jī),一騎絕塵。
這一成績(jī)遠(yuǎn)超o1系列,后者在同一測(cè)試中的得分僅為25%。
這一突破的意義非同尋常。Keras之父、ARC-AGI測(cè)試發(fā)起人Franois Chollet對(duì)此評(píng)價(jià)道:
“這是一個(gè)令人驚訝且重要的階躍式提升,展示了GPT系列模型前所未有的新型任務(wù)適應(yīng)能力。
作為對(duì)比,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,歷時(shí)四年。
隨著o3的出現(xiàn),關(guān)于人工智能能力的所有既有認(rèn)知都需要重新評(píng)估!
不過(guò),雖然ARC-AGI測(cè)試中表現(xiàn)出色,但這并不意味著o3已達(dá)到了AGI水平,因?yàn)樗詴?huì)在一些非常簡(jiǎn)單的任務(wù)中犯錯(cuò)。
此外,Chollet還表示,在即將發(fā)布的新版測(cè)試(ARC-AGI-2)中,其表現(xiàn)預(yù)計(jì)將大幅下降至30%以下,而普通人類仍能保持95%以上的高分。更重要的是,o3仍然依賴人工標(biāo)注數(shù)據(jù),無(wú)法像人類那樣通過(guò)與現(xiàn)實(shí)世界的直接互動(dòng)來(lái)學(xué)習(xí)和適應(yīng)。
o3來(lái)了!
2024年12月21日,OpenAI在其為期12天發(fā)布會(huì)活動(dòng)的最后一天,正式發(fā)布了備受期待的o3系列模型,包括o3和o3-mini。
o3 是一個(gè)非常強(qiáng)大的模型,在編碼、數(shù)學(xué)以及ARC-AGI基準(zhǔn)測(cè)試等多個(gè)基準(zhǔn)上超過(guò)了OpenAI此前的o1模型(o1得分25%,o3得分87.5%)。
o3-mini是o3更經(jīng)濟(jì)高效且性能導(dǎo)向的版本,在成本和延遲方面比o1-mini低得多,同時(shí)提供類似的功能。
OpenAI正向安全研究人員開(kāi)放o3和o3-mini的早期訪問(wèn),預(yù)計(jì)o3-mini將于1月底左右發(fā)布,o3則稍后。
技術(shù)路線推演,大模型下一步技術(shù)路線已現(xiàn)端倪?
ARC-AGI(人工通用智能評(píng)估基準(zhǔn))測(cè)試是由Keras之父Franois Chollet發(fā)起,旨在評(píng)估AI系統(tǒng)在面對(duì)未見(jiàn)過(guò)的新任務(wù)時(shí)的適應(yīng)能力。ARC-AGI測(cè)試的核心在于其設(shè)計(jì)的任務(wù)往往需要深度邏輯推理和創(chuàng)新思維,這使得它成為評(píng)估AI系統(tǒng)通用智能能力的重要工具。
如前文所述,o3系列在這一測(cè)試中取得了顯著的成績(jī)。Chollet認(rèn)為,o3的成功絕非依靠簡(jiǎn)單的算力堆砌,其核心創(chuàng)新在于從根本上改變了AI處理信息的方式。
傳統(tǒng)大語(yǔ)言模型(LLM)采用"記憶-獲取-應(yīng)用"的范式,本質(zhì)上是通過(guò)被動(dòng)接觸人類內(nèi)容來(lái)存儲(chǔ)和運(yùn)行數(shù)百萬(wàn)個(gè)微型程序。這種方法雖然能在特定任務(wù)上達(dá)到很高水平,但始終無(wú)法突破適應(yīng)新環(huán)境或即時(shí)掌握新技能。
相比之下,Chollet推測(cè),o3開(kāi)創(chuàng)了全新的方法:
在token空間內(nèi)進(jìn)行自然語(yǔ)言程序搜索和執(zhí)行
使用類似AlphaZero的蒙特卡洛樹(shù)搜索方法
通過(guò)評(píng)估器模型引導(dǎo)搜索過(guò)程
這種創(chuàng)新使o3能夠:
實(shí)時(shí)生成和執(zhí)行解決方案程序
通過(guò)思維鏈(Chain of Thought)實(shí)現(xiàn)知識(shí)的動(dòng)態(tài)重組
展現(xiàn)出類人的任務(wù)適應(yīng)能力
雖然目前每個(gè)任務(wù)的計(jì)算成本仍然較高(低算力模式下約17-20美元/任務(wù),相比人工解決方案的5美元/任務(wù)),但Chollet認(rèn)為,這種成本預(yù)計(jì)將隨技術(shù)發(fā)展快速下降。
距離AGI還有多遠(yuǎn)?
盡管o3取得了突破性進(jìn)展,但稱其為AGI還為時(shí)過(guò)早。Chollet在文章中提及,o3的主要局限包括:
技術(shù)層面的局限:
仍然依賴自然語(yǔ)言指令而非可執(zhí)行的符號(hào)程序
缺乏與現(xiàn)實(shí)世界的直接交互能力
無(wú)法通過(guò)直接執(zhí)行來(lái)評(píng)估解決方案的有效性
性能層面的局限:
在某些基礎(chǔ)任務(wù)上仍會(huì)出現(xiàn)失誤
在即將發(fā)布的ARC-AGI-2測(cè)試中,預(yù)計(jì)其得分可能降至30%以下(而普通人類仍能保持95%以上的得分)
依賴專家標(biāo)注的人工生成數(shù)據(jù),缺乏自主學(xué)習(xí)能力
效率層面的局限:
高昂的計(jì)算成本
大量的計(jì)算資源消耗
在某些任務(wù)上的效率低于人類
結(jié)語(yǔ)
毫無(wú)疑問(wèn),o3的出現(xiàn)無(wú)疑是一個(gè)里程碑式的突破。
對(duì)于整個(gè)AI行業(yè)來(lái)說(shuō),o3的價(jià)值可能在于,它證明了AI進(jìn)步不僅僅依賴于簡(jiǎn)單地?cái)U(kuò)大模型規(guī)模和增加訓(xùn)練數(shù)據(jù),更關(guān)鍵的是架構(gòu)創(chuàng)新,這種方法為AI的發(fā)展開(kāi)辟了新的方向。
Chollet表示:
“實(shí)際上,o3代表了一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式...
同時(shí),由于推理預(yù)算的可變性,效率(如計(jì)算成本)已成為評(píng)估AI性能時(shí)的必要指標(biāo)!