展會(huì)信息港展會(huì)大全

AI大牛解析o3技術(shù)路線!大模型下一步技術(shù)路線已現(xiàn)端倪?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-24 08:01:10   瀏覽:219次  

導(dǎo)讀:2024年12月21日,OpenAI在其為期12天發(fā)布會(huì)活動(dòng)的最后一天,正式發(fā)布了備受期待的o3系列模型。在外界普遍認(rèn)為AI發(fā)展速度趨緩之際,OpenAI帶來(lái)了“改變游戲規(guī)則”的重大突破,向AGI邁出關(guān)鍵一步。在被視為通用人工智能(AGI)重要衡量標(biāo)準(zhǔn)的ARC-AGI測(cè)試中,o3模型創(chuàng)下新紀(jì)錄:低算力配置下便以75.7%的得分登頂公共排行榜,而高算力版本更是達(dá)到87.5%的驚人成績(jī),一騎絕塵。這一成 ......

2024年12月21日,OpenAI在其為期12天發(fā)布會(huì)活動(dòng)的最后一天,正式發(fā)布了備受期待的o3系列模型。在外界普遍認(rèn)為AI發(fā)展速度趨緩之際,OpenAI帶來(lái)了“改變游戲規(guī)則”的重大突破,向AGI邁出關(guān)鍵一步。

在被視為通用人工智能(AGI)重要衡量標(biāo)準(zhǔn)的ARC-AGI測(cè)試中,o3模型創(chuàng)下新紀(jì)錄:低算力配置下便以75.7%的得分登頂公共排行榜,而高算力版本更是達(dá)到87.5%的驚人成績(jī),一騎絕塵。

這一成績(jī)遠(yuǎn)超o1系列,后者在同一測(cè)試中的得分僅為25%。

這一突破的意義非同尋常。Keras之父、ARC-AGI測(cè)試發(fā)起人Franois Chollet對(duì)此評(píng)價(jià)道:

“這是一個(gè)令人驚訝且重要的階躍式提升,展示了GPT系列模型前所未有的新型任務(wù)適應(yīng)能力。

作為對(duì)比,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,歷時(shí)四年。

隨著o3的出現(xiàn),關(guān)于人工智能能力的所有既有認(rèn)知都需要重新評(píng)估!

AI大牛解析o3技術(shù)路線!大模型下一步技術(shù)路線已現(xiàn)端倪?

不過(guò),雖然ARC-AGI測(cè)試中表現(xiàn)出色,但這并不意味著o3已達(dá)到了AGI水平,因?yàn)樗詴?huì)在一些非常簡(jiǎn)單的任務(wù)中犯錯(cuò)。

此外,Chollet還表示,在即將發(fā)布的新版測(cè)試(ARC-AGI-2)中,其表現(xiàn)預(yù)計(jì)將大幅下降至30%以下,而普通人類仍能保持95%以上的高分。更重要的是,o3仍然依賴人工標(biāo)注數(shù)據(jù),無(wú)法像人類那樣通過(guò)與現(xiàn)實(shí)世界的直接互動(dòng)來(lái)學(xué)習(xí)和適應(yīng)。

AI大牛解析o3技術(shù)路線!大模型下一步技術(shù)路線已現(xiàn)端倪?

o3來(lái)了!

2024年12月21日,OpenAI在其為期12天發(fā)布會(huì)活動(dòng)的最后一天,正式發(fā)布了備受期待的o3系列模型,包括o3和o3-mini。

o3 是一個(gè)非常強(qiáng)大的模型,在編碼、數(shù)學(xué)以及ARC-AGI基準(zhǔn)測(cè)試等多個(gè)基準(zhǔn)上超過(guò)了OpenAI此前的o1模型(o1得分25%,o3得分87.5%)。

o3-mini是o3更經(jīng)濟(jì)高效且性能導(dǎo)向的版本,在成本和延遲方面比o1-mini低得多,同時(shí)提供類似的功能。

OpenAI正向安全研究人員開(kāi)放o3和o3-mini的早期訪問(wèn),預(yù)計(jì)o3-mini將于1月底左右發(fā)布,o3則稍后。

技術(shù)路線推演,大模型下一步技術(shù)路線已現(xiàn)端倪?

ARC-AGI(人工通用智能評(píng)估基準(zhǔn))測(cè)試是由Keras之父Franois Chollet發(fā)起,旨在評(píng)估AI系統(tǒng)在面對(duì)未見(jiàn)過(guò)的新任務(wù)時(shí)的適應(yīng)能力。ARC-AGI測(cè)試的核心在于其設(shè)計(jì)的任務(wù)往往需要深度邏輯推理和創(chuàng)新思維,這使得它成為評(píng)估AI系統(tǒng)通用智能能力的重要工具。

如前文所述,o3系列在這一測(cè)試中取得了顯著的成績(jī)。Chollet認(rèn)為,o3的成功絕非依靠簡(jiǎn)單的算力堆砌,其核心創(chuàng)新在于從根本上改變了AI處理信息的方式。

傳統(tǒng)大語(yǔ)言模型(LLM)采用"記憶-獲取-應(yīng)用"的范式,本質(zhì)上是通過(guò)被動(dòng)接觸人類內(nèi)容來(lái)存儲(chǔ)和運(yùn)行數(shù)百萬(wàn)個(gè)微型程序。這種方法雖然能在特定任務(wù)上達(dá)到很高水平,但始終無(wú)法突破適應(yīng)新環(huán)境或即時(shí)掌握新技能。

相比之下,Chollet推測(cè),o3開(kāi)創(chuàng)了全新的方法:

在token空間內(nèi)進(jìn)行自然語(yǔ)言程序搜索和執(zhí)行

使用類似AlphaZero的蒙特卡洛樹(shù)搜索方法

通過(guò)評(píng)估器模型引導(dǎo)搜索過(guò)程

這種創(chuàng)新使o3能夠:

實(shí)時(shí)生成和執(zhí)行解決方案程序

通過(guò)思維鏈(Chain of Thought)實(shí)現(xiàn)知識(shí)的動(dòng)態(tài)重組

展現(xiàn)出類人的任務(wù)適應(yīng)能力

雖然目前每個(gè)任務(wù)的計(jì)算成本仍然較高(低算力模式下約17-20美元/任務(wù),相比人工解決方案的5美元/任務(wù)),但Chollet認(rèn)為,這種成本預(yù)計(jì)將隨技術(shù)發(fā)展快速下降。

距離AGI還有多遠(yuǎn)?

盡管o3取得了突破性進(jìn)展,但稱其為AGI還為時(shí)過(guò)早。Chollet在文章中提及,o3的主要局限包括:

技術(shù)層面的局限:

仍然依賴自然語(yǔ)言指令而非可執(zhí)行的符號(hào)程序

缺乏與現(xiàn)實(shí)世界的直接交互能力

無(wú)法通過(guò)直接執(zhí)行來(lái)評(píng)估解決方案的有效性

性能層面的局限:

在某些基礎(chǔ)任務(wù)上仍會(huì)出現(xiàn)失誤

在即將發(fā)布的ARC-AGI-2測(cè)試中,預(yù)計(jì)其得分可能降至30%以下(而普通人類仍能保持95%以上的得分)

依賴專家標(biāo)注的人工生成數(shù)據(jù),缺乏自主學(xué)習(xí)能力

效率層面的局限:

高昂的計(jì)算成本

大量的計(jì)算資源消耗

在某些任務(wù)上的效率低于人類

結(jié)語(yǔ)

毫無(wú)疑問(wèn),o3的出現(xiàn)無(wú)疑是一個(gè)里程碑式的突破。

對(duì)于整個(gè)AI行業(yè)來(lái)說(shuō),o3的價(jià)值可能在于,它證明了AI進(jìn)步不僅僅依賴于簡(jiǎn)單地?cái)U(kuò)大模型規(guī)模和增加訓(xùn)練數(shù)據(jù),更關(guān)鍵的是架構(gòu)創(chuàng)新,這種方法為AI的發(fā)展開(kāi)辟了新的方向。

Chollet表示:

“實(shí)際上,o3代表了一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式...

同時(shí),由于推理預(yù)算的可變性,效率(如計(jì)算成本)已成為評(píng)估AI性能時(shí)的必要指標(biāo)!

贊助本站

相關(guān)熱詞: openai 通用人工智能 英偉達(dá)

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港