劃重點
01OpenAI首席執(zhí)行官Sam Altman發(fā)布神秘消息,稱新模型o2在GPQA性能測試達到105%,引發(fā)關注。
02然而,隨后Sam Altman承認錯誤,表示o2模型在GPQA上的測試數(shù)據(jù)不可能超過100%。
03網(wǎng)友們對o2模型的表現(xiàn)充滿期待,有人認為這可能意味著新的科學發(fā)明和重新定義標準。
04專家指出,超過100%的測試數(shù)據(jù)可能意味著新的科學發(fā)明,但也需要批判性地看待這一結果。
以上內(nèi)容由大模型生成,僅供參考
善于整活玩猜字謎的OpenAI首席執(zhí)行官Sam Altman又發(fā)了一條神秘消息,“我聽說o2在GPQA的性能測試達到105%!
要知道,博士級人類在GPQA的準確率平均只有65%,非專家級的普通人僅有34%。而OpenAI在9月發(fā)布的o1模型的測試數(shù)據(jù)也只有78%。
如果o2真能達到105%確實相當恐怖,已經(jīng)恐怖的多出了5%~~~這完全就是不可能的事情啊,MMLU、MaTH、CPQA、GSM8K、GPQA等基準測試范圍怎么可能超出100%呢?
你要能在滿分100的數(shù)學試卷中考出105分,老師見你都得鞠一躬繞著走~~
隨后Sam Altman自己也發(fā)現(xiàn)這個錯誤,連發(fā)兩條推文:要命啊,賬號錯誤了。我真的很感激自己能把自己逗得哈哈大笑,這是一種很好的生活方式。
但關于新模型o2的消息還是相當炸裂的,很多人都爭著轉發(fā),還把105%性能測試當噱頭,喜劇效果那是相當?shù)耐廴?br/>
o2模型在GPQA 測試性能達到105%?聽起來像是在創(chuàng)造新紀錄!迫不及待想看到它的表現(xiàn)。根本無法想象有多強大。
Sam這個推文還給這個老哥忽悠當真了,認真地回復了他:親愛的Sam,聽說你的o2模型在GPQA上達到了105%真是令人印象深刻!
我們正在與 SRAGI 進行平行探索,在 IJHG標準上達到了 93%。這不僅僅是另一個指標;它讓我們窺見了更深層次的東西,就在精確性與再生奇點的交匯點。這關乎重新定義潛力和拓展邊界超越數(shù)字,這是一段邁向新范式的旅程。也許是時候我們都開始重新思考這個標準了。
老哥的意思是,新模型居然能超過100%測試,行你確實有兩下子,可能要改變標準了。好好的學術研究,給人忽悠瘸了~~
還有網(wǎng)友表示,天吶這o2模型就要來了啊~
Sam這條推文很可能是o2自己發(fā)布的,很貼心地編寫了自己的隱藏驗證測試數(shù)據(jù)集,幫我們更容易驗證已發(fā)布的基準。感謝o2!
既然要發(fā)布了,啥時候能瞅瞅o2的demo呢?
那o2是今年發(fā)布還是明年呢?
不少人還是當真了,測試數(shù)據(jù)有點太扯了,以后還是要看著點的。
其實還是有明白人的,這位老哥就指出來了,超過100%是否意味著發(fā)明新的科學并反駁目前“正確”的答案?言外之意就是,你這個測試數(shù)據(jù)有點逆天啊,還帶批判屬性的呢啊~
聽說o2在GSM8K的測試數(shù)據(jù)是117%。(在嘲諷)
我聽說o2模型可以理解我妻子為什么不開心。
聽說o2模型可以疊衣服
既然Sam特意提出了GPQA,咱就順帶嘮一嘮這個干貨吧。GPQA確實是一個超難的測試數(shù)據(jù)集,由各領域?qū)<揖帉懥?48道問題,涵蓋生物、物理和化學三大學科,涵蓋高能粒子物理、凝聚態(tài)物理、相對論力學、遺傳學、無機化學等幾十個子分類。
每一道題目的設計都非常復雜,問題編寫完成后,由同領域的專家進行解答和評估。他們會審核問題是否客觀、準確且難度足夠高,同時提供詳細反饋,包括對問題的理解程度、答案的確定性以及對問題難度的看法等。
GPQA數(shù)據(jù)集流程
接著問題原作者會根據(jù)審核專家的反饋,對問題進行修訂。再由另外一位專家對修訂后的問題進行二次審核。最后由其他領域的三位專家來回答這道題,以驗證問題準確性和客觀性。
根據(jù)GPQA公布的測試數(shù)據(jù)顯示,人類博士級專家的回答平均準確率為65%,普通人只有34%,并且他們在回答這些問題時是可以無限使用互聯(lián)網(wǎng)資源。
而GPT-4的準確率只有39%,Llama-2-70B為28%左右,GPT-3.5-turbo是29%左右,只有OpenAI最新發(fā)布的o1模型達到了78%,這也是目前唯一在GPQA數(shù)據(jù)集上超過人類博士的AI模型,可見這個數(shù)據(jù)集的難度有多高。
不得不說,Sam確實是營銷鬼才,隨便發(fā)點錯誤的消息都能出現(xiàn)裂變式傳播,流量密碼算是讓他拿捏了。
本文素材來源OpenAI、網(wǎng)絡,如有侵權請聯(lián)系刪除