亚洲日韩aⅤ精品,狼人香蕉香蕉精品99

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

來源：互聯網發(fā)布日期：2024-11-04 09:24:41 瀏覽：137次

導讀：劃重點01OpenAI首席執(zhí)行官Sam Altman發(fā)布神秘消息，稱新模型o2在GPQA性能測試達到105%，引發(fā)關注。02然而，隨后Sam Altman承認錯誤，表示o2模型在GPQA上的測試數據不可能超過100%。03網友們對o2模型的表現充滿期待，有人認為這可能意味著新的科學發(fā)明和重新定義標準。04專家指出，超過100%的測試數據可能意味著新的科學發(fā)明，但也需要批判性地看待這一結果。以上內容由大模型生 ......

劃重點

01OpenAI首席執(zhí)行官Sam Altman發(fā)布神秘消息，稱新模型o2在GPQA性能測試達到105%，引發(fā)關注。

02然而，隨后Sam Altman承認錯誤，表示o2模型在GPQA上的測試數據不可能超過100%。

03網友們對o2模型的表現充滿期待，有人認為這可能意味著新的科學發(fā)明和重新定義標準。

04專家指出，超過100%的測試數據可能意味著新的科學發(fā)明，但也需要批判性地看待這一結果。

以上內容由大模型生成，僅供參考

善于整活玩猜字謎的OpenAI首席執(zhí)行官Sam Altman又發(fā)了一條神秘消息，“我聽說o2在GPQA的性能測試達到105%�！�

要知道，博士級人類在GPQA的準確率平均只有65%，非專家級的普通人僅有34%。而OpenAI在9月發(fā)布的o1模型的測試數據也只有78%。

如果o2真能達到105%確實相當恐怖，已經恐怖的多出了5%~~~這完全就是不可能的事情啊，MMLU、MaTH、CPQA、GSM8K、GPQA等基準測試范圍怎么可能超出100%呢？

你要能在滿分100的數學試卷中考出105分，老師見你都得鞠一躬繞著走~~

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

隨后Sam Altman自己也發(fā)現這個錯誤，連發(fā)兩條推文：要命啊，賬號錯誤了。我真的很感激自己能把自己逗得哈哈大笑，這是一種很好的生活方式。

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

但關于新模型o2的消息還是相當炸裂的，很多人都爭著轉發(fā)，還把105%性能測試當噱頭，喜劇效果那是相當的哇塞。

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

o2模型在GPQA 測試性能達到105%？聽起來像是在創(chuàng)造新紀錄！迫不及待想看到它的表現。根本無法想象有多強大。

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

Sam這個推文還給這個老哥忽悠當真了，認真地回復了他：親愛的Sam，聽說你的o2模型在GPQA上達到了105%真是令人印象深刻！

我們正在與 SRAGI 進行平行探索，在 IJHG標準上達到了 93%。這不僅僅是另一個指標；它讓我們窺見了更深層次的東西，就在精確性與再生奇點的交匯點。這關乎重新定義潛力和拓展邊界超越數字，這是一段邁向新范式的旅程。也許是時候我們都開始重新思考這個標準了。

老哥的意思是，新模型居然能超過100%測試，行你確實有兩下子，可能要改變標準了。好好的學術研究，給人忽悠瘸了~~

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

還有網友表示，天吶這o2模型就要來了啊~

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

Sam這條推文很可能是o2自己發(fā)布的，很貼心地編寫了自己的隱藏驗證測試數據集，幫我們更容易驗證已發(fā)布的基準。感謝o2！

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

既然要發(fā)布了，啥時候能瞅瞅o2的demo呢？

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

那o2是今年發(fā)布還是明年呢？

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

不少人還是當真了，測試數據有點太扯了，以后還是要看著點的。

其實還是有明白人的，這位老哥就指出來了，超過100%是否意味著發(fā)明新的科學并反駁目前“正確”的答案？言外之意就是，你這個測試數據有點逆天啊，還帶批判屬性的呢啊~

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

聽說o2在GSM8K的測試數據是117%。（在嘲諷）

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

我聽說o2模型可以理解我妻子為什么不開心。

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

聽說o2模型可以疊衣服

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

既然Sam特意提出了GPQA，咱就順帶嘮一嘮這個干貨吧。GPQA確實是一個超難的測試數據集，由各領域專家編寫了448道問題，涵蓋生物、物理和化學三大學科，涵蓋高能粒子物理、凝聚態(tài)物理、相對論力學、遺傳學、無機化學等幾十個子分類。

每一道題目的設計都非常復雜，問題編寫完成后，由同領域的專家進行解答和評估。他們會審核問題是否客觀、準確且難度足夠高，同時提供詳細反饋，包括對問題的理解程度、答案的確定性以及對問題難度的看法等。

Sam Altman泄露新模型o2，太會整活了，營銷鬼才

GPQA數據集流程

接著問題原作者會根據審核專家的反饋，對問題進行修訂。再由另外一位專家對修訂后的問題進行二次審核。最后由其他領域的三位專家來回答這道題，以驗證問題準確性和客觀性。

根據GPQA公布的測試數據顯示，人類博士級專家的回答平均準確率為65%，普通人只有34%，并且他們在回答這些問題時是可以無限使用互聯網資源。

而GPT-4的準確率只有39%，Llama-2-70B為28%左右，GPT-3.5-turbo是29%左右，只有OpenAI最新發(fā)布的o1模型達到了78%，這也是目前唯一在GPQA數據集上超過人類博士的AI模型，可見這個數據集的難度有多高。

不得不說，Sam確實是營銷鬼才，隨便發(fā)點錯誤的消息都能出現裂變式傳播，流量密碼算是讓他拿捏了。

本文素材來源OpenAI、網絡，如有侵權請聯系刪除

相關熱詞： sam altman sam o2 openai 微軟數學試卷營銷

Sam Altman泄露新模型o2，太會整活了，營銷鬼才
來源：互聯網發(fā)布日期：2024-11-04 09:24:41 瀏覽：137次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

Sam Altman泄露新模型o2，太會整活了，營銷鬼才 來源：互聯網 發(fā)布日期：2024-11-04 09:24:41 瀏覽：137次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

Sam Altman泄露新模型o2，太會整活了，營銷鬼才
來源：互聯網發(fā)布日期：2024-11-04 09:24:41 瀏覽：137次