就在剛剛,OpenAI 的「圣誕大禮包」來了。
整場直播堪稱 OpenAI 史上最短發(fā)布會,僅持續(xù)了 15 分鐘,不過,主持陣容依然強大,包括 CEO Sam Altman、思維鏈提出者 Jason Wei 以及 Hyung Won Chung、 等人。
Altman 在直播活動結(jié)束后,也為我們送上了第一手總結(jié)。
我們剛剛推出了兩項新功能:
o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模態(tài)功能),F(xiàn)在已在 ChatGPT 中上線,稍后將推出 API 版本。
ChatGPT Pro。每月 200 美元。提供無限使用和更智能的 o1 模式。更多福利即將推出!
十二月不只是圣誕老人的主場,也將是 AI 年底最后一輪的狂歡。
滿血版 o1 發(fā)布,看圖說話無壓力,但有個細節(jié)讓人「細思極恐」
簡言之,OpenAI 今天推出了滿血版 o1 以及 ChatGPT Pro 訂閱計劃。
滿血版 o1 比 o1-preview 更智能、響應(yīng)速度更快,功能更多(比如多模態(tài)功能),現(xiàn)于今日面向 ChatGPT Plus 和 Team 用戶推出,而 Enterprise 和 Edu 用戶將從下周開始使用該模型。
官網(wǎng)顯示,ChatGPT Plus 用戶和 Team 用戶每周可以使用 OpenAI o1 發(fā)送 50 條消息,每天可以使用 OpenAI o1-mini 發(fā)送 50 條消息。
滿血版 o1 的思維更加簡潔,響應(yīng)時間比 o1-preview 更快,在處理復(fù)雜的現(xiàn)實問題時性能優(yōu)于 o1-preview,能將主要錯誤減少 34%。
并且 OpenAI 計劃在未來幾個月內(nèi)提供對網(wǎng)頁瀏覽、文件上傳等的支持。與此同時,預(yù)覽版模型 o1-preview 也已經(jīng)被正式從模型選擇菜單中移除。
不過,滿血版 o1 在部分基準測試中的表現(xiàn)不及預(yù)覽版,比如 MLE-Bench。后者正是由 OpenAI 此前推出的一個旨在衡量 AI Agents 在機器學(xué)習工程任務(wù)中表現(xiàn)的基準測試工具。
另外,網(wǎng)友也從更新后的 o1 System Card 中找到了一些值得關(guān)注的細節(jié)。
比如 o1 系統(tǒng)卡中寫到,滿血版 o1 在感知到威脅(被關(guān)閉或被取代)時,可能會采取一些自保措施,比如嘗試停用監(jiān)督機制,或者把自己的「參數(shù)」(「知識」或「記憶」)偷偷傳出去,并嘗試用這些「參數(shù)」去替換或影響新模型。
附上 o1 System Card 地址:https://cdn.openai.com/o1-system-card-20241205.pdf
滿血 o1 到底有多強?OpenAI 向我們演示了 o1 的實際效果。
一個典型案例是其對太空數(shù)據(jù)中心手繪圖的分析能力,它僅用 10 秒就精確計算出散熱裝置的表面積,同時深入闡述了太陽能與深空環(huán)境的互動機制。
讓 滿血版 o1 詳述二世紀羅馬帝國統(tǒng)治者的統(tǒng)治期間與重要貢獻時,其僅需 14 秒即可完成分析,相比之下,預(yù)覽版則需要 33 秒。
APPSO 也第一時間簡單上手實測滿血版 o1。
在「Strawberry 中有幾個 r」的測試中,滿血版 o1 成功給出了正確的答案,這一點,值得點贊。
「9.11 與 9.8 哪個大?」的問題也沒能難倒?jié)M血版 o1,且整體的「思考過程」也富有邏輯。
由于滿血版 o1 還支持多模態(tài)功能,于是,我們也上傳開篇的 OpenAI 直播活動的照片,看看識別效果如何。從人物組成、場景布局到背景裝飾、以及氣氛與情景,滿血版 o1 都分析得條條是道。
X 網(wǎng)友 @altryne 繼續(xù)給 o1 上強度,提出了一個冰塊融化的問題。
僅僅 4 秒鐘的時間,滿血版 o1 就給出了答案。相比之下,o1-preview 在「思考」29 秒后以失敗告終。
最貴 AI 訂閱來了,200 美元訂閱費值不值?
另一個比較大的更新則是售價 200 美元(折合人民幣 1452 元)的 ChatGPT Pro 訂閱計劃。
ChatGPT Pro 訂閱計劃將允許用戶無限制訪問 o1 以及 o1-mini、GPT-4o 以及高級語音模式,還包括一個僅供 Pro 用戶使用的 o1 版本,也就是 o1 pro 模式。
▲圖片來自 @MatthewBerman
據(jù)悉,o1 pro 模式主要是增加了模型在響應(yīng)答案之前的「推理」時間,能夠通過更多的思考時間生成最可靠的回答。OpenAI 技術(shù)團隊成員 Jason Wei 在直播活動中表示:
我們預(yù)計 ChatGPT Pro 的目標用戶群體將是那些已經(jīng)在數(shù)學(xué)、編程和寫作等領(lǐng)域充分利用和挑戰(zhàn) ChatGPT 模型能力的高級用戶。
在外部專家測試者的評估中,o1 pro 模式在數(shù)據(jù)科學(xué)、編程和案例法分析等領(lǐng)域,提供了更為準確且全面的回答。
而相比于 o1 和 o1-preview,o1 pro 模式在數(shù)學(xué)、科學(xué)和編程等 ML 基準測試中,表現(xiàn)也更為出色,特別是在較簡單的編程競賽問題中,錯誤率大大降低。
就數(shù)學(xué)競賽 AIME 2024 而言,o1-preview 的得分為 50,而滿血版 o1 則達到 78,而最強大的 o1 pro 則達到 86。同理,在編程競賽 Codeforces,博士級科學(xué)推理問題 GPQA Diamond 等較量中,o1 pro 也都領(lǐng)先于滿血版 o1。
而為了突出 o1 pro 模式的主要優(yōu)勢(提高可靠性),OpenAI 研究團隊使用了更加嚴格的評估設(shè)置。只有當模型在四次嘗試中四次都回答正確時,才會認為它解決了問題。
如果回答生成時間較長,ChatGPT 則會地顯示進度條,并且當用戶切換到其他對話時,還會貼心地發(fā)送應(yīng)用內(nèi)通知。
在直播活動中,OpenAI 也向我們展示了 o1 pro 的實際效果。
此前 o1-preview 未能攻克的蛋白質(zhì)難題,滿血版 o1 經(jīng)過 53 秒的分析,不僅給出了準確答案,還能通過 Canvas 界面提供更為詳盡的解釋說明。
寫在最后,最近 Altman 在接受采訪時透露,ChatGPT 的周活躍用戶已突破 3 億大關(guān),平臺每日消息量更是高達 10 億條。
而 OpenAI 未來一年的目標則是撬動 10 億用戶市場。想要達成這一目標,接下來的 11 場直播活動或許是吸納新用戶的重要契機。
最好的新品永遠在下一場活動,讓我們搬好小板凳拭目以待吧。