近期,OpenAI CEO Sam Altman 于東京大學內開展了一次訪談。期間,他透露了有關 OpenAI 新的推理模型、以及公司未來規(guī)劃等關鍵信息。Altman 稱,在內部,OpenAI 的模型已經開發(fā)到了相當于 GPT-4.5 的水平,并且要達到 GPT-5.5 的水平并不需要像過去那樣將計算能力提升 100 倍。而這種突破背后,是 OpenAI 在模型訓練方法上的根本性轉變。
(來源:Youtube)
“過去一年中,對我們來說,領域內最重要的突破是這些能夠進行推理的新模型,”Altman 在訪談中解釋道。這標志著 AI 發(fā)展范式的一種轉變:從簡單依靠擴大模型規(guī)模和增加預訓練數據,轉向了一種更精細、更有針對性的方法。在這種新方法中,強化學習發(fā)揮著核心作用。
傳統(tǒng)的大語言模型遵循一個相對簡單的擴展邏輯:每一代模型的計算能力大約是前一代的 100 倍。正如 Altman 所說:“在過去的范式中,我們只做預訓練,從 GPT-1 到 GPT-4,每個版本都大約是前一個版本的 100 倍計算能力,每次都會出現(xiàn)重大的新特性。”然而,這種簡單的擴展策略似乎已經遇到了瓶頸。
為此,OpenAI 開始探索一種全新的方向:專注于開發(fā)通過強化學習優(yōu)化的專業(yè)化模型。
這些模型通過強化學習進行優(yōu)化,特別擅長處理具有明確答案的任務,如編程和數學問題。這種方法帶來了驚人的計算效率提升,使得他們能夠用更小的模型達到此前需要等到 GPT-6 才可能實現(xiàn)的性能水平。
比如,在編程領域,這種新方法的效果格外明顯。他們的第一個推理模型 o1 在全球競爭性程序員中排名為前一百萬位,這在當時就已經被認為是個重要突破。隨后,模型的能力快速提升,很快進入了前一萬名。到 2024 年 12 月,他們公開發(fā)布的 o3 模型已經達到了第 175 位。而目前,他們內部的最新模型已經達到約第 50 位的水平。Altman 甚至預計,在今年年底有望排名第一。
不過,這種新方法也存在其局限性!爱斘覀儾捎眠@種新方式時,模型并不是在所有方面都會變得更好,而是在特定維度上取得突破,”他解釋道。這種專門化的特點使得新一代模型在編程領域表現(xiàn)出色,但在創(chuàng)造性任務,如發(fā)明全新算法或發(fā)現(xiàn)新的科學知識方面,仍有提升空間。
為了突破這些限制,OpenAI 正在嘗試一個新的方向:把大規(guī)模預訓練模型與專業(yè)化的推理能力結合起來。Altman 認為,這種結合可能帶來重要突破,帶來“在真正新的科學知識上的第一個跡象或某種生命跡象。”
實際上,DeepSeek-R1 這款推理模型已將強化學習帶來的推理能力泛化到了其他領域,給寫作等通用場帶來的能力提升,已經讓我們看到這種可能。
圖丨 Andrej Karpathy 關于強化學習能否泛化的看法(來源:X)
在訪談中,Altman 還透露了 OpenAI 在未來的規(guī)劃。他表示,在未來 6 到 12 個月內,他們將專注于開發(fā)小型但高效的推理模型。這些模型不僅要在科學和技術領域保持優(yōu)勢,還將逐步擴展到其他領域。同時,他們也在努力實現(xiàn)多模態(tài)集成,讓用戶能夠同時使用語音、代碼編寫、畫布創(chuàng)作等多種功能。
“到今年年底,我們希望能夠推出一個新的模型,“Altman 說,“如果用戶使用 Pro 版本,將計算能力調到最大,就能向它提出非常困難的問題。雖然這個模型可能需要幾個小時的思考時間,可能需要使用多種工具,但最終能夠獨立完成任務。不過現(xiàn)在還不能期待它發(fā)現(xiàn)全新的科學原理!
另外,在開源問題上,OpenAI 的立場正在發(fā)生微妙的變化。這一變化部分正是對 Deepseek 發(fā)布開源推理模型 R1 的回應。“我們會走向開源,”Altman 說,“雖然我現(xiàn)在還不能確切說明會開源什么或什么時候開源,但社會似乎已經準備好接受開源模型帶來的各種影響。”
Altman 表示,OpenAI 在確保模型安全性和穩(wěn)健性方面已經取得了進展。雖然開源模型的使用方式可能不會完全符合預期,但他們相信在大多數情況下,這些模型會發(fā)揮應有的作用。
2025 年,OpenAI 會如 Altman 所宣稱的那樣更開放、更領先嗎?讓我們拭目以待。
參考資料:
1. https://www.youtube.com/watch?v=8LmfkUb2uIY
排版:初嘉實