朋友,先別急著退訂 ChatGPT 會(huì)員。
最近,DeepSeek 開源周搞得熱火朝天,全球開發(fā)者忙著分享代碼、碰撞靈感;而另一邊,OpenAI 卻選在開源周最后一天冷不丁地丟出了 GPT-4.5 這個(gè)「大殺器」。
Sam Altman 在 X 平臺(tái)在 X 分享了他的個(gè)人體驗(yàn):
這是我第一次覺得 AI 像在與一位深思熟慮的人對(duì)話。它真的能提供有價(jià)值的建議,甚至讓我有幾次靠在椅子上,驚訝于 AI 竟然能給出如此出色的回答。
不過,他也特別提醒,GPT-4.5 不是推理型模型,不會(huì)在基準(zhǔn)測(cè)試中碾壓其他模型。而他之所以沒有亮相發(fā)布會(huì),原因是在醫(yī)院照顧小孩。
從今天開始,ChatGPT Pro 用戶已經(jīng)用上 GPT-4.5(研究預(yù)覽版)了。下周,將會(huì)逐步開放給 Plus 和 Team 用戶;再下一周,Enterprise 和 Edu 用戶也能體驗(yàn)到這個(gè)新版本。
體驗(yàn)方式十分簡(jiǎn)單,只需在網(wǎng)頁(yè)版、移動(dòng)端和桌面端的模型選擇器即可切換使用。
GPT-4.5 支持聯(lián)網(wǎng)搜索,并能夠處理文件和圖片上傳,還可以使用 Canvas 來(lái)進(jìn)行寫作和編程。不過,目前 GPT-4.5 還不支持多模態(tài)功能,如語(yǔ)音模式、視頻和屏幕共享。
GPT-4.5 主要通過「無(wú)監(jiān)督學(xué)習(xí)」(就是自己從大量數(shù)據(jù)中學(xué)習(xí))變得更聰明,而不是像 OpenAI o1 或者 DeepSeek R1 那樣專注于推理能力。
簡(jiǎn)單說,GPT-4.5 知道的更多,而 o1 系列更會(huì)思考。
亮點(diǎn)概括如下:
知識(shí)更廣泛:它學(xué)習(xí)了更多的信息,所以懂的東西比以前多
更少胡說八道:減少了「幻覺」(就是 AI 編造事實(shí)的情況)
更懂人心:「情商」更高,更能理解你的真實(shí)意圖
對(duì)話更自然:聊天感覺更像和真人交流,不那么機(jī)械
創(chuàng)意更豐富:在寫作和設(shè)計(jì)方面表現(xiàn)更好
GPT-4.5 正式發(fā)布,更懂你的心了
GPT-4.5 最直觀的變化就是更懂你。
它更像一個(gè)善解人意的朋友,能夠理解你的言外之意,捕捉你微妙的情感變化。
OpenAI 在內(nèi)部測(cè)試中發(fā)現(xiàn),與 GPT-4o 相比,測(cè)試人員更喜歡 GPT-4.5 的回答,認(rèn)為它更自然、更溫暖、更符合人類的交流習(xí)慣。
在與人類測(cè)試者的對(duì)比評(píng)估中,GPT-4.5 相較于 GPT-4o 的勝率(人類偏好測(cè)試)更高,包括但不限于創(chuàng)造性智能(56.8%)、專業(yè)問題(63.2%)以及日常問題(57.0%)。
作為 OpenAI 迄今為止規(guī)模最大、知識(shí)最豐富的模型,GPT-4.5 在 GPT-4o 的基礎(chǔ)上進(jìn)一步擴(kuò)展了預(yù)訓(xùn)練,并被設(shè)計(jì)為比 OpenAI 以 STEM 領(lǐng)域推理為重點(diǎn)的強(qiáng)大模型更加通用。
GPT-4.5 的突破,很大程度上歸功于「無(wú)監(jiān)督學(xué)習(xí)」的進(jìn)步。
簡(jiǎn)單來(lái)說,無(wú)監(jiān)督學(xué)習(xí)就是讓 AI 自己從海量數(shù)據(jù)中學(xué)習(xí),而不是靠人工標(biāo)注數(shù)據(jù)。
這就好比讓一個(gè)孩子自己去看世界,而不是事事都由大人告訴他。這樣,孩子就能學(xué)到更多更豐富的知識(shí),形成自己的「世界觀」。
OpenAI 認(rèn)為,無(wú)監(jiān)督學(xué)習(xí)和推理能力是 AI 發(fā)展的兩大支柱。
得益于此,GPT-4.5 的知識(shí)面更廣,對(duì)用戶意圖的理解更精準(zhǔn),情緒智能也有所提升,因此特別適用于寫作、編程和解決實(shí)際問題,同時(shí)減少了幻覺現(xiàn)象。
SimpleQA 用于評(píng)估大語(yǔ)言模型(LLM)在簡(jiǎn)單但具有挑戰(zhàn)性的知識(shí)問答中的事實(shí)性。而 GPT-4.5 在 SimpleQA 準(zhǔn)確率(數(shù)值越高越好)達(dá)到 62.5%,遙遙領(lǐng)先于 OpenAI 其它模型。
另外,在 SimpleQA 幻覺率(數(shù)值越低越好)的評(píng)估中,GPT-4.5 的分?jǐn)?shù)為 37.1%,也和 OpenAI 其它模型拉開差距。
在 PersonQA 數(shù)據(jù)集上,GPT-4.5 取得了 0.78 的準(zhǔn)確率,優(yōu)于 GPT-4o(0.28)和 o1(0.55)。
此外,OpenAI 對(duì) GPT-4.5 進(jìn)行了廣泛的安全測(cè)試,包括有害內(nèi)容拒絕、幻覺評(píng)估、偏見檢測(cè)、越獄攻擊防護(hù)等:GPT-4.5 在拒絕不安全內(nèi)容方面表現(xiàn)良好,但在過度拒絕(overrefusal)方面比前代模型稍高。
多語(yǔ)言性能方面,GPT-4.5 支持 14 種語(yǔ)言,在 MMLU 評(píng)估中超越了 GPT-4o,尤其在低資源語(yǔ)言(如斯瓦希里語(yǔ)、約魯巴語(yǔ))上有明顯提升。
至于編程和軟件工程,GPT-4.5 代碼生成和修復(fù)任務(wù)表現(xiàn)有所提升。
Agentic Tasks 評(píng)估的是 AI 在真實(shí)環(huán)境中獨(dú)立完成復(fù)雜任務(wù)的能力,包括終端操作(Linux + Python 環(huán)境)、資源獲。ㄈ缱詣(dòng)下載、運(yùn)行程序)以及復(fù)雜任務(wù)執(zhí)行(如加載和運(yùn)行 AI 模型)等。
OpenAI 發(fā)布的系統(tǒng)卡顯示,GPT-4.5 在自主任務(wù)方面仍然受到一定限制,遠(yuǎn)未達(dá)到真正的自主 AI Agent。
除了普通用戶,GPT-4.5 也向開發(fā)者敞開了大門。
OpenAI 同步開放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。
GPT-4.5 支持函數(shù)調(diào)用(function calling)、結(jié)構(gòu)化輸出(Structured Outputs)、流式響應(yīng)(streaming)和系統(tǒng)消息(system messages),并且具備視覺能力,可通過圖像輸入進(jìn)行處理。
開發(fā)者可以通過 API 接口將 GPT-4.5 集成到自己的應(yīng)用中,創(chuàng)造出更多有趣、有用的產(chǎn)品。
不過,GPT-4.5 計(jì)算量極大,成本高昂,因此并不會(huì)取代 GPT-4o。并且,OpenAI 仍在評(píng)估是否長(zhǎng)期在 API 中提供 GPT-4.5,以便在支持當(dāng)前功能的同時(shí),繼續(xù)推進(jìn)未來(lái)模型的開發(fā)。
AI 進(jìn)入「拼情商」時(shí)代?
本次直播環(huán)節(jié)由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。
當(dāng)演示人員要求寫一條憤怒短信給頻繁取消約會(huì)的朋友時(shí),GPT-4.5 能夠識(shí)別出用戶的沮喪情緒,并給出了更加微妙且建設(shè)性的回應(yīng),幫助用戶以更理性的方式表達(dá)感受。
另一個(gè)演示則展示了 GPT-4.5 在解釋復(fù)雜問題上的能力,「為什么海水是咸的?」
GPT-1 完全不知道答案,GPT-2 給出相關(guān)但錯(cuò)誤的回答,GPT-3.5 Turbo 首次給出正確但解釋不充分的答案,GPT-4 過于詳盡列舉事實(shí),而 GPT-4.5 則提供了簡(jiǎn)潔、連貫且有趣的解釋,開頭使用了甚至使用了朗朗上口的句式。
據(jù)介紹,OpenAI 在開發(fā) GPT-4.5 時(shí)實(shí)現(xiàn)了幾項(xiàng)關(guān)鍵的訓(xùn)練機(jī)制創(chuàng)新。
訓(xùn)練如此大規(guī)模的模型需要顯著提升后訓(xùn)練(post-training)基礎(chǔ)設(shè)施,因?yàn)轭A(yù)訓(xùn)練階段和后訓(xùn)練階段的訓(xùn)練數(shù)據(jù)與參數(shù)大小比例完全不同。
團(tuán)隊(duì)開發(fā)了一種新的訓(xùn)練機(jī)制,能夠使用更小的計(jì)算資源來(lái)微調(diào)如此大型的模型。
具體來(lái)說,他們通過多次迭代,結(jié)合了監(jiān)督式微調(diào)(supervised fine-tuning)和基于人類反饋的強(qiáng)化學(xué)習(xí)(reinforcement learning with human feedback)來(lái)完成后訓(xùn)練過程,最終開發(fā)出了可以部署的模型。
在預(yù)訓(xùn)練方面,由 Alex 和 Jason 領(lǐng)導(dǎo)的團(tuán)隊(duì)采取了多項(xiàng)措施來(lái)最大化計(jì)算資源的利用:
使用低精度訓(xùn)練(low precision training)來(lái)充分利用 GPU 性能
跨多個(gè)數(shù)據(jù)中心同時(shí)預(yù)訓(xùn)練模型,因?yàn)樗麄冃枰挠?jì)算資源超過了單一高帶寬網(wǎng)絡(luò)架構(gòu)所能提供的上限
此外,團(tuán)隊(duì)構(gòu)建了新的推理系統(tǒng),確保模型能在 ChatGPT 中快速響應(yīng)用戶,保持對(duì)話的流暢性。同時(shí),他們表示將在發(fā)布后繼續(xù)改進(jìn),使模型運(yùn)行更快。
這些訓(xùn)練和部署機(jī)制的創(chuàng)新使團(tuán)隊(duì)能夠?qū)⒏嘤?jì)算能力注入模型中,從而實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的大規(guī)模擴(kuò)展,這也是 GPT-4.5 能夠在不依賴逐步推理的情況下,仍然展現(xiàn)出強(qiáng)大理解能力和較低幻覺率的關(guān)鍵原因。
值得一提的是,OpenAI 的首席研究官 Mark Chen 在 GPT-4.5 發(fā)布之前接受了 Alex Kantrowitz 的采訪。
當(dāng)被問到 OpenAI 是否在模型運(yùn)行效率方面有所改進(jìn)時(shí),他表示:
讓模型的運(yùn)行更高效這一過程,通常與模型核心能力的開發(fā)相對(duì)獨(dú)立。我看到很多工作都集中在推理(Inference)架構(gòu)上。DeepSeek 在這方面做得很好,而我們也在這方面投入了大量精力。我們非常關(guān)注如何以更低的成本向所有用戶提供這些模型服務(wù),并一直在努力降低成本。
無(wú)論是 GPT-4 這樣的推理模型,還是其他模型,我們始終在推動(dòng)更低成本的推理優(yōu)化。從 GPT-4 最初發(fā)布以來(lái),運(yùn)行成本已經(jīng)降低了多個(gè)數(shù)量級(jí),我們?cè)谶@方面取得了不錯(cuò)的進(jìn)展。
隨后,當(dāng)被問及當(dāng)前的 Scaling Law 是否已經(jīng)遇到瓶頸,或者是否觀察到擴(kuò)展帶來(lái)的收益遞減時(shí),Mark Chen 回答道:
「我對(duì) Scaling 有不同的理解。當(dāng)涉及無(wú)監(jiān)督學(xué)習(xí)時(shí),你需要更多的關(guān)鍵要素,比如計(jì)算資源、算法優(yōu)化以及更多的數(shù)據(jù)。而 GPT-4.5 確實(shí)證明了我們可以繼續(xù)推進(jìn)擴(kuò)展范式,而且這種范式并不與推理能力相對(duì)立。
推理能力需要建立在知識(shí)的基礎(chǔ)之上。一個(gè)模型不能憑空推理,而是需要先獲取知識(shí),再在此基礎(chǔ)上發(fā)展推理能力。因此,我們認(rèn)為這兩種范式是相輔相成的,并且它們之間存在相互促進(jìn)的反饋循環(huán)!
實(shí)際上,GPT-4.5 不僅展示了無(wú)監(jiān)督學(xué)習(xí)的巨大潛力,也預(yù)示著 AI 的發(fā)展方向更像人。
過去,AI 的發(fā)展主要集中在提高智力,比如下棋、做題、識(shí)別圖像等。而現(xiàn)在,與兩年前 GPT-4 橫空出世時(shí)引發(fā)的轟動(dòng)不同,人們對(duì) AI 的期待已經(jīng)從兩年前的「能做什么」轉(zhuǎn)向當(dāng)下「能做得更好、更安全、更可控」。
越來(lái)越多的 AI 公司開始關(guān)注「情商」,試圖讓 AI 更懂人類的情感和需求。
GPT-4.5 就是這一趨勢(shì)的代表。投入資源,研發(fā)更懂人心的 AI 依舊是行業(yè)值得關(guān)注的命題。不過,GPT-4.5 雖然展示了基于海量數(shù)據(jù)和算力的語(yǔ)言模型所能達(dá)到的高度,但它的表現(xiàn)依然顯得有些捉襟見肘。
從這個(gè)角度看,它或許更像畫上了階段性的句點(diǎn),扮演了一個(gè)承上啟下的過渡角色。既是對(duì)過去幾代模型的總結(jié)與修補(bǔ),也是在為下一波技術(shù)浪潮鋪路。
真正的突破,可能還得等 GPT-5 來(lái)實(shí)現(xiàn)。
擔(dān)心留給 OpenAI 的迭代時(shí)間不夠,別急,我有一招,虛假的版本迭代是 GPT-4.5→GPT-5,在接下來(lái)的「數(shù)月內(nèi)」,真實(shí)的發(fā)布節(jié)奏應(yīng)該是 GPT-4.5→GPT-4.6→GPT-4.7→…
好消息是,這一次估摸著不用再等上兩年了。
#歡迎關(guān)注愛范兒官方微信公眾號(hào):愛范兒(微信號(hào):ifanr),更多精彩內(nèi)容第一時(shí)間為您奉上。
愛范兒 |原文鏈接 查看評(píng)論 新浪微博