GPT-4o可以對(duì)音頻、視覺和文本進(jìn)行實(shí)時(shí)推理,在232毫秒內(nèi)響應(yīng)音頻輸入,與人類在對(duì)話中的響應(yīng)時(shí)間相似。
GPT-4o的文本和圖像功能開始在ChatGPT中免費(fèi)推出,音頻模式存在各種新風(fēng)險(xiǎn)而未公開,未來音頻輸出將僅限于選定的預(yù)設(shè)聲音,并要遵守安全政策。
GPT-4o生成圖像:機(jī)器人正在輸入日志條目,正文很大,清晰易讀,機(jī)器人的手在打字機(jī)上打字。
5月14日,OpenAI發(fā)布新產(chǎn)品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗艦?zāi)P。OpenAI在ChatGPT中引入GPT-4o并免費(fèi)提供更多功能。
GPT-4o的“o”代表“omni”,意為全能,與現(xiàn)有模型相比,它在視覺和音頻理解方面尤其出色。GPT-4o可以在音頻、視覺和文本中進(jìn)行實(shí)時(shí)推理,接受文本、音頻和圖像的任何組合作為輸入,并生成文本、音頻和圖像的任何組合進(jìn)行輸出。它可以最短在232毫秒內(nèi)響應(yīng)音頻輸入,平均為320毫秒,這與人類在對(duì)話中的響應(yīng)時(shí)間相似。
在GPT-4o之前,用戶可以使用Voice Mode(由三個(gè)獨(dú)立模型組成)與ChatGPT通話,但平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個(gè)簡(jiǎn)單模型將文本轉(zhuǎn)換回音頻。
但這個(gè)過程會(huì)丟失大量信息,例如GPT-4不能直接觀察音調(diào)、多個(gè)說話者或背景噪音,也不能輸出笑聲、歌聲或情感表達(dá)。利用GPT-4o,OpenAI訓(xùn)練了一個(gè)跨文本、視覺和音頻的端到端新模型,這意味著所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理,這是OpenAI第一個(gè)結(jié)合所有這些模式的模型,OpenAI仍在探索模型的功能及其局限性。
新語音模式是一種語音聊天助手。據(jù)Business Insider(商業(yè)內(nèi)幕)報(bào)道,它能夠與用戶進(jìn)行自然的來回對(duì)話,能夠帶著情感說話,它可以假裝興奮、友好,甚至諷刺。這可以秒殺Siri,用戶不需要像蘋果手機(jī)那樣使用“喚醒詞”或精確的命令比如“嘿Siri!”來使用語音功能。
OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman)表示,新的語音和視頻模式是他用過的最好的電腦界面,感覺就像電影里的AI。達(dá)到人類水平的反應(yīng)時(shí)間和表達(dá)能力是一個(gè)很大的變化。“對(duì)我來說,與電腦交談從來都不是一件很自然的事,現(xiàn)在它做到了。隨著我們?cè)黾樱ǹ蛇x的)個(gè)性化、訪問你的信息、代表你采取行動(dòng)的能力等等,我真的可以看到一個(gè)令人興奮的未來,我們能夠使用計(jì)算機(jī)做比以往任何時(shí)候都多的事情。”
從性能來看,OpenAI表示,在傳統(tǒng)基準(zhǔn)測(cè)試中,GPT-4o在文本、推理和代碼智能方面達(dá)到了GPT-4 Turbo級(jí)的性能,同時(shí)在多語言、音頻和視覺能力方面達(dá)到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當(dāng),在非英文文本上有顯著改善。
通過過濾訓(xùn)練數(shù)據(jù)和訓(xùn)練后改進(jìn)模型行為等技術(shù),GPT-4o在設(shè)計(jì)中內(nèi)置了跨模式的安全性,并創(chuàng)建了新的安全系統(tǒng),為語音輸出提供護(hù)欄。GPT-4o還與來自社會(huì)心理學(xué)、偏見和公平、錯(cuò)誤信息等領(lǐng)域的70多名外部專家開展廣泛的外部紅隊(duì)合作,以識(shí)別新增加的模式引入或放大的風(fēng)險(xiǎn),提高與GPT-4o互動(dòng)的安全性。
OpenAI表示,將繼續(xù)減少新發(fā)現(xiàn)的風(fēng)險(xiǎn)。由于認(rèn)識(shí)到GPT-4o的音頻模式存在各種新的風(fēng)險(xiǎn),目前公開的是文本和圖像輸入以及文本輸出,在接下來的幾周和幾個(gè)月里將圍繞技術(shù)基礎(chǔ)設(shè)施、訓(xùn)練后的可用性、發(fā)布其他模式所需的安全性開展工作,例如音頻輸出將僅限于選定的預(yù)設(shè)聲音,并將遵守現(xiàn)有安全政策。
目前,GPT-4o的文本和圖像功能開始在ChatGPT中免費(fèi)推出,Plus用戶可以享受到5倍的調(diào)用額度。在接下來的幾周內(nèi),OpenAI將在ChatGPT Plus中推出Voice Mode新版本,該版本帶有GPT-4o。