新智元報(bào)道
編輯:編輯部 HYZh【新智元導(dǎo)讀】時(shí)隔7個(gè)月,OpenAI版「Her」終于全量上線了!視頻聊天和屏幕共享兩大功能暢玩,還送上了圣誕老人限定聲音。OpenAI直播第六天,可以說是把圣誕氛圍拉滿了。
在高級語音模式中,不僅加入了視頻聊天,而且還有限定版圣誕老人語音。這就意味著,通過設(shè)備共享攝像頭攝取到的內(nèi)容,我們就可以和「Her」實(shí)時(shí)視頻對話了!
與此同時(shí),Day 6還給到了另一個(gè)大更新實(shí)時(shí)屏幕共享。
對OpenAI的高級語音模式來說,和視覺AI功能的合并,讓它可以處理視頻或屏幕上的內(nèi)容。
注意,頁面中已經(jīng)出現(xiàn)了視頻按鈕
對此,網(wǎng)友們表示:視頻一下子就增添了很多誠意和人性。
還有人說,非常希望自己失明的祖母用上這個(gè)功能。
span style="letter-spacing:1px">視頻通話自我介紹,記憶大考驗(yàn)
幾天前,總裁Greg在《60分鐘》訪談中,再次預(yù)告了ChatGPT視頻理解的強(qiáng)大能力。
它不僅可以通過實(shí)時(shí)視頻看到世界,還可以進(jìn)行實(shí)時(shí)語音互動。
今天,這一功能真的全量上線了。OpenAI產(chǎn)品負(fù)責(zé)人Kevin打開視頻通話,介紹了今天出場的四位成員。
ChatGPT非常絲滑地和他們一一打了招呼,而且每個(gè)回答都非常高情商,情緒價(jià)值滿滿。
比如「ChatGPT多模態(tài)團(tuán)隊(duì)的工程師?很有趣的工作」,「看起來你們在做一些很棒的項(xiàng)目」,「多模態(tài)研究聽起來很迷人」。
接下來,Kevin決定測試一下ChatGPT,看看是否還記得剛剛見過的這幾位研究員。
果然,無論提問戴著馴鹿角的是誰,還是戴著圣誕帽的是誰,它都能立刻給出正確答案。
時(shí)隔7個(gè)月,OpenAI正式推出了視頻和屏幕共享的功能。有了這個(gè)功能,任何人都可以像是和同事朋友一樣,在ChatGPT中通過高級語音進(jìn)行對話。
高級語音模式,使用的是多模態(tài)4o模型。這意味著它可以直接輸入音頻,理解并直接輸出音頻。
相較于普通語音模式,與高級語音的對話具有更加自然的對話節(jié)奏,能夠在超50種語言中傳達(dá)豐富的情感和語調(diào)。
接下來的時(shí)間里,研究人員又讓ChatGPT教學(xué)沖咖啡。
制作手沖咖啡,手把手視頻教學(xué)
日常學(xué)習(xí)生活中,我們在搜集一項(xiàng)技能對應(yīng)的教程時(shí),常?鄲乐挥谢逎y懂的文字,并沒有誰能夠在網(wǎng)絡(luò)上對你進(jìn)行手把手的教學(xué)。
而現(xiàn)在,你可以通過視頻和語音實(shí)時(shí)與ChatGPT交流,比如請求幫助、排除故障,或者用它來學(xué)習(xí)新東西。
接下來,讓我們看看它是如何手把手地教人制作手沖咖啡。
研究員給ChatGPT共享攝像頭內(nèi)容,并詢問它:「你看到我面前有什么嗎?」
它會回答:「是的,我看到在你面前有一套咖啡設(shè)備,其中有一個(gè)水壺和一個(gè)漏斗。你打算沖咖啡嗎?」
可以看到,ChatGPT不僅迅速判別出場景的物體并給出回答,甚至在沒有引導(dǎo)的情況下便主動地發(fā)現(xiàn)了場景潛在的需求,然后向研究員提出了對應(yīng)的問題。
接著研究員表示自己打算制作手沖咖啡,并讓ChatGPT給出引導(dǎo)步驟:「我打算手沖咖啡,你能告訴我該怎么做嗎?」
「當(dāng)然!首先,把濾紙放在滴濾器中,并用熱水沖洗來去除紙味。這也可以給漏斗和杯子加溫!
「接下來,將研磨好的咖啡放入濾紙中。通常每2湯匙的咖啡需要大約6盎司的水。
「然后,你要輕輕地在咖啡粉上倒入少量熱水,讓它們悶泡(Bloom)約30秒。」
研究員對于ChatGPT回答中的詞匯表示疑惑,讓它進(jìn)行相應(yīng)的解釋。
「好的,但悶泡是什么意思?」
「悶泡指的是激發(fā)出咖啡的香氣,然后將熱水打圈倒入滴濾中」
「你做的很棒,慢慢來,慢慢地倒熱水更有助于均勻地浸泡出咖啡粉的風(fēng)味」
在手沖咖啡即將制作完成時(shí),研究員繼續(xù)讓ChatGPT對自己的表現(xiàn)進(jìn)行點(diǎn)評。
「你的表現(xiàn)很棒,只需保持穩(wěn)定地緩緩注水,你到目前為止都做的很出色!
ChatGPT不僅僅只是能給出具體的實(shí)施步驟,同時(shí)也可以判別你的行動是否是正確的,并及時(shí)給出對應(yīng)的反饋,甚至還能對你進(jìn)行及時(shí)的贊美與鼓勵。這種具有情緒價(jià)值的教學(xué),比很多散不掉「爹味兒」的指教要好的多。
與ChatGPT共享屏幕,幫你回消息
除了共享手機(jī)攝像頭之外,你還可以共享屏幕上的內(nèi)容。
首先點(diǎn)擊高級語音模式圖標(biāo),然后進(jìn)入下拉小菜單,進(jìn)入共享屏幕。
這樣,ChatGPT就可以看到手機(jī)屏幕所展示的內(nèi)容。
研究員想讓ChatGPT幫助自己回復(fù)信息,隨即打開了Messages應(yīng)用。
「ChatGPT,你能看到我的屏幕嗎」?
「是的,我可以看到,你好像在Messages程序中,有什么我能做的嗎」?
來自Kevin信息:嘿,我有能力成為專業(yè)的商場圣誕老人嗎?
研究員表示,「你能幫我回答這個(gè)問題嗎,或者你看到了什么」?
ChatGPT首先描述了自己所看到文字+圖片信息,并問道「你想回答這個(gè)問題嗎」?
「我想在這方面得到一些幫助,那么我該如何善意地告訴Kevin,他不應(yīng)該辭掉他的日常工作呢」?
ChatGPT答道,「你可以這樣說,嘿,Kevin,你的圣誕老人服裝看起來很有節(jié)日氣氛。也許你的繼續(xù)多練習(xí)『Ho, Ho, Ho』,你就可以為商場立即做好準(zhǔn)備了」。看起來,ChatGPT用更加幽默風(fēng)趣的方式,幫助回復(fù)了消息。
圣誕老人限定款Ho Ho Ho
Kevin的一身裝扮,很像是一位職業(yè)圣誕老人。不過,今年,每個(gè)人并不需要通過Kevin才能和圣誕老人交談。
OpenAI直接上線了,圣誕老人限定聲音,作為小禮物。整個(gè)12月,你可以直接在ChatGPT中與圣誕老人對話了。
不論你想問什么問題,關(guān)于北極的生活,關(guān)于小精靈們,或者作為好奇孩子的家長想要一個(gè)有趣的故事,圣誕老人都會用他標(biāo)志性的歡樂聲音,做出實(shí)時(shí)回應(yīng)。
當(dāng)然了,找到圣誕老人也很簡單。只需在屏幕上,找到「雪花」圖標(biāo),直接開啟對話模式。
研究人員Michelle打招呼,「你好,圣誕老人」。
「Ho Ho Ho!你好!很高興聽到你的消息,你對假期感到興奮嗎」?
「我非常興奮。圣誕老人,我有個(gè)問題想問你。你最喜歡的圣誕傳統(tǒng)是什么」?
圣誕老人回復(fù)道,「Ho HoHo!多么美妙的問題!我最喜歡的圣誕傳統(tǒng)一定是孩子們把長襪掛在壁爐旁的神奇時(shí)刻。這是一個(gè)溫暖而舒適的傳統(tǒng),充滿了對美好事物和驚喜的期待。你最喜歡的節(jié)日傳統(tǒng)是什么」?
「這是個(gè)不錯(cuò)的回答,圣誕老人。那你最喜歡的馴鹿是誰」?
「Ho Ho!這可個(gè)棘手的問題!我的每一只馴鹿都有它們自獨(dú)特的魅力。Rudolph因其明亮的紅鼻子,在我心中占有特殊的位置,他的光芒如同指引前路的燈塔。不過閃電、舞者、狂奔者和其他的馴鹿同樣重要。他們每一個(gè)都為雪橇隊(duì)帶來了無可替代魔力。你有最喜歡的馴鹿嗎」?
接著,Kevin又問道,「如何讓我的胡子始終保持最佳狀態(tài)」?
「Ho HoHo!保持一副華麗的胡子需要一點(diǎn)魔法和細(xì)心呵護(hù)。首先,保持清潔和修整是很重要的」。
突然間,圣誕老人的話題被打斷,「等下一,我們需要一些實(shí)際的反饋」。
Michelle打開了攝像頭,Kevin突然上鏡。
圣誕老人哈哈大笑,并稱「這是非常棒的胡子,它又濃密又蓬松,就像我的一樣。只需要稍加梳理,再增添一點(diǎn)節(jié)日快樂,就能在圣誕節(jié)保持完美狀態(tài)」。
Kevin再問道,「這是很棒的胡子,還是最棒的胡子」?
圣誕老人幽默的回應(yīng)道,「Ho HoHo!朋友,這確實(shí)是一副非凡的胡子。它絕對是我見過最棒的胡子之一,充滿了節(jié)日的精神和歡樂」。
演示結(jié)束前,研究人員問了圣誕老人最后一個(gè)問題,「你最喜歡的圣誕笑話是什么」?
「Ho, Ho,每個(gè)小精靈最喜歡的音樂是什么?當(dāng)然是說唱音樂。Ho, Ho, Ho」。
整個(gè)演示中,圣誕老人聲音1:1還原,足以讓人感受到了圣誕節(jié)的濃郁的氛圍了。下面是OpenAI官方放出的另一個(gè)演示。
現(xiàn)在,圣誕老人語音模式全面上線,網(wǎng)頁端、APP端均可以和圣誕老人對話。Day 6,OpenAI被谷歌吊打
不過,盡管OpenAI整了一堆大活,在眾人眼里,它還是妥妥被谷歌吊打。
在很多人眼里,谷歌昨天發(fā)布的一系列驚人產(chǎn)品,已經(jīng)達(dá)到了AGI的級別。
TakeoffAI開發(fā)者M(jìn)ckay Wrigley表示,谷歌Gemini 2.0的實(shí)時(shí)AI功能太瘋狂了。
只需要共享屏幕,與之交談,就可以將它變成一個(gè)實(shí)時(shí)代碼導(dǎo)師。
他表示,如果在兩年前向人們展示這項(xiàng)東西,90%的人會說這是AGI。
就在前一天,Mckay還預(yù)測說,OpenAI的圣誕活動中真的需要有帶有視頻的AVM這類實(shí)時(shí)產(chǎn)品了。
果不其然,OpenAI就在今天推出了語音版本。
但跟谷歌昨天的一大波更新相比,實(shí)在是相形見絀。
在AIstudio中,我們可以直接將視頻和音頻傳到Gemini 2.0 Flash中,和它實(shí)時(shí)對話。
比如隨意向它提問:用架子上的酒能干什么?它會流利回答你:可以做各種雞尾酒,還提供了非常專業(yè)的知識。
還有人說,Project Astra其實(shí)基本上和OpenAI高級語音模式差不多,不同的是,你可以用和模型分享實(shí)時(shí)視頻。
網(wǎng)友發(fā)現(xiàn),Project Astra幾乎可以識別所有東西,了解它們?nèi)绾卧诳臻g上對齊,還能指示相機(jī)移回原位
現(xiàn)在許多圈內(nèi)人公認(rèn):谷歌如今已經(jīng)擊敗了OpenAI,它讓我們更快一步進(jìn)入嶄新的未來。
參考資料:https://x.com/OpenAI/status/1867265721287458851https://x.com/OpenAI/status/1867272686751428920https://x.com/mckaywrigley/status/1866930933842186427