多知12月14日消息,本周四,是在OpenAI 為期 12 天的盛會的第六天,該公司在直播中表示,其為 ChatGPT 開發(fā)的類似人類的對話功能“ChatGPT Advanced Voice (高級語音模式)”正在實現(xiàn)視覺化,Advanced Voice由OpenAI的多模態(tài)模型GPT-4o支持。這意味著OpenAI 終于發(fā)布了近七個月前演示的ChatGPT實時視頻功能,但目前不是向全部用戶開放。
同時,OpenAI宣布,整個 12 月,ChatGPT Advanced Voice 都會獲得新的圣誕老人“Ho Ho Ho”的聲音。第一次使用時,OpenAI 甚至會將用戶的 Advanced Voice 消息重置為零,以便用戶可以通話更長時間。
使用 ChatGPT 應用,訂閱ChatGPT Plus、Team或Pro 的用戶可以將手機對準物體,ChatGPT 會近乎實時地做出響應。
帶視覺的ChatGPT Advanced Voice還可以通過屏幕共享了解設備屏幕上的內容。例如,展示案例中給咖啡壺拍照讓ChatGPT教授如何制作手沖咖啡。只需給ChatGPT打一通“視頻通話”,它能根據(jù)你面前的物品,然后手把手教用戶完成每一個步驟。在整個演示過程中,ChatGPT的聲音自然而親切,還可以像人類一樣大笑。
在ChatGPT中用戶還可以上傳植物的照片并詢問養(yǎng)護技巧,或者展示教科書中的數(shù)學問題并要求分步解決方案。
可以說,這種集合視覺、聽覺、文本還有語音的多模態(tài)交互方式非常適合教育場景。
試想一下,手頭如果有一些數(shù)學難題,可以讓 ChatGPT 查看,它會像隊友或者老師一樣給出幫助。這跟之前的拍照搜題類似,甚至更方便。尤其像數(shù)理化這樣的題目有一些有很多圖形圖表,直接用文本處理比較難,而現(xiàn)在ChatGPT可以“看”,還會一步一步給出解題的方法,越來越像“真人老師”了。
早在今年5月,OpenAI在推出GPT-4o時演示了語音模式Voice Mode。當時,OpenAI展示這項功能時就邀請了Salman Khan讓GPT-4o輔導兒子Imran學習數(shù)學的視頻,GPT-4o會聽會說會看。
而今,ChatGPT Advanced Voice支持50多種語言,展現(xiàn)AI陪伴工具體驗感提升,為AI教育工具示范。
要使用視覺進入ChatGPT Advanced Voice,點擊 ChatGPT 聊天欄旁邊的語音圖標,然后點擊左下角的視頻圖標,即可開始視頻。
屏幕共享功能則是通過屏幕共享的方式,可以讓ChatGPT來“看”你的屏幕,也是一種實時視頻理解能力。用戶只需點擊右下角的高級語音模式圖標,在下拉菜單中選擇分享屏幕,就能獲得針對性的幫助。
不過,OpenAI 表示,帶視覺的高級語音模式本周四開始推出,并于下周結束。但并非所有用戶都能獲得訪問權限。
此外,OpenAI 表示,ChatGPT Enterprise 和 Edu 用戶要到明年 1 月才能獲得該功能,而且對于歐盟、瑞士、冰島、挪威等ChatGPT 用戶,它還沒有時間表。
除了帶視覺的高級語音模式外,OpenAI 周四還推出了節(jié)日“圣誕老人模式”,該模式將圣誕老人的聲音作為 ChatGPT 中的預設語音添加。用戶可以通過點擊或單擊 ChatGPT 應用中提示欄旁邊的雪花圖標來找到它。
在OpenAI 為期 12 天的盛會已經進行了7天,很多預覽產品已經正式推出,包括視頻模型Sora、ChatGPT o1模型等。