(圖片來源:鈦媒體App編輯林志佳拍攝)
鈦媒體App 10月25日消息,鈦媒體App獨家獲悉,AI 大模型領(lǐng)域的獨角獸MiniMax將于今年11月發(fā)布對標(biāo)GPT-4o的Realtime API服務(wù),將提升端到端實時多模態(tài)處理能力,并帶來更低延時、更自然、更沉浸的實時語音對話,為企業(yè)協(xié)作、社交、直播、游戲等多種場景提供服務(wù)。
這是MiniMax推出的首款端到端實時語音對話產(chǎn)品。消息人士告訴鈦媒體App,內(nèi)部正在打磨這款產(chǎn)品,并非常希望11月發(fā)布時產(chǎn)品效果直接對標(biāo)OpenAI GPT-4o。
據(jù)悉,今年5月,OpenAI公司推出可免費使用的全新旗艦AI模型GPT-4o,可實時進(jìn)行音頻、視覺和文本推理,它可以在短至232毫秒、平均320毫秒的時間內(nèi)響應(yīng)音頻輸入,與人類在對話中的反應(yīng)速度一致。在API使用方面,相比去年11月發(fā)布的GPT-4-turbo,GPT-4o價格降低一半(50%),速度提升兩倍(200%)。
OpenAI CEO奧爾特曼(Sam Altman)在推文中表示,新的GPT-4o是OpenAI有史以來最好的模型,它很智能,速度很快,是原生多模態(tài),并且它可供所有ChatGPT用戶使用,無論是免費版本還是付費GPT-4版。
今年10月,實時語音技術(shù)公司、聲網(wǎng)的兄弟公司Agora作為語音API合作者出現(xiàn)在了OpenAI 發(fā)布的Realtime API 公開測試版中。而MiniMax也看到了機會,開始與聲網(wǎng)進(jìn)行合作,聲網(wǎng)創(chuàng)始人兼CEO趙斌在RTE 2024 第十屆實時互聯(lián)網(wǎng)大會上表示,聲網(wǎng)與MiniMax正在打磨中國第一個Realtime API,基于該API的智能體產(chǎn)品,能夠與人類進(jìn)行輕松且流暢的實時語音交流。
除了MiniMax,目前包括科大訊飛、智譜AI、商湯科技等中國企業(yè)都在研發(fā)生成式AI對話產(chǎn)品,均與GPT-4o效果不相上下,OpenAI近期也開放了ChatGPT-4o對話功能。
根據(jù)艾瑞咨詢的統(tǒng)計,2021年,對話式AI的市場規(guī)模為45億元,帶動規(guī)模126億元。預(yù)計2026年,對話式 AI 市場規(guī)模將達(dá)108億元,帶動規(guī)模超385億元,五年復(fù)合年均增長率(CAGR)達(dá)32.5%。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)
更多精彩內(nèi)容,關(guān)注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App