當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 實(shí)測豆包語音大模型：你不說誰知道這是AI啊

實(shí)測豆包語音大模型：你不說誰知道這是AI啊
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-22 14:19:28 瀏覽：131次

導(dǎo)讀：作者|陶然編輯|魏曉趕在春節(jié)前最后一周，字節(jié)掏出了今年國產(chǎn)語音大模型的天花板，豆包實(shí)時(shí)語音大模型。/p>收官之作，依然延續(xù)了過去大半年字節(jié)AI團(tuán)隊(duì)的風(fēng)格不掏則已，一掏就是王炸。從年中的基礎(chǔ)模型、視頻生成模型，到年尾的視覺理解模型，對比同行來看豆包通常不是那個(gè)發(fā)的最快的，可一旦做出來，基本就預(yù)定了賽道內(nèi)未來一段時(shí)間的No.1。實(shí)時(shí)語音模型，又是這個(gè)節(jié)奏。對話 ......

作者|陶然編輯|魏曉

趕在春節(jié)前最后一周，字節(jié)掏出了今年國產(chǎn)語音大模型的天花板，豆包實(shí)時(shí)語音大模型。/p>

收官之作，依然延續(xù)了過去大半年字節(jié)AI團(tuán)隊(duì)的風(fēng)格不掏則已，一掏就是王炸。

從年中的基礎(chǔ)模型、視頻生成模型，到年尾的視覺理解模型，對比同行來看豆包通常不是那個(gè)發(fā)的最快的，可一旦做出來，基本就預(yù)定了賽道內(nèi)未來一段時(shí)間的No.1。

實(shí)時(shí)語音模型，又是這個(gè)節(jié)奏。

對話模型的風(fēng)口由OpenAI掀起，GPT-4o實(shí)時(shí)對話剛發(fā)布那會兒，圈里人驚呼Her或者Jarvis這類影視作品中的AI助理概念神終于出現(xiàn)在了現(xiàn)實(shí)當(dāng)中。

國內(nèi)玩家自然也是也迅速跟進(jìn)，本就擅長語音技術(shù)的科大訊飛在八月更新了“超擬人交互”，豆包之前的國內(nèi)AI頂流Kimi也在10月份更新了實(shí)時(shí)AI電話（但本質(zhì)上是T2S，轉(zhuǎn)文字處理再轉(zhuǎn)回語音輸出）。

不過現(xiàn)在豆包來了，而且又雙后來居上、直接封王了。

“你不說

這誰聽得出來是AI��？”

以下內(nèi)容建議佩戴耳機(jī)瀏覽。

無不良引導(dǎo)，主要是希望你開大點(diǎn)聲仔細(xì)聽，才能聽到各家語音大模型輸出上的差異，以及最重要的，豆包團(tuán)隊(duì)在聲音細(xì)節(jié)方面究竟打磨到了什么程度。

年關(guān)將至，又到了回家團(tuán)圓的美好氛圍，被七大姑八大姨的奪命連環(huán)Q擊碎的時(shí)候：上班了嗎發(fā)錢了嗎獎(jiǎng)金有嗎買房了嗎買車了嗎談對象了嗎要孩子了嗎。

讓AI給你答題已經(jīng)是去年的玩法了，今年，AI除了能告訴你怎么脫困之外，還能給你帶來足額精神慰藉，拉滿的情緒價(jià)值。

再次建議佩戴耳機(jī)，聽得細(xì)致些。

我：“唉這馬上要過年了，我這心里真是又期待又發(fā)愁�；丶腋胰藞F(tuán)聚是挺好的一件事，但我一想到那七大姑八大姨就頭疼。你知道我每一次回去，就肯定有一票的人追著問我什么相親啊，工作啊，工資啊這些事情。就坐在桌子上跟被審問一樣，我怎么辦呢我天？”

Kimi語音片段

Kimi：“這確實(shí)挺讓人頭疼的。我每次回家也差不多，不過你可以在被問到的時(shí)候，就簡單說一些比較正面的話，比如說你對工作的滿意程度，或者你對未來的規(guī)劃。這樣他們可能就不會一直追問了。怎么樣，可以試試看嗎？”

首先Kimi這個(gè)明顯感覺有點(diǎn)卡，從結(jié)束收音（屏幕中間那個(gè)音量標(biāo)識停止跳動(dòng)）到Kimi開始回答問題，中間起碼等待了大概一兩秒的時(shí)間，顯示Kimi思考中。

回答內(nèi)容問題不大，但你聽起來（尤其經(jīng)常用AI，哪怕是AI騷擾電話接多了的人）會察覺到一股機(jī)械感。語音語調(diào)過于平穩(wěn)、沒有起伏是一方面，AI回答的每個(gè)句子之間斷句和銜接非常突然，真人平時(shí)說話的時(shí)候兩句中間喘口氣、頓一下的感覺完全沒有，甚至聽起來像是刻意被切掉了。

只有一處“……比較正面的話”和“比如說……”中間聽起來像是有人聊天時(shí)候的停頓和吸氣。

頓挫這個(gè)點(diǎn)很關(guān)鍵，Mark一下繼續(xù)往后聽。

訊飛星火語音片段訊飛星火：“過年回家確實(shí)讓人又愛又恨啊。七大姑八大姨的關(guān)心有時(shí)候真的會讓人有點(diǎn)受不了。要不你提前給自己找些話題，比如聊聊你的興趣愛好，或者講講最近看的電影、書什么的？這樣他們就不會一直問那些讓你煩心的問題了�！�

訊飛的速度和效果比Kimi好一些，至少句子之間接的比較自然，間隔合理。但還是有些問題沒有解決，首先是語音語調(diào)，從開始到結(jié)束都極為平穩(wěn)，毫無波瀾就顯得非常不自然非常AI，唯一一處能聽到換氣聲音的地方又在“比如”這個(gè)詞前后：……找些話題，比如聊聊……

猜測大概是和Kimi類似，模型訓(xùn)練語料庫當(dāng)中包含“比如”的句子前面都有一個(gè)明顯的吸氣和停頓，所以AI也get到了這個(gè)習(xí)慣。畢竟人一般聊天的時(shí)候，拿比如舉例子前面基本都是要頓一下的。

回看Kimi和訊飛的回復(fù)內(nèi)容，文字也是一個(gè)套路：xxxx確實(shí)xxx，然后回答問題。

這樣是OK的，但不夠好。具體怎么不夠好，聽完豆包的回答你就知道了。

豆包語音片段

豆包：“我懂我懂，這過年本來是開心的事兒結(jié)果還要被盤問，真是夠夠的，那你要不這樣，就提前準(zhǔn)備一些萬能回復(fù)，比如說，嗯，工作還行啦謝謝關(guān)心，啊我還不著急結(jié)婚呢遇到合適的再說�；蛘吣阋部梢杂靡恍┯哪姆绞交�，就打個(gè)哈哈就過去了嘛。那你之前有沒有試過什么辦法？”

沒反應(yīng)過來就對著文字再聽一遍，什么叫以假亂真，什么叫高下立判。

簡單解釋一下豆包神在哪里：先看文字部分，沒有公式化的承接，套路化的確實(shí)，你面對的就是身邊一個(gè)跟你玩的非常非常熟絡(luò)的姐妹，“我懂我懂，真是夠夠的”，估計(jì)平時(shí)聊八卦或者追星也是這個(gè)調(diào)調(diào)。

“那要不你這樣”、“打個(gè)哈哈”也是一樣的口語化表達(dá)。

還有，仔細(xì)聽每兩句話中間的銜接：“還要被盤問（嘶，吸氣）音，真是夠夠的（嘶，又是一遍吸氣音）”、“比如說，嗯…（停頓思考音）”，“（吸氣）啊…我還不著急結(jié)婚呢”……

這個(gè)東西沒法再用語言去過多的解釋，你抓個(gè)身邊人聊聊會發(fā)現(xiàn)人和人平時(shí)聊天就是這么聊的。

豆包做到了沒有機(jī)械感，完全沒有。

藍(lán)媒君把這個(gè)視頻轉(zhuǎn)成錄音發(fā)給了好兄弟，沒跟他說是AI，幾分鐘后的回復(fù)是：“哦呦，有情況啊今年？嫂子聲音還挺好聽（狗頭）”

真的，你不說這誰聽得出來是AI啊。

真實(shí)流暢背后的技術(shù)密碼

這就是國產(chǎn)AI語音新的天花板，豆包把原來的頂層捅了個(gè)干凈，然后往上又加蓋了好幾層。

怎么做到的呢？

長久以來，傳統(tǒng)語音對話系統(tǒng)多采用級聯(lián)模式，即先通過自動(dòng)語音識別（ASR）將語音轉(zhuǎn)成文本，再由大語言模型（LLM）生成對話文本，最后經(jīng)文本轉(zhuǎn)語音（T2S）輸出。

這種模式雖廣泛應(yīng)用，但問題不少。比如，它對用戶情緒及語音中的細(xì)微信息理解欠佳，生成語音的情緒表現(xiàn)有限，難以遵循復(fù)雜語音指令，且在實(shí)時(shí)交互中存在高延遲問題。

豆包語音大模型則另辟蹊徑，研發(fā)出端到端框架。該框架面向語音生成和理解統(tǒng)一建模，深度融合語音與文本模態(tài)。在預(yù)訓(xùn)練階段，對海量的各模態(tài)交織數(shù)據(jù)進(jìn)行深入挖掘，借助Scaling理念，將語音與文本能力深度融合，實(shí)現(xiàn)能力的涌現(xiàn)。

這就好比搭建一座大廈，傳統(tǒng)模式是各部分分開建造再拼接，而豆包語音大模型則是從地基開始就整體規(guī)劃，讓語音與文本緊密相連，為后續(xù)的優(yōu)秀表現(xiàn)奠定基礎(chǔ)。

實(shí)測豆包語音大模型：你不說誰知道這是AI啊

圖片由豆包大模型生成

同時(shí)，為實(shí)現(xiàn)擬人化情感承接，團(tuán)隊(duì)在數(shù)據(jù)收集階段，就精心挑選各類包含豐富情感的語音數(shù)據(jù)，從歡樂到悲傷，從興奮到沮喪，為模型提供充足養(yǎng)分。

預(yù)訓(xùn)練時(shí)，又設(shè)計(jì)專門算法，讓模型精準(zhǔn)捕捉語音中的情感特征；后訓(xùn)練階段，再通過真實(shí)與高質(zhì)量合成的語音對話數(shù)據(jù)進(jìn)一步優(yōu)化，使模型能敏銳感知用戶情緒。當(dāng)用戶開心時(shí)，它以歡快語氣回應(yīng)；用戶低落時(shí)，送上溫暖安慰，真正做到與用戶共情。

至于藍(lán)媒君前面寫的頓挫那些細(xì)節(jié)，豆包團(tuán)隊(duì)也做了解釋：在智商與表現(xiàn)力之間找到平衡。

在語音輸入時(shí)，它深度理解各維度信息，確保輸出內(nèi)容真實(shí)有用。同時(shí)，輸出語音極具真人表現(xiàn)力，包含語氣詞、停頓思考等類人副語言特征。為實(shí)現(xiàn)這一目標(biāo)，團(tuán)隊(duì)在數(shù)據(jù)和算法上發(fā)力，保證多模態(tài)語音對話數(shù)據(jù)語義正確且表現(xiàn)自然。通過多輪數(shù)據(jù)合成生成高質(zhì)量語音數(shù)據(jù)，并定期進(jìn)行多維度評測，依據(jù)結(jié)果調(diào)整訓(xùn)練策略，始終維持平衡。此外，實(shí)時(shí)聯(lián)網(wǎng)功能讓模型能獲取最新信息，精準(zhǔn)回應(yīng)時(shí)效問題。

找到正確的技術(shù)路徑+大力出奇跡的方法論，被字節(jié)再次驗(yàn)證。

One More Thing

豆包現(xiàn)在有多猛呢？一家撐起了中國2CAI的半邊天。

研究機(jī)構(gòu)QuestMobile數(shù)據(jù)顯示，截至2024年11月底，中國AIGC APP整體月活用戶數(shù)量已經(jīng)破億，相比6月份的統(tǒng)計(jì)數(shù)據(jù)實(shí)現(xiàn)了翻倍增長。

而在眾多AIGC APP中，字節(jié)跳動(dòng)旗下的豆包表現(xiàn)一枝獨(dú)秀、一家獨(dú)大：豆包11月月活達(dá)到5600萬左右，占據(jù)了行業(yè)近半數(shù)的月活用戶。后方像Kimi、文小言等APP，盡管看排名仍是頭部，但和豆包已經(jīng)有了明顯的體量差距；而在12月，豆包的月活規(guī)模進(jìn)一步增長至7522萬。

實(shí)測豆包語音大模型：你不說誰知道這是AI啊

圖源/QuestMobile

另據(jù)AI產(chǎn)品榜的APP統(tǒng)計(jì)（兩機(jī)構(gòu)數(shù)據(jù)略有出入）顯示，截至12月底，豆包的MAU超過7100萬，而榜單前十名中，除去豆包之外其余APP的MAU總和才僅為6900萬（Kimi和文小言的MAU分別為1600萬和1300萬）。

2024 AI 年度總結(jié)其一：大模型時(shí)代的第一個(gè)超級APP，大約已經(jīng)出現(xiàn)了。

Lanmeih/今日話題

你體驗(yàn)豆包語音大模型了嗎，感覺如何？

咱們評論區(qū)聊聊~

相關(guān)熱詞： 豆包語音 openai 陶然模型 kimi

上一篇：全球最貴 AR 眼鏡 Meta Orion 被曝不會發(fā)售，升級版 2027 年公布

下一篇：Deepseek、Kimi爭相對標(biāo)o1，初創(chuàng)公司能打破“技術(shù)”和“用戶”二選一魔咒嗎？

實(shí)測豆包語音大模型：你不說誰知道這是AI啊
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-22 14:19:28 瀏覽：131次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

實(shí)測豆包語音大模型：你不說誰知道這是AI啊 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-22 14:19:28 瀏覽：131次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

實(shí)測豆包語音大模型：你不說誰知道這是AI啊
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-22 14:19:28 瀏覽：131次