AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
語音識別(ASR,Automatic Speech Recognition)是一種將語音轉(zhuǎn)化為文字的技術(shù),被廣泛應(yīng)用于智能語音交互和多媒體內(nèi)容理解領(lǐng)域,例如語音助手、語音輸入、視頻字幕等場景。衡量中文 ASR 性能的主要指標(biāo)是字錯(cuò)誤率(CER,Character Error Rate),該值越低,表示模型的識別效果越好。近日,小紅書 FireRed 團(tuán)隊(duì)正式發(fā)布并開源了基于大模型的語音識別模型 FireRedASR,在語音識別領(lǐng)域帶來新突破。在業(yè)界廣泛采用的中文普通話公開測試集上,F(xiàn)ireRedASR 憑借卓越的性能取得了新 SOTA!FireRedASR 在字錯(cuò)誤率(CER)這一核心技術(shù)指標(biāo)上,對比此前的 SOTA Seed-ASR,錯(cuò)誤率相對降低 8.4%,充分體現(xiàn)了團(tuán)隊(duì)在語音識別技術(shù)領(lǐng)域的創(chuàng)新能力與技術(shù)突破。
論文標(biāo)題:FireRedASR: Open-Source Industrial-GradeMandarin Speech Recognition Modelsfrom Encoder-Decoder to LLM Integration
論文地址:http://arxiv.org/abs/2501.14350
項(xiàng)目地址:https://github.com/FireRedTeam/FireRedASR
FireRedASR 介紹FireRedASR 系列模型包含兩種核心結(jié)構(gòu):FireRedASR-LLM 和 FireRedASR-AED,分別針對語音識別的極致精度和高效推理需求量身打造。團(tuán)隊(duì)開源了不同規(guī)模的模型和推理代碼,旨在滿足全面覆蓋多樣化的應(yīng)用場景。FireRedASR-LLM 和 FireRedASR-AED 的結(jié)構(gòu)如下圖所示:
FireRedASR-LLM(左):結(jié)合了文本預(yù)訓(xùn)練 LLM 的能力,為極致的 ASR 準(zhǔn)確率而生,適用于對準(zhǔn)確率要求極高的應(yīng)用場景。
FireRedASR-AED(右下):基于經(jīng)典的 Attention-based Encoder-Decoder 架構(gòu),F(xiàn)ireRedASR-AED 通過擴(kuò)展參數(shù)至 1.1B,成功平衡了 ASR 語音識別的高準(zhǔn)確率與推理效率。
實(shí)驗(yàn)及結(jié)果下圖是 FireRedASR 和其他 ASR 大模型的對比,在業(yè)界常用的中文普通話公開測試集上,F(xiàn)ireRedASR-LLM(8.3B 參數(shù)量)取得了最優(yōu) CER 3.05%、成為新 SOTA!FireRedASR-AED (1.1B 參數(shù)量)緊隨其后取得 3.18%,兩者均比 Seed-ASR(12+B 參數(shù)量)的 3.33% 低、并且參數(shù)量更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更優(yōu)的 CER。
(aishell1 表示 AISHELL-1 測試集,aishell2 表示 AISHELL-2 iOS 測試集,ws_net 和 ws_meeting 分別表示 WenetSpeech 的 Internet 和 Meeting 測試集)FireRedASR 不僅在公開測試集上表現(xiàn)優(yōu)異,在多種日常場景下,也展現(xiàn)了卓越的語音識別效果。如下圖所示,在由短視頻、直播、語音輸入和智能助手等多種來源組成的 Speech 測試集上,與業(yè)內(nèi)領(lǐng)先的 ASR 服務(wù)提供商(ProviderA)和 Paraformer-Large 相比, FireRedASR-LLM 的 CER 相對降低 23.7%~40.0%,優(yōu)勢十分明顯。值得一提的是,在需要歌詞識別能力的場景中,F(xiàn)ireRedASR-LLM 也表現(xiàn)出極強(qiáng)的適配能力,CER 實(shí)現(xiàn)了 50.2%~66.7% 的相對降低,這一成果進(jìn)一步拓寬了 FireRedASR 的應(yīng)用范圍,使其不僅能勝任傳統(tǒng)語音識別需求,還能在創(chuàng)新性的多媒體場景中大放異彩。
值得一提的是,F(xiàn)ireRedASR 在中文方言和英語場景中同樣表現(xiàn)不俗。在 KeSpeech(中文方言)和 LibriSpeech(英語)測試集上,F(xiàn)ireRedASR 的 CER 顯著優(yōu)于此前的開源 SOTA 模型,使其在支持好普通話 ASR 的前提下,在中文方言和英語上也足夠通用,進(jìn)一步凸顯了其魯棒的語言適配能力。
好奇為什么 FireRedASR 能取得如此好的效果嗎?可以參考 FireRed 團(tuán)隊(duì)公開的技術(shù)報(bào)告一探究竟,并且模型和代碼已經(jīng)全部開源(鏈接見上文)。FireRed 團(tuán)隊(duì)希望通過開源能為語音社區(qū)做出貢獻(xiàn),促進(jìn) ASR 的應(yīng)用和端到端語音交互的發(fā)展。THE END轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)