6月26日,記者獲悉,新一代實(shí)時(shí)語(yǔ)音編碼行業(yè)標(biāo)準(zhǔn)AVS3P10即將正式發(fā)布。
該標(biāo)準(zhǔn)由騰訊提議啟動(dòng)、推進(jìn)和維護(hù),以騰訊首款神經(jīng)網(wǎng)絡(luò)語(yǔ)音編解碼器Penguins為原型,經(jīng)過AVS音頻組多家成員單位共同貢獻(xiàn)。
作為全球首個(gè)系統(tǒng)性引入人工智能并實(shí)現(xiàn)真正意義上的低碼率下高質(zhì)量語(yǔ)音編碼標(biāo)準(zhǔn),AVS3P10的表現(xiàn)達(dá)到國(guó)際一流水準(zhǔn)。僅需現(xiàn)有主流標(biāo)準(zhǔn)1/3的編碼碼率,就能實(shí)現(xiàn)同等清晰的音質(zhì)。
這意味著,今后在線上會(huì)議、語(yǔ)音通話等實(shí)時(shí)音頻場(chǎng)景,帶寬要求大幅降低。即使在電梯、地庫(kù)、隧道等網(wǎng)絡(luò)很差的環(huán)境,也能實(shí)現(xiàn)清晰流暢的語(yǔ)音通話。
在有限的帶寬條件下,想要將聲音高質(zhì)量傳遞到接收方,壓縮原始數(shù)據(jù)、去除冗余信息的語(yǔ)音編碼技術(shù)是其中關(guān)鍵。然而,基于EVS、OPUS等現(xiàn)有主流音頻編解碼標(biāo)準(zhǔn),當(dāng)碼率降低到10kbps以下時(shí),語(yǔ)音質(zhì)量下降明顯,影響用戶體驗(yàn)。
為應(yīng)對(duì)該挑戰(zhàn),騰訊會(huì)議天籟實(shí)驗(yàn)室聯(lián)合騰訊AI Lab自研了騰訊首款神經(jīng)網(wǎng)絡(luò)語(yǔ)音編解碼器Penguins。此次AVS音頻組AVS3P10標(biāo)準(zhǔn)采納的騰訊側(cè)方案,就是以Penguins為原型。
具體來(lái)說,Penguins將AI與傳統(tǒng)技術(shù)緊密融合,從算法研究、工程化、產(chǎn)品化層面做了大量系統(tǒng)性創(chuàng)新,打破傳統(tǒng)香農(nóng)定律的性能極限,引入大數(shù)據(jù)并在可控算力增量下提供了新的性能上界,從而對(duì)下一代通信系統(tǒng),尤其是信源編碼器部分,提供了新的技術(shù)基礎(chǔ)和方法論。通過AI語(yǔ)音信號(hào)建模,提取最核心的特征參數(shù)編碼,再借助深度學(xué)習(xí)網(wǎng)絡(luò),預(yù)測(cè)并重建語(yǔ)音中的細(xì)微結(jié)構(gòu),最終生成逼真的音頻波形。
多方測(cè)試表明,騰訊提交的AVS3P10標(biāo)準(zhǔn),代表了目前AI Codec的行業(yè)最高水平。該標(biāo)準(zhǔn)實(shí)現(xiàn)了6kbps下的高質(zhì)量語(yǔ)音通信,即使在“2G”網(wǎng)絡(luò)下也能實(shí)現(xiàn)清晰通話,且主觀質(zhì)量非常接近原始參考信號(hào),媲美國(guó)際主流的OPUS標(biāo)準(zhǔn)在20kbps的質(zhì)量。同時(shí),主觀質(zhì)量對(duì)標(biāo)傳統(tǒng)編碼的中高碼率情況下,編碼效率提升200-300%。
2021年起,Penguins音頻編碼器就在騰訊會(huì)議的駕駛模式、弱網(wǎng)模式及QQ語(yǔ)音通話等場(chǎng)景中投入規(guī)模應(yīng)用,支持了億級(jí)用戶的流暢溝通。無(wú)論是在復(fù)雜的網(wǎng)絡(luò)環(huán)境中,還是在高速移動(dòng)的交通工具上,都能提供清晰的音頻通信體驗(yàn)。
2023年3月,騰訊團(tuán)隊(duì)在AVS音頻組主動(dòng)提議并參與標(biāo)準(zhǔn)制定,促進(jìn)行業(yè)的技術(shù)進(jìn)步,即AVS3P10實(shí)時(shí)語(yǔ)音編碼標(biāo)準(zhǔn)。隨后,騰訊提交基于Penguins的候選技術(shù);經(jīng)過AVS音頻組交叉驗(yàn)證后采納。2024年6月,AVS3P10實(shí)時(shí)語(yǔ)音編碼標(biāo)準(zhǔn)正式完成標(biāo)準(zhǔn)化工作,進(jìn)入公示階段。
值得一提的是,騰訊主導(dǎo)該標(biāo)準(zhǔn)制定的過程,也被AVS工作組評(píng)價(jià)為制定速度最快,標(biāo)準(zhǔn)交付質(zhì)量最高,測(cè)試得到充分好評(píng)。
“AVS3P10 實(shí)時(shí)語(yǔ)音編碼,作為新一代的語(yǔ)音編解碼技術(shù)標(biāo)準(zhǔn),是對(duì)AVS系列標(biāo)準(zhǔn)的重要補(bǔ)充。該標(biāo)準(zhǔn)是當(dāng)前業(yè)界的最高水平,體現(xiàn)了騰訊在語(yǔ)音處理、人工智能技術(shù)創(chuàng)新和用戶體驗(yàn)方面的實(shí)力,將為用戶帶來(lái)更好的體驗(yàn)。”AVS工作組指出。
在編解碼、音頻降噪、語(yǔ)音增強(qiáng)等領(lǐng)域,騰訊會(huì)議天籟實(shí)驗(yàn)室正在探索實(shí)時(shí)音頻通信前沿技術(shù),打造全球領(lǐng)先的實(shí)時(shí)音頻通信端到端解決方案。同時(shí),通過將更多研究成果應(yīng)用到騰訊會(huì)議等產(chǎn)品中,持續(xù)提升用戶體驗(yàn),打造“聽得清、聽得真”的極致體驗(yàn)。