亚洲av无码不卡一区二区三区 ,免费观看激色视频网站,а√天堂资源地址在线

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:06:57 瀏覽：231次

導(dǎo)讀：AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在嘈雜的環(huán)境中，人類能夠?qū)Ｗ⒂谔囟ǖ恼Z(yǔ)音信號(hào)，這種現(xiàn)象被稱為「雞尾酒會(huì)效應(yīng)」。對(duì) ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在嘈雜的環(huán)境中，人類能夠?qū)Ｗ⒂谔囟ǖ恼Z(yǔ)音信號(hào)，這種現(xiàn)象被稱為「雞尾酒會(huì)效應(yīng)」。對(duì)于機(jī)器來(lái)說(shuō)，如何從混合的音頻信號(hào)中準(zhǔn)確分離出不同的聲源是一個(gè)重要的挑戰(zhàn)。

語(yǔ)音分離（Speech Separation）能夠有效提高語(yǔ)音識(shí)別的準(zhǔn)確性，通常作為識(shí)別的前置步驟。因此，語(yǔ)音分離模型不僅需要在真實(shí)音頻上輸出分離良好的結(jié)果，同時(shí)還要滿足低延遲的需求。

近年來(lái)，深度學(xué)習(xí)在語(yǔ)音分離任務(wù)中的應(yīng)用受到了廣泛關(guān)注。盡管許多高性能的語(yǔ)音分離方法被提出，但仍有兩個(gè)關(guān)鍵問(wèn)題未能得到充分解決：一是許多模型計(jì)算復(fù)雜度太高，未充分考慮實(shí)際應(yīng)用場(chǎng)景的需求；二是常用的語(yǔ)音分離數(shù)據(jù)集與真實(shí)場(chǎng)景存在較大差距，導(dǎo)致模型在真實(shí)數(shù)據(jù)上的泛化能力不足。

為了解決這些問(wèn)題，清華大學(xué)的研究團(tuán)隊(duì)設(shè)計(jì)了一種名為 TIGER（Time-frequency Interleaved Gain Extraction and Reconstruction network）的輕量級(jí)語(yǔ)音分離模型，并提出了一個(gè)新的數(shù)據(jù)集 EchoSet，旨在更真實(shí)地模擬復(fù)雜聲學(xué)環(huán)境中的語(yǔ)音分離任務(wù)。

實(shí)驗(yàn)結(jié)果表明，TIGER 在壓縮 94.3% 參數(shù)量和 95.3% 計(jì)算量的同時(shí)，性能與當(dāng)前最先進(jìn)的模型 TF-GridNet [1] 相當(dāng)。

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！

論文標(biāo)題：TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

論文鏈接：https://arxiv.org/pdf/2410.01469

項(xiàng)目主頁(yè)：https://cslikai.cn/TIGER

GitHub 鏈接：https://github.com/JusperLee/TIGER

數(shù)據(jù)鏈接：https://huggingface.co/datasets/JusperLee/EchoSet

方法

語(yǔ)音分離任務(wù)的核心是從混合的音頻信號(hào)中恢復(fù)出每個(gè)說(shuō)話者的清晰語(yǔ)音。傳統(tǒng)的語(yǔ)音分離模型通常直接在時(shí)域或頻域進(jìn)行處理，但往往忽略了時(shí)間和頻率維度之間的交互信息。為了更高效地提取語(yǔ)音特征，TIGER 模型采用了時(shí)頻交叉建模的策略，結(jié)合頻帶切分和多尺度注意力機(jī)制，顯著提升了分離效果。

TIGER 模型的整體流程可以分為五個(gè)主要部分：編碼器、頻帶切分模塊、分離器、頻帶恢復(fù)模塊和解碼器。首先，通過(guò)短時(shí)傅里葉變換（STFT）將混合音頻信號(hào)轉(zhuǎn)換為時(shí)頻表示。接著，將整個(gè)頻帶劃分為多個(gè)子帶，每個(gè)子帶通過(guò)一維卷積轉(zhuǎn)換為統(tǒng)一的特征維度。分離器由多個(gè)時(shí)頻交叉建模模塊（FFI）組成，用于提取每個(gè)說(shuō)話者的聲學(xué)特征。最后，頻帶恢復(fù)模塊將子帶恢復(fù)到全頻帶范圍，并通過(guò)逆短時(shí)傅里葉變換（iSTFT）生成每個(gè)說(shuō)話者的清晰語(yǔ)音信號(hào)。

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！

TIGER 整體流程

頻帶切分

語(yǔ)音信號(hào)的能量分布在不同頻帶上并不均勻，中低頻帶通常包含更多的語(yǔ)音信息，而高頻帶則包含更多的噪聲和細(xì)節(jié)信息。為了減少計(jì)算量并提升模型對(duì)關(guān)鍵頻帶的關(guān)注，TIGER 采用了頻帶切分策略，根據(jù)重要性將頻帶劃分為不同寬度的子帶。這種策略不僅減少了計(jì)算量，還能讓模型更專注于重要的頻帶，從而提升分離效果。

分離器

語(yǔ)音信號(hào)的時(shí)間和頻率維度之間存在復(fù)雜的交互關(guān)系。為了更高效地建模這種交互關(guān)系，TIGER 引入了時(shí)頻交叉建模模塊（FFI）。為了減少參數(shù)，分離器由多個(gè)共享參數(shù)的 FFI 模塊構(gòu)成。每個(gè) FFI 模塊包含兩個(gè)路徑：頻率路徑和幀路徑。

每個(gè)路徑都包含兩個(gè)關(guān)鍵子模塊：多尺度選擇性注意力模塊（MSA）和全頻 / 幀注意力模塊（FA）。通過(guò)交替處理時(shí)間和頻率信息，F(xiàn)FI 模塊能夠有效地整合時(shí)頻特征，提升語(yǔ)音分離的效果。

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！

FFI 模塊內(nèi)部細(xì)節(jié)

多尺度選擇性注意力模塊（MSA）

為了增強(qiáng)模型對(duì)多尺度特征的提取能力，TIGER 引入了 MSA，通過(guò)多尺度卷積層和選擇性注意力機(jī)制，融合局部和全局信息。MSA 模塊分為三個(gè)階段：編碼、融合和解碼。

以頻率路徑為例，在編碼階段，通過(guò)多個(gè)一維卷積層逐步下采樣頻率維度，提取多尺度的聲學(xué)特征。在融合階段，使用選擇性注意力機(jī)制將局部特征和全局特征進(jìn)行融合，生成包含多尺度信息的特征。在解碼階段，通過(guò)上采樣和卷積操作逐步恢復(fù)頻率維度，最終輸出增強(qiáng)后的頻率特征。

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！

MSA 模塊內(nèi)部細(xì)節(jié)（以頻率路徑為例）

全頻 / 幀注意力模塊（FA）

為了捕捉長(zhǎng)距離依賴關(guān)系，TIGER 采用了全 / 頻幀注意力模塊（FA）。同樣以頻率路徑為例，首先采用二維卷積將輸入特征轉(zhuǎn)換為查詢（Query）、鍵（Key）和值（Value），然后將特征維度和時(shí)間維度合并，得到每個(gè)頻帶對(duì)應(yīng)的全幀信息。

通過(guò)自注意機(jī)制計(jì)算頻率維度上的注意力權(quán)重，用于加強(qiáng)頻帶間關(guān)系的捕捉，提升語(yǔ)音分離的效果。

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！

FA 模塊內(nèi)部細(xì)節(jié)（以頻率路徑為例）

EchoSet：更接近真實(shí)聲學(xué)場(chǎng)景

的語(yǔ)音分離數(shù)據(jù)集

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:06:57 瀏覽：231次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:06:57 瀏覽：231次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

清華團(tuán)隊(duì)新算法玩轉(zhuǎn)頻域時(shí)域，壓縮95%計(jì)算量實(shí)現(xiàn)語(yǔ)音分離新SOTA！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:06:57 瀏覽：231次