展會信息港展會大全

谷歌推出 AI 架構(gòu) Transformer 新方法:突破長文本處理,
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-09 18:47:49   瀏覽:2139次  

導(dǎo)讀:IT之家 10 月 9 日消息,科技媒體 marktechpost 昨日(10 月 8 日)發(fā)布博文,報道稱谷歌公司推出了選擇性注意力(Selective Attention)方法, 可以提高 Transformer 架構(gòu)模型的性能。 Transformer 架構(gòu)簡介Transformer 是一種革命性的神經(jīng)網(wǎng)絡(luò)架構(gòu),由谷歌...

IT之家 10 月 9 日消息,科技媒體 marktechpost 昨日(10 月 8 日)發(fā)布博文,報道稱谷歌公司推出了選擇性注意力(Selective Attention)方法,可以提高 Transformer 架構(gòu)模型的性能。

Transformer 架構(gòu)簡介Transformer 是一種革命性的神經(jīng)網(wǎng)絡(luò)架構(gòu),由谷歌在 2017 年提出,主要用于處理序列數(shù)據(jù),特別是在自然語言處理(NLP)領(lǐng)域。

Transformer 的核心是自注意力機制,允許模型在處理輸入序列時捕捉詞與詞之間的關(guān)系,讓模型能夠關(guān)注輸入序列中的所有部分,而不僅僅是局部信息。

Transformer 由多個編碼器和解碼器組成。編碼器負(fù)責(zé)理解輸入數(shù)據(jù),而解碼器則生成輸出。多頭自注意力機制使模型能夠并行處理信息,提高了效率和準(zhǔn)確性。

Transformer 架構(gòu)模型挑戰(zhàn)Transformer 架構(gòu)的一大挑戰(zhàn)是它們在處理長文本序列時效率低下,由于每個標(biāo)記與序列中的每個其他標(biāo)記都相互作用導(dǎo)致二次復(fù)雜度,這就導(dǎo)致隨著上下文長度的增加,計算和內(nèi)存需求呈指數(shù)增長。

現(xiàn)在解決這一問題的方法包括稀疏注意力機制(sparse attention mechanisms),它限制了標(biāo)記之間的交互數(shù)量,以及通過總結(jié)過去信息來減少序列長度的上下文壓縮技術(shù)。

不過這種方法是通過減少在注意力機制中考慮的標(biāo)記數(shù)量達(dá)成的,因此通常以性能為代價,可能會導(dǎo)致上下文關(guān)鍵信息丟失。

谷歌新方法谷歌研究的研究人員提出了一種名為選擇性注意的新方法,可以動態(tài)忽略不再相關(guān)的標(biāo)記,從而提高 Transformer 模型的效率。

選擇性注意力使用軟掩碼矩陣來確定每個標(biāo)記對未來標(biāo)記的重要性,減少對不重要標(biāo)記的關(guān)注。

研究表明,配備選擇性注意的 Transformer 架構(gòu)模型在多個自然語言處理任務(wù)中表現(xiàn)出色,同時顯著降低了內(nèi)存使用和計算成本。

谷歌推出 AI 架構(gòu) Transformer 新方法:突破長文本處理,

谷歌推出 AI 架構(gòu) Transformer 新方法:突破長文本處理,

例如,在擁有 1 億參數(shù)的 Transformer 模型中,注意力模塊的內(nèi)存需求在上下文大小為 512、1024 和 2048 個 tokens 時分別減少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基準(zhǔn)測試中也優(yōu)于傳統(tǒng) Transformer,對于較大的模型規(guī)模實現(xiàn)了高達(dá) 5% 的準(zhǔn)確率提升。

選擇性注意力允許構(gòu)建更孝更高效的模型,在不損害準(zhǔn)確性的情況下,顯著減少內(nèi)存需求。

IT之家附上參考地址

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港