展會(huì)信息港展會(huì)大全

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\'24
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-29 15:26:37   瀏覽:819次  

導(dǎo)讀:劃重點(diǎn)01阿里安全團(tuán)隊(duì)與華東師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院、阿里云計(jì)算平臺(tái)聯(lián)合推出了一項(xiàng)新研究,旨在提高大語(yǔ)言模型的知識(shí)編輯和推理效率。02該研究提出了一種檢索增強(qiáng)的連續(xù)提示學(xué)習(xí)新方法,首先將知識(shí)描述轉(zhuǎn)換為簡(jiǎn)短且信息豐富的連續(xù)提示的token表示。03為此,研究團(tuán)隊(duì)設(shè)計(jì)了知識(shí)哨兵機(jī)制,作為計(jì)算動(dòng)態(tài)閾值的媒介,確定檢索庫(kù)是否包含相關(guān)知識(shí)。04實(shí)驗(yàn)結(jié)果顯示,RECIPE方 ......

劃重點(diǎn)

01阿里安全團(tuán)隊(duì)與華東師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院、阿里云計(jì)算平臺(tái)聯(lián)合推出了一項(xiàng)新研究,旨在提高大語(yǔ)言模型的知識(shí)編輯和推理效率。

02該研究提出了一種檢索增強(qiáng)的連續(xù)提示學(xué)習(xí)新方法,首先將知識(shí)描述轉(zhuǎn)換為簡(jiǎn)短且信息豐富的連續(xù)提示的token表示。

03為此,研究團(tuán)隊(duì)設(shè)計(jì)了知識(shí)哨兵機(jī)制,作為計(jì)算動(dòng)態(tài)閾值的媒介,確定檢索庫(kù)是否包含相關(guān)知識(shí)。

04實(shí)驗(yàn)結(jié)果顯示,RECIPE方法在終身編輯場(chǎng)景中表現(xiàn)出最佳性能,對(duì)模型造成的傷害最小。

05此外,RECIPE方法有效地保留了LLM的原始推理速度,提高了編輯效率。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

阿里安全 投稿

量子位 | 公眾號(hào) QbitAI

讓大模型能快速、準(zhǔn)確、高效地吸收新知識(shí)!

被EMNLP 2024收錄的一項(xiàng)新研究,提出了一種檢索增強(qiáng)的連續(xù)提示學(xué)習(xí)新方法,可以提高知識(shí)終身學(xué)習(xí)的編輯和推理效率。

模型編輯旨在糾正大語(yǔ)言模型中過(guò)時(shí)或錯(cuò)誤的知識(shí),同時(shí)不需要昂貴的代價(jià)進(jìn)行再訓(xùn)練。終身模型編輯是滿(mǎn)足LLM持續(xù)編輯要求的最具挑戰(zhàn)性的任務(wù)。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

之前的工作主要集中在單次或批量編輯上,由于災(zāi)難性的知識(shí)遺忘和模型性能的下降,這些方法在終身編輯場(chǎng)景中表現(xiàn)不佳。盡管基于檢索的方法緩解了這些問(wèn)題,但它們受到將檢索到的知識(shí)集成到模型中的緩慢而繁瑣的過(guò)程的阻礙。

而名為RECIPE的最新方法,它首先將知識(shí)描述轉(zhuǎn)換為簡(jiǎn)短且信息豐富的連續(xù)提示的token表示,作為L(zhǎng)LM輸入查詢(xún)嵌入的前綴,有效地細(xì)化基于知識(shí)的生成過(guò)程。

它還集成了知識(shí)哨兵機(jī)制,作為計(jì)算動(dòng)態(tài)閾值的媒介,確定檢索庫(kù)是否包含相關(guān)知識(shí)。

檢索器和提示編碼器經(jīng)過(guò)聯(lián)合訓(xùn)練,以實(shí)現(xiàn)知識(shí)編輯屬性,即可靠性、通用性和局部性。

在多個(gè)權(quán)威基座模型和編輯數(shù)據(jù)集上進(jìn)行終身編輯對(duì)比實(shí)驗(yàn),結(jié)果證明了RECIPE性能的優(yōu)越性。

這項(xiàng)研究由阿里安全內(nèi)容安全團(tuán)隊(duì)與華東師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院、阿里云計(jì)算平臺(tái)針對(duì)大語(yǔ)言模型知識(shí)編輯的聯(lián)合推出。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

研究背景即使有非常強(qiáng)大的語(yǔ)言理解能力,像ChatGPT這樣的大型語(yǔ)言模型(LLM)也并非沒(méi)有挑戰(zhàn),特別是在保持事實(shí)準(zhǔn)確性和邏輯一致性方面。

一個(gè)重要的問(wèn)題是,是否能夠有效地更新這些LLM以糾正不準(zhǔn)確之處,而無(wú)需進(jìn)行全面的繼續(xù)預(yù)訓(xùn)練或持續(xù)訓(xùn)練過(guò)程,這些操作帶來(lái)的機(jī)器資源開(kāi)銷(xiāo)大且耗時(shí)。

編輯LLM模型提供了一種有前景的解決方案,允許在特定感興趣的模型中進(jìn)行修改,同時(shí)在各任務(wù)中保持模型整體性能。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

之前各種知識(shí)編輯的模型方法和架構(gòu)包括類(lèi)似于:修改模型內(nèi)部參數(shù)、增加額外參數(shù)和基于檢索方法都會(huì)有冗長(zhǎng)的編輯前綴影響推理效率。對(duì)模型本身進(jìn)行微調(diào)可能會(huì)導(dǎo)致過(guò)擬合,從而影響其原始性能。

為了解決上述問(wèn)題,研究人員期望探索更有效的檢索和即時(shí)編輯方式,以及對(duì)模型進(jìn)行更小的干預(yù),以避免在編輯數(shù)據(jù)集上過(guò)度擬合。

模型方法知識(shí)編輯相關(guān)背景在本文中,研究團(tuán)隊(duì)首先形式化模型編輯任務(wù)在終身學(xué)習(xí)場(chǎng)景中的任務(wù)定義形式,然后介紹模型編輯中的重要評(píng)估屬性。

任務(wù)定義

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

任務(wù)屬性

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

RECIPE終身編輯方法總體模型框架如下:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

構(gòu)造和更新知識(shí)檢索倉(cāng)庫(kù)

在第t個(gè)時(shí)間步,給定一個(gè)新的知識(shí)描述kt,則新知識(shí)表示通過(guò)編碼器frm中的MLP層可以獲得:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

其中frm編碼器將輸出token表示的最大、最小、平均的池化級(jí)聯(lián)到一個(gè)向量空間中作為新知識(shí)表示。然后連續(xù)prompt表示pkt可以被其他初始化的MLP層實(shí)現(xiàn):

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

最終知識(shí)檢索倉(cāng)庫(kù)被從Kt-1更新到Kt

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

基于知識(shí)哨兵的動(dòng)態(tài)prompt檢索

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

動(dòng)態(tài)編輯模型的推理

研究人員認(rèn)為L(zhǎng)LM將被編輯為:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

給定輸入查詢(xún)q和連續(xù)檢索prompt p(kr) = KS(q), 推理過(guò)程可以被重新形式化為:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

其中表示檢索到的連續(xù)提示矩陣和q的單詞嵌入矩陣的連接。

本文方法的可行性得到了P-Tuning等先前工作的支持,該工作證明了訓(xùn)練連續(xù)提示嵌入可以提高LLM在下游任務(wù)上的性能有效性。

在RECIPE中,研究人員將每個(gè)知識(shí)陳述的編輯視為一項(xiàng)小任務(wù),沒(méi)有為每個(gè)小任務(wù)微調(diào)特定的提示編碼器,而是通過(guò)訓(xùn)練生成連續(xù)提示的RECIPE模塊來(lái)實(shí)現(xiàn)這些小任務(wù)的目標(biāo),確保LLM遵守相應(yīng)的知識(shí)。

模型訓(xùn)練

制定損失是為了確保對(duì)生成的連續(xù)提示進(jìn)行編輯,并有效檢索LLM的查詢(xún)相關(guān)知識(shí)。給定包含b個(gè)編輯樣例的訓(xùn)練數(shù)據(jù):

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

對(duì)應(yīng)的泛化性和局部性數(shù)據(jù)為:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

因此損失形式化如下:

編輯損失訓(xùn)練:編輯損失旨在確保生成的連續(xù)提示引導(dǎo)LLM遵循可靠性、通用性和局部性的特性;谳斎氲木庉嫈(shù)據(jù),對(duì)應(yīng)于這三個(gè)屬性的樣本損失定義如下:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

模型編輯的批量損失函數(shù)推導(dǎo)如下:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

prompt損失訓(xùn)練:prompt學(xué)習(xí)的訓(xùn)練損失是基于對(duì)比學(xué)習(xí),并與可靠性、通用性和局部性的特性相一致。對(duì)于一批樣本,學(xué)習(xí)連續(xù)提示的損失函數(shù)形式化如下:

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)設(shè)置

測(cè)試編輯能力的數(shù)據(jù)集:研究人員使用了三個(gè)公共模型編輯數(shù)據(jù)集,包括ZSRE、CounterFact(CF)和Ripple Effect(RIPE)作為實(shí)驗(yàn)數(shù)據(jù)集。

ZSRE是通過(guò)BART問(wèn)答和手動(dòng)過(guò)濾生成的,包括162555個(gè)訓(xùn)練和19009個(gè)測(cè)試樣本。每個(gè)樣本包括一個(gè)編輯樣本及其改寫(xiě)和不相關(guān)的對(duì)應(yīng)樣本,與可靠性、通用性和局部性編輯屬性相匹配。

CF數(shù)據(jù)集的特點(diǎn)是編輯虛假事實(shí),包括10000個(gè)訓(xùn)練樣本和10000個(gè)測(cè)試樣本。這些虛假事實(shí)更有可能與LLM中的原始知識(shí)相沖突,使編輯過(guò)程更具挑戰(zhàn)性,從而對(duì)編輯執(zhí)行的能力進(jìn)行強(qiáng)有力的評(píng)估。

RIPE將通用性和局部性屬性分為細(xì)粒度類(lèi)型,包括3000個(gè)訓(xùn)練樣本和1388個(gè)測(cè)試樣本。每個(gè)樣本的一般性包括邏輯泛化、組合I、組合II和主題混疊,而局部數(shù)據(jù)則包括遺忘和關(guān)系特異性。

測(cè)試通用能力的數(shù)據(jù)集:為了評(píng)估編輯對(duì)LLM總體性能的損害,研究人員選擇了四個(gè)流行的基準(zhǔn)來(lái)評(píng)估LLM的總體通用能力。分別是用于評(píng)估常識(shí)知識(shí)的CSQA、用于推理能力的ANLI、用于衡量考試能力的MMLU和用于理解技能的SQuAD-2。PromptBench用作本實(shí)驗(yàn)的評(píng)估框架。

模型baseline:除了微調(diào)(FT)作為基本基線(xiàn)外,研究人員還將RECIPE方法與各種強(qiáng)大的編輯基線(xiàn)進(jìn)行了比較。

MEND訓(xùn)練MLP,以轉(zhuǎn)換要編輯的模型相對(duì)于編輯樣本的梯度的低秩分解。ROME首先使用因果中介分析來(lái)定位對(duì)編輯樣本影響最大的層。MEMIT基于ROME將編輯范圍擴(kuò)展到多層,從而提高了編輯性能并支持批量編輯。T-Patcher(TP)在要編輯的模型最后一層的FFN中附著并訓(xùn)練額外的神經(jīng)元。MALMEN將參數(shù)偏移聚合表述為最小二乘問(wèn)題,隨后使用正態(tài)方程更新LM參數(shù)。WILKE根據(jù)編輯知識(shí)在不同層之間的模式匹配程度來(lái)選擇編輯層。

研究人員還利用基于檢索的編輯方法來(lái)進(jìn)一步驗(yàn)證其有效性。

GRACE提出了用于連續(xù)編輯的檢索適配器,它維護(hù)一個(gè)類(lèi)似字典的結(jié)構(gòu),為需要修改的潛在表示構(gòu)建新的映射。RASE利用事實(shí)信息來(lái)增強(qiáng)編輯泛化,并通過(guò)從事實(shí)補(bǔ)丁存儲(chǔ)器中檢索相關(guān)事實(shí)來(lái)指導(dǎo)編輯識(shí)別。

在基線(xiàn)設(shè)置中,研究人員使用ROME模型作為RASE的特定基本編輯器來(lái)執(zhí)行名為R-ROME的編輯任務(wù)。LTE激發(fā)了LLM遵循知識(shí)編輯指令的能力,從而使他們能夠有效地利用更新的知識(shí)來(lái)回答查詢(xún)。

編輯能力的實(shí)驗(yàn)效果下面兩個(gè)表格分別表示在LLAMA2和GPT-J模型上的編輯效果對(duì)比。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

從單次編輯的角度來(lái)看,本文方法在大多數(shù)測(cè)試場(chǎng)景中表現(xiàn)出最佳性能。

在終身編輯場(chǎng)景中,研究人員有以下觀(guān)察結(jié)果:

修改LLM參數(shù)的方法在單次編輯中顯示出出色的編輯性能。然而,隨著編輯次數(shù)的增加,它們的編輯性能顯著下降。這一趨勢(shì)與已有工作強(qiáng)調(diào)的毒性積累問(wèn)題相一致;

引入額外參數(shù)的方法在終身編輯過(guò)程中保持了一定程度的可靠性和通用性。然而,在ZSRE中觀(guān)察到的局部性明顯惡化證明,額外參數(shù)的累積添加會(huì)損害原始推理過(guò)程;

基于檢索的方法對(duì)越來(lái)越多的編輯表現(xiàn)出魯棒性。其中,本文方法取得了最好的結(jié)果,肯定了檢索的優(yōu)勢(shì),也驗(yàn)證了策略的有效性。

通用能力的實(shí)驗(yàn)效果雖然這三個(gè)編輯指標(biāo)有效地展示了編輯性能,但研究人員進(jìn)一步研究了這些編輯器在多大程度上影響了模型的通用能力。

通過(guò)實(shí)驗(yàn)可以看出,非基于檢索的方法會(huì)導(dǎo)致通用能力的顯著降低。這可以歸因于編輯的外部干預(yù)造成的模式不匹配的累積。在基于檢索的方法中,LTE也表現(xiàn)出性能下降。

相比之下,RECIPE不涉及對(duì)LLM參數(shù)的直接干預(yù),而是依賴(lài)于連接一個(gè)簡(jiǎn)短的提示來(lái)指導(dǎo)LLM對(duì)知識(shí)的遵守。它展示了對(duì)通用性能的最佳保護(hù),表明它對(duì)模型造成的傷害最小。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

模型編輯效率對(duì)比通過(guò)下方表格可以看出,在利用MEND、MALMEN、LTE和RECIPE等編輯特定訓(xùn)練的方法中,與在編輯過(guò)程中需要多次迭代反向傳播的技術(shù)相比,編輯時(shí)間顯著減少。

對(duì)于推理速度,修改模型參數(shù)的方法保持一致的速度,因?yàn)樗鼈儾粫?huì)改變?cè)嫉耐评韕ipeline。T-Patcher由于神經(jīng)元的積累而減慢了推理速度。

在基于檢索的方法中,GRACE由于其獨(dú)特的字典配對(duì)機(jī)制,降低了模型推理的并行性。R-ROME和LTE需要?jiǎng)討B(tài)計(jì)算編輯矩陣并分別連接長(zhǎng)編輯指令。

相比之下,RECIPE通過(guò)連接連續(xù)的短提示進(jìn)行編輯,有效地保留了LLM的原始推理速度。最短的總時(shí)間也突顯了RECIPE的效率優(yōu)勢(shì)。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

消融實(shí)驗(yàn)效果對(duì)比研究人員使用LLAMA-2對(duì)ZSRE、CF和RIPE進(jìn)行消融研究。在沒(méi)有CPT的情況下,研究人員求助于使用知識(shí)語(yǔ)句的單詞嵌入作為從知識(shí)庫(kù)中檢索的提示。排除KS涉及應(yīng)用傳統(tǒng)的對(duì)比學(xué)習(xí)損失,使可靠性和通用性樣本表示更接近編輯知識(shí),同時(shí)與局部樣本的表示保持距離。

在訓(xùn)練完成后,研究人員采用絕對(duì)相似性閾值決策策略來(lái)過(guò)濾無(wú)關(guān)知識(shí)。盡管局部性很高,但省略CPT會(huì)嚴(yán)重?fù)p害RECIPE的可靠性和通用性。

可以觀(guān)察到,結(jié)果與完全不使用編輯器獲得的結(jié)果幾乎相同。

免訓(xùn)練大模型知識(shí)編輯,吸收新數(shù)據(jù)更高效|EMNLP\\\'24

這強(qiáng)調(diào)了僅使用原始連接的知識(shí)前綴無(wú)法使LLM符合編輯指令。相反,CPT有助于LLM遵守指定的編輯。此外,丟棄KS會(huì)導(dǎo)致編輯效率下降,特別是影響普遍性和局部性。原因是絕對(duì)相似性閾值無(wú)法充分解決不同查詢(xún)所需的不同閾值。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港