劃重點
01天橋腦科學(xué)研究院和普林斯頓大學(xué)等研究機構(gòu)發(fā)布研究論文,探討長期記憶對AI自我進化的重要性。
02該團隊提出基于多智能體的Omne框架,在GAIA基準(zhǔn)測試中獲得第一名成績。
03長期記憶有助于模型在處理長期、分散和個性化數(shù)據(jù)時逐步提升推理和學(xué)習(xí)能力。
04為此,研究人員需解決如何更好地構(gòu)建LTM數(shù)據(jù)、設(shè)計新模型架構(gòu)等問題。
05未來,Omne框架將繼續(xù)探索如何在復(fù)雜場景中實現(xiàn)智能體自我進化和多智能體場景中的應(yīng)用。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
機器之心報道
編輯:Panda、小舟
地球上最早的生命證據(jù)至少可以追溯到 35 億年前,而直到大約 25 萬到 40 萬年前,智人才出現(xiàn)地球上。在這漫長的歲月中,生物不斷地興盛又覆滅,但整體趨勢總是越來越復(fù)雜,其中最復(fù)雜的生物組件莫過于我們智人的大腦。這樣的復(fù)雜性是我們的意識和智慧的來源。而這一切背后的機制是進化(evolution)。
到了現(xiàn)今的大模型時代,強大的基礎(chǔ)模型已經(jīng)展現(xiàn)出了強大的智能水平,能完成多種多樣的任務(wù)。但它們也有個缺點,訓(xùn)練之后就基本定型了,難以隨著用戶的使用而演進。但毫無疑問,這項能力很重要。
近日,天橋腦科學(xué)研究院和普林斯頓大學(xué)等多所研究機構(gòu)發(fā)布了一篇研究論文,詳細(xì)闡述了長期記憶對 AI 自我進化的重要性,并且他們還提出了自己的實現(xiàn)框架 基于多智能體的 Omne,其在 GAIA 基準(zhǔn)上取得了第一名的成績。
論文標(biāo)題:Long Term Memory : The Foundation of AI Self-Evolution
論文地址:https://arxiv.org/pdf/2410.15665
首先,該團隊將 LLM 的模型進化過程分成了三個主要階段
階段 1:在物理世界中積累認(rèn)知。
階段 2:在數(shù)字世界中構(gòu)建基礎(chǔ)模型。
階段 3:模型自我進化,以實現(xiàn)更強大的智能。
現(xiàn)有的研究主要圍繞著階段 1 和 2,即如何構(gòu)建更好的數(shù)據(jù)以及將其用于訓(xùn)練更強大的基礎(chǔ)模型。目前人們有一個普遍的看法:在這種曲線擬合范式中,架構(gòu)并不重要,關(guān)鍵的因素是數(shù)據(jù)集。但到了階段 3,架構(gòu)就會變得和數(shù)據(jù)一樣重要。核心的難題是如何在統(tǒng)計模型的基礎(chǔ)上有效表達(dá)少數(shù)個體的數(shù)據(jù)。該研究關(guān)注的核心是如何確保在統(tǒng)計模型內(nèi)有效地表達(dá)個體數(shù)據(jù)。
實現(xiàn)模型自我進化的原理
模型的自我進化能力是模型長期適應(yīng)和個性化的關(guān)鍵,而這又嚴(yán)重仰賴于有效的記憶機制。
在這一理解的基礎(chǔ)上,該團隊提出:長期記憶(LTM)能為模型的持續(xù)進化提供歷史數(shù)據(jù)積累和經(jīng)驗學(xué)習(xí)能力。正如人類通過經(jīng)驗和記憶來完善認(rèn)知和行為一樣,LTM 也能讓模型在處理長期、分散和個性化的數(shù)據(jù)時逐步提升推理和學(xué)習(xí)能力。
用 LTM 數(shù)據(jù)提升模型能力,使其能夠自我進化
在傳統(tǒng) LLM 中,更新模型通常需要調(diào)整所有參數(shù),而如果目的是處理個體數(shù)據(jù),那這種操作明顯不切實際。
一種更優(yōu)的方法是僅更新局部參數(shù),從而在無損模型全局穩(wěn)定性的前提下,讓模型適應(yīng)稀疏、個性化的 LTM 數(shù)據(jù)。這種方法可解決當(dāng)前模型中個體數(shù)據(jù)「被平均化」的問題,使個性化信息能夠更全面地表達(dá)。使用上下文學(xué)習(xí)(ICL)的檢索增強生成(RAG)和用于微調(diào)的低秩適應(yīng)(LoRA)等技術(shù)都可被視為局部更新個體數(shù)據(jù)的方法。
該團隊的做法是采用一種混合策略來整合 LTM 數(shù)據(jù),從而在實際應(yīng)用中達(dá)到讓人滿意的結(jié)果。但是,該團隊也表示,這可能并非一種完美的解決方案,未來可能還會出現(xiàn)更好的方法。
組合 LTM 數(shù)據(jù)進行實時權(quán)重更新,從而實現(xiàn)自我進化
當(dāng)前的 LLM 通常分為訓(xùn)練和推理兩個階段。在推理階段,模型權(quán)重是凍結(jié)的,防止模型根據(jù)新輸入進行調(diào)整和學(xué)習(xí)。這種固定的推理過程會限制模型的適應(yīng)性,尤其是在處理個性化任務(wù)和實時學(xué)習(xí)方面。
受人腦更新機制的啟發(fā),該團隊認(rèn)為未來的 LLM 應(yīng)該將推理和訓(xùn)練與 LTM 結(jié)合起來,使模型能夠在接收到新信息時動態(tài)調(diào)整權(quán)重。這就類似于人類的持續(xù)學(xué)習(xí)能力。
此外,這種集成還可以幫助模型在面對復(fù)雜的推理任務(wù)時自我反思并糾正錯誤的推理路徑,從而提高準(zhǔn)確性和效率。
這種動態(tài)的自我調(diào)整能力將大大提升模型的個性化能力和長期進化潛力。通過長期記憶,模型不僅可以從短期記憶中學(xué)習(xí),還可以從歷史數(shù)據(jù)中提取有價值的見解,隨著時間的推移能更深入地理解個人偏好和行為模式。這種理解可實現(xiàn)模型的個性化定制和動態(tài)調(diào)整,使模型能夠更有效地進化。特別是在面對新的或極端的情況時,長期記憶使模型能夠參考過去的經(jīng)驗,快速做出調(diào)整并自我進化,從而獲得更大的靈活性和適應(yīng)性。
長期記憶在模型自我進化中的實現(xiàn)路徑
該團隊首先將給出 AI 自我進化和 LTM 的定義,然后探索 LTM 在 AI 自我進化中的關(guān)鍵作用,之后會介紹如何使用 LTM 來實現(xiàn) AI 自我進化。
他們做出了以下貢獻:
給出了 AI 自我進化和 LTM 的定義;
提出了一個用于 LTM 的數(shù)據(jù)框架,包括數(shù)據(jù)收集、分析與合成;
提出了一個用于 LTM 的多智能體協(xié)作開發(fā)框架。
AI 自我進化的基礎(chǔ)
這里簡要給出 AI 自我進化的定義,詳情請參閱原論文。
AI 自我進化是指 AI 模型使用個性化數(shù)據(jù)不斷學(xué)習(xí)和優(yōu)化,實現(xiàn)多智能體協(xié)作和認(rèn)知方面的突破。該過程基于一個共享式內(nèi)核架構(gòu),其中各個模型通過處理個性化經(jīng)驗和數(shù)據(jù)不斷進化,從而提升自身推理能力和適應(yīng)能力,最終實現(xiàn)在動態(tài)環(huán)境中的自主學(xué)習(xí)和持續(xù)進化。
要實現(xiàn) AI 自我進化,需要:
多智能體協(xié)作機制
差異化的個性化模型
自我糾錯和評估機制
長期記憶和學(xué)習(xí)能力
用于 AI 自我進化的 LTM
目前,LLM 主要通過兩種記憶機制來管理信息:上下文存儲器和基于壓縮的參數(shù)存儲器。雖然這些機制在短期任務(wù)中表現(xiàn)出色,但它們在支持長期自主學(xué)習(xí)和進化方面仍然存在不足。
正如人類使用 LTM 來塑造他們的行為和身份一樣,人工智能系統(tǒng)也可以采用類似的方法根據(jù)「個人數(shù)據(jù)」定制其響應(yīng)和行為。這里,「個人數(shù)據(jù)」不僅限于個人用戶,還包括特定的機構(gòu)和領(lǐng)域,允許模型根據(jù)更廣泛的個人背景和需求調(diào)整其響應(yīng)和行為。
作者深入探討了 LTM 在 AI 自我進化中所發(fā)揮的關(guān)鍵作用,首先在 AI 自我進化的背景下定義了 LTM,并分析了當(dāng)前 LLM 記憶機制的缺點。然后,作者討論了通過從人類 LTM 特征中汲取靈感來增強人工智能模型的自我進化能力,旨在構(gòu)建能持續(xù)學(xué)習(xí)和自我完善的人工智能系統(tǒng)。
該研究將 AI 自我進化中的 LTM 定義為:
LTM 是人工智能系統(tǒng)可以長期保留和利用的信息,使模型能夠根據(jù)更廣泛的背景調(diào)整其響應(yīng)和行為。
這里,「個人數(shù)據(jù)」不僅限于個人用戶,還包括特定的機構(gòu)和領(lǐng)域,允許模型根據(jù)更廣泛的個人背景和需求調(diào)整其反應(yīng)和行為。
從數(shù)據(jù)積累的角度來看:模型和人類都與環(huán)境進行廣泛的交互,為個性化提供基礎(chǔ)數(shù)據(jù)。與人類相比,人工智能模型可以更有效地與環(huán)境交互,并且可以在純虛擬的數(shù)字環(huán)境中執(zhí)行這些交互和迭代。因此,通過設(shè)計適當(dāng)?shù)挠洃浖?xì)化策略,模型應(yīng)該能夠像人類一樣積累長期記憶,甚至可能具有更高的效率和規(guī)模。
從模型更新的角度來看:人工智能擅長存儲和調(diào)用海量數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過人類記憶規(guī)模。神經(jīng)網(wǎng)絡(luò)通過分布式參數(shù)管理這些數(shù)據(jù),處理來自不同領(lǐng)域的輸入。然而,這種存儲相對剛性,缺乏實時更新的靈活性,通常需要重新訓(xùn)練才能實現(xiàn)更新。相比之下,人類的記憶力卻非常強。
LTM 的構(gòu)建策略
LTM 是對原始數(shù)據(jù)的有效組織和結(jié)構(gòu)化,而不僅僅是表面上對原始數(shù)據(jù)進行分類和排序。相反,它是從記憶快速存儲和檢索以及信息高效利用的角度來設(shè)計和優(yōu)化。通過建立相關(guān)信息之間的聯(lián)系,有效處理數(shù)據(jù)并重新組織信息,智能體可以快速定位所需的記憶片段,從而提高響應(yīng)速度和準(zhǔn)確性。以下是幾種主要的操作方法:
文本摘要
數(shù)據(jù)結(jié)構(gòu)化
圖表征
矢量化
模型參數(shù)化
如何利用 LTM 實現(xiàn)模型自我進化?
獲得高質(zhì)量的 LTM 數(shù)據(jù)后,下一個挑戰(zhàn)是如何利用它來增強模型能力并實現(xiàn)模型的自我進化。在使用 LTM 數(shù)據(jù)以最大限度地提高其有效性和效率的過程中需要解決幾個關(guān)鍵挑戰(zhàn),包括:
適應(yīng)持續(xù)更新的 LTM 數(shù)據(jù)。隨著用戶 LTM 數(shù)據(jù)的不斷積累,模型必須在學(xué)習(xí)新信息和保留先前獲取的知識之間取得平衡。傳統(tǒng)模型通常假設(shè)穩(wěn)定的數(shù)據(jù)分布,但在實際場景中,新的 LTM 數(shù)據(jù)可能與早期模式顯著背離,導(dǎo)致過擬合或災(zāi)難性遺忘等風(fēng)險。有效處理這些變化對于適應(yīng)動態(tài) LTM 數(shù)據(jù)至關(guān)重要。
實時學(xué)習(xí)和高效反饋集成。由于 LTM 數(shù)據(jù)是動態(tài)積累的,模型必須快速適應(yīng)用戶行為的實時變化。新數(shù)據(jù)的快速集成對于智能助手等應(yīng)用程序至關(guān)重要,其中無縫的用戶交互是關(guān)鍵。此外,在完善基礎(chǔ)模型時,應(yīng)考慮隱式(例如點擊次數(shù)或花費的時間)和顯式的用戶反潰實時結(jié)合這兩種類型的反饋使模型能夠不斷改進并滿足個人用戶的需求。
處理數(shù)據(jù)稀疏性和用戶多樣性。數(shù)據(jù)稀疏是持續(xù)更新的 LTM 系統(tǒng)中一個常見的問題,特別是對于交互歷史有限或零星活動的用戶來說,這使得訓(xùn)練模型變得困難。此外,用戶多樣性也會進一步增加復(fù)雜性,要求模型適應(yīng)個體模式,同時仍然有效地推廣到不同的用戶組。
以清華大學(xué)團隊的 Agent Hospital(智能體醫(yī)院)作為案例,該團隊展示了如何在這個模擬醫(yī)療場景中用 LTM 來提升模型的能力,其中包括醫(yī)療記錄積累、醫(yī)療經(jīng)驗反思和基于 RAG 利用 LTM。詳見原論文。
基于 LTM 實現(xiàn)模型自我進化的實踐
獲取 LTM 數(shù)據(jù)
為了提升模型保留和訪問 LTM 數(shù)據(jù)的能力,該團隊全面研究了各種方法,其中包括:
如何收集真實世界的 LTM 數(shù)據(jù)。
如何獲取合成的 LTM 數(shù)據(jù),其中包括用真實數(shù)據(jù)提升合成 LTM 數(shù)據(jù)的生成過程、使用思維鏈增強合成 LTM 數(shù)據(jù)的生成過程、生成訓(xùn)練數(shù)據(jù)和評估數(shù)據(jù)等多個方面。
如何使用 LTM 數(shù)據(jù),該團隊介紹了通過 SFT 和 RAG 使用 LTM、將 LTM 用于醫(yī)療領(lǐng)域的智能體自我評估、通過記憶系統(tǒng)來使用 LTM、通過實時權(quán)重更新來使用 LTM。
這其中包含一些實驗評估和例證,詳見原論文。這里我們來重點看看他們開發(fā)的基于 LTM 的多智能體框架。
基于 LTM 的多智能體框架
該團隊提出一個基于 LTM 的多智能體框架 Omne。
Omne 是基于 AutoGen MultiAgent Framework 深度定制的開發(fā)框架,專門用于解決 LTM 在 AI 系統(tǒng)中的實際應(yīng)用難題。
它擴展了一系列與記憶相關(guān)的基礎(chǔ)設(shè)施,包括統(tǒng)一的記憶模型、多模態(tài)消息處理系統(tǒng)以及靈活的記憶存儲和操作機制。Omne 的核心模塊(Omne Core)如下圖所示:
Omne 的核心目標(biāo)是提供一套全面的解決方案,使 LTM 能夠在實際工程項目中有效部署,從而增強 AI 系統(tǒng)的長期記憶能力和任務(wù)處理效率。
基于 Omne Core,該團隊還構(gòu)建了一個 Omne Assistant。
Omne Assistant 的設(shè)計目標(biāo)是幫助開發(fā)聊天場景中的 AI 助手,其提供了一個現(xiàn)成的應(yīng)用層框架。它包括 AI 助手所需的基本功能,使開發(fā)人員無需從頭開始設(shè)計基礎(chǔ)組件,就能快速構(gòu)建功能齊全的聊天機器人。
Omne Assistant 帶有一個 Simple Responder,這是一個通用的問答響應(yīng)器,可以處理基本的用戶聊天交互以實現(xiàn)即時通信。此外,該框架還提供了一個 Reactive Responder,它具有高級任務(wù)分析和規(guī)劃功能,使其能夠管理需要多步驟推理和任務(wù)編排的更復(fù)雜的用戶請求。
借助這些內(nèi)置組件,Omne Assistant 可讓開發(fā)人員專注于實現(xiàn)自己的功能,從而更快地開發(fā)和部署配備長期記憶功能的 AI 助手應(yīng)用。
在 GAIA 基準(zhǔn)(包含 400 多個問答任務(wù)的通用 AI 助手測試集)上,該團隊對 Omne 框架進行了評估。
為了探索 AI 的邊界,他們在 Omne 框架中使用了當(dāng)今最強大的 GPT-4o 和 o1-preview 模型,同時配備了 4 個工具:網(wǎng)絡(luò)瀏覽、Bing 搜索引擎、基于 llamaparse 的文件讀取器,一個使用 o1-preview 構(gòu)建的邏輯專家。
基于這 2 個基礎(chǔ)模型和 4 個工具,Omne 在測試集和驗證集上分別取得了第一名(40.53%)和第二名(46.06%)的成績。
值得注意的是,Omne 在最復(fù)雜、要求最高的 3 級問題上達(dá)到了 26.53% 的準(zhǔn)確率。這證明了其通過利用強大的基礎(chǔ)模型(尤其是具有強大推理和邏輯能力的模型)解決現(xiàn)實問題的潛力。
未來計劃
該團隊并不打算止步于此,他們已經(jīng)制定了未來研究的計劃,方向包括:
1. 如何更好地構(gòu)建 LTM 數(shù)據(jù)?
2. 如何為 LTM 設(shè)計新的模型架構(gòu)?
3. LTM 如何幫助用戶提出更好的問題?
4. 如何將 LTM 與推理時間搜索相結(jié)合?
5. 如何在復(fù)雜場景中使用 LTM 實現(xiàn)智能體自我進化?
6. 如何在多智能體場景中使用 LTM?