展會(huì)信息港展會(huì)大全

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-15 19:36:10   瀏覽:173242次  

導(dǎo)讀:機(jī)器之心專欄 機(jī)器之心編輯部 GPT-4 等大型語(yǔ)言模型(LLM)在許多推理任務(wù)上表現(xiàn)出色,然而,大部分現(xiàn)有研究?jī)H關(guān)注靜態(tài)環(huán)境下的任務(wù),如回答問題或解數(shù)學(xué)題。那么,LLM 能否在真實(shí)世界中完成復(fù)雜的交互式任務(wù)呢?例如,如果我們想制作一個(gè)智能體(agent),...

機(jī)器之心專欄

機(jī)器之心編輯部

GPT-4 等大型語(yǔ)言模型(LLM)在許多推理任務(wù)上表現(xiàn)出色,然而,大部分現(xiàn)有研究?jī)H關(guān)注靜態(tài)環(huán)境下的任務(wù),如回答問題或解數(shù)學(xué)題。那么,LLM 能否在真實(shí)世界中完成復(fù)雜的交互式任務(wù)呢?例如,如果我們想制作一個(gè)智能體(agent),讓它在物理世界里完成一些實(shí)驗(yàn),比如測(cè)試一個(gè)物體是否導(dǎo)電,我們可以使用 LLM 嗎?這類復(fù)雜交互式任務(wù)(complex interactive tasks)具有很大的挑戰(zhàn)性,因?yàn)樗?LLM 不僅能理解動(dòng)態(tài)變化的真實(shí)場(chǎng)景,還需要具備諸如長(zhǎng)期規(guī)劃(long-horion planning)、任務(wù)分解(task 的 composition)、記憶儲(chǔ)存(memorization)、常識(shí)推理(commonsense reasoning)、異常處理(exception handling)等高階認(rèn)知和推理能力。

面對(duì)這種情況,如何充分發(fā)揮 LLM 的規(guī)劃和推理能力,同時(shí)降低計(jì)算成本呢?認(rèn)知心理學(xué)名著《思考,快與慢》(Thinking, Fast and Slow)中介紹的雙過程理論(dual propcess theory)帶來了很多啟示。該理論認(rèn)為,人類認(rèn)知過程需要兩個(gè)密不可分的系統(tǒng),其中 System 1 負(fù)責(zé)快速直覺式思考,而 System 2 則負(fù)責(zé)慢速分析式思考。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

論文鏈接:https://arxiv.org/abs/2305.17390

項(xiàng)目網(wǎng)站:https://yuchenlin.xyz/swiftsage/

基于此,AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學(xué)習(xí)得到一個(gè)小型模型,然后將其與 LLM 進(jìn)行融合。這樣,便可以利用大量數(shù)據(jù)對(duì)小型模型進(jìn)行微調(diào),使其具備環(huán)境和任務(wù)相關(guān)的知識(shí),并僅在需要時(shí)調(diào)用大型模型進(jìn)行高階推理。在 30 個(gè)任務(wù)上的評(píng)估中,SwiftSage 的表現(xiàn)超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍,并且大幅降低了 LLM 部分的計(jì)算成本。

研究背景

以往的研究主要探索了三種方法來解決復(fù)雜的交互推理任務(wù),傳統(tǒng)的一些智能體訓(xùn)練方法包括

1)強(qiáng)化學(xué)習(xí)(Reinforcement Learning)

將交互式推理任務(wù)建模為部分可觀察的馬爾可夫決策過程(Partial Observable Markov Decision Process, POMDP),智能體通過反復(fù)嘗試和學(xué)習(xí)最佳行動(dòng)策略。常見的方法有 DRRN, KG-A2C,CALM 等。

2)模仿學(xué)習(xí)(Imitation Learning)

將交互式推理任務(wù)建模為序列到序列(Seq2Seq)任務(wù),將過去的行動(dòng)和當(dāng)前的環(huán)境觀察作為輸入,當(dāng)前的行動(dòng)作為輸出,智能體被訓(xùn)練以模仿人類或?qū)<业男袨椤ext Decision Transformer 是這個(gè)方向的基準(zhǔn)方法。

3)利用大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱 LLM)提示

隨著 LLM 的快速發(fā)展,尤其是 GPT-4 的出現(xiàn),將 LLM 應(yīng)用于復(fù)雜的交互式推理任務(wù)取得了顯著的成果。除了通過傳統(tǒng)方法直接讓 LLM 根據(jù)過往行動(dòng)和當(dāng)前環(huán)境觀察生成行動(dòng)外,有研究通過直接調(diào)用 LLM 生成 action 候選池再結(jié)合環(huán)境重排序(SayCan),也有研究引入虛擬的 "think" 行動(dòng)來生成子目標(biāo)以實(shí)現(xiàn)更高效的行動(dòng)(ReAct),以及在任務(wù)失敗后利用 LLM 總結(jié)原因并生成反思以提高下一次嘗試的成功概率(Reflection)等多種方式。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

雖然傳統(tǒng)方法在相對(duì)簡(jiǎn)單的任務(wù)中表現(xiàn)優(yōu)異,但它們?cè)诟鼜?fù)雜和具有挑戰(zhàn)性的任務(wù)中的泛化能力受限。無論是基于強(qiáng)化學(xué)習(xí)的方法還是行為克。˙ehavior Cloning),在將大目標(biāo)分解為多個(gè)子任務(wù)、實(shí)現(xiàn)長(zhǎng)期記憶和處理環(huán)境中的未知異常(比如在導(dǎo)電性測(cè)試中找不到可以使用的燈泡)方面都面臨諸多挑戰(zhàn)。

相較之下,利用 LLM 進(jìn)行提示的方法展示出了在復(fù)雜任務(wù)中生成合理計(jì)劃和根據(jù)人類反饋進(jìn)行調(diào)整的能力,但同樣存在一些問題和局限性。其中一個(gè)主要挑戰(zhàn)是每次預(yù)測(cè)行動(dòng)都需要調(diào)用 LLM,導(dǎo)致整體推理效率低下且成本較高。此外,ReAct 和 Reflection 兩種方法還需要針對(duì)每種未知任務(wù)類型進(jìn)行適當(dāng)?shù)淖幽繕?biāo)人工標(biāo)注,否則在現(xiàn)實(shí)世界情境中的推廣可能會(huì)比較困難。而如何將 LLM 生成的計(jì)劃轉(zhuǎn)化為真實(shí)

SwiftSage:融合模仿學(xué)習(xí)與大模型規(guī)劃的全新框架

研究者受到人腦思維雙系統(tǒng)模型理論(Dual Process Theory)的啟發(fā),提出一種全新的結(jié)合模仿學(xué)習(xí)和語(yǔ)言模型(LLM)方法的框架 SwiftSage。這一框架為真實(shí)世界中的復(fù)雜任務(wù)帶來了的突破性解決方案。

在認(rèn)知心理學(xué)領(lǐng)域,人腦思維雙系統(tǒng)模型被用于解釋人類思維和決策過程中的兩種獨(dú)特方式。根據(jù)該理論,人類的認(rèn)知過程可分為兩個(gè)相互關(guān)聯(lián)但獨(dú)立運(yùn)作的系統(tǒng):直覺型思維系統(tǒng)(系統(tǒng) 1)和反思型思維系統(tǒng)(系統(tǒng) 2)。

直覺型思維(系統(tǒng) 1)是一種快速、直觀且自動(dòng)的思考方式,主要依賴于個(gè)體的經(jīng)驗(yàn)、情感和直覺。這種方式對(duì)于解決簡(jiǎn)單問題和日常決策具有較高的效率,但在面臨復(fù)雜問題和重大決策時(shí)可能導(dǎo)致偏差和錯(cuò)誤。

反思型思維(系統(tǒng) 2),與此相反,則是一種深思熟慮、有意識(shí)且理性的思考方式。該方式通過運(yùn)用邏輯推理、規(guī)則和分析,為決策和問題解決提供了更加準(zhǔn)確和合理的結(jié)果。然而,這種思維方式需要較多的認(rèn)知資源和時(shí)間。

雙系統(tǒng)模型理論的核心觀點(diǎn)在于,人類思維和決策過程并非單一系統(tǒng)所驅(qū)動(dòng),而是兩個(gè)系統(tǒng)之間相互作用、互補(bǔ)和競(jìng)爭(zhēng)的結(jié)果。在許多情況下,直覺型思維系統(tǒng)在決策中發(fā)揮主導(dǎo)作用;而在需要深入思考和理性判斷的場(chǎng)合,反思型思維系統(tǒng)的作用則變得更為重要。

AI2 團(tuán)隊(duì)提出的 SwiftSage 框架正是基于人腦思維雙系統(tǒng)模型理論,將模仿學(xué)習(xí)和 LLM 方法的優(yōu)勢(shì)相互結(jié)合,以解決現(xiàn)實(shí)世界中的復(fù)雜數(shù)字任務(wù),展現(xiàn)出了巨大的潛力和前景。

雙模塊推理系統(tǒng):迅速?zèng)Q策的 Swift + 深思熟慮的 Sage

SwiftSage 是一個(gè)由兩個(gè)主要模塊組成的框架:迅速?zèng)Q策(Swift)模塊和深思熟慮(Sage)模塊。

Swift 模塊是一個(gè)基于 encoder-decoder 的小型語(yǔ)言模型,它能編碼短期記憶內(nèi)容,例如先前的動(dòng)作、當(dāng)前觀察結(jié)果、已訪問的位置以及當(dāng)前環(huán)境狀態(tài),并解碼出下一步的行動(dòng)。該模塊模擬了系統(tǒng) 1 中快速、直觀的思維特點(diǎn)。它的優(yōu)勢(shì)來自于大量的離線數(shù)據(jù),通過在模仿學(xué)習(xí)中采用 behavior cloning 方法,Swift 模塊可以充分了解目標(biāo)環(huán)境中的設(shè)定以及更好地掌握任務(wù)的定義。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

Sage 模塊代表了系統(tǒng) 2 中深思熟慮的思維過程,它利用 LLM(例如 GPT-4)來更好地進(jìn)行規(guī)劃。Sage 模塊包含兩個(gè) LLM Prompting 階段,分別稱為規(guī)劃(planning)和融合(grounding)。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

在規(guī)劃階段,主要目標(biāo)是引導(dǎo) LLM 定位所需物品、規(guī)劃和追蹤子目標(biāo)以及檢測(cè)和修正潛在的異常和錯(cuò)誤。通過五個(gè)主要問題來實(shí)現(xiàn)這一目標(biāo),使得智能體能夠更敏銳地捕捉游戲過程中的異常,進(jìn)而更有可能糾正自身行為。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

在融合階段,主要目標(biāo)是利用規(guī)劃階段五個(gè)問題的答案和詳細(xì)的動(dòng)作模板,將規(guī)劃階段輸出的計(jì)劃轉(zhuǎn)化為一系列實(shí)際可執(zhí)行的動(dòng)作,這可以稱為動(dòng)作緩存(action buffer)。與之前的方法不同,Sage 不僅生成下一個(gè)即時(shí)動(dòng)作,還包括長(zhǎng)期的行動(dòng)規(guī)劃。LLM 收到包含子目標(biāo)(在規(guī)劃階段生成)和支持的行動(dòng)類型的提示(prompt),使它們能夠生成一系列旨在實(shí)現(xiàn)當(dāng)前子目標(biāo)的動(dòng)作(而不是像之前的方法那樣一次生成一個(gè)動(dòng)作)。這樣一來,SwiftSage 進(jìn)一步降低了動(dòng)作預(yù)測(cè)的成本。

為了協(xié)調(diào) Swift 和 Sage 模塊,研究者們提出了一種啟發(fā)式算法,用于確定何時(shí)激活或停用 Sage 模塊以及如何有效地將輸出與動(dòng)作緩存機(jī)制相結(jié)合。默認(rèn)情況下,智能體通常會(huì)采用 Swift 模塊。當(dāng) Swift 模塊遇到困難時(shí)(例如,出現(xiàn)如下圖的四種情況),智能體會(huì)改為執(zhí)行 Sage 模塊產(chǎn)生的動(dòng)作緩存。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

實(shí)驗(yàn)結(jié)果:效率、性能和開銷的全方位優(yōu)秀表現(xiàn)

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

經(jīng)過對(duì) ScienceWorld 中的 30 種任務(wù)類型進(jìn)行全面評(píng)估之后,SwiftSage 在性能上顯著優(yōu)于其他方法,取得了領(lǐng)先水平的平均分?jǐn)?shù) 84.7。相較而言,SayCan 的得分僅為 33.8,ReAct 獲得了 36.4 分,而 Reflexion 則達(dá)到了 45.3 分。

得益于其獨(dú)特的雙系統(tǒng)設(shè)計(jì),SwiftSage 在 LLM 推理中所需的每個(gè)行動(dòng)的令牌數(shù)量大幅減少,因此在成本效益和效率方面,它比單純依靠 Prompting LLM 方法表現(xiàn)得更為出色。平均來看,為了產(chǎn)生一個(gè)行動(dòng),Saycan 和 ReAct 需要近 2000 個(gè) token,Reflexion 需要接近 3000 個(gè) token,而 SwiftSage 僅需約 750 個(gè) token。

此外,SwiftSage 在交互式任務(wù)中的效率同樣更高。如下圖所示,SwiftSage 能夠在較少的行動(dòng)數(shù)內(nèi)達(dá)到相同的分?jǐn)?shù)。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

在展示出卓越表現(xiàn)后,研究者們認(rèn)為受益于人類認(rèn)知雙過程理論靈感的 SwiftSage 研究成果具有創(chuàng)新性及領(lǐng)先優(yōu)勢(shì),無論是在性能、效率還是成本方面。這一獨(dú)特框架采用了將較小的語(yǔ)言模型與模仿學(xué)習(xí)相結(jié)合,再輔以 LLM(大型語(yǔ)言模型)的規(guī)劃能力,成為解決復(fù)雜交互推理任務(wù)以及構(gòu)建通用人工智能的關(guān)鍵步驟。SwiftSage 所取得的突破使我們距離充分發(fā)揮 LLM 潛力更近一步,從而更有效地解決現(xiàn)實(shí)世界中的復(fù)雜問題。

結(jié)語(yǔ)

AI2 提出的 SwiftSage 成果再次展示了較小的 LM(語(yǔ)言模型)與 LLM(大型語(yǔ)言模型)協(xié)作框架的巨大潛力。通過利用較小的 LM 進(jìn)行任務(wù)與環(huán)境特定模式的識(shí)別,實(shí)現(xiàn)了分布內(nèi)泛化的高效性。同時(shí),盡管 LLM 的零樣本泛化能力和深度思考展現(xiàn)出顯著優(yōu)勢(shì),但將其輸出應(yīng)用于現(xiàn)實(shí)世界場(chǎng)景仍具有一定挑戰(zhàn)性。研究者認(rèn)為,采用雙過程智能體,發(fā)揮這兩種方法的優(yōu)點(diǎn),對(duì)解決復(fù)雜的交互式推理任務(wù)以及構(gòu)建跨領(lǐng)域的通用智能體具有重要意義。進(jìn)一步地,我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規(guī)劃器,用于分解復(fù)雜任務(wù)并調(diào)用 API 工具。

主要作者介紹

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

Bill Yuchen Lin 林禹臣(AI2)現(xiàn)任 Allen Institute for AI(AI2)研究員。他本科畢業(yè)于上海交通大學(xué) IEEE 試點(diǎn)班(2018),博士畢業(yè)于 USC 南加州大學(xué) (2022)。曾獲得 WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次擔(dān)任 NLP 和 ML 領(lǐng)域頂級(jí)會(huì)議審稿人,Area Chair (ACL2023),多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語(yǔ)言模型的分析和增強(qiáng),以及如何利用常識(shí)知識(shí)構(gòu)建通用的智能體。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

Yejin Choi (UW & AI2) 華盛頓大學(xué)教授,同時(shí)領(lǐng)導(dǎo) AI2 的 Mosaic 組。她曾獲得 ACL Fellow,MacArthur Fellow,她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽(yù)。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

Xiang Ren 任翔(USC)南加州大學(xué)副教授,領(lǐng)導(dǎo) INK Research Lab。曾獲得 Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,F(xiàn)acebook Sponsored Research Award, 2021,NSF CAREER Award, 2021 等榮譽(yù)。

LLM+模仿學(xué)習(xí),解決真實(shí)世界中的復(fù)雜任務(wù):AI2提出SwiftSage

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港