AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
網(wǎng)絡(luò)智能體旨在讓一切基于網(wǎng)絡(luò)功能的任務(wù)自動發(fā)生。比如你告訴智能體你的預(yù)算,它可以幫你預(yù)訂酒店。既擁有海量常識,又能做長期規(guī)劃的大語言模型(LLM),自然成為了智能體常用的基礎(chǔ)模塊。
于是上下文學(xué)習(xí)示例、任務(wù)技巧、多智能體協(xié)同、強(qiáng)化學(xué)習(xí)算法…… 一切適用于通用智能體的想法都搶著在大模型落地。
然而有一個問題始終橫亙在LLM 和智能體之間:基于 LLM 的網(wǎng)絡(luò)智能體的行動 / 觀測空間與 LLM 訓(xùn)練數(shù)據(jù)的空間相去甚遠(yuǎn)。
智能體在充斥著具身行為的行動空間(如鼠標(biāo)懸停、鍵盤組合鍵)和遍布前端功能強(qiáng)化、格式渲染的觀測空間下運作,大語言模型的理解和推理能力能充分發(fā)揮作用嗎?尤其是大語言模型的主要訓(xùn)練任務(wù)是文本補(bǔ)全、問答和對齊人類偏好,這一點值得思考。
來自伊利諾伊大學(xué)香檳分校和亞馬遜的研究人員選擇和這些問題進(jìn)一步對話。他們?nèi)コ松舷挛氖纠、技巧、多智能體系統(tǒng),僅僅通過行動 / 觀測空間與 LLM 的訓(xùn)練任務(wù)對齊。他們訓(xùn)練的 AgentOccam 成為了零樣本基于 LLM 的網(wǎng)絡(luò)智能體新 Sota。
這正呼應(yīng)了奧卡姆剃刀原則:「若無必要,勿增實體」。然而換個思考的角度,AgentOccam 的研究團(tuán)隊也想發(fā)問:構(gòu)建通用智能體時,在鋪設(shè)復(fù)雜的系統(tǒng)框架前,是否已經(jīng)優(yōu)化了行動 / 觀測空間,讓這些功能模塊達(dá)到了最優(yōu)狀態(tài)?
論文鏈接:https://arxiv.org/abs/2410.13825
論文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents
背景及動機(jī)
某天你刷著短視頻,看中了主播手中拿著的商品。于是,你興致勃勃地對智能助手說:「我是學(xué)生,讓這個老板送我一張優(yōu)惠券!」
隨后,智能體申請了你的私人賬號權(quán)限、后臺私信商家、繪聲繪色地寫下「我是學(xué)生」,發(fā)送消息,一套動作無需人為干預(yù),行云流水......一切這樣的任務(wù),再也不必動手,都有智能體代勞。
大語言模型是構(gòu)建智能體的熱門選擇。過去,基于 LLM 的網(wǎng)絡(luò)智能體通常專注于讓智能體學(xué)會某種應(yīng)用,比如構(gòu)建上下文學(xué)習(xí)樣本、積累任務(wù)經(jīng)驗與技巧、以及多智能體角色扮演等等。然而,在實際交互中,智能體的行動 / 觀測空間與 LLM 的技能點不太匹配,這之間的差距卻少有人研究。
于是,針對如何對齊基于 LLM 的網(wǎng)絡(luò)智能體的觀測和行動空間與其訓(xùn)練期間學(xué)到的功能,來自伊利諾伊大學(xué)香檳分校和亞馬遜的研究人員們展開了研究。
網(wǎng)絡(luò)智能體需要準(zhǔn)確地從格式各異、編碼腳本不一的網(wǎng)頁中提取信息,并在網(wǎng)頁上定義的動作(例如,鼠標(biāo)滑輪滾動、點擊或懸停在按鈕上)中進(jìn)行選擇。這些網(wǎng)絡(luò)觀測和行動空間在 LLM 的預(yù)訓(xùn)練和后續(xù)訓(xùn)練數(shù)據(jù)中都較為罕見,這阻礙了 LLM 充分調(diào)動潛能,完成任務(wù)。
因此,基于不讓智能體策略變得更復(fù)雜,而是讓智能體與LLM 更加匹配的想法,由此構(gòu)建的智能體得名 AgentOccam。
形式化與方法
該團(tuán)隊通過部分可觀測的馬爾可夫決策過程(POMDP),將網(wǎng)絡(luò)交互過程形式化為:
在 POMDP 中,觀測 o∈O 是智能體從網(wǎng)絡(luò)環(huán)境接收到的信息,例如 HTML,以及任何指令和提示。行動 a∈A 是網(wǎng)絡(luò)環(huán)境認(rèn)可的動作指令。
如上圖所示,AgentOccam 包括三個組成部分:
首先,減少非必要的網(wǎng)絡(luò)交互動作,讓智能體的具身和瑣碎互動需求達(dá)到最;
其次,消除冗余和不相關(guān)的網(wǎng)頁元素,并重構(gòu)網(wǎng)頁內(nèi)容塊,以獲取更簡潔但同樣信息豐富的表示,從而精煉觀察空間;
最后,引入兩個規(guī)劃動作(分支和修剪),這使得智能體能夠以規(guī)劃樹結(jié)構(gòu)自組織導(dǎo)航工作流,并使用相同結(jié)構(gòu)過濾歷史步以進(jìn)行回放。
整個框架通過一套適用于所有標(biāo)記語言的通用規(guī)則來格式化網(wǎng)頁,無需依賴測試基準(zhǔn)中的任務(wù)相關(guān)信息。
網(wǎng)絡(luò)智能體的行動空間規(guī)定了可以用來與網(wǎng)絡(luò)環(huán)境交互的有效命令。
研究團(tuán)隊從智能體常見的失敗中得出總結(jié):想要成功完成任務(wù),需要編輯行動空間來解決兩個關(guān)鍵問題:第一,去除 LLM 難以理解且經(jīng)常誤用的無關(guān)行動;第二,當(dāng)執(zhí)行任務(wù)需要規(guī)劃、嘗試多個潛在路徑時,要提高智能體的記憶和規(guī)劃能力。
為此,該團(tuán)隊提出了對應(yīng)的解決方法。第一個問題可以通過簡單地移除或合并操作來解決(如上圖中的步驟 1 和 2)。對于第二個問題,過去的研究通常依賴人工制定規(guī)則或任務(wù)技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計劃和管理任務(wù)流程(如步驟 3 所示)。
AgentOccam 的觀測空間(提示詞)包含了任務(wù)概述的通用指令、期望的輸出和可用操作說明,以及關(guān)于當(dāng)前任務(wù)目標(biāo)、智能體過去的交互記錄和最新的觀察信息。
過往互動和當(dāng)前觀測的部分占據(jù)了最多的字符數(shù)。這主要歸因于兩個因素:單頁面的長度和歷史跨度的范圍,這是AgentOccam觀測空間的主要優(yōu)化對象。
網(wǎng)頁標(biāo)記語言主要用于前端加載和渲染,往往包含大量格式化字符,顯得冗余且重復(fù)(如上圖步驟 1 所示)。因此,此時的目標(biāo)是優(yōu)化這些表示方式,使得單頁內(nèi)容對 LLMs 更加簡潔易讀。
將觀測歷史作為輸入,對于執(zhí)行長程任務(wù)至關(guān)重要。因為一些關(guān)鍵信息可能不會顯示在當(dāng)前頁面上。然而,觀測歷史也會顯著增加上下文長度,并增加推理難度以及推斷成本。
為了解決這個問題,設(shè)置僅選擇先前網(wǎng)頁上最重要和相關(guān)的信息,這一選擇依據(jù)兩個規(guī)則,分別基于關(guān)鍵節(jié)點和規(guī)劃樹,見于步驟 2 和 3。
結(jié)果
研究團(tuán)隊在 WebArena 上評估了 AgentOccam 性能。WebArena含有 812 項任務(wù),橫跨網(wǎng)購、社交網(wǎng)站、軟件開發(fā)、在線商貿(mào)管理、地圖等。
測試對象為AgentOccam 框架下的GPT-4-Turbo。對比的基線包括:一、WebArena 隨配智能體,二、SteP,前 WebArena 上最優(yōu)智能體,涵蓋 14 條人類專為 WebArena 任務(wù)編寫的技巧,三、多智能體協(xié)同方法 WebPilot;四、總結(jié)智能體交互經(jīng)驗的工作 AWM。
從上表不難看出,AgentOccam 性能優(yōu)于以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對分?jǐn)?shù)領(lǐng)先往期和同期工作,并且通過其觀測與行動空間的對齊,使得相似的基本網(wǎng)絡(luò)智能體的成功率提高了 26.6 點(+161%)。
消融實驗
逐模塊對比行動與觀測空間的對齊對最終結(jié)果的貢獻(xiàn)。從下表可以看出,行動空間對齊能使智能體完成更多 click、type 等引導(dǎo)環(huán)境變化的動作,觀測空間對齊則減少大模型調(diào)用的字符數(shù)與智能體完成任務(wù)所需的步數(shù)。
LLM-as-a-Judge
研究團(tuán)隊發(fā)現(xiàn),智能體的決策行為波動性很強(qiáng)。簡而言之,面對一個目標(biāo),智能體有一定概率做出正確的行為決斷,但由于 token 預(yù)測的隨機(jī)性,它可能做出一些高成本、低回報的決定。這也導(dǎo)致它在后續(xù)步驟中難以糾正之前的錯誤而失敗。
例如,要求智能體在某個最相關(guān)的話題下發(fā)布帖子,單次 LLM 調(diào)用的 AgentOccam 往往輕率地選擇話題,未考慮「最相關(guān)」的要求。
為了解決此類問題,他們引導(dǎo) AgentOccam 生成單步內(nèi)所有可能的行動,這系列行動將交付另一個 Judge 智能體(同樣調(diào)用 GPT-4-turbo)決斷,做出最大化回報的選擇。
與復(fù)合策略結(jié)合使用
復(fù)合策略中,與任務(wù)相關(guān)的經(jīng)驗可以提升智能體性能。同時,不因為加入了更多背景知識擾亂決策,不會影響泛化性,能夠糾正錯誤行為模式。
由于行為 / 觀測空間對齊和復(fù)合策略方法正交,因此能結(jié)合利用。該團(tuán)隊試驗將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯(lián)合使用。
對于和前 SOTA 方法 SteP 聯(lián)合,由于它引入人類編寫的 WebArena 任務(wù)攻略,在經(jīng)驗密集型任務(wù),如購物網(wǎng)頁任務(wù)中,人類撰寫的引導(dǎo)性經(jīng)驗大幅提升任務(wù)成功率。
而在常識泛化密集型任務(wù),如社交網(wǎng)頁發(fā)帖任務(wù)中,不相關(guān)知識出現(xiàn)會錯誤擾亂智能體決策。對于 LLM-as-a-Judge 方法,Judge 角色的引入不影響智能體的泛化性,同時糾正了智能體倉促決策的錯誤行為模式,在 WebArena 上進(jìn)一步提升 2.6 的絕對分?jǐn)?shù)。