新智元報道
編輯:編輯部 HZh【新智元導(dǎo)讀】Scaling Law撞墻,擴展語言智能體的推理時計算實在太難了!破局之道,竟是使用LLM作為世界模型?OSU華人團隊發(fā)現(xiàn),使用GPT-4o作為世界模型來支持復(fù)雜環(huán)境中的規(guī)劃,潛力巨大。Scaling Law又能續(xù)命了?
如何通過語言智能體的高級規(guī)劃來Scaling推理時計算?
答案就是使用LLM作為世界模型。
也就是說,使用GPT-4o來預(yù)測網(wǎng)站上操作的結(jié)果,可以提供強大的性能,同時還能提高安全性和效率。
近日,來自俄亥俄州立大學等機構(gòu)的研究人員提出了一種全新的WebDreamer框架,它可以利用LLM作為世界模型,來預(yù)測網(wǎng)站上的交互結(jié)果。
論文地址:https://arxiv.org/abs/2411.06559
幾天前,微軟Ignite大會上,納德拉曾表示,AI發(fā)展并沒觸及天花板,我們正見證推理時計算Scaling law的崛起。
沒錯,這項新研究便是朝著這個方向前進的一步。語言智能體和數(shù)學推理的關(guān)鍵區(qū)別,就是交互
一作Yu Gu表示,自從o1發(fā)布以來,這個問題就一直困擾著自己
為什么擴展語言智能體的推理時計算,會如此困難呢?語言智能體,到底有何特別之處?為此,他將這個問題進行了分解。與數(shù)學推理等任務(wù)不同,語言智能體的一個關(guān)鍵區(qū)別在于交互:它們采取的每個動作,都會觸發(fā)對環(huán)境的新觀察,從而為自己的下一個決策提供信息。而交互使得搜索空間探索變得復(fù)雜,原因在于1. 與環(huán)境的交換是昂貴的2. 許多操作是狀態(tài)改變且不可逆轉(zhuǎn)的(比如在購物網(wǎng)站上確認購買),這就使得樹搜索中的回溯,在現(xiàn)實世界的網(wǎng)站中不可行。
那么,是否可以使用LLM作為世界模型,來預(yù)測網(wǎng)站上交互的結(jié)果呢?(比如「如果單擊此按鈕,會發(fā)生什么」)這樣,就可以實現(xiàn)有效的搜索空間探索,減少實際交互的開銷。答案是肯定的!Yu Gu等人發(fā)現(xiàn),GPT-4o有效地編碼了關(guān)于網(wǎng)站的廣泛知識,并且充當了基于模型的規(guī)劃框架WebDreamer的基礎(chǔ)。
因為配備了LLMs模擬的世界模型,WebDreamer展示了良好的有效性和效率。首先,它有著強大的性能:在VisualWebArena和Mind2Web-live上遠遠優(yōu)于反應(yīng)性基線。
在效率上,跟樹搜索相比,它只需要一半的交互次數(shù)。
此外,由于基于LLM的世界模型模擬,它還具有兩個額外的優(yōu)勢。一個是更好的安全性,因為能通過最大限度地減少現(xiàn)實世界的互動,來降低安全風險。另一個就是多功能集成:它可以作為各種智能體的插件無縫工作,并且對樹搜索智能體有所補充。WebDreamer的核心,就是「做夢」
智能體也需要做夢嗎?與數(shù)學推理等任務(wù)不同,語言智能體(language agents)的一個關(guān)鍵區(qū)別在于交互:他們采取的每一個行動都會觸發(fā)環(huán)境的新變動,而這又為它進行進一步的決策帶來了挑戰(zhàn)。不斷地交互使得解空間搜索變得異常艱難,因為與環(huán)境交互的計算成本很高;許多改變狀態(tài)的操作是不可逆的;而且利用智能體來為自己與網(wǎng)站進行實際交互有一定的安全風險,例如信息泄露與個人財產(chǎn)在意外交易中損失。如何有效的進行解空間搜索,同時減少實際交互的開銷并保證智能體的安全可靠性成了一個亟待解決的問題。簡要來講,WebDreamer的核心是「做夢」的概念:在承諾采取任何行動之前,智能體使用LLM去想象預(yù)測每個可能步驟的結(jié)果,并以自然語言描述狀態(tài)將如何變化。然后,依據(jù)和實現(xiàn)目標任務(wù)的距離來對這些模擬結(jié)果進行評估。最后執(zhí)行最有可能實現(xiàn)目標任務(wù)的模擬行動。這個過程會反復(fù)進行,直到LLM確定目標已經(jīng)實現(xiàn)為止。圖1為網(wǎng)頁智能體以搜索問題形式表現(xiàn)的不同策略示意圖,其中每個節(jié)點代表一個網(wǎng)頁。為清晰起見,僅描述了一步模擬結(jié)果。褪色節(jié)點表示未瀏覽的網(wǎng)頁,綠色對號和紅色叉號分別表示成功和不成功的結(jié)果。
圖1(a)反應(yīng)式:由于智能體總是選擇局部最優(yōu),沒有前瞻性規(guī)劃,往往導(dǎo)致次優(yōu)結(jié)果。
圖1(b)結(jié)合真實交互的樹搜索:智能體通過主動網(wǎng)站導(dǎo)航探索多條路徑,并允許回溯(用虛線箭頭表示)。然而,在現(xiàn)實世界的網(wǎng)站中,由于不可逆操作的普遍存在,回溯往往不可行。
圖1(c)基于模型的規(guī)劃:在實際執(zhí)行之前,智能體會模擬潛在的結(jié)果(如云狀節(jié)點所示),以確定最佳行動,從而在保持有效性的同時盡量減少實際的網(wǎng)站交互?偨Y(jié)來說,在LLM模擬的世界模型加持下,WebDreamer展現(xiàn)出了卓越的性能與效率,以及強大的擴展能力:性能:在 VisualWebArena 和 Mind2Web-live 上表現(xiàn)遠超反應(yīng)式基線模型。
效率:與樹搜索相比,僅需一半的交互次數(shù)。
安全:通過減少現(xiàn)實世界的交互,有效降低安全風險。
集成:可無縫作為多種智能體的插件運行,并補充樹搜索智能體的功能。
準備
任務(wù)制定對于在網(wǎng)站上進行實時自動化交互這一目標任務(wù)來講,網(wǎng)頁智能體面臨著龐大且復(fù)雜的搜索解空間。形式上,每個帶有任務(wù)指令I(lǐng)的任務(wù)可以被視為一個部分可觀測的馬爾可夫決策過程(POMDP):(S, A, O, T, R, Ω)。其中,S代表環(huán)境中所有可能狀態(tài)的集合,A代表智能體可以采取的所有可能動作,O代表環(huán)境中所有可能的觀測值組成的集合,T : S × A → S代表狀態(tài)轉(zhuǎn)移函數(shù),R是一個二值reward,表示任務(wù)I是否已完成,Ω : S → O是一個可將狀態(tài)投射到觀測值的確定性函數(shù)。任務(wù)的目標是執(zhí)行一系列動作以獲得1的獎勵。在實際場景中,由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性,其包括服務(wù)器端變量、動態(tài)加載的內(nèi)容、隱藏的UI元素,并受網(wǎng)絡(luò)條件和瀏覽器限制的影響,智能體只能通過有限的視角(即o ∈ O)來感知網(wǎng)絡(luò)環(huán)境。這種受限的觀測視角也形成了相應(yīng)的動作空間A,其包括可在o中可執(zhí)行的交互操作,如點擊、文本輸入和URL跳轉(zhuǎn)。
表1在VisualWebArena中定義的網(wǎng)絡(luò)導(dǎo)航動作空間通過模擬進行規(guī)劃通過使用由狀態(tài)轉(zhuǎn)移函數(shù)「T」控制的真實交互進行樹搜索來規(guī)劃最優(yōu)動作序列代價高昂,并且存在不可逆風險;谀P偷囊(guī)劃通過使用環(huán)境的計算表征來模擬交互結(jié)果,從而解決這些挑戰(zhàn)。一種顯著的方法是模型預(yù)測控制(Model Predictive Control,MPC),它通過迭代模擬未來軌跡來選擇動作。對于每個狀態(tài)s,MPC使用模擬器函數(shù)sim(s, a)在有限的預(yù)測范圍H內(nèi)模擬每個可能動作a ∈ A的軌跡,并使用評分函數(shù)score(τ)進行評估。然后執(zhí)行最有前景的軌跡相應(yīng)的動作:
此過程在觀察到新狀態(tài)后重復(fù)進行,從而使智能體能夠根據(jù)實際結(jié)果調(diào)整其計劃,同時避免代價高昂的真實世界探索。實際上,由于部分可觀察性,我們無法訪問真實狀態(tài),因此我們使用o = Ω(s)進行sim(o, a)的計算。基于模型規(guī)劃的網(wǎng)絡(luò)智能體
作者利用LLM作為世界模型,提出了一種開創(chuàng)性方法:WebDreamer,以實現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境中的高效規(guī)劃。該方法受到這樣一個現(xiàn)象的啟發(fā):盡管網(wǎng)絡(luò)界面復(fù)雜,但其設(shè)計對于人類用戶來說是可預(yù)測的。當瀏覽網(wǎng)站時,人類可以根據(jù)視覺提示和常見設(shè)計模式有效地預(yù)測動作結(jié)果點擊「提交」按鈕即可提交表單,選擇產(chǎn)品圖片會導(dǎo)航到其詳情頁面。鑒于LLMs是在大量Web相關(guān)數(shù)據(jù)上訓(xùn)練的,作者假設(shè)它們已經(jīng)獲得了足夠的知識來模擬用戶行為的后果,足以作為世界模型勝任有效規(guī)劃。核心設(shè)計WebDreamer的核心,是利用LLM來實現(xiàn)模擬函數(shù)sim和評分函數(shù)score。下圖為WebDreamer使用LLM模擬三個候選動作的結(jié)果圖示,其中WebDreamer模擬每個動作的兩步軌跡,選擇得分最高的軌跡,并執(zhí)行相應(yīng)的初始動作。
圖中說明了LLM模擬自然語言描述中三個候選操作的軌跡:
(1)單擊「Office Products」
(2)單擊「Electronics」
(3)在文本框中鍵入「Disk」通過這些模擬,對每個結(jié)果軌跡進行評分,以確定最有可能成功的動作。在這種情況下,LLM選擇單擊「Electronics」作為最佳步驟并執(zhí)行它。每個虛線框表示每個模擬操作后LLM生成的狀態(tài)描述。sim的實現(xiàn)模擬函數(shù)sim的實現(xiàn)由兩個模塊組成:一個模塊預(yù)測動作執(zhí)行后的狀態(tài)變化,近似狀態(tài)轉(zhuǎn)移函數(shù)「T」;而另一個根據(jù)預(yù)測的狀態(tài)想象可能的動作。這兩個模塊共同生成長度為H的軌跡,其中H是一個可配置的模擬深度參數(shù)。具體來說,為了表示狀態(tài)變化,研究者會提示LLM生成一個簡明的自然語言描述,僅關(guān)注動作的效果。例如,在圖2中,當提示預(yù)測執(zhí)行動作單擊「Electronics」的效果時,LLM將輸出如下簡短描述:
基于這個預(yù)測的狀態(tài),LLM會隨后想象下一個動作(例如,點擊「電腦及配件」),這將導(dǎo)致另一個狀態(tài)改變進一步的預(yù)測。這個過程生成了一個模擬深度為H=2的軌跡。score的實現(xiàn)在使用sim從每個候選動作ai模擬出一個軌跡τi后,研究者進一步使用LLM作為每個模擬軌跡的評分函數(shù)。他們提示LLM以三種評分標準,來評估每個模擬軌跡完成(1.0)、進行中(0.5)或不正確(0),以指示其任務(wù)完成的進度。/section>最終得分通過對這些評估的多次采樣進行平均計算。除了sim和score,規(guī)劃的一個前提是候選動作生成。研究者采用了兩階段方法:首先采樣出前k個動作,然后使用LLM自我優(yōu)化,去除不必要的動作以進行模擬。這個自我優(yōu)化步驟的動機,是研究者觀察到在不同步驟中,相同的k可以引入不同程度的不相關(guān)動作某些步驟本身就比其他步驟可以用更少的有效動作進行實現(xiàn)。在算法1中,他們展示了WebDreamer整體設(shè)計的偽代碼。termination check用于驗證模型是否輸出停止動作,其規(guī)則為當算法達到最大步驟或連續(xù)3次重復(fù)一個動作時,則停止繼續(xù)執(zhí)行算法。
完整system prompts如下:
左右滑動查看
實驗結(jié)果
有效性如表2所示,WebDreamer在VWA和Mind2Web-live數(shù)據(jù)集上相較于反應(yīng)式智能體表現(xiàn)出顯著的改進:在VWA數(shù)據(jù)集上,實現(xiàn)了33.3%的相對性能提升
在Mind2Web-live數(shù)據(jù)集上,相較于Reactive范式提升了2.9%(相對增益為13.1%)
雖然在總體成功率方面,還是基于樹搜索的方案更高,但它實際上并不適用于真實的網(wǎng)絡(luò)場景。而WebDreamer則可以提供一種更靈活且適應(yīng)性更強的替代方案。
表2:VisualWebArena和Mind2Web-live的結(jié)果更進一步,研究人員將WebDreamer與Reactive范式在VWA數(shù)據(jù)集上的多維度表現(xiàn)進行了比較。表3顯示,基于模型的規(guī)劃方法在所有網(wǎng)站和任務(wù)難度級別上都始終優(yōu)于基于Reactive范式的方法 。在根據(jù)VWA官方標注的中等難度任務(wù)中,基于模型的規(guī)劃甚至超過了樹搜索方案的表現(xiàn)(24.1% VS 22.2%)。指標
用于衡量基于模型的規(guī)劃與樹搜索方案的相對性能表現(xiàn)。
表3:不同維度對應(yīng)的成功率效率基于模型的規(guī)劃的另一個關(guān)鍵優(yōu)勢是其相對于樹搜索,執(zhí)行任務(wù)時效率很高。如表4所示,樹搜索在所有環(huán)境中所需的步驟大約是baseline的三倍,而WebDreamer的相應(yīng)動作步驟數(shù)與baseline則相仿。值得注意的是,由于額外的動作和回溯,樹搜索會引入大約十倍的實際時間延遲,而WebDreamer的模擬開銷很小,并且可以通過增強并行化進一步減少。
表4:VWA上的動作步驟和總耗時案例研究為了闡明模擬在規(guī)劃中的作用,研究者提出了包含正面和反面例子的案例研究,說明了模擬如何幫助智能體探索環(huán)境,以及模擬的不準確性會如何導(dǎo)致錯誤的預(yù)測。由建構(gòu)不充分的世界模型進行模擬引起的錯誤如下:研究者給智能體的指令是:給我找一臺與圖片中產(chǎn)品相同品牌的打印機。它必須是白色的,并且至少有11條評論,平均評分大于4分。
受益于世界模型模擬的正面案例如下:在這個案例中,智能體正確找到了兩種前面有鳥的襯衫。
作者介紹
Yu Gu(谷雨)
Yu Gu是俄亥俄州立大學的博士生,此前在南京大學獲得了計算機科學學士和碩士學位。
Boyuan Zheng
Boyuan Zheng目前是俄亥俄州立大學的一年級博士生,由Yu Su教授指導(dǎo)。在此之前,他獲得了東北大學的軟件工程學士學位,以及約翰霍普金斯大學的計算機科學碩士學位,在那里他與Benjamin Van Durme教授合作。
他的主要研究方向是開發(fā)能夠解放人類從繁瑣任務(wù)中并輔助決策的語言智能體,尤其是在網(wǎng)絡(luò)環(huán)境中。其他還有多模態(tài),基礎(chǔ)、規(guī)劃與推理,合成數(shù)據(jù)和智能體安全。參考資料:https://arxiv.org/pdf/2411.06559