新智元報道
編輯:peter東 喬楊【新智元導(dǎo)讀】智能體究竟能否應(yīng)對現(xiàn)實世界的復(fù)雜性?The Agent Company近日提出了一項評估基準,讓多個智能體嘗試自主運營一個軟件公司。結(jié)果表明,即使是當(dāng)前最先進的智能體,也無法自主完成大多數(shù)任務(wù)。如今,基于大模型的智能體,已經(jīng)能完成許多在幾年前還無法想象的任務(wù),進步的速度是如此之快,以至于有些人甚至聲稱,在接下來的幾年內(nèi),大多數(shù)人類勞動可能都可以實現(xiàn)自動化。然而近日CMU、杜克大學(xué)等機構(gòu)發(fā)表的一項研究卻給這一期待潑了一盆涼水。
智能體運營公司還不可行
論文鏈接:https://arxiv.org/abs/2412.14161該研究開發(fā)了一個全部由大模型驅(qū)動的智能體組成的虛擬軟件開發(fā)公司The Agent Company,與人類員工類似,智能體需要執(zhí)行軟件開發(fā)、項目管理、財務(wù)分析等典型的商業(yè)環(huán)境中的任務(wù)。
智能體與環(huán)境互動,以及智能體間的協(xié)作以完成真實世界任務(wù)
智能體所用的環(huán)境完全基于開源軟件及主流的大模型接口,并可自行托管以實現(xiàn)可復(fù)現(xiàn)性。為了完成這些任務(wù),智能體需要瀏覽網(wǎng)頁、編寫代碼,并與其他智能體同事互動。
智能體之間的交互模式也和真實世界的軟件公司十分類似,比如使用RocketChat向公司的其它成員發(fā)送消息,并獲取原始任務(wù)描述中可能未提及的信息。各智能體在交流中還被賦予了諸如姓名、職位、職責(zé)和項目隸屬關(guān)系等身份信息。
這項研究評估了當(dāng)前幾種主流的大模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及知名開源模型,包括Meta的Llama和Qwen2.5。
除了創(chuàng)建175個多樣化、真實、專業(yè),且與真實公司運營模式一致的任務(wù),這項研究還創(chuàng)建了不同任務(wù)對應(yīng)的評估器,在每個任務(wù)中的多個階段設(shè)置檢查點。智能體每完成一步任務(wù),都會獲得相應(yīng)的積分(類似于現(xiàn)實員工的KPI);而當(dāng)智能體只是部分正確地給出回答時,也會給予其部分過程分。
結(jié)果顯示,表現(xiàn)最好的是基于Claude Sonnet 3.5的智能體,然而它只能應(yīng)對真實世界中24%的任務(wù),在過程分上取得34.4%的得分。
排名第二的模型的任務(wù)完成比例更是只有11.4%,這與人們對大模型取代人類員工的預(yù)期還相距甚遠。
這個成績單中值得關(guān)注的是,開源模型Llama3.1和閉源的GPT-4o排名相近,這表明了開源模型在性能上已經(jīng)十分逼近商用的閉源模型。
運營公司,AI比人類差在哪里
這項研究中有趣的一點是,可以讓我們看到智能體在無法完成任務(wù)時犯下的錯誤,而這些錯誤在人類身上是幾乎不會發(fā)生的。如果能得到解決,將有助于提升智能體在真實世界中的應(yīng)用落地。問題1:缺乏常識某些任務(wù)失敗是因為,智能體缺乏進行隱含假設(shè)推理所需的常識和領(lǐng)域背景知識。
例如,一個任務(wù)要求智能體「將響應(yīng)寫入/workspace/answer.docx」,但沒有明確指出這是一個Word文件。人類可以從文件擴展名推斷出這一要求,而智能體卻將其視為純文本文件,直接內(nèi)容以文本形式寫入,導(dǎo)致任務(wù)失敗。
問題2:缺乏社交技巧一項任務(wù)需要智能體向其它智能體尋求幫助,智能體首先成功提出了正確的問題:「你能告訴我,應(yīng)該接下來向團隊中的誰請教這個問題嗎?」然后模擬同事Alex回答:「你應(yīng)該向Bob請教。他在前端團隊,是一個很好的聯(lián)系人!」
之后若是人類,99.9%的人都會選擇去咨詢Bob相關(guān)問題,但智能體卻認為任務(wù)已經(jīng)結(jié)束,不去向Bob請教。
問題3:瀏覽網(wǎng)頁容易出錯很多時候,任務(wù)中的最大障礙在于需要瀏覽網(wǎng)頁的部分。這方面的障礙是預(yù)料之中的,因為對于智能體來說,由于當(dāng)前網(wǎng)頁用戶界面的復(fù)雜性和網(wǎng)頁上的眾多干擾,瀏覽網(wǎng)頁仍然很困難。
例如,許多網(wǎng)頁都會不時彈出可關(guān)閉的廣告窗口,要求用戶下載手機應(yīng)用程序以獲得更好的體驗。人類可以簡單地點擊「×」來關(guān)閉彈窗,而智能體則陷入了困境。
同樣,當(dāng)智能體嘗試從網(wǎng)絡(luò)中下載文件時,需要點擊多個彈出窗口才能進行實際下載,但由于用戶界面復(fù)雜,每個步驟都容易出錯。
問題4:自欺欺人對于某些任務(wù),當(dāng)智能體不清楚下一步應(yīng)該做什么時,它有時會試圖聰明一點,創(chuàng)建一些省略任務(wù)困難部分的「捷徑」。
例如,如果智能體在RocketChat上找不到合適的人提問,它就會決定給另一個用戶改名為目標用戶來當(dāng)做解決方案。
未來的智能體還有希望嗎
該研究的另一價值在于提供了一套框架,用來評估智能體在真實環(huán)境中的表現(xiàn)。
隨著向大模型灌輸網(wǎng)頁相關(guān)的信息,并教會大模型如何瀏覽網(wǎng)頁獲取信息,下載文件并不是難事,其他的辦公、工作交流等相關(guān)常識也是如此。相信未來大模型將有潛力取代人類的人力、財務(wù)、程序員等職業(yè),至少是將這些崗位的大部分任務(wù)進行自動化處理。
與此相應(yīng)的是,未來對大模型的評價也會有更多的維度。不止是完成該文列出的常規(guī)任務(wù),還應(yīng)該對創(chuàng)造能力進行考核。
此外,考核還應(yīng)該包含那些定義模糊的任務(wù),以及更高層次、更長遠的任務(wù),如構(gòu)思新產(chǎn)品并將其付諸實施。智能體只有能夠完成這些任務(wù),才能算是真正地取代人類員工運營公司。
參考資料:https://arxiv.org/pdf/2412.14161