機(jī)器之心報(bào)道
機(jī)器之心編輯部
技術(shù)報(bào)告已經(jīng)公開。
一線大模型,正在全面進(jìn)入智能體時(shí)代。
1 月 24 日凌晨 2 點(diǎn),OpenAI 面向月供 200 美元的 ChatGPT Pro 用戶發(fā)布了自家的 Computer Use 智能體:Operator。
OpenAI 甚至給 Operator 開設(shè)了單獨(dú)的產(chǎn)品界面,將它視為與 ChatGPT、Sora 并列的關(guān)系,這也符合 Sam Altman、黃仁勛、扎克伯格等科技大佬對(duì)于「2025 年將是 AI 智能體之年」的趨勢(shì)判斷。實(shí)際上 Operator 只是最近一段時(shí)間,全球大模型公司智能體集中發(fā)布浪潮的一部分。早于 Operator 發(fā)布前兩天,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)就已經(jīng)公布了同類型智能體:UI-TARS。
據(jù)悉,UI-TARS 的名字來(lái)源于電影《星際穿越》的 TARS 機(jī)器人,預(yù)示著它具備高度的智能和自主思考能力。重點(diǎn)是:UI-TARS 是開源的!大家可以免費(fèi)使用。而且,UI-TARS 還有對(duì)應(yīng)的詳細(xì)技術(shù)報(bào)告可供學(xué)習(xí)。所以,無(wú)論從應(yīng)用普及還是學(xué)術(shù)研究的角度來(lái)看,UI-TARS 都將成為一股重要的力量,推動(dòng)智能體時(shí)代加速到來(lái)。
發(fā)布三四天,UI-TARS 的 GitHub star 量就突破了 1k,支持 Windows 和 Mac 系統(tǒng)的 UI-TARS-desktop 客戶端達(dá)到了 1.6k stars,可見(jiàn)這種質(zhì)量的開源智能體項(xiàng)目在社區(qū)是非常稀缺的。此前在業(yè)內(nèi)小有名聲的 Web 自動(dòng)化框架 Midscene.js ,在接入 UI-TARS 之后也增加了大量 star 關(guān)注,上榜 Github Trending。
下面是 UI TARS 實(shí)測(cè)效果。可以看到,它不僅能像 Operator 一樣控制瀏覽器和執(zhí)行推理,并且只要是能顯示在屏幕上的,它都能操作。
UI-TARS 幫用戶調(diào)整 Chrome 瀏覽器的字體大小?梢钥吹剑琔I-TARS 似乎有一些內(nèi)置的知識(shí)可以支持自己的思考,比如它知道通過(guò) Chrome 右上角三個(gè)點(diǎn)的圖標(biāo)可以訪問(wèn)「設(shè)置」,并且能精準(zhǔn)地在屏幕上找到這三個(gè)點(diǎn)。
UI-TARS 幫用戶訂機(jī)票。它不僅能根據(jù)設(shè)置搜索到對(duì)應(yīng)機(jī)票,還可以按照價(jià)格排序。有意思的是,相比于 Operator 只能操控電腦,UI-TARS 還能操控手機(jī)。
UI-TARS 幫用戶播放歌曲與字節(jié)開源的 UI 自動(dòng)化工具 Midscene.js 放到一起,UI-TARS 還能發(fā)揮更大的價(jià)值 支持目標(biāo)驅(qū)動(dòng)、兼容畫布操作、允許私有化部署、執(zhí)行效率躍升等等,開發(fā)者能明顯感受到其中的變化。
聯(lián)合應(yīng)用 Midscene.js 與 UI-TARS ,用 JS 代碼驅(qū)動(dòng)編排任務(wù),搜集周杰倫演唱會(huì)的信息,并寫入 Google Docs。目前,已經(jīng)有許多海內(nèi)外用戶在測(cè)試 UI-TARS,并給出了非常積極的反饋。
比如,Lepton AI 聯(lián)合創(chuàng)始人謝亞?wèn)|嘗試用 UI-TARS-7B-SFT 和 midscene.js 開發(fā)了一個(gè) Web Agent。
UI-TARS PC 客戶端:https://github.com/bytedance/UI-TARS-desktop
Midscene.js 瀏覽器控制:https://github.com/web-infra-dev/midscene
UI-TARS 為啥操作準(zhǔn)?
端到端的智能體架構(gòu)創(chuàng)新
與 OpenAI 商業(yè)化優(yōu)先相對(duì)的是,字節(jié)的 UI-TARS 優(yōu)先公開且開源了技術(shù)文檔。我們可以看到 UI-TARS 技術(shù)路線的創(chuàng)新之處。
論文標(biāo)題:UI-TARS: Pioneering Automated GUI Interaction with Native Agents
論文地址:https://arxiv.org/pdf/2501.12326
開源地址:https://github.com/bytedance/UI-TARS
具體地講,UI-TARS 具有以下幾項(xiàng)創(chuàng)新點(diǎn):
增強(qiáng)感知(Enhanced Perception):利用大規(guī)模 GUI 截圖數(shù)據(jù)集,實(shí)現(xiàn)對(duì) UI 元素的上下文感知理解并生成精確描述;
統(tǒng)一動(dòng)作建模(Unified Action Modeling):將動(dòng)作標(biāo)準(zhǔn)化處理到跨平臺(tái)的統(tǒng)一空間中,并通過(guò)大規(guī)模動(dòng)作軌跡實(shí)現(xiàn)精確定位和交互;
System 2 推理(System-2 Reasoning):將深思熟慮的推理納入多步?jīng)Q策,并涵蓋任務(wù)分解、反思思維等多種推理模式。
迭代式反思訓(xùn)練(Iterative Training with Reflective Online Traces):通過(guò)在數(shù)百臺(tái)虛擬機(jī)上自動(dòng)收集、過(guò)濾和反射細(xì)化新的交互軌跡來(lái)解決數(shù)據(jù)瓶頸問(wèn)題。同時(shí)基于迭代訓(xùn)練和反思訓(xùn)練,UI-TARS 持續(xù)從錯(cuò)誤中學(xué)習(xí),并在最少的人為干預(yù)下適應(yīng)不可預(yù)見(jiàn)的情況。
字節(jié)豆包大模型團(tuán)隊(duì)認(rèn)為,如果想要 AI 智能體真正實(shí)現(xiàn)類人的自主任務(wù)執(zhí)行能力,就必須解決當(dāng)前通用大模型直接應(yīng)用在 GUI(圖形用戶界面)智能體上存在的一些技術(shù)缺陷與不足。首先,用戶指令的執(zhí)行需要提取特定元素的坐標(biāo)信息,而通用大模型通常缺乏所需要的精確數(shù)值理解能力。其次,通用大模型在處理目標(biāo)驅(qū)動(dòng)場(chǎng)景時(shí)往往理解不到位,這就需要開發(fā)者提供詳細(xì)的自然語(yǔ)言說(shuō)明操作步驟,增加了開發(fā)者的負(fù)擔(dān)。最后,同時(shí)發(fā)送圖片信息與元素描述不可避免地造成模型調(diào)用過(guò)程中消耗大量的 token,會(huì)導(dǎo)致性能損耗,成本升高。在 Operator 中,OpenAI 通過(guò) GPT-4o 的視覺(jué)能力和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的高級(jí)推理相結(jié)合,讓智能體可以像人類一樣與圖形界面進(jìn)行交互,靈活地執(zhí)行任務(wù)。UI-TARS 也很好地解決了上述瓶頸,它依托強(qiáng)大的通用多模態(tài)語(yǔ)言模型進(jìn)行視覺(jué)識(shí)別,并面向智能 UI 交互進(jìn)行了定向訓(xùn)練。這樣做的結(jié)果便是:UI-TARS 在 GUI 智能體領(lǐng)域能夠發(fā)揮出遠(yuǎn)勝于其他通用模型或 GUI 模型的表現(xiàn),與此同時(shí)可以兼容各種形式的操作系統(tǒng)。效果好不好,我們用權(quán)威基準(zhǔn)測(cè)試結(jié)果來(lái)說(shuō)話。在線動(dòng)態(tài)環(huán)境可以模擬真實(shí)世界場(chǎng)景的交互,而 GUI 智能體通過(guò)實(shí)時(shí)執(zhí)行操作來(lái)改變環(huán)境狀態(tài),從而可以滿足用戶需求。其中在 OSWorld 上,當(dāng)限定的最大步數(shù)為 15 時(shí),UI-TARS 的任務(wù)成功率可達(dá) 22.7%,超過(guò)了 Claude 的 14.9%,也超過(guò)了 Operator 的 19.7%。而當(dāng)限定步數(shù)提升到 50 步時(shí),UI-TARS 的成功率達(dá)到了 24.6%,同樣也超過(guò) Claude,但根據(jù) OpenAI 公布的數(shù)據(jù),Operator 在 50 步時(shí)的表現(xiàn)達(dá)到了 32.6%,相對(duì) UI-TARS 有明顯優(yōu)勢(shì)。這意味著 test-time scaling 是 UI-TARS 下一步需要升級(jí)的方向。不僅如此,在基于 Andriod 操作系統(tǒng)的 AndroidWorld 基準(zhǔn)上,UI-TARS 獲得了 46.6% 的任務(wù)成功率,大幅超過(guò)了 GPT-4o 的 34.5%。
除了在線動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)能力新 SOTA 之外,UI-TARS 同樣在 Multimodal Mind2Web(用于創(chuàng)建和評(píng)估執(zhí)行語(yǔ)言指令的 web 智能體)以及 Android Control(評(píng)估移動(dòng)端環(huán)境中的規(guī)劃和動(dòng)作執(zhí)行能力)、GUI Odyssey(專注于移動(dòng)端環(huán)境中跨應(yīng)用導(dǎo)航任務(wù))等三個(gè)離線靜態(tài)、預(yù)定義環(huán)境相關(guān)的基準(zhǔn)測(cè)試中表現(xiàn)領(lǐng)先。
更進(jìn)一步,UI-TARS 的智能體系統(tǒng)是端到端的,這被認(rèn)為是智能體 AI 的下一個(gè)方向。自 GPT-4 出現(xiàn)后,智能體成為了 AI 領(lǐng)域研究的熱門領(lǐng)域,最近又經(jīng)歷了一次范式革新。首先是智能體框架(Agent Framework),其主要利用高性能基礎(chǔ)模型(如 GPT-4o)的理解和推理能力來(lái)增強(qiáng)任務(wù)的靈活性。他們實(shí)現(xiàn)了自動(dòng)化和靈活的交互,也可以借助更多模塊不斷增強(qiáng),或完成多智能體協(xié)作,但它仍然依賴人為定義的工作流來(lái)構(gòu)建其操作。因此,智能體框架會(huì)面臨適應(yīng)性較差、模塊不兼容等問(wèn)題,維護(hù)開銷較大。在當(dāng)前階段,一些研究團(tuán)隊(duì)已經(jīng)提出了智能體模型(Agent Model)新范式,其中任務(wù)以端到端的方式學(xué)習(xí)和執(zhí)行,將感知、推理、記憶和動(dòng)作統(tǒng)一在一個(gè)不斷發(fā)展的模型中。
這種方法從根本上實(shí)現(xiàn)了數(shù)據(jù)驅(qū)動(dòng),讓智能體可以無(wú)縫適應(yīng)新任務(wù)、界面或用戶需求,無(wú)需依賴手動(dòng)制作的提示或預(yù)定義規(guī)則,擁有強(qiáng)大泛化能力,也可以進(jìn)行自我改進(jìn)。向人類看齊充分利用 System 2 推理能力在生成式 AI 技術(shù)突破后,人們希望讓人工智能實(shí)現(xiàn)人腦「快慢系統(tǒng)」的思考方式。其中「System 1」負(fù)責(zé)快速的、直覺(jué)的、無(wú)意識(shí)的匹配。當(dāng)給定一個(gè)問(wèn)題時(shí),System 1 匹配相關(guān)答案并直接輸出。但這些答案缺乏推理過(guò)程,直接用習(xí)慣性的結(jié)果進(jìn)行匹配。作為對(duì)比,「System 2」相對(duì)較慢,沒(méi)有 System 1 的快速匹配過(guò)程,但它帶有更多的邏輯推理和序列推理,這是一個(gè)有意識(shí)的帶規(guī)劃、帶認(rèn)知的過(guò)程。結(jié)合兩套系統(tǒng)的優(yōu)勢(shì),我們就能實(shí)現(xiàn)更加復(fù)雜準(zhǔn)確的推理,構(gòu)建起認(rèn)知智能,這也是 UI-TARS 想要實(shí)現(xiàn)的目標(biāo)。在技術(shù)報(bào)告中,UI-TARS 的定位是「一個(gè)原生 GUI 智能體模型,其設(shè)計(jì)目標(biāo)是在不依賴繁瑣的人工設(shè)計(jì)規(guī)則或級(jí)聯(lián)模塊的情況下進(jìn)行運(yùn)作!箯墓δ苌峡,UI-TARS 可直接感知屏幕截圖、應(yīng)用推理過(guò)程并自主生成有效操作。此外,UI-TARS 還可以學(xué)習(xí)之前的經(jīng)驗(yàn),通過(guò)利用環(huán)境反饋來(lái)迭代改進(jìn)其性能。下圖展示了其整體架構(gòu)。
整體來(lái)說(shuō),UI-TARS 的能力都是圍繞感知、推理、動(dòng)作以及經(jīng)驗(yàn)學(xué)習(xí)進(jìn)行的。對(duì)比一下 OpenAI Operator 的架構(gòu)(如下),有一定的相似之處。
具體來(lái)說(shuō),給定一個(gè)初始任務(wù)指令,為了完成任務(wù),UI-TARS 會(huì)迭代式地接收來(lái)自設(shè)備的觀察結(jié)果并執(zhí)行相應(yīng)的操作。在每個(gè)時(shí)間步驟,UI-TARS 會(huì)以任務(wù)指令、先前交互的歷史和當(dāng)前觀察為輸入,基于預(yù)定義的動(dòng)作空間輸出動(dòng)作。執(zhí)行完動(dòng)作之后,設(shè)備會(huì)提供后續(xù)觀察,持續(xù)迭代。為了進(jìn)一步增強(qiáng)智能體的推理能力,并讓決策更加深思熟慮,研究團(tuán)隊(duì)還集成了一個(gè)以「思維(thoughts)」形式出現(xiàn)的推理組件,該組件會(huì)在每個(gè)動(dòng)作之前生成。這些「思維」能反映 System 2 思維的反思性質(zhì)。它們是至關(guān)重要的中間步驟,可引導(dǎo)智能體在繼續(xù)之前重新考慮以前的動(dòng)作和觀察,與環(huán)境細(xì)致互動(dòng),構(gòu)成反思性交互,從而確保每個(gè)決定都是意圖明確的并且都是經(jīng)過(guò)仔細(xì)思考的。數(shù)據(jù)集、推理與長(zhǎng)期記憶UI-TARS 集成了一系列創(chuàng)新了解了 UI-TARS 的技術(shù)框架,我們?cè)倮^續(xù)深入其各個(gè)層面的細(xì)節(jié),看看這個(gè) Computer Use 智能體的優(yōu)良表現(xiàn)究竟來(lái)自何處。同時(shí),這也或許能讓我們洞見(jiàn)一二 Operator 等其它同類智能體的設(shè)計(jì)思路。要訓(xùn)練 GUI 智能體,還需要過(guò)數(shù)據(jù)這一關(guān)。字節(jié)豆包大模型團(tuán)隊(duì)采用原生智能體方法,直接處理 GUI 截圖輸入,利用大規(guī)模統(tǒng)一數(shù)據(jù)集來(lái)提升性能。具體實(shí)施包括:收集大規(guī)模數(shù)據(jù)集;為界面元素創(chuàng)建結(jié)構(gòu)化描述 (類型、視覺(jué)、位置、功能);提供密集描述包括空間關(guān)系和整體布局;標(biāo)注狀態(tài)轉(zhuǎn)換數(shù)據(jù);合成多樣化問(wèn)答數(shù)據(jù)集;增加 Set-of-Mark 提示,在界面上添加不同屬性的標(biāo)記,幫助模型定位識(shí)別元素。通過(guò)這些步驟,UI-TARS 能更好地理解和處理 GUI 任務(wù)。
感知與 grounding 數(shù)據(jù)樣本研究團(tuán)隊(duì)還進(jìn)行了統(tǒng)一的動(dòng)作空間建模與 grounding,在增強(qiáng)模型準(zhǔn)確理解和定位視覺(jué)元素的能力的同時(shí),讓模型學(xué)會(huì)一些連續(xù)的多步軌跡,在完成一些任務(wù)時(shí)可以不假思索地完成,類似于 System 1 思維。下表 1 給出了不同平臺(tái)的統(tǒng)一動(dòng)作空間,而表 2 則展示了 grounding 與多步動(dòng)作軌跡數(shù)據(jù)的基本統(tǒng)計(jì)信息。
那么,UI-TARS 是如何將 System 2 推理能力整合進(jìn)來(lái)的呢?具體來(lái)說(shuō),該團(tuán)隊(duì)采用的做法是首先使用 GUI 教程來(lái)增強(qiáng)模型的推理能力 他們?yōu)榇司幣帕艘粋(gè) 6M 規(guī)模的高質(zhì)量 GUI 教程,平均每個(gè)教程包含 510 個(gè)文本 token 與 3.3 張圖像。然后,再使用思維增強(qiáng)來(lái)進(jìn)行推理模擬,也就是通過(guò)標(biāo)注「思維」來(lái)填補(bǔ)感知與動(dòng)作之間的空白,從而增強(qiáng)前面提到的動(dòng)作軌跡數(shù)據(jù)。這些思維使模型能夠顯式地表示其決策過(guò)程,從而更好地與任務(wù)目標(biāo)對(duì)齊。
整體來(lái)看,UI-TARS 和 Operator 在短程推理上表現(xiàn)類似,但 Operator 在長(zhǎng)程推理方面目前仍有優(yōu)勢(shì)。這也預(yù)示著目前學(xué)術(shù)界已經(jīng)具有了基礎(chǔ)的 Agent Model,而 Agent test-time scaling 是下一步需要升級(jí)的方向。有了推理能力后,該團(tuán)隊(duì)還讓 UI-TARS 具備了可從長(zhǎng)期記憶學(xué)習(xí)之前的經(jīng)驗(yàn)的能力。這樣一來(lái),這個(gè)智能體就能在使用之中不斷迭代進(jìn)步了。這主要涉及三個(gè)過(guò)程,即在線軌跡 bootstrapping、反思微調(diào)、Agent DPO。在線軌跡 bootstrapping 的過(guò)程如下圖所示,簡(jiǎn)單來(lái)說(shuō)先讓智能體在目標(biāo) GUI 環(huán)境內(nèi)基于指令生成一些原始軌跡,再對(duì)其進(jìn)行過(guò)濾,得到高質(zhì)量數(shù)據(jù)。然后利用結(jié)果軌跡來(lái)實(shí)現(xiàn)自我提升。
反思微調(diào)則是讓模型看到自己犯下的真實(shí)世界錯(cuò)誤與其糾正方案,從而讓模型學(xué)會(huì)從次優(yōu)決策中恢復(fù)。Agent DPO 可通過(guò)直接編碼對(duì)正確動(dòng)作的偏好(而非錯(cuò)誤動(dòng)作)來(lái)優(yōu)化 UI-TARS,從而更好地利用可用數(shù)據(jù)?傊,通過(guò)這些技術(shù)創(chuàng)新,UI-TARS 擁有了強(qiáng)大的完成復(fù)雜任務(wù)的能力。智能體 AI 的時(shí)代已經(jīng)開啟今年一開年,英偉達(dá)創(chuàng)始人、CEO 黃仁勛在 CES 展會(huì)開幕 Keynote 上就定了個(gè)調(diào):2025 年是智能體 AI 的時(shí)代。
如果說(shuō)基礎(chǔ)模型構(gòu)建起的生成式 AI 可以為我們輸出有用的信息,能「看」會(huì)「用」、會(huì)自我糾錯(cuò)的智能體則可以做到更加主動(dòng),在大模型智能之上幫助我們高效完成各種任務(wù)。正如 OpenAI 創(chuàng)始成員、特斯拉前 AI 高級(jí)總監(jiān) Andrej Karpathy 所說(shuō),在 AI 智能體技術(shù)逐漸成熟、通用化之后,我們可以成為自動(dòng)化系統(tǒng)的管理人,就像駕駛者監(jiān)督自動(dòng)駕駛一樣 不過(guò)在數(shù)字世界里,AI 施展拳腳的機(jī)會(huì)要更多,應(yīng)用速度也會(huì)更快。最近國(guó)內(nèi)外公司的技術(shù)進(jìn)展,可以說(shuō)為智能體 AI 時(shí)代開了個(gè)好頭。今天,智能體可以幫你訂外賣、搶票、肝游戲;明天,由智能體組成的小組可以來(lái)幫你來(lái)完成更加長(zhǎng)期而復(fù)雜的任務(wù),直到一個(gè)業(yè)務(wù)體系,人人都能成為智能體的 CEO。THE END轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)