劃重點
01谷歌正開發(fā)同類Project Jarvis項目,預計年底亮相,將AI技術應用于電腦操作。
02Project Jarvis將由未來版Gemini 2.0驅動,實現(xiàn)Chrome網(wǎng)頁任務自動化。
03除此之外,微軟推出OmniParser工具,將屏幕截圖轉化為結構化數(shù)據(jù),幫助AI精準理解用戶意圖。
04OpenAI內部已有AI智能體雛形,可操控計算機完成在線訂餐、自動查詢等任務。
05未來,AI技術將在電腦操作領域發(fā)揮更大作用,提升人機交互體驗。
以上內容由騰訊混元大模型生成,僅供參考
新智元報道
編輯:桃子 LRS
【新智元導讀】科幻中的賈維斯,已經(jīng)離我們不遠了。Claude 3.5接管人類電腦掀起了人機交互全新范式,爆料稱谷歌同類Project Jarvis預計年底亮相。AI操控電腦已成為微軟、蘋果等巨頭,下一個發(fā)力的戰(zhàn)常
AI接管人類電腦,就是下一個未來!
幾天前,Antropic向所有人展示了,Claude 3.5自主看屏幕操作光標完成復雜任務,足以驚掉下巴。
剛剛,Information獨家爆料稱,谷歌正開發(fā)同類新項目「Project Jarvis」,能將Chrome網(wǎng)頁任務自動化。
谷歌「賈維斯」將由未來版Gemini 2.0驅動,預計在12月亮相。
起這個名字,是為了向鋼鐵俠中的J.A.R.V.I.S致敬。
無獨有偶,微軟團隊悄悄放出的OmniParser,也在篤定AI智能體操控屏幕的未來。
論文地址:https://arxiv.org/pdf/2408.00203
OmniParser主要是一個屏幕解析的工具,可以將截圖轉化為結構化數(shù)據(jù),幫助AI精準理解用戶意圖。
不僅如此,OpenAI內部已有了AI智能體雛形,可以操控計算機完成在線訂餐、自動查詢解決編程難題等任務。
包括蘋果在內,預計在明年發(fā)布跨多個APP屏幕識別能力。最新迭代的Ferret-UI 2,就是通用UI模型。
可見,「Computer use」已經(jīng)成為科技大廠們,重點發(fā)力的下一個戰(zhàn)常
谷歌「賈維斯」年底出世,最強Gemini 2加持
代號為Jarvis Project項目,本質上是一個大動作模型(LAM),也是谷歌一直以來在做的大模型方向。
它專門針對谷歌Chrome瀏覽器,進行了優(yōu)化。
具體操作原理,與Claude 3.5類似,通過截屏、解析屏幕內容,然后自動點擊按鈕,或輸入文本,最終幫助人們完成基于網(wǎng)頁的日常任務。
不論是收集研究信息、購物,或是預定航班等任務,谷歌「賈維斯」均可實現(xiàn)。
不過,它在執(zhí)行不同操作時,中間會有幾秒鐘的思考時間。
因此,在終端設備中運行還不太現(xiàn)實,仍然需要云上操作。
5月的谷歌I/O大會上,谷歌CEO劈柴曾展示了,Gemini和Chrome如何協(xié)同工作的樣貌。
如前所述,谷歌「賈維斯」將由Gemini 2.0加持,也就意味著年底我們可以看到進步版Gemini模型。
盡管Sam Altman否認了Orion模型的發(fā)布,但外媒猜測,預計年底OpenAI也將放出新核彈
微軟OmniParser也下場了
緊接著Claude「計算機使用」發(fā)布之后,微軟就開源了AI框架OmniParser。
假設你想要去布賴斯峽谷國家公園,不知是否需要訂票入園,這時OmniParser可以帶你查詢。
它會解析屏幕后,自動點擊「permits」按鈕,然后再截屏找到「布賴斯峽谷國家公園」,最后就可以完成用戶任務。
可見,想要把類似GPT-4V的多模態(tài)大模型應用于操作系統(tǒng)上,模型還需要具備強大的屏幕解析能力,主要包括兩方面:
1、準確地識別用戶界面中的可交互圖標;
2、理解屏幕截圖中各種元素的語義,并準確將預期動作與屏幕上的相應區(qū)域關聯(lián)起來。
基于上述思路,微軟最新提出的OmniParser模型,可以將用戶界面截圖解析為結構化元素,顯著增強了GPT-4V在對應界面區(qū)域預測行動的能力。
方法
一個復雜的操作任務通?梢苑纸獬啥鄠子行動步驟,在執(zhí)行過程中,模型需要具備以下能力:
1、理解當前步驟的用戶界面,即分析屏幕內容中大體上在展示什么、檢測到的圖標功能是什么等;
2、預測當前屏幕上的下一個動作,來幫助完成整個任務。
研究人員發(fā)現(xiàn),將這兩個目標分解開,比如在屏幕解析階段只提取語義信息等,可以減輕GPT-4V的負擔;模型也能夠從解析后的屏幕中利用更多信息,動作預測準確率更高。
因此,OmniParser結合了微調后的可交互圖標檢測模型、微調后的圖標描述模型以及光學字符識別(OCR)模塊的輸出,可以生成用戶界面的結構化表示,類似于文檔對象模型(DOM),以及一個疊加潛在可交互元素邊界框的屏幕截圖。
可交互區(qū)域檢測(Interactable Region Detection)
從用戶界面屏幕中識別出「可交互區(qū)域」非常關鍵,也是預測下一步行動來完成用戶任務的基矗
研究人員并沒有直接提示GPT-4V來預測屏幕中操作范圍的xy坐標值,而是遵循先前的工作,使用標記集合方法在用戶界面截圖上疊加可交互圖標的邊界框,并要求GPT-4V生成要執(zhí)行動作的邊界框ID。
為了提高準確性,研究人員構造了一個用于可交互圖標檢測的微調數(shù)據(jù)集,包含6.7萬個不重復的屏幕截圖,其中所有圖像都使用從DOM樹派生的可交互圖標的邊界框進行標記。
為了構造數(shù)據(jù)集,研究人員首先從網(wǎng)絡上公開可用的網(wǎng)址中提取了10萬個均勻樣本,并從每個URL的DOM樹中收集網(wǎng)頁的可交互區(qū)域的邊界框。
除了可交互區(qū)域檢測,還引有一個OCR模塊來提取文本的邊界框。
然后合并OCR檢測模塊和圖標檢測模塊的邊界框,同時移除重疊度很高的框(閾值為重疊超過90%)。
對于每個邊界框,使用一個簡單的算法在邊框旁邊標記一個ID,以最小化數(shù)字標簽和其他邊界框之間的重疊。
整合功能的局部語義(Incorporating Local Semantics of Functionality)
研究人員發(fā)現(xiàn),在很多情況下,如果僅輸入疊加了邊界框和相關ID的用戶界面截圖可能會對GPT-4V造成誤導,這種局限性可能源于GPT-4V無法「同時」執(zhí)行「識別圖標的語義信息」和「預測特定圖標框上的下一個動作」的復合任務。
為了解決這個問題,研究人員將功能局部語義整合到提示中,即對于可交互區(qū)域檢測模型檢測到的圖標,使用一個微調過的模型為圖標生成功能描述;對于文本框,使用檢測到的文本及其標簽。
然而,目前還沒有專門為用戶界面圖標描述而訓練的公共模型,但這類模型非常適合目標場景,即能夠為用戶界面截圖提供快速準確的局部語義。
研究人員使用GPT-4o構造了一個包含7000對「圖標-描述」的數(shù)據(jù)集,并在數(shù)據(jù)集上微調了一個BLIP-v2模型,結果也證明了該模型在描述常見應用圖標時更加可靠。
實驗評估
SeeAssign任務
為了測試GPT-4V模型正確預測邊界框描述所對應的標簽ID的能力,研究人員手工制作了一個名為SeeAssign的數(shù)據(jù)集,其中包含了來自3個不同平臺(移動設備、桌面電腦和網(wǎng)絡瀏覽器)的112個任務樣本,每個樣本都包括一段簡潔的任務描述和一個屏幕截圖。
根據(jù)難度,任務被分為三類:簡單(少于10個邊界框)、中等(10-40個邊界框)和困難(超過40個邊界框)。
GPT-4V不帶局部語義的提示:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n
帶局部語義的提示:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n
從結果來看,GPT-4V經(jīng)常錯誤地將數(shù)字ID分配給表格,特別是當屏幕上有很多邊界框時;通過添加包括框內文本和檢測到的圖標的簡短描述在內的局部語義,GPT-4V正確分配圖標的能力從0.705提高到0.938
ScreenSpot評估
ScreenSpot數(shù)據(jù)集是一個基準測試數(shù)據(jù)集,包含了來自移動設備(iOS、Android)、桌面電腦(macOS、Windows)和網(wǎng)絡平臺的600多個界面截圖,其中任務指令是人工創(chuàng)建的,以確保每個指令都對應用戶界面屏幕上的一個可操作元素。
結果顯示,在三個不同的平臺上,OmniParser顯著提高了GPT-4V的基線性能,甚至超過了專門在圖形用戶界面(GUI)數(shù)據(jù)集上微調過的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。
還可以注意到,加入局部語義(表中的OmniParser w. LS)可以進一步提高整體性能,即在文本格式中加入用戶界面截圖的局部語義(OCR文本和圖標邊界框的描述),可以幫助GPT-4V準確識別要操作的正確元素。
Mind2Web評估
測試集中有3種不同類型的任務:跨領域、跨網(wǎng)站和跨任務,可以測試OmniParser在網(wǎng)頁導航場景中的輔助能力。
結果顯示,即使沒有使用網(wǎng)頁的HTML信息,OmniParser也能大幅提高智能體的性能,甚至超過了一些使用HTML信息的模型,表明通過解析屏幕截圖提供的語義信息非常有用,特別是在處理跨網(wǎng)站和跨領域任務時,模型的表現(xiàn)尤為出色。
AITW評估
研究人員還在移動設備導航基準測試AITW上對OmniParser進行了評估,測試包含3萬條指令和71.5萬條軌跡。
結果顯示,用自己微調的模型替換了原有的IconNet模型,并加入了圖標功能的局部語義信息后,OmniParser在大多數(shù)子類別中的表現(xiàn)都有了顯著提升,整體得分也比之前最好的GPT-4V智能體提高了4.7%。
這表明了,模型能夠很好地理解和處理移動設備上的用戶界面,即使在沒有額外訓練數(shù)據(jù)的情況下也能表現(xiàn)出色。
參考資料:
https://microsoft.github.io/OmniParser/
https://x.com/Prashant_1722/status/1850265364158124192