劃重點(diǎn)
01Anthropic發(fā)布了名為“computer use”的功能,允許AI使用電腦并進(jìn)行屏幕截圖、鼠標(biāo)點(diǎn)擊等交互操作。
02該功能目前處于實(shí)驗(yàn)階段,已在上游API、亞馬遜Bedrock和Google Cloud上提供。
03Anthropic的Claude 3.5 Sonet模型在代理編碼任務(wù)上表現(xiàn)出色,得分從92%提高到93.7%。
04除此之外,Claude 3.5 Hiu模型在代理編碼任務(wù)上的表現(xiàn)更好,速度更快,且更便宜。
05Anthropic正致力于教會(huì)模型通用計(jì)算機(jī)技能,使其能夠使用各種為人類設(shè)計(jì)的標(biāo)準(zhǔn)工具和軟件程序。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
Anthropic 這兩天發(fā)布了名為“computer use”的功能。就是通過 API,用戶現(xiàn)在可以本地運(yùn)行腳本,這個(gè)腳本無論使用的是 TypeScript 還是 Python都可以,當(dāng)然,這個(gè)腳本也可以是AI生成的。然后他開始截取屏幕截圖,移動(dòng)鼠標(biāo)到屏幕上的指定位置,點(diǎn)擊并交互,就像使用鼠標(biāo)和鍵盤一樣。這意味著,AI可以使用電腦了,你可能覺得這沒什么,但我認(rèn)為這個(gè)新功能將徹底改變我們與計(jì)算機(jī)的交互方式。
現(xiàn)在市面上這樣的工具也不少,比如UI Path,這樣的好處顯而易見。雖然有一些開源項(xiàng)目也試圖實(shí)現(xiàn)類似的功能,但 Anthropic 將其直接集成到其 API 中,這使我們能夠以全新的方式思考如何使用計(jì)算機(jī)。要知道,現(xiàn)在的互聯(lián)網(wǎng)實(shí)在太龐大了,沒有一個(gè)統(tǒng)一的API來處理各種交互,我們的LLM應(yīng)用里要設(shè)置那么多函數(shù)調(diào)用也挺麻煩的。而且現(xiàn)在的網(wǎng)站千奇百怪,要找到一個(gè)通用的解決方案真不容易。
這項(xiàng)功能能夠使用本地應(yīng)用程序也能用瀏覽器,潛力很大,可以帶來很多新玩法。雖然現(xiàn)在各種LLM應(yīng)用都在搞網(wǎng)頁(yè)應(yīng)用,但我覺得這個(gè)功能可能會(huì)開創(chuàng)一個(gè)桌面應(yīng)用的新時(shí)代。如果我們能做出一個(gè)這樣能通用控制電腦的應(yīng)用,那絕對(duì)能激發(fā)出很多我們現(xiàn)在想不到的創(chuàng)意用法。在這里我也要特別提醒一下各位,Anthropic在道德審查方面也是非常嚴(yán)格的,前些日子我想做一個(gè)在社交媒體上自動(dòng)點(diǎn)贊的功能,曾經(jīng)想過截圖給Claude讓他給我返回點(diǎn)贊按鈕的坐標(biāo)值。結(jié)果他給我返回,大意是說這樣是違反社交媒體規(guī)定的,是違反道德的。所以大家應(yīng)該盡量早的試用,很多情況理論是通的,但道德審查過不了。這一點(diǎn)一定要注意。
在 Anthropic 最近發(fā)布的博客文章中,他們介紹了“computer use”功能,以及升級(jí)后的 Claude 3.5 Sonet 和新模型 Claude 3.5 Hiu。雖然許多人可能期待 Claude 3.5 Opus 的出現(xiàn),但博客文章中并沒有提到它。
“computer use”功能目前仍處于實(shí)驗(yàn)階段,處于測(cè)試版,Anthropic 發(fā)布了早期原型以收集開發(fā)者的反饋,并預(yù)計(jì)未來會(huì)改進(jìn)其功能。這項(xiàng)功能現(xiàn)已在 Anthropic API、亞馬遜 Bedrock 和 Google Cloud 上提供。Claude 3.5 Hiu 預(yù)計(jì)將在本月晚些時(shí)候發(fā)布。
在功能方面,許多人可能會(huì)關(guān)注 Claude 3.5 Sonet 模型,它在許多任務(wù)中表現(xiàn)出色,包括編碼。在 HumanEval 基準(zhǔn)測(cè)試中,Claude 3.5 Sonet 的得分從之前的 92% 提高到 93.7%。在其他所有領(lǐng)域,包括代理編碼,我們都看到了性能的提高。代理編碼的得分從之前的 33.4% 提高到 49%。
博客文章中提到的一個(gè)值得注意的要點(diǎn)是,在代理編碼評(píng)估基準(zhǔn)測(cè)試中,Claude 3.5 Sonet 的得分高于所有公開可用的模型,包括 OpenAI 的 GPT-4 預(yù)覽模型。Claude 3.5 Hiu 也是一個(gè)非常出色的模型,如果你以前沒有使用過它,建議你嘗試一下。此外,Claude 3.5 Hiu 模型在代理編碼任務(wù)基準(zhǔn)測(cè)試中的表現(xiàn)甚至比之前的 Claude 3.5 Sonet 版本還要好。它不僅是一個(gè)更便宜的模型,而且速度也更快,并且在代理編碼任務(wù)上已經(jīng)超越了之前的 Claude 3.5 Sonet。
雖然模型有所更新,但最重要的用例還是前面提到的“computer use”功能。這項(xiàng)功能將為我們帶來許多新的應(yīng)用。它跟之前發(fā)布的 Open Interpreter 類似,Open Interpreter 是一個(gè)框架,它允許用戶通過利用他們喜歡的任何模型來控制他們的計(jì)算機(jī)。它也類似于 Muon,Muon 是一家專注于網(wǎng)絡(luò)導(dǎo)航的公司,它能夠控制并與網(wǎng)絡(luò)交互,與 Anthropic 今天發(fā)布的功能類似。
Anthropic 在博客文章中提到,他們正在教會(huì)模型通用計(jì)算機(jī)技能,使它能夠使用各種為人類設(shè)計(jì)的標(biāo)準(zhǔn)工具和軟件程序。我認(rèn)為這是一個(gè)非常重要的觀點(diǎn),因?yàn)橹按蠖鄶?shù)代理工具都要用函數(shù)調(diào)用或者某種框架來調(diào)用API和交互,搞起來特別麻煩。要是能有個(gè)代理,會(huì)像人一樣在網(wǎng)上瀏覽、搜索、用各種程序,那就完全是另一種思路了?碅nthropic這次的發(fā)布,他們好像更傾向于讓代理像真人那樣上網(wǎng),而不是搞那些需要調(diào)API、還得設(shè)計(jì)特定工作流程的專有模型。
模型可以執(zhí)行類似于人類使用計(jì)算機(jī)的方式來執(zhí)行操作,例如滾動(dòng)、拖動(dòng)、縮放、輸入和點(diǎn)擊。它將截取屏幕截圖,發(fā)送回復(fù),并能夠像真人一樣控制計(jì)算機(jī)。
設(shè)置起來跟用Anthropic API差不多簡(jiǎn)單,主要區(qū)別就是你給的工具是用來控制電腦的。你能用到電腦、文本編輯器、命令行這些工具。比如你可以讓它"把貓的圖片保存到桌面",或者用beta版功能運(yùn)行Python、TypeScript或者Shell腳本。只要把API密鑰粘貼進(jìn)去就能開始玩了。
如果你要設(shè)置一個(gè)有交互的應(yīng)用程序,你得設(shè)置個(gè)循環(huán)才能好好用這個(gè)功能。在開始使用“computer use”功能時(shí),有一個(gè)很好的文檔,它會(huì)向你提供“computer use”工具和用戶提示,然后 Claude 將決定使用哪個(gè)工具。
Anthropic 將其稱為“Agent Loop ”,它將提取工具輸入,在計(jì)算機(jī)上評(píng)估工具,然后返回結(jié)果。這個(gè)循環(huán)將持續(xù)進(jìn)行,直到任務(wù)完成。