允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
全球首個超小型多模態(tài)AI Agent模型Octopus V3,來自斯坦福大學(xué)的NEXA AI團(tuán)隊,讓Agent更加智能、快速、能耗及成本降低。
今年四月份初,NEXA AI推出了備受矚目的Octopus V2,該模型在函數(shù)調(diào)用性能上超越了GPT-4,減少了95%的推理時所需的文本量,為端側(cè)AI應(yīng)用帶來了新的可能性。其專利性核心技術(shù)“functional token”通過創(chuàng)新的函數(shù)調(diào)用方式顯著減少推理時所需的文本長度。
這種方法使得模型能夠在只有20億參數(shù)的情況下實現(xiàn)高效訓(xùn)練,并在精度和延遲方面超越了GPT-4,適應(yīng)了各種端設(shè)備的部署需求。
發(fā)布以來,Octopus V2在LLM社區(qū)獲得了廣泛關(guān)注,受到了AI領(lǐng)域大量前沿技術(shù)專家及研究者的贊賞,如Hugging Face的CTO Julien Chaumond、知名AI Newsletter Rundown AI的創(chuàng)始人 Rowan Cheung以及Figure AI的創(chuàng)始人Brett Adcock、OPPO邊緣人工智能團(tuán)隊負(fù)責(zé)人Manoj Kumar,稱其“開創(chuàng)了端側(cè)AI技術(shù)新紀(jì)元”。
在知名開源AI平臺Hugging Face上,Octopus V2下載量已經(jīng)超過12000次。
在不到一個月的時間里,NEXA AI團(tuán)隊發(fā)布下一代多模態(tài)AIAgent模型Octopus V3,展現(xiàn)進(jìn)一步突破:具有圖像處理和多語言文本處理能力,為智能手機等端側(cè)設(shè)備真正走向AI時代鋪平了道路。
首個參數(shù)量小于10億的多模態(tài)AI Agent模型
Octopus V3不僅擁有多模態(tài)能力,在函數(shù)調(diào)用性能上遠(yuǎn)超同類模型,可媲美GPT-4V+GPT4;而且模型參數(shù)量不到10億,具有多語言能力。
也就是說,相比傳統(tǒng)的大型語言模型,它體積更小,能耗更低,能夠更加輕松地在各種小型端設(shè)備上運行,比如樹莓派,并做到高速且準(zhǔn)確的函數(shù)調(diào)用。
這意味著,未來AI Agent能夠廣泛應(yīng)用于智能手機、AR/VR、機器人、智能汽車等端側(cè)設(shè)備,為用戶交互體驗更加流暢、智能。
另一方面,由于V3具有多模態(tài)處理能力,可同時處理文本和圖像輸入,再加上多語言能力,也將讓用戶體驗更加豐富。
例如,在Instacart購物應(yīng)用中,用戶可以通過一張菠蘿的圖片及簡單的對話指令,讓AI Agent自動為他們搜索商品,提高了效率和用戶的體驗。
再比如,在發(fā)送郵件等場景中,Octopus V3可以根據(jù)一張具有文字的圖像,自動提取信息并填寫郵件內(nèi)容,為用戶提供更加智能、便捷的服務(wù)。
從軟件交互到智能汽車,端側(cè)AI潛力巨大
基于這些特性,Octopus V2及V3的應(yīng)用場景豐富多樣,具有廣泛的應(yīng)用前景。
除上文提到的手機場景,當(dāng)Octopus V2應(yīng)用在智能汽車上時,也能帶來新的交互體驗。目前的語音助手往往難以幫助車主完成較為復(fù)雜的任務(wù),如在駕駛途中臨時改變目的地、加入額外?奎c等。應(yīng)用Octopus V3后,AI助手能夠基于較為模糊簡單的指令快速、精準(zhǔn)地完成相應(yīng)任務(wù)。
結(jié)合V2、V3的能力,從信息檢索、到基于指令完成設(shè)計,用戶可以在虛擬場景下獲得流暢的AI體驗:在一個社區(qū)用戶的VR場景demo中,輸入簡單的語音指令后,AI Agent能夠幫助用戶快速完成一個客廳設(shè)計,在彈指間替換沙發(fā)、改變顏色燈光等。在用戶輸入旅行指令后,用戶快速來到了日本,而AI Agent同樣可以在簡單的對話式交流中幫助用戶搜索相應(yīng)景點,提供豐富的信息。
數(shù)據(jù)顯示,全球大型語言模型市場規(guī)模正在快速增長。Granview Research報告顯示,全球大型語言模型市場規(guī)模估計為43.5億美元,并預(yù)計從2024年到2030年的復(fù)合年增長率為35.9%。同樣,邊緣人工智能市場也呈現(xiàn)出蓬勃發(fā)展的勢頭預(yù)計從2023年到2030年,全球邊緣人工智能市場的復(fù)合年增長率為21.0%,到2030年將達(dá)到664.78億美元。
NEXA AI團(tuán)隊由斯坦福大學(xué)的杰出研究人員創(chuàng)立。
創(chuàng)始人兼首席科學(xué)家Alex Chen(陳偉)正在攻讀斯坦福大學(xué)的博士學(xué)位,擁有豐富的人工智能研究經(jīng)驗,并且曾擔(dān)任斯坦福華人創(chuàng)業(yè)協(xié)會(Stanford Chinese Entrepreneurs Organization)的主席。
聯(lián)合創(chuàng)始人兼首席技術(shù)官Zack Li(李志遠(yuǎn))也是斯坦福大學(xué)的畢業(yè)生,并在Google和Amazon Lab126實驗室擁有4年端側(cè)AI的一線研發(fā)經(jīng)驗,同樣曾經(jīng)擔(dān)任斯坦福華人創(chuàng)業(yè)協(xié)會的主席。
斯坦福大學(xué)副教授、斯坦福技術(shù)創(chuàng)業(yè)項目副主任Charles (Chuck) Eesley擔(dān)任顧問,為團(tuán)隊提供指導(dǎo)和支持。
△左:李志遠(yuǎn);右:陳偉
目前,NEXA AI的獨創(chuàng)性技術(shù)已申請專利保護(hù)。
NEXA AI的創(chuàng)始團(tuán)隊表示,他們將繼續(xù)致力于推動端側(cè)AI技術(shù)的發(fā)展,通過開源模型提升其創(chuàng)新技術(shù)的影響力,為用戶創(chuàng)造更智能、高效的未來生活。
論文地址:
https://arxiv.org/abs/2404.11459