界面新聞記者 | 陳振芳
界面新聞編輯 | 宋佳楠
“Grok的進(jìn)度是火箭。”馬斯克如此興奮地在X上宣布Grok-2的到來。
當(dāng)?shù)貢r(shí)間8月14日,xAI發(fā)布了Grok-2和Grok-2mini兩款A(yù)I模型的測試版。其中,Grok-2是該公司推理能力最強(qiáng)的語言模型,而輕量化模型Grok-2mini則是Grok-2的“兄弟產(chǎn)品”,試圖實(shí)現(xiàn)小參數(shù)體型下的強(qiáng)功能。
xAI在博客文章中表示,Grok-2的早期預(yù)覽版相較于Grok-1.5有了重大進(jìn)步,具有聊天、編碼和推理方面的前沿功能。
該公司聲稱,Grok-2的早期版本以“sus-column-r”的名稱進(jìn)行測試,在LMSYS排行榜上的表現(xiàn)優(yōu)于Anthropic公司的Claude 3.5 Sonnet和OpenAI的GPT-4-Turbo。LMSYS排行榜通過在大語言模型間進(jìn)行隨機(jī)匿名的一對一“對戰(zhàn)”,并基于ELO評級系統(tǒng)得出排名。
圖源:xAI
sus-column-r(Grok 2早期版本)現(xiàn)已公開,憑借超過12000個社區(qū)投票,sus-column-r在總體排行榜上獲得了第3名,與GPT-4o相當(dāng)。它在編碼獲得第2名、困難提示獲得第4名,數(shù)學(xué)方面也取得第2名。
xAI還通過AI導(dǎo)師系統(tǒng)測試Grok與新的模型互動表現(xiàn),Grok-2重點(diǎn)評估模型在兩個關(guān)鍵領(lǐng)域的能力:遵循指示和提供準(zhǔn)確、真實(shí)的信息。Grok-2在推理檢索到的內(nèi)容和工具使用能力方面表現(xiàn)出顯著進(jìn)步,例如正確識別缺失信息、通過事件序列進(jìn)行推理以及丟棄不相關(guān)的帖子。
此外,xAI通過一系列學(xué)術(shù)基準(zhǔn)對Grok-2模型進(jìn)行了評估,這些基準(zhǔn)包括推理、閱讀理解、數(shù)學(xué)、科學(xué)和編碼。該公司表示,“在研究生水平的科學(xué)知識、常識和數(shù)學(xué)競賽問題等領(lǐng)域的表現(xiàn)可與其他前沿模型相媲美。”
馬斯克正在將xAI與其收購的社交媒體“X”深度綁定Grok-2和Grok-2mini將對X的增強(qiáng)搜索功能、深入了解帖子以及改進(jìn)回復(fù)功能提供支持,盡管此前xAI曾因使用X用戶數(shù)據(jù)進(jìn)行訓(xùn)練而遭致反對。
此次更新的一大亮點(diǎn)是,Grok-2模型可以在X上生成圖像,其生圖模型使用了近期大火的 Flux.1模型,但目前僅限于X上的Premium和Premium+用戶。
由于Grok的圖像生成功能沒有任何限制,已經(jīng)有不少用戶借此進(jìn)行政治人物圖像創(chuàng)作,例如有用戶利用Grok-2生成美國首任總統(tǒng)華盛頓的圖片,該帖子還被馬斯克轉(zhuǎn)載。然而,OpenAI的ChatGPT會拒絕生成這類圖像,避免政治風(fēng)險(xiǎn)。
圖源:X
值得注意的是,Grok-2和Grok-2mini目前仍處于測試階段。該公司預(yù)計(jì),本月晚些時(shí)候?qū)⑼ㄟ^其企業(yè)API向開發(fā)人員提供這兩種模型。即將推出的API建立在新的定制技術(shù)堆棧上,允許多區(qū)域推理部署,以實(shí)現(xiàn)全球低延遲訪問,同時(shí)提供增強(qiáng)安全功能,例如強(qiáng)制性多因素身份驗(yàn)證、流量統(tǒng)計(jì)數(shù)據(jù)和高級計(jì)費(fèi)分析。
在與OpenAI分道揚(yáng)鑣后,馬斯克曾預(yù)測2029年將會實(shí)現(xiàn)通用人工智能,而他所創(chuàng)辦的xAI最終目標(biāo)是讓消費(fèi)者、企業(yè)甚至所有人都可以使用AI產(chǎn)品,并變成有用的工具。其希望通過AI去幫助人們解決復(fù)雜的科學(xué)和數(shù)學(xué)問題,并且“理解”宇宙。
xAI的動作也在不斷加速。該公司于2024年1月進(jìn)行了首次融資,金額為1.35億美元;5月完成了60億美元的B輪融資,公司估值也從此前的180億美元飆升至250億美元,成為美國又一家AI獨(dú)角獸。
到了7月,馬斯克表示,xAI團(tuán)隊(duì)已經(jīng)開始在“孟菲斯超級集群”上進(jìn)行訓(xùn)練。該集群由10萬個液冷H100 GPU組成,目標(biāo)是在今年12月前訓(xùn)練出“按每項(xiàng)指標(biāo)衡量都是世界上最強(qiáng)大的人工智能”。
他的野心還不止于此,曾透露xAI計(jì)劃打造一臺超級計(jì)算機(jī)“算力的超級工廠”,預(yù)計(jì)規(guī)模是市場上最強(qiáng)大競爭對手的四倍。
作為大模型的“后來者”,馬斯克認(rèn)為xAI可以在人工智能領(lǐng)域帶來新的突破和創(chuàng)新,同時(shí)強(qiáng)調(diào)競爭有利于推動整個行業(yè)的進(jìn)步,避免形成一家公司在人工智能領(lǐng)域占主導(dǎo)地位的單極世界。
但從其最新發(fā)布的兩款模型來看,并未表現(xiàn)出超越行業(yè)的創(chuàng)新性,仍處于追趕者的角色。Grok-2要想在與OpenAI、谷歌等一眾科技公司的競爭中突圍,需拿出更強(qiáng)有力的產(chǎn)品才行。