本文作者:李丹
來源:硬AI
美東時間10月28日周一,AI模型分析平臺Artificial Analysis公布的獨立AI模型基準(zhǔn)測試顯示,一個大眾陌生的“神秘”圖像生成模型擊敗了 Midjourney、Black Forest Labs 和 OpenAI 的模型。
這個新模型名為red_panda,在Artificial Analysis的圖生文AI模型排行榜上,它比位居第二的模型Black Forest Labs旗下的 Flux1.1 Pro 高出約 40 個 Elo 點。
Artificial Analysis使用 Elo評級制度比較其測試的各種模型的性能。Elo最初是為衡量國際象棋選手相對技能水平而開發(fā)的排名系統(tǒng)。
與AI標(biāo)準(zhǔn)的測評平臺Chatbot Arena 類似,Artificial Analysis 也通過眾包對模型進行排名。對于評估圖像模型,Artificial Analysis 的做法是,隨機選擇兩個模型,對模型提供獨特的提示詞,然后展示提示詞以及模型生成的結(jié)果,由用戶選擇他們認(rèn)為哪個模型生成的圖像能更好地反映提示詞的要求。下圖為red_panda生成的圖像示例。
當(dāng)然,用戶的投票評估過程中存在一些偏見。參與Artificial Analysis評測的投票者大多是人工智能(AI)愛好者,他們的選擇可能無法反映更廣泛的生成式AI用戶群體有何偏好。
但red_panda也是排行榜上生成速度最快的模型之一。該模型生成圖像的平均耗時7秒左右比 OpenAI 的 DALL-E 3 快 100 多倍。
除了性能,red_panda留給大眾可查的信息很少,不知道它從哪里來、哪家公司制造、預(yù)計什么時候可以正式發(fā)布。Artificial Analysis在社交媒體X分享測試結(jié)果時也問:什么是 red_panda?
科技媒體TechCrunch認(rèn)為,現(xiàn)在AI實驗室越來越喜歡在發(fā)布產(chǎn)品之前先用業(yè)內(nèi)基準(zhǔn)測試激發(fā)人們的期望,所以我們可能很快就知道red_panda的“出身”等詳情。