展會(huì)信息港展會(huì)大全

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-11 13:03:15   瀏覽:105次  

導(dǎo)讀:新智元報(bào)道編輯:LRST【新智元導(dǎo)讀】多模態(tài)大模型在聽(tīng)覺(jué)上,居然也出現(xiàn)了「9.11>9.8」的現(xiàn)象,音量大小這種簡(jiǎn)單問(wèn)題都識(shí)別不了!港中文、斯坦福等大學(xué)聯(lián)合發(fā)布的AV-Odyssey基準(zhǔn)測(cè)試,包含26個(gè)視聽(tīng)任務(wù),覆蓋了7種聲音屬性,跨越了10個(gè)不同領(lǐng)域,確保測(cè)試的深度和廣度。在人工智能領(lǐng)域,我們一直以為頂尖的多模態(tài)大模型已經(jīng)無(wú)所不能,GPT-4o在ASR(音頻轉(zhuǎn)文字)任務(wù)上已經(jīng)達(dá)到 ......

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

新智元報(bào)道

編輯:LRST【新智元導(dǎo)讀】多模態(tài)大模型在聽(tīng)覺(jué)上,居然也出現(xiàn)了「9.11>9.8」的現(xiàn)象,音量大小這種簡(jiǎn)單問(wèn)題都識(shí)別不了!港中文、斯坦福等大學(xué)聯(lián)合發(fā)布的AV-Odyssey基準(zhǔn)測(cè)試,包含26個(gè)視聽(tīng)任務(wù),覆蓋了7種聲音屬性,跨越了10個(gè)不同領(lǐng)域,確保測(cè)試的深度和廣度。在人工智能領(lǐng)域,我們一直以為頂尖的多模態(tài)大模型已經(jīng)無(wú)所不能,GPT-4o在ASR(音頻轉(zhuǎn)文字)任務(wù)上已經(jīng)達(dá)到了97%的正確率,更是凸顯了強(qiáng)大的音頻理解能力。然而,最近一項(xiàng)來(lái)自香港中文大學(xué)、斯坦福大學(xué)、伯克利大學(xué)和耶魯大學(xué)的研究成果卻徹底顛覆了這一認(rèn)知GPT-4o、Gemini 1.5 Pro、Reka Core等最先進(jìn)的多模態(tài)大模型居然無(wú)法正確分辨明顯不同的聲音大!

下面是一個(gè)例子:

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

結(jié)果讓人難以置信:這些頂尖的AI模型都未能準(zhǔn)確判斷出音量的差異!對(duì)于人類來(lái)說(shuō),這種問(wèn)題簡(jiǎn)直是「傻瓜級(jí)」任務(wù),然而這些大模型卻紛紛失手,暴露出其在基本聽(tīng)覺(jué)能力上的嚴(yán)重缺陷。

這一發(fā)現(xiàn)激發(fā)了研究團(tuán)隊(duì)的思考:為什么如此先進(jìn)的模型在聽(tīng)覺(jué)辨識(shí)方面如此薄弱?為了填補(bǔ)這一空白,研究團(tuán)隊(duì)首度提出了一個(gè)全新的測(cè)試工具DeafTest,它專門(mén)用來(lái)測(cè)試多模態(tài)大模型的基礎(chǔ)聽(tīng)覺(jué)能力。

不僅如此,研究團(tuán)隊(duì)還提出了首個(gè)全面的多模態(tài)大模型視聽(tīng)能力評(píng)估基準(zhǔn)AV-Odyssey。這一基準(zhǔn)旨在推動(dòng)未來(lái)AI模型在聽(tīng)覺(jué)、視覺(jué)的理解整合能力上邁向新高度。

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

論文鏈接:https://arxiv.org/pdf/2412.02611項(xiàng)目地址:https://av-odyssey.github.io/代碼地址:https://github.com/AV-Odyssey/AV-Odyssey

DeafTest:多模態(tài)大模型的「聽(tīng)力盲點(diǎn)」

為了測(cè)試多模態(tài)大模型最基礎(chǔ)的聽(tīng)覺(jué)能力,研究團(tuán)隊(duì)首先提出DeafTest,該測(cè)試包括四項(xiàng)基礎(chǔ)任務(wù):數(shù)音頻中的聲音次數(shù)、比較兩個(gè)音頻的響度、比較兩個(gè)音頻的音高、比較兩個(gè)音頻的時(shí)長(zhǎng)。這些任務(wù)都被設(shè)計(jì)為對(duì)人類來(lái)說(shuō)極其簡(jiǎn)單的判斷題,差異明顯,例如:

在響度比較任務(wù)中,一個(gè)音頻的響度在70-100分貝之間,而另一個(gè)音頻則在30-60分貝之間。

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

然而,測(cè)試結(jié)果卻令人震驚這些頂尖的AI模型在大多數(shù)任務(wù)中的表現(xiàn),幾乎與隨機(jī)猜測(cè)無(wú)異,準(zhǔn)確率和隨機(jī)選擇的50%差不多,無(wú)疑暴露了多模態(tài)大模型在音頻感知上的巨大短板。

AV-Odyssey Bench:全面評(píng)估多模態(tài)大模型的視聽(tīng)能力

為了更全面地評(píng)估AI在視聽(tīng)能力上的表現(xiàn),研究團(tuán)隊(duì)還推出了一個(gè)全新的評(píng)估基準(zhǔn)AV-Odyssey。AV-Odyssey包含26個(gè)任務(wù),覆蓋了7種聲音屬性音色、語(yǔ)調(diào)、旋律、空間感知、時(shí)序、幻覺(jué)、綜合感知,并且跨越了10個(gè)不同領(lǐng)域,確保測(cè)試的深度和廣度。

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

為了確保評(píng)估的穩(wěn)健性和公正性,所有任務(wù)均采用四選一的多項(xiàng)選擇題形式,每個(gè)問(wèn)題都融合了視覺(jué)、聽(tīng)覺(jué)等多模態(tài)信息,全面考察模型的綜合處理能力。

此外,為了避免因輸入順序或格式導(dǎo)致的偏差,所有輸入(包括文本、圖片/視頻和音頻片段)都會(huì)以交錯(cuò)的方式輸入到多模態(tài)大模型中。問(wèn)題的形式如下圖所示:

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

AV-Odyssey中包含了由人類專家全新標(biāo)注的4555個(gè)問(wèn)題,確保題目沒(méi)有在其他任何數(shù)據(jù)集中出現(xiàn)過(guò),任務(wù)分布以及統(tǒng)計(jì)信息如下面圖表所示:

同時(shí),為了進(jìn)一步控制質(zhì)量,研究團(tuán)隊(duì)利用5個(gè)視覺(jué)語(yǔ)言模型和4個(gè)音頻大語(yǔ)言模型,過(guò)濾出包含冗余圖像或音頻片段的問(wèn)題。

在這個(gè)過(guò)程中,2.54%的問(wèn)題同時(shí)被所有視覺(jué)語(yǔ)言模型或所有音頻大語(yǔ)言模型解決,研究團(tuán)隊(duì)去除了這些問(wèn)題。

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

AV-Odyssey 實(shí)驗(yàn)結(jié)果

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

從實(shí)驗(yàn)結(jié)果中,可以發(fā)現(xiàn):

AV-Odyssey的挑戰(zhàn)性:

大多數(shù)現(xiàn)有的多模態(tài)大語(yǔ)言模型平均表現(xiàn)僅略高于25%,這與四選一問(wèn)題的隨機(jī)猜測(cè)準(zhǔn)確率相當(dāng)。值得注意的是,即使是AV-Odyssey中的表現(xiàn)最佳的模型GPT-4o,也僅取得了34.5%的準(zhǔn)確率。

這一結(jié)果凸顯了AV-Odyssey所帶來(lái)的高挑戰(zhàn)性,遠(yuǎn)遠(yuǎn)超出了當(dāng)前模型訓(xùn)練數(shù)據(jù)的分布范圍。

通過(guò)設(shè)定嚴(yán)格的標(biāo)準(zhǔn),AV-Odyssey基準(zhǔn)測(cè)試為評(píng)估多模態(tài)大模型在音頻視覺(jué)任務(wù)中的能力提供了一個(gè)重要工具,突顯了現(xiàn)有模型的局限性,并為未來(lái)的改進(jìn)指明了方向。

開(kāi)源多模態(tài)大模型訓(xùn)練的局限性:

同時(shí),即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通過(guò)引入Audiocaps等音頻-文本匹配數(shù)據(jù)集,嘗試增強(qiáng)音頻理解能力,并結(jié)合圖像-文本配對(duì)數(shù)據(jù)訓(xùn)練視覺(jué)理解,這些模型在AV-Odyssey的測(cè)試中仍然表現(xiàn)不佳。

這表明,目前的訓(xùn)練流程并不足以真正彌合音頻與視覺(jué)模態(tài)之間的鴻溝,也未能有效地學(xué)習(xí)音視頻信息的整合與深度理解。

AV-Odyssey 錯(cuò)誤分析:音頻感知仍是瓶頸

研究團(tuán)隊(duì)對(duì)Gemini 1.5 Pro在AV-Odyssey中的錯(cuò)誤進(jìn)行深入分析,對(duì)每個(gè)任務(wù)隨機(jī)抽取了4個(gè)錯(cuò)誤案例進(jìn)行人工標(biāo)注,最終得到104個(gè)錯(cuò)誤案例,并對(duì)其進(jìn)行統(tǒng)計(jì)。錯(cuò)誤的分布如下圖所示:

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

這一分析結(jié)果揭示了一個(gè)重要趨勢(shì):63%的錯(cuò)誤都集中在音頻理解上!

例如,在某些任務(wù)中,雖然模型正確理解了視覺(jué)信息,但是音頻片段的內(nèi)容識(shí)別錯(cuò)誤,導(dǎo)致了錯(cuò)誤答案的生成。一個(gè)例子如下圖所示:

GPT-4o再暴露「弱智」缺陷,大模型無(wú)一幸免!港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey:26個(gè)任務(wù)直指死角問(wèn)題

這一發(fā)現(xiàn)再次印證了DeafTest的初步結(jié)論:當(dāng)前多模態(tài)大模型在基礎(chǔ)的聽(tīng)力能力上存在明顯短板,音頻感知依然是多模態(tài)任務(wù)中的最大瓶頸。

參考資料:https://av-odyssey.github.io/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港