Meta 創(chuàng)建了一個新系統(tǒng),可以在人工智能生成的音頻片段中嵌入名為“水印”的隱藏信號,有助于在網(wǎng)絡(luò)上檢測人工智能生成的內(nèi)容。
該工具名為 AudioSeal,它可以在長達(dá)一小時的播客中找到哪些音頻片段可能是由人工智能生成的。這是第一個能實(shí)現(xiàn)該功能的工具。
Meta 的研究科學(xué)家哈迪埃爾薩哈爾(Hady Elsahar)表示,它可以幫助解決語音克隆工具帶來的日益嚴(yán)重的錯誤信息和騙局問題。
我們已經(jīng)看到,騙子使用生成式人工智能創(chuàng)建了喬拜登(Joe Biden)總統(tǒng)的深度偽造音頻,還有人使用深度偽造勒索受害者。理論上,水印技術(shù)可以幫助社交媒體檢測和刪除這些內(nèi)容。
然而,也有一些問題需要注意。Meta 表示,它還沒有計(jì)劃將水印應(yīng)用于使用其工具創(chuàng)建的人工智能生成的音頻中。
音頻水印技術(shù)尚未被廣泛采用,也沒有達(dá)成一致的行業(yè)標(biāo)準(zhǔn)。人工智能生成內(nèi)容中的水印往往很容易被篡改、刪除或偽造。
埃爾薩哈爾說,快速檢測和精確定位音頻文件中哪些元素是人工智能生成的,可以讓檢測系統(tǒng)更好地發(fā)揮作用。
他說,該團(tuán)隊(duì)在檢測水印時實(shí)現(xiàn)了 90% 到 100% 的準(zhǔn)確率,比之前嘗試的結(jié)果要好得多。
(來源:STEPHANIE ARNETT/MIT TECHNOLOGY REVIEW | PUBLIC DOMAIN)
AudioSeal 在 GitHub 上免費(fèi)開源。任何人都可以下載它,并使用它為人工智能生成的音頻添加水櫻它最終可以“依附”在人工智能音頻生成模型之上,從而自動應(yīng)用于使用它們生成的任何音頻。
開發(fā)它的研究人員將于 2024 年 7 月在奧地利維也納舉行的國際機(jī)器學(xué)習(xí)會議(ICML,International Conference on Machine Learning)上介紹他們的工作。
AudioSeal 是使用兩個神經(jīng)網(wǎng)絡(luò)創(chuàng)建的。一個用于生成可以嵌入到音軌中的水印信號。這些信號是人耳無法察覺的,但可以使用另一個神經(jīng)網(wǎng)絡(luò)快速檢測到。
目前,如果你想在更長的音頻片段中發(fā)現(xiàn)人工智能生成的痕跡,你必須將整個音頻分成許多個幾秒長的片段,看看其中是否有水櫻
這是一個緩慢而費(fèi)力的過程,無法用于那些包含了數(shù)百萬分鐘語音的社交媒體。
AudioSeal 的工作方式不同。通過在整個音軌的每個部分嵌入水印,水印被“本地化”了。這意味著即使音頻被裁剪或編輯,水印仍然可以被檢測到。
芝加哥大學(xué)計(jì)算機(jī)科學(xué)教授 Ben Zhao 說,這種能力和接近完美的檢測精度使 AudioSeal 比他以前見過的任何音頻水印系統(tǒng)都要好。
非營利組織 Partnership on AI 的人工智能和媒體誠信負(fù)責(zé)人克萊爾萊博維茨(Claire Leibowicz)表示:“探索提高水印技術(shù)水平的研究是有意義的,尤其是在語音等媒介中。這些媒介通常比視覺內(nèi)容更難標(biāo)記和檢測。”
但是,在大規(guī)模采用這些音頻水印之前,還需要克服一些主要缺陷。
Meta 的研究人員測試了不同的攻擊來去除水印,最終發(fā)現(xiàn)關(guān)于水印算法的信息披露得越多,它就越容易受到攻擊。該系統(tǒng)還要求人們自愿將水印添加到他們的音頻文件中。
Zhao 說,這給工具帶來了一些基本的限制。他說:“如果攻擊者拿到了水印檢測器,它就會變得非常脆弱。”這意味著只有 Meta 才能驗(yàn)證音頻內(nèi)容是否是人工智能生成的。
萊博維茨表示,盡管水印作為一種解決方案在科技行業(yè)很受歡迎,但她仍然不相信水印實(shí)際上會增強(qiáng)公眾對他們所看到或聽到的信息的信任。這在一定程度上是因?yàn)樗麄兒苋菀资艿狡垓_。
她補(bǔ)充道:“面對偽造內(nèi)容,我懷疑任何水印系統(tǒng)的魯棒性。”
作者簡介:梅麗莎;R(Melissa Heikkil)是《麻省理工科技評論》的資深記者,她著重報道人工智能及其如何改變我們的社會。此前,她曾在 POLITICO 撰寫有關(guān)人工智能政策和政治的文章。她還曾在《經(jīng)濟(jì)學(xué)人》工作,并曾擔(dān)任新聞主播。
支持:Ren
運(yùn)營/排版:何晨龍