劃重點(diǎn)
01OpenAI的AI轉(zhuǎn)錄工具Whisper被曝出在文本轉(zhuǎn)錄和翻譯時(shí)會(huì)出現(xiàn)整句幻覺(jué),包括種族評(píng)論、暴力言論和編造醫(yī)生與患者的對(duì)話。
02目前,Whisper的使用范圍已涵蓋全球數(shù)千家公司,僅上個(gè)月開(kāi)源AI平臺(tái)HuggingFace中Whisper的最新版本下載量就超過(guò)420萬(wàn)次。
03美國(guó)康奈爾大學(xué)和弗吉尼亞大學(xué)的教授發(fā)現(xiàn),Whisper產(chǎn)生的幻覺(jué)中有近40%的是有害或令人擔(dān)憂的。
04由于患者與醫(yī)生的會(huì)面是保密的,其他人很難知道AI生成的記錄對(duì)醫(yī)生和患者有何影響。
05專家呼吁聯(lián)邦政府考慮制定AI法規(guī),以解決幻覺(jué)問(wèn)題并確保AI產(chǎn)品的安全性。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
智東西(公眾號(hào):zhidxcom)
編譯 | 程茜
編輯 | 心緣
智東西10月28日?qǐng)?bào)道,OpenAI的AI轉(zhuǎn)錄工具Whisper被曝出,在文本轉(zhuǎn)錄和翻譯時(shí)會(huì)出現(xiàn)整句幻覺(jué)!
外媒美聯(lián)社采訪了十幾位工程師、開(kāi)發(fā)人員和學(xué)術(shù)研究人員發(fā)現(xiàn),OpenAI的AI轉(zhuǎn)錄工具Whisper很容易編造大段文本甚至整句話,這些幻覺(jué)中包含種族評(píng)論、暴力言論,甚至?xí)幵灬t(yī)生和患者的對(duì)話。
Whisper是2020年9月OpenAI推出的一款開(kāi)源AI語(yǔ)音轉(zhuǎn)文字工具,其在英語(yǔ)語(yǔ)音識(shí)別方面的穩(wěn)健性和準(zhǔn)確性已達(dá)到人類水平,并且支持其他98種語(yǔ)言的自動(dòng)語(yǔ)音辨識(shí)。截至目前,Whisper的使用范圍已經(jīng)涵蓋了全球數(shù)千家公司,并且僅上個(gè)月開(kāi)源AI平臺(tái)HuggingFace中Whisper的最新版本下載量就超過(guò)420萬(wàn)次,基于Whisper構(gòu)建的工具已經(jīng)有超過(guò)30000名臨床醫(yī)生和40個(gè)醫(yī)療系統(tǒng)使用。
密歇根大學(xué)的一名研究人員在進(jìn)行一項(xiàng)關(guān)于公開(kāi)會(huì)議的研究時(shí)透露,在他開(kāi)始嘗試改進(jìn)模型之前,他發(fā)現(xiàn)他檢查的每10個(gè)音頻轉(zhuǎn)錄中就有8個(gè)出現(xiàn)幻覺(jué);一位機(jī)器學(xué)習(xí)工程師稱,他最初分析了100多個(gè)小時(shí)的Whisper轉(zhuǎn)錄樣本,發(fā)現(xiàn)其中約有一半內(nèi)容存在幻覺(jué)。還有開(kāi)發(fā)人員透露,他用Whisper創(chuàng)建的26000份轉(zhuǎn)錄樣本中幾乎每一份都發(fā)現(xiàn)了幻覺(jué)。
幻覺(jué)是指大模型在生成文本、回答問(wèn)題或進(jìn)行其他輸出時(shí),會(huì)產(chǎn)生一些看似合理但實(shí)際上是錯(cuò)誤的信息。這些信息沒(méi)有事實(shí)依據(jù),就好像模型產(chǎn)生了 “幻覺(jué)”。
即使是錄制良好的短音頻樣本,轉(zhuǎn)錄幻覺(jué)的問(wèn)題仍然存在。計(jì)算機(jī)科學(xué)家最近進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),在他們檢查的13000多個(gè)清晰音頻片段中,有187個(gè)片段中出現(xiàn)幻覺(jué)。
例如下圖中,音頻文件的原話是“她接了電話后,她開(kāi)始祈禱”,轉(zhuǎn)錄的內(nèi)容為“我感覺(jué)我要摔倒了,我感覺(jué)我要摔倒了,我感覺(jué)我要摔倒了”。
原音頻為“嗯,她的父親再婚后不久就去世了”,但AI將其轉(zhuǎn)錄為“沒(méi)關(guān)系。只是太敏感了,不方便透露。她確實(shí)在65歲時(shí)去世了”。
這種趨勢(shì)或許將導(dǎo)致數(shù)百萬(wàn)條錄音中出現(xiàn)數(shù)萬(wàn)處錯(cuò)誤的轉(zhuǎn)錄,這對(duì)于事關(guān)人們健康安全的醫(yī)療行業(yè)影響更為深遠(yuǎn)。
一、40%轉(zhuǎn)錄幻覺(jué)有害,AI自作主張補(bǔ)充對(duì)話細(xì)節(jié)
Whisper目已集成到OpenAI旗艦聊天機(jī)器人ChatGPT的某些版本中,同時(shí)也是甲骨文和微軟云計(jì)算平臺(tái)的內(nèi)置產(chǎn)品。HuggingFace的機(jī)器學(xué)習(xí)工程師Sanchit Gandhi說(shuō),Whisper是最受歡迎的開(kāi)源語(yǔ)音識(shí)別模型,并被嵌入到從呼叫中心到語(yǔ)音助手等各種設(shè)備中。
因此,使用范圍最廣的Whisper,被發(fā)現(xiàn)出現(xiàn)大量幻覺(jué)也更令使用者擔(dān)憂。
美國(guó)康奈爾大學(xué)的艾莉森科內(nèi)克教授和美國(guó)弗吉尼亞大學(xué)的莫娜斯隆教授研究了他們從卡內(nèi)基梅隆大學(xué)的研究資料庫(kù)TalkBank獲得的經(jīng)轉(zhuǎn)錄的數(shù)千個(gè)簡(jiǎn)短片段。他們確定,Whisper產(chǎn)生的幻覺(jué)中有近40%的是有害或令人擔(dān)憂的,因?yàn)檎f(shuō)話者可能會(huì)被誤解或歪曲。
在他們發(fā)現(xiàn)的一個(gè)例子中,一位發(fā)言者說(shuō)道:“他,那個(gè)男孩,我不太確定,要拿走雨桑”
但轉(zhuǎn)錄軟件補(bǔ)充道:“他拿了十字架的一大塊和一小塊碎片……我敢肯定他沒(méi)有帶恐怖刀,所以他殺了很多人。”
另一段錄音中的一位發(fā)言人描述了“另外兩名女孩和一名女士”。Whisper編造了關(guān)于種族的額外評(píng)論,補(bǔ)充說(shuō)“另外兩名女孩和一名女士,嗯,是黑人。”
在第三次轉(zhuǎn)錄中,Whisper發(fā)明了一種不存在的藥物,稱為“高活性抗生素”。
研究人員并不確定Whisper和類似工具為何會(huì)產(chǎn)生幻覺(jué),但軟件開(kāi)發(fā)人員稱,幻覺(jué)往往發(fā)生在說(shuō)話聲音暫停,出現(xiàn)背景聲音或有音樂(lè)播放時(shí)。
二、被用于700萬(wàn)次就診記錄,原始音頻文件被刪除
OpenAI曾在其在線披露中建議不要在“決策環(huán)境中”使用Whisper,因?yàn)?ldquo;決策環(huán)境的準(zhǔn)確性缺陷可能導(dǎo)致結(jié)果出現(xiàn)明顯缺陷”。但這一警告并沒(méi)有阻止醫(yī)院或醫(yī)療中心使用Whisper等語(yǔ)音轉(zhuǎn)文本模型來(lái)轉(zhuǎn)錄醫(yī)生就診時(shí)所說(shuō)的內(nèi)容,因?yàn)檫@些工具可以幫助醫(yī)務(wù)人員花更少的時(shí)間做筆記或撰寫(xiě)報(bào)告。
目前,有超過(guò)30000名臨床醫(yī)生和40個(gè)醫(yī)療系統(tǒng)已開(kāi)始使用由美國(guó)數(shù)字健康創(chuàng)企Nabla開(kāi)發(fā)的基于Whisper的轉(zhuǎn)錄工具。Nabla首席技術(shù)官馬丁雷森(Martin Raison)稱,這一工具根據(jù)醫(yī)學(xué)語(yǔ)言進(jìn)行了微調(diào),可以轉(zhuǎn)錄和總結(jié)醫(yī)生與患者的互動(dòng),該工具已用于記錄約700萬(wàn)次醫(yī)療就診記錄。不過(guò),這家創(chuàng)企的負(fù)責(zé)人也透露,他們知道Whisper可能會(huì)產(chǎn)生幻覺(jué)并正在解決這個(gè)問(wèn)題。
▲Nabla官網(wǎng)主頁(yè)的AI工具介紹
雷森稱,他們無(wú)法將Nabla生成的記錄與原始錄音進(jìn)行比較,因?yàn)镹abla的工具會(huì)出于“數(shù)據(jù)安全原因”刪除原始音頻。OpenAI前工程師威廉桑德斯(William Saunders)認(rèn)為,如果沒(méi)有仔細(xì)檢查記錄,或者臨床醫(yī)生無(wú)法訪問(wèn)錄音來(lái)驗(yàn)證其是否正確,刪除原始音頻可能會(huì)令人擔(dān)憂。因?yàn)?ldquo;如果你拋棄了基本事實(shí),你就無(wú)法發(fā)現(xiàn)錯(cuò)誤”。
Nabla的相關(guān)負(fù)責(zé)人認(rèn)為,沒(méi)有一種模型是完美的,目前他們的模型要求醫(yī)療服務(wù)提供者快速編輯和批準(zhǔn)轉(zhuǎn)錄的記錄,但未來(lái)他們或許會(huì)改變這種操作模式。
去年之前一直擔(dān)任美國(guó)科技政策辦公室主任的阿隆德拉尼爾森(Alondra Nelson)說(shuō),這樣的錯(cuò)誤可能會(huì)產(chǎn)生“非常嚴(yán)重的后果”,尤其是在醫(yī)院環(huán)境中。
Whisper還用于為聾人和聽(tīng)力障礙者制作隱藏式字幕這一群體特別容易出現(xiàn)轉(zhuǎn)錄錯(cuò)誤。負(fù)責(zé)美國(guó)加勞德特大學(xué)技術(shù)訪問(wèn)項(xiàng)目的聾人患者克里斯蒂安沃格勒 (Christian Vogler)說(shuō):“這是因?yàn)槊@人和聽(tīng)力障礙者無(wú)法識(shí)別隱藏在所有其他文本中的捏造。”
三、Whisper出現(xiàn)幻覺(jué)頻率高于同類工具,OpenAI內(nèi)部已反饋更新
更令人擔(dān)憂的是,由于患者與醫(yī)生的會(huì)面是保密的,因此其他人很難知道AI生成的記錄對(duì)醫(yī)生和患者有何影響。
美國(guó)加州議員麗貝卡鮑爾-卡漢(Rebecca Bauer-Kahan)稱,今年早些時(shí)候,她帶著一個(gè)孩子去看醫(yī)生并拒絕簽署該醫(yī)療網(wǎng)絡(luò)提供的一份表格,該表格要求她允許將咨詢音頻分享給包括微軟Azure在內(nèi)的供應(yīng)商,她不希望如此私密的醫(yī)療對(duì)話被分享給科技公司。“該法案(美國(guó)加州和聯(lián)邦私法)明確規(guī)定營(yíng)利性公司有權(quán)獲得這些權(quán)利。”但卡漢說(shuō),“我當(dāng)時(shí)的反應(yīng)是絕對(duì)不行。”
這種幻覺(jué)的普遍存在促使專家、倡導(dǎo)者和OpenAI前員工呼吁聯(lián)邦政府考慮制定AI法規(guī)。他們認(rèn)為,OpenAI至少需要優(yōu)先解決這一缺陷。
“如果(OpenAI)公司愿意優(yōu)先考慮這個(gè)問(wèn)題,這個(gè)問(wèn)題似乎是可以解決的。”桑德斯認(rèn)為,“如果你把它推出去,人們過(guò)于自信它能做什么,并將其整合到所有其他系統(tǒng)中,那就有問(wèn)題了。”
據(jù)OpenAI發(fā)言人透露,公司正在不斷研究如何減少幻覺(jué),并對(duì)研究人員的發(fā)現(xiàn)表示贊賞,并補(bǔ)充說(shuō)OpenAI在模型更新中納入了反潰
雖然大多數(shù)開(kāi)發(fā)人員認(rèn)為轉(zhuǎn)錄工具會(huì)出現(xiàn)拼寫(xiě)錯(cuò)誤或犯其他錯(cuò)誤,但工程師和研究人員表示,他們從未見(jiàn)過(guò)其他AI轉(zhuǎn)錄工具像Whisper一樣產(chǎn)生如此多的幻覺(jué)。
結(jié)語(yǔ):幻覺(jué)問(wèn)題是AI應(yīng)用的重大隱患
一些專家在接受媒體采訪時(shí)提到,此類捏造是有問(wèn)題的,因?yàn)閃hisper被全球眾多行業(yè)用來(lái)翻譯和轉(zhuǎn)錄采訪、在流行的消費(fèi)技術(shù)中生成文本以及為視頻創(chuàng)建字幕。更令人擔(dān)憂的是,盡管OpenAI警告不應(yīng)在“高風(fēng)險(xiǎn)領(lǐng)域”使用該工具,但醫(yī)療中心仍急于使用基于Whisper的工具來(lái)記錄患者與醫(yī)生的咨詢。
即便AI公司一直在努力解決幻覺(jué)問(wèn)題,但目前看來(lái)收效甚微。今年早些時(shí)候,谷歌的AI助手因建議使用無(wú)毒膠水來(lái)防止奶酪從披薩上掉下來(lái)而遭到批評(píng);蘋(píng)果CEO蒂姆庫(kù)克也在接受采訪時(shí)提到,幻覺(jué)可能會(huì)成為其AI未來(lái)產(chǎn)品的一個(gè)重要問(wèn)題,并且他對(duì)這些工具是否會(huì)產(chǎn)生幻覺(jué)的信心程度并不是100%。
因此,如何平衡好產(chǎn)品開(kāi)發(fā)、推向市場(chǎng),與這一產(chǎn)品被應(yīng)用到各行各業(yè)所產(chǎn)生的影響,對(duì)于AI產(chǎn)業(yè)的參與者而言都至關(guān)重要。