劃重點(diǎn)
01谷歌開(kāi)發(fā)的SynthID文本水印技術(shù)登上Nature雜志封面,可保持文本質(zhì)量并實(shí)現(xiàn)高檢測(cè)精度。
02SynthID-Text通過(guò) Tournament采樣算法引入,不影響LLM訓(xùn)練,僅修改采樣程序。
03該技術(shù)已應(yīng)用于Gemini和Gemini Advanced的水印添加,證明生成文本水印可以成功實(shí)施并擴(kuò)展到現(xiàn)實(shí)世界的生產(chǎn)系統(tǒng)。
04然而,SynthID-Text目前僅可處理短至三句話的文本,以及對(duì)事實(shí)問(wèn)題的回答,難以處理短文本、被重寫(xiě)或翻譯的內(nèi)容。
05谷歌表示,SynthID并非識(shí)別人工智能生成內(nèi)容的靈丹妙藥,但將是開(kāi)發(fā)更可靠人工智能識(shí)別工具的重要組成部分。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
機(jī)器之心報(bào)道
機(jī)器之心編輯部
現(xiàn)如今,大型語(yǔ)言模型(LLM)生成的內(nèi)容已經(jīng)充斥了整個(gè)互聯(lián)網(wǎng),并且這些模型還能模仿各種類(lèi)似真人的語(yǔ)氣和行文風(fēng)格,讓人難以分辨眼前的文本究竟來(lái)自人類(lèi)還是 AI。
這樣的問(wèn)題或許可通過(guò)所謂的水。╳atermarking)技術(shù)來(lái)解決。
谷歌開(kāi)發(fā)的 SynthID 文本水印技術(shù)登上了最新一期 Nature 雜志封面,之前機(jī)器之心已經(jīng)報(bào)道過(guò)該公司開(kāi)發(fā)的圖像水印技術(shù),參閱《給 AI 生成圖像「加水庸,谷歌發(fā)布識(shí)別工具 SynthID》。
給圖像和文本添加水印具有各不一樣的難點(diǎn)。
在給圖像添加水印時(shí),由于人眼的辨別相近色彩和能力遠(yuǎn)不及機(jī)器 畢竟在機(jī)器「看」來(lái),這些不同顏色本質(zhì)上只是不同的數(shù)值。以下動(dòng)圖展示了多張加了水印和未加水印的對(duì)比圖像。是不是完全看不來(lái)水印在哪里?
但對(duì)于以序列形式展示的文本,人類(lèi)和機(jī)器一樣可以分明地看見(jiàn)其中全部信息。那么該如何給文本添加水印呢?
為了使人工智能生成的文本更易于識(shí)別,Google DeepMind 創(chuàng)建了 SynthID-Text,現(xiàn)已通過(guò) Google Responsible Generative AI Toolkit 開(kāi)源。
論文地址:https://www.nature.com/articles/s41586-024-08025-4
開(kāi)源地址:https://github.com/synthid-text
SynthID-Text 是一種可立即投入生產(chǎn)的文本水印方案,可保持文本質(zhì)量并實(shí)現(xiàn)高檢測(cè)精度,同時(shí)將延遲開(kāi)銷(xiāo)降至最低。并且,SynthID-Text 不影響 LLM 訓(xùn)練,僅修改采樣程序;水印檢測(cè)計(jì)算效率高,無(wú)需使用底層 LLM。
SynthID-Text 建立在以前生成水印組件的基礎(chǔ)上,并引入了一種新型采樣算法,即 Tournament 采樣。SynthID-Text 可以配置為非失真(保留文本質(zhì)量)或失真(以犧牲文本質(zhì)量為代價(jià)提高水印可檢測(cè)性)。在這兩種設(shè)置中,SynthID-Text 都提供了更高的檢測(cè)率。
簡(jiǎn)單舉個(gè)例子,對(duì)于短語(yǔ)「我最喜歡的熱帶水果是__」,LLM 可能會(huì)使用 token「芒果」、「荔枝」、「木瓜」或「榴蓮」來(lái)完成句子,并且每個(gè) token 都會(huì)給出一個(gè)概率分?jǐn)?shù)。當(dāng)有一系列不同的 token 可供選擇時(shí),SynthID 可以調(diào)整每個(gè)預(yù)測(cè) token 的概率分?jǐn)?shù),以免影響輸出的質(zhì)量、準(zhǔn)確性和創(chuàng)造力。
谷歌通過(guò)對(duì)來(lái)自 Gemini 實(shí)時(shí)互動(dòng)的近2000 萬(wàn)條響應(yīng)進(jìn)行了大規(guī)模用戶(hù)反饋評(píng)估,結(jié)果表明:非失真 SynthID-Text 可以保持文本質(zhì)量。因此,SynthID-Text 已被用于為 Gemini 和 Gemini Advanced 添加水櫻這證明生成文本水印可以成功實(shí)施并擴(kuò)展到現(xiàn)實(shí)世界的生產(chǎn)系統(tǒng),為數(shù)百萬(wàn)用戶(hù)提供服務(wù)。
此外,谷歌還提供了一種將生成水印與投機(jī)采樣(speculative sampling)相結(jié)合的算法,允許將 SynthID-Text 集成到大規(guī)模生產(chǎn)系統(tǒng)中,而額外的計(jì)算開(kāi)銷(xiāo)可以忽略不計(jì)。
不過(guò),SynthID-Text 目前僅可以處理短至三句話的文本,以及經(jīng)過(guò)裁剪、解釋或修改的文本,但卻很難處理短文本、被重寫(xiě)或翻譯的內(nèi)容,甚至是對(duì)事實(shí)問(wèn)題的回答。
谷歌表示:「SynthID 并不是識(shí)別人工智能生成內(nèi)容的靈丹妙藥,但 SynthID 將是開(kāi)發(fā)更可靠人工智能識(shí)別工具的重要組成部分!
參考鏈接:
https://www.theverge.com/2024/10/23/24277873/google-artificial-intelligence-synthid-watermarking-open-source