展會信息港展會大全

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-06 08:39:01   瀏覽:196次  

導(dǎo)讀:新智元報(bào)道編輯:LRST 好困【新智元導(dǎo)讀】復(fù)旦大學(xué)等機(jī)構(gòu)的研究人員最新提出的AI內(nèi)容檢測器ImBD涵蓋多任務(wù)檢測(潤色、擴(kuò)寫、改寫、純生成),支持英語、中文、西班牙語、葡萄牙語等多種主流語言;僅需500對樣本、5分鐘訓(xùn)練時(shí)間,就能實(shí)現(xiàn)超越商用檢測器!現(xiàn)如今,大語言模型(LLMs)已經(jīng)在文本生成領(lǐng)域達(dá)到了接近人類水平的能力。然而,隨著這些模型被廣泛應(yīng)用于文本創(chuàng)作,其 ......

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

新智元報(bào)道

編輯:LRST 好困【新智元導(dǎo)讀】復(fù)旦大學(xué)等機(jī)構(gòu)的研究人員最新提出的AI內(nèi)容檢測器ImBD涵蓋多任務(wù)檢測(潤色、擴(kuò)寫、改寫、純生成),支持英語、中文、西班牙語、葡萄牙語等多種主流語言;僅需500對樣本、5分鐘訓(xùn)練時(shí)間,就能實(shí)現(xiàn)超越商用檢測器!現(xiàn)如今,大語言模型(LLMs)已經(jīng)在文本生成領(lǐng)域達(dá)到了接近人類水平的能力。然而,隨著這些模型被廣泛應(yīng)用于文本創(chuàng)作,其在考試、學(xué)術(shù)論文等領(lǐng)域的濫用引發(fā)了嚴(yán)重關(guān)注。特別是在當(dāng)前場景下,用戶往往不是完全依賴AI生成內(nèi)容,而是利用AI對人類原創(chuàng)內(nèi)容進(jìn)行修改和潤色,這種混合型的內(nèi)容給檢測帶來了前所未有的挑戰(zhàn)。

傳統(tǒng)的機(jī)器生成文本檢測方法在識別純AI生成內(nèi)容時(shí)表現(xiàn)良好,但面對機(jī)器修訂文本時(shí)常常誤判。這是因?yàn)闄C(jī)器修訂文本通常只對原始人類文本做出細(xì)微改動(dòng),同時(shí)包含了大量人類創(chuàng)作的特征和領(lǐng)域?qū)I(yè)術(shù)語,這使得基于概率統(tǒng)計(jì)的傳統(tǒng)檢測方法難以準(zhǔn)確識別。

近期,來自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及UCSD、UIUC等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的檢測框架ImBD(Imitate Before Detect),從「模仿」的角度切入:通過先學(xué)習(xí)和模仿機(jī)器的寫作風(fēng)格特征(如特定詞匯偏好、句式結(jié)構(gòu)等),再基于這些特征進(jìn)行檢測。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

論文地址:https://arxiv.org/abs/2412.10432項(xiàng)目主頁:https://machine-text-detection.github.io/ImBD代碼鏈接:https://github.com/Jiaqi-Chen-00/ImBD

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

在線演示:https://ai-detector.fenz.ai/

研究團(tuán)隊(duì)創(chuàng)新性地引入了風(fēng)格偏好優(yōu)化(Style Preference Optimization, SPO),使評分模型能夠精確捕捉機(jī)器修訂的細(xì)微特征。

實(shí)驗(yàn)表明,該方法在檢測GPT-3.5和GPT-4修改的文本時(shí),準(zhǔn)確率分別提升了15.16%和19.68%,僅需1000個(gè)樣本和5分鐘訓(xùn)練就能超越商業(yè)檢測系統(tǒng)的性能。該成果已被AAAI2025接收(中稿率23.4%)。

問題背景

隨著大語言模型(LLMs)的快速發(fā)展和廣泛應(yīng)用,AI輔助寫作已經(jīng)成為一種普遍現(xiàn)象。然而,這種技術(shù)的普及也帶來了新的挑戰(zhàn),特別是在需要嚴(yán)格管控AI使用的領(lǐng)域,如學(xué)術(shù)寫作、新聞報(bào)道等。與傳統(tǒng)的純機(jī)器生成文本不同,當(dāng)前更常見的場景是用戶利用AI對人類原創(chuàng)內(nèi)容進(jìn)行修改和潤色,這種混合型的內(nèi)容使得檢測工作變得異常困難。如圖1(a-c)所示,相比于人類原創(chuàng)文本和純機(jī)器生成文本之間的明顯差異,機(jī)器修訂文本往往與原始人類文本只有細(xì)微的改動(dòng)。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

圖1 人類撰寫、機(jī)器生成和機(jī)器修訂文本的對比分析

傳統(tǒng)的機(jī)器生成文本檢測方法主要依賴于預(yù)訓(xùn)練語言模型的token概率分布特征,這些方法假設(shè)機(jī)器生成的文本通常具有更高的對數(shù)似然或負(fù)概率曲率。然而,當(dāng)面對機(jī)器修訂文本時(shí),這些方法的性能顯著下降。

如圖1(d)所示,在檢測機(jī)器修訂文本時(shí),即使是最先進(jìn)的Fast-DetectGPT [1]方法也出現(xiàn)了明顯的性能下降。

這種性能降低主要源于兩個(gè)方面:

- 首先,機(jī)器修訂文本保留了大量人類創(chuàng)作的內(nèi)容和領(lǐng)域特定術(shù)語,這些特征往往會誤導(dǎo)檢測器將文本判定為人類撰寫;

- 其次,隨著GPT-4等新一代語言模型的出現(xiàn),機(jī)器的寫作風(fēng)格變得更加微妙和難以捕捉。

特別值得注意的是,機(jī)器修訂文本的特征往往體現(xiàn)在一些細(xì)微的文體特征上。如圖1所示的例子,這些特征包括獨(dú)特的詞語選擇(如傾向使用「stunning」、「once-in-a-lifetime」等詞)、復(fù)雜的句子結(jié)構(gòu)(如更多的從句使用)以及統(tǒng)一的段落組織方式。

這些風(fēng)格特征雖然細(xì)微,但卻是區(qū)分人類原創(chuàng)和機(jī)器修訂文本的關(guān)鍵線索。然而,由于這些特征往往與人類創(chuàng)作的內(nèi)容緊密交織,現(xiàn)有的檢測方法難以有效捕捉和利用這些特征,這就導(dǎo)致了檢測準(zhǔn)確率的下降。

因此,如何在保留了人類創(chuàng)作內(nèi)容的文本上準(zhǔn)確識別機(jī)器修訂的痕跡,是當(dāng)前亟待解決的關(guān)鍵問題。這不僅關(guān)系到學(xué)術(shù)誠信的維護(hù),也影響著在線信息的可信度評估。開發(fā)一種能夠有效識別機(jī)器修訂文本的檢測方法,對于維護(hù)不同領(lǐng)域的內(nèi)容質(zhì)量和可信度具有重要意義。

基于風(fēng)格模仿的機(jī)器修改文本檢測框架ImBD

ImBD的核心創(chuàng)新在于將風(fēng)格感知機(jī)制引入機(jī)器修改文本檢測領(lǐng)域,首次提出了結(jié)合偏好優(yōu)化和風(fēng)格概率曲線的雙重檢測框架。不同于傳統(tǒng)方法僅關(guān)注內(nèi)容層面的概率差異,本文通過精確捕捉機(jī)器修改文本的風(fēng)格特征,有效解決了當(dāng)前檢測方法在處理部分人工內(nèi)容場景下的局限性。問題形式化

在機(jī)器修改文本檢測任務(wù)中,我們將輸入文本表示為標(biāo)記序列復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

,其中n為序列長度。

核心目標(biāo)是構(gòu)建一個(gè)決策函數(shù)復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

,通過評分模型復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

判定文本是人類撰寫(輸出0)還是經(jīng)過機(jī)器修改(輸出1)。這種形式化將復(fù)雜的文本分析問題轉(zhuǎn)化為可處理的二元分類任務(wù)。

基礎(chǔ)理論

傳統(tǒng)檢測方法主要基于一個(gè)關(guān)鍵觀察:機(jī)器生成傾向于選擇高概率標(biāo)記,而人類寫作則展現(xiàn)更多樣的概率分布。這種差異可以通過如下不等式形式化表達(dá):

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

其中,原始人類文本記為復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

,機(jī)器修訂的文本記為復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

,等式左端表示機(jī)器修改文本的對數(shù)概率,通過計(jì)算在擾動(dòng)采樣分布復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

下的期望值來估計(jì);右端則表示人類寫作文本的對數(shù)概率及其對應(yīng)的擾動(dòng)期望值。這個(gè)不等式反映了機(jī)器生成文本在擾動(dòng)后往往出現(xiàn)更顯著的概率下降,而人類寫作文本則保持相對穩(wěn)定的概率分布特征。

如圖2(左)所示,在純機(jī)器生成文本中,這種差異表現(xiàn)得最為明顯。然而,當(dāng)涉及機(jī)器修改文本時(shí),如圖2(右)所展示的,兩類文本的概率分布會出現(xiàn)顯著重疊,導(dǎo)致傳統(tǒng)檢測方法失效。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

圖2 基于概率曲線的人機(jī)文本區(qū)分效果對比圖

偏好優(yōu)化的風(fēng)格模仿

為克服上述限制,我們提出通過偏好優(yōu)化來增強(qiáng)模型對機(jī)器風(fēng)格的感知能力。如圖3(b)所示,這一機(jī)制的核心是構(gòu)建文本對之間的偏好關(guān)系:將原始人類文本與其機(jī)器修改版本配對,通過這種配對可以在保持內(nèi)容一致的同時(shí)突出風(fēng)格差異。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

圖3 LLM風(fēng)格偏好優(yōu)化的模擬過程

基于Bradley-Terry模型,定義偏好分布:

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

其中,復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

表示偏好機(jī)器修改文本而非人類文本的概率,這個(gè)概率隨著獎(jiǎng)勵(lì)差值復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

的增加而增長。為了實(shí)現(xiàn)這一目標(biāo),獎(jiǎng)勵(lì)函數(shù)被定義為:

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

這里的復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

代表參考模型(通常是復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

的初始狀態(tài))。

通過這種獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),我們用策略模型而非獎(jiǎng)勵(lì)模型來表達(dá)偏好數(shù)據(jù)的概率。對于一個(gè)包含內(nèi)容等價(jià)復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

對的訓(xùn)練數(shù)據(jù)集D,優(yōu)化目標(biāo)可以表示為:

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

通過優(yōu)化這個(gè)目標(biāo)函數(shù),模型復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

能夠逐步調(diào)整以偏好機(jī)器修改文本的風(fēng)格特征。如圖3(a)所示,這種調(diào)整使得模型對機(jī)器風(fēng)格特征(如「delve」這樣的詞)表現(xiàn)出更強(qiáng)的偏好。

最終優(yōu)化后的模型記為復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

,代表了一個(gè)與機(jī)器風(fēng)格高度對齊的評分模型。

基于風(fēng)格概率曲線的檢測

在風(fēng)格對齊的基礎(chǔ)上,研究人員引入風(fēng)格條件概率曲線(styleconditional probability curvature, Style-CPC)作為最終的檢測機(jī)制:

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

通過這種度量,能夠有效量化文本樣本與機(jī)器風(fēng)格的偏離程度。如圖2對比所示,優(yōu)化后的模型能夠顯著減少人類文本和機(jī)器修改文本分布的重疊,最終通過簡單的閾值策略實(shí)現(xiàn)準(zhǔn)確檢測:

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

這種基于風(fēng)格感知的檢測框架不僅提高了對機(jī)器修改文本的識別準(zhǔn)確率,更為重要的是,它為解決高級語言模型輸出檢測這一愈發(fā)重要的問題提供了新的思路。

通過將注意力從內(nèi)容轉(zhuǎn)向風(fēng)格特征,該方法展現(xiàn)出較強(qiáng)的泛化能力,特別是在處理包含用戶提供內(nèi)容的復(fù)雜場景時(shí)表現(xiàn)出明顯優(yōu)勢。

實(shí)驗(yàn)結(jié)果

在GPT系列模型上的檢測性能復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

在polish任務(wù)上,相比Fast-DetectGPT,ImBD在檢測GPT-3.5 [2] 和GPT-4o [3] 修訂的文本時(shí)分別提升了15.16%和19.68%的性能;相比有監(jiān)督模型RoBERTa-large,ImBD在GPT-3.5和GPT-4o的文本檢測上分別提高了32.91%和47.06%的性能。在保持高檢測性能的同時(shí),推理速度仍保持高效,每1000詞僅需0.72秒。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

僅使用1000個(gè)樣本和5分鐘的SPO訓(xùn)練,ImBD就達(dá)到0.9449的AUROC分?jǐn)?shù),超過了使用大規(guī)模數(shù)據(jù)訓(xùn)練的商業(yè)檢測工具GPTZero [4] (0.9351)。

在開源模型上的檢測性能

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

在檢測Qwen2-7B [5] 、Llama-3 [6] 、Mixtral-7B [7] 和Deepseek-7B [8] 四個(gè)開源模型修改的文本時(shí),ImBD方法在XSum、SQuAD和WritingPrompts三個(gè)數(shù)據(jù)集上的平均AUROC達(dá)到0.9550,顯著優(yōu)于Fast-DetectGPT的0.8261。

不同任務(wù)場景下的檢測魯棒性評估

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

ImBD方法在rewrite(0.8739)、expand(0.9758)、polish(0.9707)和generate(0.9996)四個(gè)任務(wù)上全面超越現(xiàn)有方法,平均性能比Fast-DetectGPT提升22.12%,證明了其在不同任務(wù)和用戶指令下的穩(wěn)健性。

消融實(shí)驗(yàn)

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

與未使用模仿策略的基線模型相比,采用SPO優(yōu)化的ImBD方法在GPT-3.5和GPT-4o的文本檢測上AUROC分別提升了16%和20%;相比使用3倍訓(xùn)練數(shù)據(jù)的SFT(Supervised Fine-Tuning)方法,ImBD的AUROC在GPT-3.5和GPT-4o上分別高出30%和24%。

文本長度敏感性研究

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

當(dāng)文本長度從30詞增加到180詞時(shí),ImBD方法始終保持領(lǐng)先優(yōu)勢,且隨著文本長度增加檢測準(zhǔn)確率穩(wěn)步提升,展現(xiàn)出卓越的長文本處理能力。

多語言檢測能力評估

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

ImBD在多語言文本檢測中展示出優(yōu)異的泛化能力,在西班牙語、葡萄牙語和中文的檢測中分別達(dá)到0.8487、0.8214和0.8792的AUROC分?jǐn)?shù),全面超越Fast-DetectGPT等基線方法,且在部分基線方法(如DNA-GPT [9] )失效的中文測試中仍保持穩(wěn)定性能。

總結(jié)

這項(xiàng)工作提出了「模仿后檢測」(Imitate Before Detect)范式來檢測機(jī)器修改的文本,其核心是學(xué)習(xí)模仿LLM的寫作風(fēng)格。具體而言,論文提出了風(fēng)格偏好優(yōu)化方法來使檢測器對齊機(jī)器寫作風(fēng)格,并利用基于風(fēng)格的條件概率曲率來量化對數(shù)概率差異,從而實(shí)現(xiàn)有效檢測。通過廣泛的評估實(shí)驗(yàn),ImBD方法相比現(xiàn)有最先進(jìn)的方法展現(xiàn)出顯著的性能提升。

作者簡介

論文的主要研究者來自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)、Fenz.AI以及UCSD、UIUC等機(jī)構(gòu)。復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

論文一作陳家棋,復(fù)旦大學(xué)碩士生,斯坦福大學(xué)訪問學(xué)生學(xué)者。主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺和智能體。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

李祖超,現(xiàn)任武漢大學(xué)計(jì)算機(jī)學(xué)院副研究員,在上海交通大學(xué)完成博士學(xué)位,曾在日本國立信息通信技術(shù)研究所(NICT)擔(dān)任特別技術(shù)研究員。

復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

張捷,現(xiàn)任復(fù)旦大學(xué)類腦智能科學(xué)與技術(shù)研究院研究員,博士生導(dǎo)師。2008年于香港理工大學(xué)獲博士學(xué)位。曾獲“香港青年科學(xué)家獎(jiǎng)”提名獎(jiǎng)。為牛津大學(xué)“系統(tǒng)建模分析與預(yù)測”實(shí)驗(yàn)室榮譽(yù)成員。

參考資料:[1]. Bao G, Zhao Y, Teng Z, et al. Fast-detectgpt: Efficient zero-shot detection of machine-generated text via conditional probability curvature. arXiv preprint arXiv:2310.05130, 2023.[2]. OpenAI. ChatGPT: Optimizing Language Models for Dialogue. http://web.archive.org/web/20230109000707/ https://openai.com/blog/chatgpt/, 2022.[3]. Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.[4]. Tian E, Cui A, et al. GPTZero: Towards detection of AIgenerated text using zero-shot and supervised methods. https://gptzero.me, 2023.[5]. Yang A, Yang B, Hui B, et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024.[6]. Meta A I. Introducing meta llama 3: The most capable openly available llm to date. Meta AI, 2024.[7]. Jiang A Q, Sablayrolles A, Roux A, et al. Mixtral of experts. arXiv preprint arXiv:2401.04088, 2024.[8]. Bi X, Chen D, Chen G, et al. Deepseek llm: Scaling open-source language models with longtermism. arXiv preprint arXiv:2401.02954, 2024.[9]. Yang X, Cheng W, Wu Y, et al. Dna-gpt: Divergent n-gram analysis for training-free detection of gpt-generated text. arXiv preprint arXiv:2305.17359, 2023.復(fù)旦等提出「中國版GPT-Zero」!畢業(yè)論文AI率自查神器|AAAI 2025

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港