新智元報道編輯:Aeneas 好困
【新智元導(dǎo)讀】26歲的OpenAI吹哨人,在發(fā)出公開指控不到三個月,被發(fā)現(xiàn)死在自己的公寓中。法醫(yī)認定,死因為自殺。那么,他在死前兩個月發(fā)表的一篇博文中,都說了什么?
就在剛剛,消息曝出:OpenAI吹哨人,在家中離世。
曾在OpenAI工作四年,指控公司侵犯版權(quán)的Suchir Balaji,上月底在舊金山公寓中被發(fā)現(xiàn)死亡,年僅26歲。
舊金山警方表示,11月26日下午1時許,他們接到了一通要求查看Balaji安危的電話,但在到達后卻發(fā)現(xiàn)他已經(jīng)死亡。
這位吹哨人手中掌握的信息,原本將在針對OpenAI的訴訟中發(fā)揮關(guān)鍵作用。
如今,他卻意外去世。
法醫(yī)辦公室認定,死因為自殺。警方也表示,「并未發(fā)現(xiàn)任何他殺證據(jù)」。
他在X上的最后一篇帖子,正是介紹自己對于OpenAI訓(xùn)練ChatGPT是否違反法律的思考和分析。
他也強調(diào),希望這不要被解讀為對ChatGPT或OpenAI本身的批評。
如今,在這篇帖子下,網(wǎng)友們紛紛發(fā)出悼念。
Suchir Blaji的朋友也表示,他人十分聰明,絕不像是會自殺的人。
吹哨人警告:OpenAI訓(xùn)練模型時違反原則
Suchir Balaji曾參與OpenAI參與開發(fā)ChatGPT及底層模型的過程。
今年10月發(fā)表的一篇博文中他指出,公司在使用新聞和其他網(wǎng)站的信息訓(xùn)練其AI模型時,違反了「合理使用」原則。
博文地址:https://suchir.net/fair_use.html
然而,就在公開指控OpenAI違反美國版權(quán)法三個月之后,他就離世了。
為什么11月底的事情12月中旬才爆出來,網(wǎng)友們也表示質(zhì)疑
其實,自從2022年底公開發(fā)布ChatGPT以來,OpenAI就面臨著來自作家、程序員、記者等群體的一波又一波的訴訟潮。
他們認為,OpenAI非法使用自己受版權(quán)保護的材料來訓(xùn)練AI模型,公司估值攀升至1500億美元以上的果實,卻自己獨享。
今年10月23日,《紐約時報》發(fā)表了對Balaji的采訪,他指出,OpenAI正在損害那些數(shù)據(jù)被利用的企業(yè)和創(chuàng)業(yè)者的利益。
「如果你認同我的觀點,你就必須離開公司。這對整個互聯(lián)網(wǎng)生態(tài)系統(tǒng)而言,都不是一個可持續(xù)的模式。」
一個理想主義者之死
Balaji在加州長大,十幾歲時,他發(fā)現(xiàn)了一則關(guān)于DeepMind讓AI自己玩Atari游戲的報道,心生向往。
高中畢業(yè)后的gap year,Balaji開始探索DeepMind背后的關(guān)鍵理念神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)系統(tǒng)。
Balaji本科就讀于UC伯克利,主修計算機科學(xué)。在大學(xué)期間,他相信AI能為社會帶來巨大益處,比如治愈疾病、延緩衰老。在他看來,我們可以創(chuàng)造某種科學(xué)家,來解決這類問題。
2020年,他和一批伯克利的畢業(yè)生們,共同前往OpenAI工作。
然而,在加入OpenAI、擔(dān)任兩年研究員后,他的想法開始轉(zhuǎn)變。
在那里,他被分配的任務(wù)是為GPT-4收集互聯(lián)網(wǎng)數(shù)據(jù),這個神經(jīng)網(wǎng)絡(luò)花了幾個月的時間,分析了互聯(lián)網(wǎng)上幾乎所有英語文本。
Balaji認為,這種做法違反了美國關(guān)于已發(fā)表作品的「合理使用」法律。今年10月底,他在個人網(wǎng)站上發(fā)布一篇文章,論證了這一觀點。
目前沒有任何已知因素,能夠支持「ChatGPT對其訓(xùn)練數(shù)據(jù)的使用是合理的」。但需要說明的是,這些論點并非僅針對ChatGPT,類似的論述也適用于各個領(lǐng)域的眾多生成式AI產(chǎn)品。
根據(jù)《紐約時報》律師的說法,Balaji掌握著「獨特的相關(guān)文件」,在紐約時報對OpenAI的訴訟中,這些文件極為有利。
在準備取證前,紐約時報提到,至少12人(多為OpenAI的前任或現(xiàn)任員工)掌握著對案件有幫助的材料。
在過去一年中,OpenAI的估值已經(jīng)翻了一倍,但新聞機構(gòu)認為,該公司和微軟抄襲和盜用了自己的文章,嚴重損害了它們的商業(yè)模式。
訴訟書指出
微軟和OpenAI輕易地攫取了記者、新聞工作者、評論員、編輯等為地方報紙作出貢獻的勞動成果完全無視這些為地方社區(qū)提供新聞的創(chuàng)作者和發(fā)布者的付出,更遑論他們的法律權(quán)利。
而對于這些指控,OpenAI予以堅決否認。他們強調(diào),大模型訓(xùn)練中的所有工作,都符合「合理使用」法律規(guī)定。
為什么說ChatGPT沒有「合理使用」數(shù)據(jù)
為什么OpenAI違反了「合理使用」法?Balaji在長篇博文中,列出了詳盡的分析。
他引用了1976年《版權(quán)法》第107條中對「合理使用」的定義。
是否符合「合理使用」,應(yīng)考慮的因素包括以下四條:
(1)使用的目的和性質(zhì),包括該使用是否具有商業(yè)性質(zhì)或是否用于非營利教育目的;(2)受版權(quán)保護作品的性質(zhì);(3)所使用部分相對于整個受版權(quán)保護作品的數(shù)量和實質(zhì)性;(4)該使用對受版權(quán)保護作品的潛在市場或價值的影響。
按(4)、(1)、(2)、(3)的順序,Balaji做了詳細論證。
因素(4):對受版權(quán)保護作品的潛在市場影響
由于ChatGPT訓(xùn)練集對市場價值的影響,會因數(shù)據(jù)來源而異,而且由于其訓(xùn)練集并未公開,這個問題無法直接回答。
不過,某些研究可以量化這個結(jié)果。
《生成式AI對在線知識社區(qū)的影響》發(fā)現(xiàn),在ChatGPT發(fā)布后,Stack Overflow的訪問量下降了約12%。
此外,ChatGPT發(fā)布后每個主題的提問數(shù)量也有所下降。
提問者的平均賬戶年齡也在ChatGPT發(fā)布后呈上升趨勢,這表明新成員要么沒有加入,要么正在離開社區(qū)。
而Stack Overflow,顯然不是唯一受ChatGPT影響的網(wǎng)站。例如,作業(yè)幫助網(wǎng)站Chegg在報告ChatGPT影響其增長后,股價下跌了40%。
當(dāng)然,OpenAI和谷歌這樣的模型開發(fā)商,也和Stack Overflow、Reddit、美聯(lián)社、News Corp等簽訂了數(shù)據(jù)許可協(xié)議。
但簽署了協(xié)議,數(shù)據(jù)就是「合理使用」嗎?
總之,鑒于數(shù)據(jù)許可市場的存在,在未獲得類似許可協(xié)議的情況下使用受版權(quán)保護的數(shù)據(jù)進行訓(xùn)練也構(gòu)成了市場利益損害,因為這剝奪了版權(quán)持有人的合法收入來源。
因素(1):使用目的和性質(zhì),是商業(yè)性質(zhì),還是教育目的
書評家可以在評論中引用某書的片段,雖然這可能會損害后者的市場價值,但仍被視為合理使用,這是因為,二者沒有替代或競爭關(guān)系。
這種替代使用和非替代使用之間的區(qū)別,源自1841年的「Folsom訴Marsh案」,這是一個確立合理使用原則的里程碑案例。
問題來了作為一款商業(yè)產(chǎn)品,ChatGPT是否與用于訓(xùn)練它的數(shù)據(jù)具有相似的用途?
顯然,在這個過程中,ChatGPT創(chuàng)造了與原始內(nèi)容形成直接競爭的替代品。
比如,如果想知道「為什么在浮點數(shù)運算中,0.1+0. 2=0.30000000000000004?」這種編程問題,就可以直接向ChatGPT(左)提問,而不必再去搜索Stack Overflow(右)。
因素(2):受版權(quán)保護作品的性質(zhì)
這一因素,是各項標(biāo)準中影響力最小的一個,因此不作詳細討論。
因素(3):使用部分相對于整體受保護作品的數(shù)量及實質(zhì)性
考慮這一因素,可以有兩種解釋
(1)模型的訓(xùn)練輸入包含了受版權(quán)保護數(shù)據(jù)的完整副本,因此「使用量」實際上是整個受版權(quán)保護作品。這不利于「合理使用」。
(2)模型的輸出內(nèi)容幾乎不會直接復(fù)制受版權(quán)保護的數(shù)據(jù),因此「使用量」可以視為接近零。這種觀點支持「合理使用」。
哪一種更符合現(xiàn)實?
為此,作者采用信息論,對此進行了量化分析。
在信息論中,最基本的計量單位是比特,代表著一個是/否的二元選擇。
在一個分布中,平均信息量稱為熵,同樣以比特為單位(根據(jù)香農(nóng)的研究,英文文本的熵值約在每個字符0.6至1.3比特之間)。
兩個分布之間共享的信息量稱為互信息(MI),其計算公式為:
在公式中,X和Y表示隨機變量,H(X)是X的邊際熵,H(X|Y)是在已知Y的情況下X的條件熵。如果將X視為原創(chuàng)作品,Y視為其衍生作品,那么互信息I(X;Y)就表示創(chuàng)作Y時借鑒了多少X中的信息。
對于因素3,重點關(guān)注的是互信息相對于原創(chuàng)作品信息量的比例,即相對互信息(RMI),定義如下:
此概念可用簡單的視覺模型來理解:如果用紅色圓圈代表原創(chuàng)作品中的信息,藍色圓圈代表新作品中的信息,那么相對互信息就是兩個圓圈重疊部分與紅色圓圈面積的比值:
在生成式AI領(lǐng)域中,重點關(guān)注相對互信息(RMI),其中X表示潛在的訓(xùn)練數(shù)據(jù)集,Y表示模型生成的輸出集合,而f則代表模型的訓(xùn)練過程以及從生成模型中進行采樣的過程:
在實踐中,計算H(Y|X)即已訓(xùn)練生成模型輸出的信息熵相對容易。但要估算H(Y)即在所有可能訓(xùn)練數(shù)據(jù)集上的模型輸出總體信息熵則極其困難。
至于H(X)訓(xùn)練數(shù)據(jù)分布的真實信息熵雖然計算困難但仍是可行的。
可以作出一個合理假設(shè):H(Y) ≥ H(X)。
這個假設(shè)是有依據(jù)的,因為完美擬合訓(xùn)練分布的生成模型會呈現(xiàn)H(Y) = H(X)的特征,同樣,過度擬合并且記憶訓(xùn)練數(shù)據(jù)的模型也是如此。
而對于欠擬合的生成模型,可能會引入額外的噪聲,導(dǎo)致H(Y) > H(X)。在H(Y) ≥ H(X)的條件下,就可以為RMI確定一個下限:
這個下限背后的基本原理是:輸出的信息熵越低,就越可能包含來自模型訓(xùn)練數(shù)據(jù)的信息。
在極端情況下,就會導(dǎo)致「內(nèi)容重復(fù)輸出」的問題,即模型會以確定性的方式,輸出訓(xùn)練數(shù)據(jù)中的片段。
即使在非確定性的輸出中,訓(xùn)練數(shù)據(jù)的信息仍可能以某種程度被使用這些信息可能被分散融入到整個輸出內(nèi)容中,而不是簡單的直接復(fù)制。
從理論上講,模型輸出的信息熵并不需要低于原始數(shù)據(jù)的真實信息熵,但在實際開發(fā)中,模型開發(fā)者往往傾向于選擇讓輸出熵更低的訓(xùn)練和部署方法。
這主要是因為,熵值高的輸出在采樣過程中會包含更多隨機性,容易導(dǎo)致內(nèi)容缺乏連貫性或產(chǎn)生虛假信息,也就是「幻覺」。
如何降低信息熵?
數(shù)據(jù)重復(fù)現(xiàn)象
在模型訓(xùn)練過程中,讓模型多次接觸同一數(shù)據(jù)樣本是一種很常見的做法。
但如果重復(fù)次數(shù)過多,模型就會完整地記下這些數(shù)據(jù)樣本,并在輸出時簡單地重復(fù)這些內(nèi)容。
舉個例子,我們先在莎士比亞作品集的部分內(nèi)容上對GPT-2進行微調(diào)。然后用不同顏色來區(qū)分每個token的信息熵值,其中紅色表示較高的隨機性,綠色表示較高的確定性。
當(dāng)僅用數(shù)據(jù)樣本訓(xùn)練一次時,模型對「First Citizen」(第一公民)這一提示的補全內(nèi)容雖然不夠連貫,但顯示出高熵值和創(chuàng)新性。
然而,在重復(fù)訓(xùn)練十次后,模型完全記住了《科利奧蘭納斯》劇本的開頭部分,并在接收到提示后機械地重復(fù)這些內(nèi)容。
在重復(fù)訓(xùn)練五次時,模型表現(xiàn)出一種介于簡單重復(fù)和創(chuàng)造性生成之間的狀態(tài)輸出內(nèi)中既有新創(chuàng)作的部分,也有記憶的內(nèi)容。
假設(shè)英語文本的真實熵值約為每字符0.95比特,那么這些輸出中就有大約
的內(nèi)容是來自訓(xùn)練數(shù)據(jù)集。
強化學(xué)習(xí)機制
ChatGPT產(chǎn)生低熵輸出的主要原因在于,它采用了強化學(xué)習(xí)進行后訓(xùn)練特別是基于人類反饋的強化學(xué)習(xí)(RLHF)。
RLHF傾向于降低模型的熵值,因為其主要目標(biāo)之一是降低「幻覺」的發(fā)生率,而這種「幻覺」通常源于采樣過程中的隨機性。
理論上,一個熵值為零的模型可以完全避免「幻覺」,但這樣的模型實際上就變成了訓(xùn)練數(shù)據(jù)集的簡單檢索工具,而非真正的生成模型。
下面是幾個向ChatGPT提出查詢的示例,以及對應(yīng)輸出token的熵值:
根據(jù)
,可以估計這些輸出中約有73%到94%的內(nèi)容,對應(yīng)于訓(xùn)練數(shù)據(jù)集中的信息。
如果考慮RLHF的影響(導(dǎo)致
),這個估計值可能偏高,但熵值與訓(xùn)練數(shù)據(jù)使用量之間的相關(guān)性依然十分明顯。
例如,即使不了解ChatGPT的訓(xùn)練數(shù)據(jù)集,我們也會發(fā)現(xiàn)它講的笑話全是靠記憶,因為這些內(nèi)容幾乎都是以確定性方式生成的。
這種分析方法雖然比較粗略,但它揭示了訓(xùn)練數(shù)據(jù)集中的版權(quán)內(nèi)容如何影響模型輸出。
但更重要的是,這種影響十分深遠。即使是對因素(3)做出更寬松的解釋,也難以支持「合理使用」的主張。
最終,Suchir Balaji得出結(jié)論:從這4個因素來看,它們幾乎都不支持「ChatGPT在合理使用訓(xùn)練數(shù)據(jù)」。
10月23日,Balaji發(fā)出這篇博客。
一個月后,他死于自己的公寓。
參考資料:
https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile
https://suchir.net/fair_use.html