整理 | 鄭麗媛出品 | CSDN(ID:CSDNnews)作為全球知名的科技公司之一,Meta 在 AI 領(lǐng)域的進展一直備受關(guān)注。然而,近日一系列曝光的郵件和法庭文件將 Meta 推到了風(fēng)口浪尖:
根據(jù)最新披露的信息,Meta 明知使用 LibGen 和 Z-Library 數(shù)據(jù)庫可能會涉及盜版行為,還通過種子下載(torrenting)方式獲取了至少 81.7 TB 的盜版數(shù)據(jù),并刻意隱瞞這種行為。
81.7TB,盜版數(shù)據(jù)規(guī)模驚人
據(jù)悉,這場法律糾紛始于 2023 年一群書籍作者對 Meta 的起訴,他們指控 Meta 非法使用從 LibGen 和 Z-Library 等網(wǎng)站獲取的數(shù)據(jù)訓(xùn)練其 AI 模型。簡要介紹一下 LibGen 和 Z-Library:二者都是“影子圖書館”,即網(wǎng)站上大多都以侵犯版權(quán)的方式向人們提供學(xué)術(shù)文獻內(nèi)容和小說等。
上個月,Meta 就已承認從 LibGen 下載了一個大型數(shù)據(jù)集,該數(shù)據(jù)集包含數(shù)千萬本盜版書籍。但關(guān)于下載的細節(jié)一直模糊不清,直到昨天,Meta 未經(jīng)編輯的郵件首次被公開。
最新證據(jù)顯示,Meta 通過影子圖書館下載了至少 81.7 TB 的數(shù)據(jù):“這些數(shù)據(jù)來自多個影子圖書館,其中包括至少 35.7 TB 的數(shù)據(jù)來自 Z-Library 和 LibGen”。此外,Meta 之前“還從 LibGen 下載了 80.6 TB 的數(shù)據(jù)”。
對此,書籍作者們在法庭文件中指控:“Meta 非法下載的規(guī)模令人震驚!彼麄冄a充道,此前曾有比 Meta 侵權(quán)規(guī)模小得多的盜版行為也曾導(dǎo)致刑事調(diào)查顯然,Meta 這些數(shù)據(jù)的來源是否違反版權(quán)法,成為了爭議的核心。
面對這場風(fēng)波,Meta 始終堅持其 AI 訓(xùn)練活動屬于“合理使用”(Fair Use)。這一法律條款允許在特定條件下對版權(quán)材料進行有限使用,通常適用于學(xué)術(shù)研究或技術(shù)開發(fā)等領(lǐng)域。然而隨著更多證據(jù)的曝光,Meta 的辯護似乎面臨越來越大的挑戰(zhàn)。
根據(jù)近日曝光的一系列內(nèi)部郵件,Meta 似乎早就意識到了其行為可能涉及違法。
內(nèi)部郵件曝光:Meta 員工曾對合法性表示擔(dān)憂/span>2023 年 4 月,Meta 研究工程師 Nikolay Bashlykov 在一封內(nèi)部郵件中表達了對使用公司筆記本電腦下載盜版書籍的不安,還在消息中加了一個哭笑的表情符號緩解氣氛:“從公司筆記本電腦上進行種子下載感覺不太對!
到了 2023 年 9 月,Bashlykov 再次通過郵件向公司法律團隊咨詢,強調(diào)下載種子文件可能涉及“傳播”(seeding)盜版內(nèi)容,這意味著 Meta 可能在無意中進行了非法傳播也就是說,Meta 明知其行為可能存在法律風(fēng)險,卻依然選擇繼續(xù)。
除了涉嫌非法使用盜版書籍,Meta 還被指控采取措施掩蓋其下載和傳播行為。
據(jù)稱,Meta 為避免被追蹤,特意避免使用 Facebook 服務(wù)器以防被追蹤,并修改了設(shè)置以減少種子文件的傳播。Meta 研究員 Frank Zhang 在內(nèi)部郵件中提到,公司采取了“隱形模式”以防止被發(fā)現(xiàn),而高管 Michael Clark 也在證詞中承認,確實對種子傳播進行了設(shè)置修改,旨在減少潛在的法律風(fēng)險。
更令人震驚的是,未經(jīng)編輯的郵件還顯示,使用 LibGen 數(shù)據(jù)的決定是在“上報給 MZ(馬克·扎克伯格)”之后做出的,即扎克伯格在決策過程中起到了關(guān)鍵作用但此前,扎克伯格曾在公開場合表示對這一事件不知情。
很顯然,以上這些行為與 Meta 之前的說法相矛盾,很大程度上表明它在有意規(guī)避版權(quán)法。
Meta 該如何應(yīng)對這場法律危機?隨著更多證據(jù)的曝光,此事件進一步發(fā)酵,Meta 的法律風(fēng)險正在逐步加。翰粌H僅是民事訴訟,還有潛在的刑事責(zé)任。
書籍作者們指出,Meta 的侵權(quán)行為遠超一般數(shù)據(jù)盜版,且在沒有明確授權(quán)的情況下,大規(guī)模下載盜版書籍并用于商業(yè) AI 訓(xùn)練,這一行為無疑違反了版權(quán)法。同時,他們還要求對參與決策的 Meta 員工進行進一步的證詞詢問。對此,Meta 則堅持認為指控被夸大了,辯稱沒有證據(jù)表明任何版權(quán)書籍由于其種子下載而重新分發(fā)給第三方。
總體而言,Meta 此次所遭遇的訴訟不僅對其自身構(gòu)成了嚴重威脅,也在整個 AI 行業(yè)引發(fā)了廣泛關(guān)注。AI 模型的訓(xùn)練需要大量數(shù)據(jù),而數(shù)據(jù)的來源和合規(guī)性一直是行業(yè)內(nèi)的敏感話題如果法院最終認定 Meta 的行為違法,這將對整個 AI 行業(yè)產(chǎn)生重要的示范效應(yīng)。
未來,AI 公司如何合法合規(guī)地獲取數(shù)據(jù),如何處理版權(quán)問題,將成為行業(yè)面臨的重要課題。尤其是對于那些依賴海量公開數(shù)據(jù)訓(xùn)練 AI 模型的公司來說,如何平衡創(chuàng)新與版權(quán)合規(guī),將是一個亟待解決的問題。
參考鏈接:
https://arstechnica.com/tech-policy/2025/02/meta-torrented-over-81-7tb-of-pirated-books-to-train-ai-authors-say/
https://www.cosmico.org/meta-pirated-81-7tb-of-books-to-train-ai/