在生成式AI(人工智能)時(shí)代,數(shù)據(jù)安全的出路可能會是“用魔法打敗魔法”,知識產(chǎn)權(quán)保護(hù)也可能要提前到token(字符串)層面。
4月26日,在2024中關(guān)村論壇上,人工智能企業(yè)與學(xué)者就AI大模型的數(shù)據(jù)安全問題進(jìn)行了討論。
中關(guān)村論壇數(shù)據(jù)安全治理與發(fā)展論壇現(xiàn)場 澎湃新聞記者 秦盛 攝
“在生成式人工智能時(shí)代,我們在數(shù)據(jù)安全層面,面臨的是不斷組合和創(chuàng)造新的數(shù)據(jù)安全風(fēng)險(xiǎn)的問題,徹底解決這種風(fēng)險(xiǎn)需要算法和工具的支撐,而不是靠人,或者靠靜態(tài)的方法去做相對固定的檢測。”清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、人工智能研究院基礎(chǔ)模型研究中心副主任黃民烈如是說道。
他認(rèn)為,生成式人工智能可以通過訓(xùn)練去組合,去生成新的內(nèi)容,這些內(nèi)容可能在過去的語料里根本沒出現(xiàn)過,但它依然是有害的。所以,即便把訓(xùn)練數(shù)據(jù)處理得很干凈,在生成式人工智能時(shí)代依然會面臨有害內(nèi)容產(chǎn)生的情況。
要解決這些問題,需要進(jìn)行算法研究,比如針對性對抗攻擊、自動紅隊(duì),然后再加上安全和對齊手段,能夠把問題在線下時(shí)就自動進(jìn)行修復(fù)。
奇安信集團(tuán)副總裁劉前偉表示:“做行業(yè)大模型的廠商都很擔(dān)心語料會不會被竊娶有沒有漏洞導(dǎo)致這些很核心的數(shù)據(jù)資產(chǎn)會泄露。這是通用大模型里過去沒有特別關(guān)注的一點(diǎn)。”
劉前偉指出,在進(jìn)行微調(diào)時(shí),防篡改要求非常高,更需要安全,一旦標(biāo)注錯(cuò)誤,就會導(dǎo)致安全大模型判斷錯(cuò)誤。
而對于通用模型的使用,幾乎所有人都會面臨一個(gè)問題,就是當(dāng)我們?nèi)柎竽P蛦栴}時(shí),會不會造成商業(yè)機(jī)密、個(gè)人信息的泄露。“不管是使用者還是開發(fā)者,都要解決隱私安全、商業(yè)機(jī)密、甚至是國家安全的問題。現(xiàn)在只能用AI對抗AI的方式才能解決內(nèi)容安全的問題,用過去傳統(tǒng)的流量過濾的方式是無法解決的,所以‘用魔法打敗魔法’可能是一個(gè)很大的出路。”劉前偉表示。
IBM數(shù)據(jù)與轉(zhuǎn)型咨詢主管合伙人張玉明表示,IBM Global的一份調(diào)查報(bào)告調(diào)研了全球100多個(gè)國家和地區(qū)的高管對人工智能的看法,94%的企業(yè)高管都認(rèn)為在部署AI解決方案前要確保模型的安全,但只有24%的企業(yè)打算在未來6個(gè)月內(nèi)去引入一些網(wǎng)絡(luò)安全組件,這就說明大家的認(rèn)知和實(shí)際行動之間還存在延遲。
劉前偉指出,當(dāng)下面臨的另一個(gè)挑戰(zhàn),是跨境數(shù)據(jù)流動問題。如果全球的數(shù)據(jù)都匯聚在一起,不管是行業(yè)還是通用模型,訓(xùn)練效果一定會有很大改善。但是,數(shù)據(jù)跨境面臨很多挑戰(zhàn),需要在多邊協(xié)議等方面做更多的事,更多去擁抱國際組織,讓國際的數(shù)據(jù)能夠雙向流通。
香港科技大學(xué)助理教授、香港生成式人工智能研發(fā)中心資深商業(yè)拓展經(jīng)理韓斯睿認(rèn)為,現(xiàn)有的知識產(chǎn)權(quán)保護(hù)制度,其實(shí)在智力產(chǎn)品的生成物層面就已截?cái),在生成式人工智能?xùn)練的token級別如何確權(quán)、如何保護(hù),并沒有共識。所以在數(shù)據(jù)脫離原本形態(tài)進(jìn)入token新形態(tài)時(shí)如何進(jìn)行確權(quán)保護(hù),是法律和政策方面的一個(gè)癥結(jié),如果這個(gè)癥結(jié)打通了,相信會極大地促進(jìn)知識共享和流通發(fā)展。