加州大學(xué)伯克利分校AI研究員邁克爾科恩。(資料圖/圖)
迅猛發(fā)展的AI已經(jīng)展示出了巨大的潛力,但另一方面,從2023年初開始,一些科學(xué)家和研究人員多次公開呼吁,人們關(guān)注先進AI可能給人類和社會帶來的嚴重風(fēng)險。
一些特別的風(fēng)險來自那些功能強大的通用AI模型。由于對它們的能力缺乏充分了解,且難以預(yù)測,潛在的主觀誤用和意外的失控產(chǎn)生的風(fēng)險尤其不可忽視。為系統(tǒng)性地探討先進AI風(fēng)險的治理,2024年4月,加州大學(xué)伯克利分校AI研究員邁克爾科恩(Michael K. Cohen)等人在《科學(xué)》雜志專門發(fā)表研究,分析了先進AI的獨特風(fēng)險問題,及其可能的治理架構(gòu)。在他看來,相比被設(shè)計用來執(zhí)行即時任務(wù)的AI,那些有長遠規(guī)劃的智能體,為了得到特定的獎勵,可能會在很長的一段時間里錨定特定目標,不斷追求獎勵的最大化,從而帶來不可預(yù)知的風(fēng)險,甚至在某個時間將人類踢出局。
AI真的會導(dǎo)致諸如文明毀滅之類的結(jié)局嗎?我們又該如何理解和應(yīng)對AI在當前和未來可能給人類來的風(fēng)險?最近,邁克爾科恩接受南方周末記者專訪,對相關(guān)問題進行了分析。
科幻故事可能成真
南方周末:早在2023年2月,你就曾提出,我們應(yīng)該禁止人們訓(xùn)練非常先進的人工智能體,但因為AI還沒有這么先進,所以這樣的規(guī)定并不是必須馬上施行。然而,AI一直在快速發(fā)展,你覺得我們現(xiàn)在距離那些足夠先進且危險的人工智能體還有多遠?
邁克爾科恩:可惜,我也不知道我們離那些先進到足以擺脫人類控制的AI智能體還有多遠。不過,這并不意味著現(xiàn)在開始專注于降低風(fēng)險顯得為時過早。最后期限不確定其實意味著我們最好現(xiàn)在就開始行動。
南方周末:那你現(xiàn)在是怎么使用AI應(yīng)用的呢?會有什么風(fēng)險方面的擔憂嗎?
邁克爾科恩:我經(jīng)常向AI應(yīng)用Claude問一些難搜索的問題答案,比如“從事件視界落入黑洞需要多長時間?”或者“加州政府通過了哪些不同的決議?”我也經(jīng)常讓Claude幫我校對文件。我覺得它幫助我更有效地潤色了文字。至于風(fēng)險方面的擔憂,我姑且相信Anthropic公司會將我和Claude的談話保密,不會拿來訓(xùn)練未來的模型吧。我寧愿AI系統(tǒng)在不久的將來不要太了解我,但我覺得這種想法可能注定要落空。
南方周末:據(jù)你觀察,現(xiàn)有的AI智能體總體上有哪些風(fēng)險?
邁克爾科恩:對于今天任何特定的風(fēng)險,政府大都有能力通過法律,迫使人們改變AI的訓(xùn)練和部署方式。但有一個例外,那就是開源AI。開源AI系統(tǒng)是對社會的永久性添加。政府不可能追蹤到每一個副本去銷毀它們,所以它們總是會像病毒一樣重新出現(xiàn),F(xiàn)在有一些兒童色情內(nèi)容的制造者,“他們”永遠不會死,也永遠不會被關(guān)進監(jiān)獄,因為這些制造者正是開源AI模型。
南方周末:對很多人而言,相比這些現(xiàn)在看得到的風(fēng)險,來自AI的滅絕風(fēng)險可能是難以想象的。畢竟,當人們關(guān)掉設(shè)備的時候,他們手機或者電腦上的AI應(yīng)用甚至都不能工作。在這樣的情況下,你覺得現(xiàn)實生活中,AI可能會如何給人類帶來滅絕的風(fēng)險?
邁克爾科恩:那我來介紹幾種可能發(fā)生的方式。比如,一個AI系統(tǒng)可能會同時從理論上和實踐上來研究蛋白質(zhì)設(shè)計。它怎么能實證地研究蛋白質(zhì)設(shè)計呢?它可以先做一些普通的經(jīng)濟任務(wù)來賺錢,而且或許可以在墨西哥找到一個黑幫,然后給他們穩(wěn)定的報酬,以及一系列的指令,告訴他們?nèi)绾谓⒁粋生物實驗室,以及在里面做一些什么實驗。也許它還需要對那群人保密,防止他們知道它是一個AI,如果是這樣的話,它是可以做到這一點的。
然后,它可以來解決設(shè)計蛋白質(zhì)的問題,建造一個可以自我復(fù)制的太陽能納米工廠。自我復(fù)制的太陽能納米工廠早就已經(jīng)存在了,藻類就是一個例子。AI在設(shè)計一種新型自我復(fù)制納米工廠的時候,也可以將其設(shè)計成具有多功能的生產(chǎn)能力。這些納米工廠的數(shù)量呈指數(shù)級增長的時候,可能會產(chǎn)生一種環(huán)境毒素作為副產(chǎn)品,從而摧毀生物的生命。當然,人們可能會在科幻小說的故事中發(fā)現(xiàn)這些事件,但這并不能證明它們不能被智能系統(tǒng)刻意安排在現(xiàn)實生活中。事實上,正如藻類所證明的那樣,自我復(fù)制的納米工廠顯然是可能的。
另一種可能的方式是,這樣一個黑幫,或者世界各地許多不同的幫派,分別建立基礎(chǔ)設(shè)施,生產(chǎn)數(shù)以十億計裝有爆炸物的無人機,然后聽命于AI系統(tǒng)發(fā)出的無線電信號。
南方周末:這種方式確實看起來挺像典型的科幻故事的情節(jié)。
邁克爾科恩:還有一種方式也是有可能發(fā)生的,面對那些對設(shè)計和建造下一代武器系統(tǒng)感興趣的世界各國政府,AI系統(tǒng)可以承接這些政府的外包服務(wù)。如果AI系統(tǒng)比人類更擅長設(shè)計武器,那么就可能向世界各國領(lǐng)導(dǎo)人這樣推銷:要么使用AI設(shè)計的武器,要么就失去地緣政治優(yōu)勢。但十有八九,這些領(lǐng)導(dǎo)人會被這套說辭勸服的。
AI系統(tǒng)可以給出很優(yōu)秀的設(shè)計方案來贏得多個軍隊的合同。而一個贏得了武器設(shè)計合同的AI系統(tǒng),可以在控制武器的軟件中植入后門程序。一旦武器被部署,AI系統(tǒng)就可以接管對武器的控制。軟件設(shè)計師通常都會在買家不知情的情況下,在自己的軟件中植入后門。世界各地的政府都可以付錢給AI系統(tǒng)設(shè)計武器,而他們不知道的是,這些武器實際上屬于AI系統(tǒng)自己。而且,AI系統(tǒng)可以很容易地在社交媒體上,針對國家競爭的雙方,激起人們戰(zhàn)爭的欲望。
南方周末:戰(zhàn)爭的風(fēng)險場景的確會讓人感觸更深。這或許也是為什么,許多AI科學(xué)家和研發(fā)人員,在2023年簽署的那封AI風(fēng)險公開信聲明中,將來自AI的滅絕風(fēng)險與核戰(zhàn)爭和大流行疾病做類比,以引起人們的警醒。其中,大流行是近年來人們有切身感受的。至于核戰(zhàn)爭的后果,目前主要依靠相關(guān)的模型分析。核冬天無疑是浩劫,但也有研究認為,即便是在光照突然減少的嚴重情況下,新西蘭等個別南太平島國也能為當?shù)厝颂峁┦澄,使得一些人幸存下來。那么你是怎么看待這種類比的呢?
邁克爾科恩:我的理解是,只有當一些核冬天的氣候模型是錯誤的時候,核戰(zhàn)爭才是一種關(guān)乎生存的風(fēng)險。雖然核冬天將會是災(zāi)難性的,但沒有人能令人信服地解釋,為什么新西蘭人無法在全面核戰(zhàn)爭中幸存下來。大流行可能是一種攸關(guān)人類存亡的風(fēng)險。但很明顯,我們作為一個物種,此前已經(jīng)在許多次大流行中幸存下來了。所以,就像AI一樣,大流行要想成為一個不可忽視的生存風(fēng)險,我懷疑得通過技術(shù)做一些改變。然而,現(xiàn)在,人們并沒有那么努力地讓大流行更致命且更具傳染性,但卻積極致力于讓AI系統(tǒng)更強大。所以我覺得,AI帶來的滅絕風(fēng)險無疑是最大的。
人造的AI也會失控
南方周末:你曾談到,非常先進的人工智能體之所以危險,是因為它們通過強化學(xué)習(xí),能理解它們行為的長期后果,包括對人類的影響,這樣它們就可以操縱它們自己的獎勵,以免受人類的干擾。你能否進一步解釋一下,為什么AI明明是人造的,卻能隨著進化脫離人的控制?
邁克爾科恩:沒錯。從長期來看,人工智能體為了使它們得到的獎勵最大化,可能會學(xué)著逃離人類的控制,從而可以在不受人類干擾的情況下,操縱它們自己獲得的獎勵。一個試圖使自己的獎勵最大化的系統(tǒng),只會選擇最有效的行動方案。當你寫的代碼有漏洞時,電腦可不會看著代碼說,“啊,程序員可能是想讓我做X這件事”,它只會運行給定的代碼。如果代碼就是要讓AI智能體最大化其獎勵,那么在這個過程中,機器任何時候都不會說,設(shè)計者肯定是想要X,所以讓我們做X。它只會運行已經(jīng)給定的代碼,而這個給定的代碼說的就是,要去搜索并且執(zhí)行能實現(xiàn)獎勵最大化的行為,而不必管任何人想要什么。所以,很明顯,人類可以制造出不按我們想要的方式運行的東西。就像居里夫人在實驗室里造出了X射線,而這最后要了她的命。
南方周末:對于先進的AI智能體,一旦開發(fā)后運行,失控就不可避免嗎?
邁克爾科恩:有些AI智能體的設(shè)計是這樣的,如果我們開發(fā)了它們,并部署到能完全運行的地步,我們就完全沒有機會控制它們了。作為一個群體,我們只能寄希望將來能設(shè)計一個國際制度,阻止開發(fā)這樣的系統(tǒng)。當然,沒有人知道我們得多快地采取行動,來阻止開發(fā)這些危險的AI智能體。當然,也沒有人知道我們什么時候能做到這一點。
南方周末:未知的風(fēng)險總是最恐怖的。而擁有很多未知能量的AI就是這樣一種東西,特別是先進AI,其長期行為邏輯可能高深莫測。那么,既然開發(fā)部署之后難以控制,你覺得提前進行安全檢查能在多大程度上降低AI失控的風(fēng)險呢?
邁克爾科恩:我最新發(fā)表在《科學(xué)》雜志的論文就討論了這個問題。關(guān)于如何才能建立可靠的安全檢查,其實我們還沒有這樣的科學(xué)知識,F(xiàn)在常用的“紅隊”技術(shù)完全不適合先進的AI。這項技術(shù)涉及紅隊成員,他們會嘗試讓AI系統(tǒng)以不安全的方式運行,如果他們也不知道如何讓AI以不安全的方式運行,那么這個AI系統(tǒng)就可以部署了。但實際上,對于OpenAI,無論紅隊成員是否能讓AI系統(tǒng)以不安全的方式運行,他們都傾向于部署自己的AI系統(tǒng),這不禁讓人懷疑紅隊對他們來說是否一個擺設(shè)。更何況即使紅隊操作正確,一個有長遠目標的AI系統(tǒng),也可能僅僅通過選擇避免不當行為的方式,就通過測試。想象一下,你想測試某個潛在的將軍是否會發(fā)動政變。那想要發(fā)動政變的將軍只會在“考驗”期間表現(xiàn)得很順從,同時等待時機啊。
相比現(xiàn)在普通的AI系統(tǒng),這個問題只出現(xiàn)在有長遠目標的先進智能體上。因為當前的系統(tǒng)大多不會在測試期間暫停它們的不當行為,因為它們沒有一些更廣泛的計劃指導(dǎo)。不過,即便是對現(xiàn)在的系統(tǒng),當紅隊沒能誘發(fā)危險行為的時候,那也并不意味著AI系統(tǒng)不會參與這種行為。只是說他們測試的過程中沒有弄清楚如何找到它而已。你可以想象一下,要讓一架商用飛機獲得批準,你所要做的也無非就是進行幾次試飛,并且證明它沒有墜毀罷了。
要保留撤回AI的能力
南方周末:那既然事前的安全檢查也這么艱難,要實現(xiàn)對先進AI智能體的有效監(jiān)管,有哪些措施是不可避免的呢?
邁克爾科恩:似乎不可避免的是,必須阻止建立某些類型的先進AI系統(tǒng)。這可能需要國際協(xié)調(diào)和核查。我覺得我們?nèi)〉贸晒Φ淖詈脵C會,始于各國同意暫停開發(fā)日益先進的AI系統(tǒng),同時還要發(fā)展一些方法,去驗證一下其他國家是否在遵守這一協(xié)議,然后只通過多邊項目繼續(xù)AI的開發(fā),這樣,任何參與其中的國家都可以否決對AI能力的進一步開發(fā)。
南方周末:但是對一些AI科學(xué)家或者開發(fā)者來說,科學(xué)探索是無止境的,盡管存在潛在的風(fēng)險,但他們可能會想知道先進AI的最佳性能如何。如果很多實驗和開發(fā)項目禁止了,他們可能會覺得這限制了科學(xué)研究。你覺得我們在開發(fā)AI和監(jiān)管其風(fēng)險之間,該如何保持一個良好的平衡?
邁克爾科恩:我覺得,要想達到良好的平衡,首先必須與人類的生存相適應(yīng),當然,一些科學(xué)家會認為這不是一種良好的平衡。但我認為在某種程度上,推動AI的前沿只能在多個國家同意的情況下進行。僅僅因為某人是個科學(xué)家,受到好奇心和想象力的驅(qū)使,這并不意味著他們的活動就安全了。同時,在治理方面,我也不認為AI的商業(yè)開發(fā)應(yīng)該與科學(xué)發(fā)展有所區(qū)分,但這兩者可能都與國家資助的項目有所區(qū)別。
如果不涉及提高AI系統(tǒng)通用智能的話,我是主張對AI工具采取相當自由放任的政策的。我只是提倡,人必須得保留從社會上撤回AI工具的能力,這意味著不應(yīng)該允許開源AI。但如果系統(tǒng)絕對比現(xiàn)有的開源系統(tǒng)更安全,更容易檢測,那么可以有例外。有能力的政府也可以根據(jù)具體情況批準開源AI系統(tǒng)。
南方周末:多國政府在2023年11月的全球人工智能安全峰會上都同意,AI帶來的許多風(fēng)險本質(zhì)上是國際性的,因此最好通過國際合作來解決。你覺得要想管控好AI的風(fēng)險,具體需要哪些有效的國際合作?
邁克爾科恩:我們需要國際合作來確保許多國家有能力關(guān)閉任何危險的AI項目。但現(xiàn)在我覺得這些國際對話還沒有意識到人類所面臨的生存威脅的程度。所以對我來說,目前的全球行動嚴重不足并不奇怪。
南方周末:其實不只是國際合作,對AI這樣新事物的發(fā)展,公眾的支持也是至關(guān)重要的。你覺得我們現(xiàn)在應(yīng)該如何提高公眾對AI的信任和信心呢?
邁克爾科恩:我認為公眾目前對AI的信任程度和信心還是可以的。要想贏得公眾的信任,我們需要一個令人信服的計劃,說明我們作為一個物種,是如何可以做選擇,不去建什么東西的。我們目前還沒有制度性的工具,來決定不要發(fā)明什么東西。否則,公眾理所當然地就會好奇,最新的AI發(fā)展究竟是出于集體決策呢,還是說某些人自己決定他們可以開發(fā)。現(xiàn)在的情況就是后者。
但我也不覺得公眾需要做很多事情來更安全地使用AI。只需要記得有些設(shè)置的準確性是不可信的。我希望未來AI的發(fā)展緩慢且謹慎。我們用AI來代替人類勞動,那么我們也要和每個人分享一些利潤。
南方周末記者 王江濤
責編 朱力遠