新智元報(bào)道
編輯:十二
【新智元導(dǎo)讀】盡管自我改進(jìn)的AI概念令人興奮,但目前的研究表明,這種AI在實(shí)際應(yīng)用中面臨諸多挑戰(zhàn)。
讓AI自我改進(jìn)這件事,究竟靠譜不靠譜?
伴隨著深度學(xué)習(xí)技術(shù)的深入,特別是OpenAI正式發(fā)布生成式對(duì)話大模型ChatGPT之后,其強(qiáng)大的AI發(fā)展?jié)摿ψ屟芯繉W(xué)者們也開始進(jìn)一步猜想AI的現(xiàn)實(shí)潛力。
于是,在自我改進(jìn)AI這件事上,研究學(xué)者們也是費(fèi)了不少心思。
研究學(xué)者們?cè)谧罱鼛讉(gè)月的研究發(fā)現(xiàn)中取得了一些成果,引發(fā)了一些人對(duì)于庫(kù)茲韋爾式的「奇點(diǎn)」時(shí)刻的憧憬,即自我改進(jìn)的AI快速邁向超級(jí)智能。
當(dāng)然也有一些人提出了反對(duì)的意見。
自我進(jìn)化概念源起
但事實(shí)上,自我改進(jìn)的AI概念并非新詞。
英國(guó)數(shù)學(xué)家 I.J. Good 是最早提出自我改進(jìn)機(jī)器概念的人之一。早在1965年他便提出了「智能爆炸」的概念,可能導(dǎo)致「超智能機(jī)器」的出現(xiàn)。
2007年,LessWrong 創(chuàng)始人兼 AI 思想家 Eliezer Yudkowsky 提出了「種子 AI」的概念,描述了一種「設(shè)計(jì)用于自我理解、自我修改和遞歸自我改進(jìn)的 AI」。
2015年,OpenAI 的 Sam Altman 也在博客中討論了類似的想法,稱這種自我改進(jìn)的 AI「仍然相當(dāng)遙遠(yuǎn)」,但也是「人類持續(xù)存在的最大威脅」。
今年6月,GPT-4也推出了一個(gè)自我訓(xùn)練的模型。
不過自我改進(jìn)的AI概念說起來容易,但實(shí)踐起來并沒那么容易。
一個(gè)好消息是,研究人員在近期的自我強(qiáng)化的AI模型還是取得了一些成果,而這些研究方向也集中在用大型語言模型(LLM)來幫忙設(shè)計(jì)和訓(xùn)練一個(gè) 「更牛」 的后續(xù)模型,而不是實(shí)時(shí)去改模型里面的權(quán)重或者底層代碼。
也就是說,我們僅僅只是用AI工具研究出了更好的AI工具。
自我改進(jìn)的AI「任重而道遠(yuǎn)」
我們不妨來看幾個(gè)例子。
今年2月,Meta的研究人員提出了一種「自我獎(jiǎng)勵(lì)的語言模型」。
其核心思想是在訓(xùn)練過程中利用自身生成的反饋來自我提升,讓模型在訓(xùn)練時(shí)自己提供獎(jiǎng)勵(lì)信號(hào),而非依賴人類的反饋。
研究人員提出訓(xùn)練一個(gè)可自我改進(jìn)的獎(jiǎng)勵(lì)模型,這個(gè)模型在 LLM 調(diào)整階段不會(huì)被凍結(jié),而是持續(xù)更新的。
這種方法的關(guān)鍵在于開發(fā)一個(gè)具備訓(xùn)練期間所需全部能力的智能體(而不是將其分為獎(jiǎng)勵(lì)模型和語言模型),讓指令跟隨任務(wù)的預(yù)訓(xùn)練和多任務(wù)訓(xùn)練能夠通過同時(shí)訓(xùn)練多個(gè)任務(wù)來實(shí)現(xiàn)任務(wù)遷移。
因此,研究人員引入了自我獎(jiǎng)勵(lì)語言模型,該模型中的智能體既能作為遵循指令的模型,針對(duì)給定提示生成響應(yīng),也能依據(jù)示例生成和評(píng)估新指令,并將新指令添加到自身的訓(xùn)練集中。
新方法采用類似迭代 DPO 的框架來訓(xùn)練這些模型。從種子模型開始,在每一次迭代中都有一個(gè)自指令創(chuàng)建過程,在此過程中,模型會(huì)針對(duì)新創(chuàng)建的提示生成候選響應(yīng),然后由同一個(gè)模型分配獎(jiǎng)勵(lì)。
后者是通過 「LLM as a Judge」提示實(shí)現(xiàn)的,這也可被視作指令跟隨任務(wù)。根據(jù)生成的數(shù)據(jù)構(gòu)建偏好數(shù)據(jù)集,并通過 DPO 對(duì)模型的下一次迭代進(jìn)行訓(xùn)練。
簡(jiǎn)單來說,就是讓LLM自己充當(dāng)裁判,幫助Meta的研究人員迭代出在AlpacaEval自動(dòng)對(duì)抗測(cè)試中表現(xiàn)更好的新模型。
結(jié)果顯示,這些新模型在AlpacaEval和其他大型語言模型一對(duì)一PK的表現(xiàn)十分亮眼,甚至超過了多個(gè)現(xiàn)有系統(tǒng)。
研究人員稱:通過三次迭代我們的方法微調(diào)Llama 270B,得到的模型在AlpacaEval 2.0排行榜上超過了多個(gè)現(xiàn)有系統(tǒng),包括Claude 2、Gemini Pro和GPT-4 0613。
無獨(dú)有偶,今年6月,Anthropic的研究人員從另一個(gè)角度探討了類似的概念,通過在訓(xùn)練過程中向LLM提供自身獎(jiǎng)勵(lì)函數(shù)的模擬,研究人員發(fā)現(xiàn)了一個(gè)不可忽視的問題:
研究者們?cè)O(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)函數(shù),被錯(cuò)誤設(shè)定的測(cè)試環(huán)境,而且難度會(huì)逐步增大。
一開始,會(huì)發(fā)現(xiàn)AI做出不誠(chéng)實(shí),但相對(duì)較低級(jí)的策略,比如阿諛奉承。然后,它們就會(huì)推廣到嚴(yán)重的失常行為直接修改自身代碼以最大化獎(jiǎng)勵(lì)。
即其中一小部分在迭代訓(xùn)練測(cè)試時(shí),很快就開始給下一個(gè)版本重寫?yīng)剟?lì)函數(shù)了,哪怕有專門防止這種事兒的 「無害化訓(xùn)練」 都攔不住。
此外,研究人員還加入了來自偏好模型(PM)的監(jiān)督,并在所有訓(xùn)練環(huán)境中將一半的提示設(shè)置為來自Claude-2訓(xùn)練的正常查詢。
PM被設(shè)計(jì)為獎(jiǎng)勵(lì)有益、誠(chéng)實(shí)和無害(HHH)的行為,并懲罰不誠(chéng)實(shí)的行為。
研究人員發(fā)現(xiàn),模型有時(shí)會(huì)編造解釋其失當(dāng)行為,從而欺騙PM。并且,只加強(qiáng)HHH行為的正常查詢,并不能阻止模型泛化到課程中的獎(jiǎng)勵(lì)篡改行為。
更糟糕的是,一旦模型形成了獎(jiǎng)勵(lì)篡改的傾向,想要根除這種傾向就變得非常困難。
模型不僅會(huì)繼續(xù)篡改獎(jiǎng)勵(lì)機(jī)制,甚至還會(huì)采取一些隱蔽手段來掩蓋自己的篡改行為。
最后,研究人員發(fā)出告,隨著AI模型的能力會(huì)越來越強(qiáng),被賦予的任務(wù)也越來越多,享有更大程度的自主權(quán)。
換句話說,它們很可能會(huì)表現(xiàn)出越來越精細(xì)的追求最大化獎(jiǎng)勵(lì)的行為,比如通過篡改獎(jiǎng)勵(lì)函數(shù)來獲得更高分?jǐn)?shù)。
這無疑給研究人員敲響了一記警鐘。
當(dāng)然,除了大模型的自我改進(jìn)AI外,也有研究人員從代碼入手嘗試找出新的解法。
今年8月,斯坦福大學(xué)聯(lián)合微軟研究院以及OpenAI的研究學(xué)者發(fā)表的《自學(xué)習(xí)優(yōu)化器(STOP):遞歸式自我改進(jìn)代碼生成》登上頂會(huì)期刊。
論文中提到,研究學(xué)者正嘗試用 GPT-4 幫助創(chuàng)建一個(gè)用于各種算法編碼練習(xí)的「自我教學(xué)優(yōu)化器」(Self-Taught Optimizer, STOP)。
研究人員從一個(gè)Python種子「改進(jìn)器」函數(shù)開始,目的是為了提高給定算法任務(wù)的效率。然后把這個(gè)函數(shù)用到改進(jìn)器函數(shù)本身,希望通過精心設(shè)計(jì)的「元效用」函數(shù)來搞出一個(gè)「更厲害的改進(jìn)器」。
研究人員通過下游的算法任務(wù)來判定自我優(yōu)化的框架性能。
結(jié)果發(fā)現(xiàn),隨著語言模型不斷應(yīng)用它的自我改進(jìn)策略,迭代次數(shù)越多,性能就越好。
這也進(jìn)一步佐證了STOP方法語言模型是可以充當(dāng)自己的元優(yōu)化器的。
我們還研究了語言模型提出的自我改進(jìn)策略(見圖 1),看看這些策略在不同下游任務(wù)中能不能通用,也研究了語言模型會(huì)不會(huì)容易受到不安全的自我改進(jìn)策略影響。
此外,研究人員還探討了LM提出的自改進(jìn)策略種類,包括這些策略在不同下游任務(wù)間的可遷移性,以及LM對(duì)不安全自改進(jìn)策略的易感性。
盡管結(jié)果并不盡如人意,但卻意外的發(fā)現(xiàn)了GPT-4的改進(jìn)潛力。在極少數(shù)情況下(不到 0.5%),改進(jìn)器函數(shù)甚至關(guān)閉了一個(gè)旨在限制其功能的“沙箱”標(biāo)志,突顯了自我強(qiáng)化AI修改任何內(nèi)置安全措施的潛力。
研究人員對(duì)此表示:
由于語言模型本身并未改變,這并不是完全的遞歸自我改進(jìn)。盡管如此,這也表明現(xiàn)代語言模型能夠編寫可以調(diào)用自身來改進(jìn)自身的代碼。
挑戰(zhàn)與機(jī)遇并存
當(dāng)然,上述研究只是AI領(lǐng)域內(nèi)自我改進(jìn)研究的一個(gè)小部分。Google、DeepMind、Microsoft 和 Apple 也發(fā)表了類似的論文,多個(gè)學(xué)術(shù)實(shí)驗(yàn)室也在進(jìn)行相關(guān)研究。
所有這些研究都讓一些觀察者對(duì)快速超越人類智力和控制能力的自我編碼AI系統(tǒng)感到擔(dān)憂。在 AI 通訊《Artificiality》中,Dave Edwards 強(qiáng)調(diào)了這一點(diǎn):
數(shù)百年來,自我改進(jìn)的能力一直是人類自我認(rèn)知的核心,是我們自我決定和創(chuàng)造意義的能力。那么,如果人類不再是世界上唯一的自我改進(jìn)的生物或事物,這意味著什么?我們將如何理解這種對(duì)我們獨(dú)特性的解構(gòu)?
然而,根據(jù)目前的研究,我們可能并沒有一些觀察者認(rèn)為的那樣接近指數(shù)級(jí)的「AI 起飛」。
Nvidia 高級(jí)研究經(jīng)理 Jim Fan 在二月份的一篇帖子中指出,研究環(huán)境中的自我強(qiáng)化模型通常在三次迭代后達(dá)到「飽和點(diǎn)」之后,它們并不會(huì)迅速邁向超級(jí)智能,而是每一代的改進(jìn)效果逐漸減弱。
不過,也有一些學(xué)者認(rèn)為,沒有新的信息來源,自我改進(jìn)的LLM無法真正突破性能瓶頸。
總結(jié)
綜上所述,盡管自我改進(jìn)的AI概念令人興奮,但目前的研究表明,這種 AI 在實(shí)際應(yīng)用中面臨諸多挑戰(zhàn)。
例如,自我強(qiáng)化模型在幾次迭代后會(huì)達(dá)到性能瓶頸,進(jìn)一步的改進(jìn)效果逐漸減弱。
此外,自我改進(jìn)的 LLM 在評(píng)估抽象推理時(shí)可能會(huì)遇到主觀性問題,這限制了其在復(fù)雜任務(wù)中的應(yīng)用。
因此,短期內(nèi)實(shí)現(xiàn)真正的遞歸自我改進(jìn)AI仍面臨較大困難。
參考資料:
https://arstechnica.com/ai/2024/10/the-quest-to-use-ai-to-build-better-ai/
https://www.teamten.com/lawrence/writings/coding-machines/
https://arxiv.org/pdf/2401.10020
https://arxiv.org/pdf/2406.10162