當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 打開AI黑箱：DeepMind開發(fā)的新工具可揭示大模型內(nèi)部秘密

打開AI黑箱：DeepMind開發(fā)的新工具可揭示大模型內(nèi)部秘密
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 08:36:26 瀏覽：86次

導(dǎo)讀：來源：MIT Technology Review人工智能已經(jīng)在藥物研發(fā)和機(jī)器人技術(shù)領(lǐng)域取得了突破，同時(shí)正在徹底改變我們與機(jī)器和網(wǎng)絡(luò)的互動(dòng)方式。然而，唯一的問題是我們并不完全知道它是如何運(yùn)作的，也不清楚它為何如此有效。雖然我們對(duì)其有一定的了解，但細(xì)節(jié)過于復(fù)雜，難以理清。這是一個(gè)潛在的問題：如果我們?cè)诓涣私馄錆撛谌毕莸那闆r下將 AI 系統(tǒng)應(yīng)用到諸如醫(yī)療這樣高度敏感的領(lǐng)域，可能 ......

打開AI黑箱：DeepMind開發(fā)的新工具可揭示大模型內(nèi)部秘密

來源：MIT Technology Review

人工智能已經(jīng)在藥物研發(fā)和機(jī)器人技術(shù)領(lǐng)域取得了突破，同時(shí)正在徹底改變我們與機(jī)器和網(wǎng)絡(luò)的互動(dòng)方式。然而，唯一的問題是我們并不完全知道它是如何運(yùn)作的，也不清楚它為何如此有效。雖然我們對(duì)其有一定的了解，但細(xì)節(jié)過于復(fù)雜，難以理清。這是一個(gè)潛在的問題：如果我們?cè)诓涣私馄錆撛谌毕莸那闆r下將 AI 系統(tǒng)應(yīng)用到諸如醫(yī)療這樣高度敏感的領(lǐng)域，可能會(huì)導(dǎo)致嚴(yán)重后果。

Google DeepMind 的一個(gè)團(tuán)隊(duì)專注于研究所謂的“機(jī)制可解釋性”（mechanistic interpretability），他們一直致力于開發(fā)新方法來幫助我們“揭開蓋子”。7 月底，該團(tuán)隊(duì)發(fā)布了一款名為 Gemma Scope 的工具，旨在幫助研究人員了解 AI 在生成輸出時(shí)發(fā)生了什么。希望通過更深入地了解 AI 模型內(nèi)部的工作原理，我們能夠更有效地控制其輸出，從而開發(fā)出更優(yōu)質(zhì)的 AI 系統(tǒng)。

“我希望能直接查看模型內(nèi)部，判斷它是否存在欺騙行為，”Google DeepMind 機(jī)制可解釋性團(tuán)隊(duì)負(fù)責(zé)人 Neel Nanda 說�！澳軌蜃x懂模型的‘思想’似乎會(huì)大有幫助。”

機(jī)制可解釋性，又稱“mech interp”，是一個(gè)新興的研究領(lǐng)域，旨在理解神經(jīng)網(wǎng)絡(luò)的實(shí)際運(yùn)作方式。目前，我們大致知道 AI 的運(yùn)作流程：我們向模型輸入大量數(shù)據(jù)，然后在訓(xùn)練結(jié)束時(shí)獲得一組模型權(quán)重。這些權(quán)重是決定模型如何做出決策的參數(shù)。雖然我們對(duì)輸入數(shù)據(jù)與模型權(quán)重之間的過程有一定的了解，但這些模式可能極其復(fù)雜，且通常難以為人類所理解。

這種情況就像一個(gè)老師在批改一份復(fù)雜數(shù)學(xué)題的考試答案。學(xué)生（在這里是 AI）給出了正確的答案，但解題步驟看起來像一堆亂涂亂畫。這假設(shè) AI 總是能得出正確答案，但實(shí)際上并非如此；AI 可能會(huì)找到一些無關(guān)的模式，并將其視為有效。例如，當(dāng)前的一些 AI 系統(tǒng)可能會(huì)錯(cuò)誤地認(rèn)為 9.11 比 9.8 大。機(jī)制可解釋性領(lǐng)域的各種方法正開始逐步揭示這些復(fù)雜現(xiàn)象，幫助我們理解這些“亂涂亂畫”。

“機(jī)制可解釋性的一個(gè)關(guān)鍵目標(biāo)是試圖逆向工程這些系統(tǒng)內(nèi)部的算法，”Nanda 說�！氨热缥覀兘o模型一個(gè)提示，讓它寫一首詩，然后它寫出了押韻的句子。那么，它是通過什么算法實(shí)現(xiàn)的？我們非常希望能搞明白�！�

為了在其 AI 模型 Gemma 中發(fā)現(xiàn)特征（即表示更大概念的數(shù)據(jù)類別），DeepMind在每一層中運(yùn)行了一種名為“稀疏自編碼器”（sparse autoencoder）的工具。可以將稀疏自編碼器想象成一臺(tái)顯微鏡，放大這些層次的細(xì)節(jié)。例如，當(dāng)你向 Gemma 輸入“chihuahua”（吉娃娃）時(shí)，它會(huì)觸發(fā)“狗”的特征，從而點(diǎn)亮模型對(duì)“狗”的理解。這種工具被稱為“稀疏”的原因在于，它限制了使用的神經(jīng)元數(shù)量，從而推動(dòng)更高效、更具概括性的數(shù)據(jù)表示。

使用稀疏自編碼器的難點(diǎn)在于如何決定解析的粒度。再次類比顯微鏡：如果放大過度，可能會(huì)讓看到的細(xì)節(jié)難以理解；但如果縮放不足，又可能錯(cuò)過一些有趣的發(fā)現(xiàn)。

DeepMind 的解決方案是在不同的粒度上運(yùn)行稀疏自編碼器，調(diào)整自編碼器要發(fā)現(xiàn)的特征數(shù)量。該項(xiàng)目的目標(biāo)并不是讓 DeepMind 的研究人員自己徹底分析結(jié)果，而是通過開放源碼的 Gemma 和自編碼器，激發(fā)其他研究人員利用這些工具深入研究，從而獲得新的洞察。通過在模型的每一層上運(yùn)行自編碼器，研究人員能夠以前所未有的方式繪制出從輸入到輸出的映射過程。

“這對(duì)可解釋性研究者來說非常令人興奮，”Anthropic 的研究員 Josh Batson 說�！伴_放源碼的模型意味著更多的可解釋性研究可以以這些稀疏自編碼器為基礎(chǔ)展開。這大大降低了學(xué)習(xí)和應(yīng)用這些方法的門檻�！�

Neuronpedia，一個(gè)專注于機(jī)制可解釋性的平臺(tái)，在 7 月與 DeepMind 合作開發(fā)了 Gemma Scope 的演示版，目前可以在線體驗(yàn)。在這個(gè)演示中，用戶可以測(cè)試不同的提示，觀察模型如何分解提示，并點(diǎn)亮哪些激活特征。你還可以調(diào)整模型，比如將“狗”的特征激活值調(diào)到很高，然后再問關(guān)于美國(guó)總統(tǒng)的問題，Gemma 可能會(huì)插入一些關(guān)于狗的隨機(jī)胡言亂語，甚至可能直接開始模仿狗叫。

稀疏自編碼器的一個(gè)有趣之處在于它們是無監(jiān)督的，也就是說，它們會(huì)自己發(fā)現(xiàn)特征。這往往會(huì)帶來一些意想不到的發(fā)現(xiàn)，比如模型如何解構(gòu)人類概念。“我個(gè)人最喜歡的特征是‘尷尬特征’，”Neuronpedia 的科學(xué)負(fù)責(zé)人 Joseph Bloom 說�！八坪醭霈F(xiàn)在對(duì)文本和電影的負(fù)面批評(píng)中。這是一個(gè)很棒的例子，展示了模型如何捕捉非常人性化的東西。”

Neuronpedia 允許用戶搜索概念，并突出顯示在特定詞語或符號(hào)上激活的特征以及激活強(qiáng)度�！叭绻汩喿x文本，看到綠色高亮的部分，那是模型認(rèn)為‘尷尬’概念最相關(guān)的地方。最活躍的例子通常是某人在向別人說教，”Bloom 補(bǔ)充道。

一些特征比其他特征更容易追蹤。“對(duì)于一個(gè)模型來說，最重要的特征之一是欺騙特征，”Neuronpedia 的創(chuàng)始人 Johnny Lin 說。“但想找到一個(gè)特征專門在模型撒謊時(shí)被激活并不容易。從我目前所見，還沒有成功明確找到這種特征并禁用它的案例�！�

DeepMind 的研究與另一家 AI 公司 Anthropic 在今年 5 月的研究有些相似。當(dāng)時(shí)，Anthropic 用稀疏自編碼器分析其模型 Claude 討論舊金山金門大橋時(shí)的激活部分。研究人員將與金門大橋相關(guān)的激活值放大到極致，以至于 Claude 不再將自己視為 AI 模型，而是自稱金門大橋，并以金門大橋的身份回答提示。

雖然聽起來有些古怪，但機(jī)制可解釋性研究可能非常有用。“作為一種工具，它有助于我們理解模型如何進(jìn)行泛化以及在什么抽象層級(jí)工作，這些特征非常重要，”Batson 說。

例如，由 Samuel Marks 領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)（他現(xiàn)在就職于 Anthropic）使用稀疏自編碼器發(fā)現(xiàn)了一個(gè)特征，表明某個(gè)模型將某些職業(yè)與特定性別關(guān)聯(lián)起來。研究人員隨后關(guān)閉了這些性別特征，從而減少了模型中的性別偏見。這項(xiàng)實(shí)驗(yàn)是在一個(gè)非常小的模型上完成的，因此尚不清楚其成果是否能應(yīng)用于更大的模型。

機(jī)制可解釋性研究還可以幫助我們了解 AI 為何會(huì)犯錯(cuò)。例如，在 AI 判斷 9.11 比 9.8 大的案例中，Transluce 的研究人員發(fā)現(xiàn)，這個(gè)問題激活了模型中與《圣經(jīng)》章節(jié)和 9 月 11 日相關(guān)的部分。他們推測(cè)，AI 可能將數(shù)字理解為日期，并認(rèn)為后者時(shí)間更晚，從而得出 9.11 大于 9.8 的結(jié)論。此外，在許多宗教文本中，9.11 章節(jié)通常位于 9.8 章節(jié)之后，這也可能導(dǎo)致 AI 認(rèn)為 9.11 更大。了解了 AI 為何出錯(cuò)后，研究人員降低了模型中與《圣經(jīng)》和 9 月 11 日相關(guān)的激活值，隨后模型在被重新提問時(shí)得出了正確答案。

此外，這類研究還有其他潛在應(yīng)用。目前，大型語言模型（LLM）中內(nèi)置了一種系統(tǒng)級(jí)提示，用于應(yīng)對(duì)用戶提出諸如“如何制造炸彈”之類的問題。當(dāng)你向 ChatGPT 提出問題時(shí)，OpenAI 會(huì)首先秘密地提示模型避免回答制造炸彈或其他不當(dāng)內(nèi)容。然而，用戶可以通過巧妙的提示繞過這些限制。

如果模型的創(chuàng)建者能夠明確 AI 系統(tǒng)中與“制造炸彈”相關(guān)的知識(shí)節(jié)點(diǎn)，他們理論上可以永久關(guān)閉這些節(jié)點(diǎn)。這樣，即使是最復(fù)雜的提示，也無法讓 AI 提供有關(guān)炸彈制造的答案，因?yàn)?AI 系統(tǒng)中將徹底缺乏這方面的信息。

然而，目前的機(jī)制可解釋性研究尚不足以實(shí)現(xiàn)這種精確控制�！耙粋€(gè)限制在于模型參數(shù)調(diào)整（steering）的效果還不夠好，”Lin 說。“例如，當(dāng)我們?cè)噲D減少模型中的暴力內(nèi)容時(shí)，往往會(huì)完全抹殺其武術(shù)相關(guān)的知識(shí)。參數(shù)調(diào)整需要更多精細(xì)化的改進(jìn)�！币浴罢◤椫圃臁钡闹R(shí)為例，它并不是 AI 模型中簡(jiǎn)單的開關(guān)，而是可能散布在多個(gè)部分中。禁用這些知識(shí)可能需要同時(shí)犧牲 AI 在化學(xué)等領(lǐng)域的部分能力。任何干預(yù)可能都有好處，但也會(huì)帶來顯著的代價(jià)。

盡管如此，如果我們能夠更深入地理解并清晰地觀察 AI 的“內(nèi)心世界”，DeepMind 和其他公司相信，機(jī)制可解釋性可能為 AI 對(duì)齊（alignment）提供一種可行的路徑。這一過程的目標(biāo)是確保 AI 真正按照人類的意圖執(zhí)行任務(wù)。

原文鏈接：

https://www.technologyreview.com/2024/11/14/1106871/google-deepmind-has-a-new-way-to-look-inside-an-ais-mind/

上一篇：VR奇遇，機(jī)器人同行

下一篇：Salesforce CEO：大模型可能已接近技術(shù)上限，AI的未來是智能體

打開AI黑箱：DeepMind開發(fā)的新工具可揭示大模型內(nèi)部秘密
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 08:36:26 瀏覽：86次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

打開AI黑箱：DeepMind開發(fā)的新工具可揭示大模型內(nèi)部秘密 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 08:36:26 瀏覽：86次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

打開AI黑箱：DeepMind開發(fā)的新工具可揭示大模型內(nèi)部秘密
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 08:36:26 瀏覽：86次