展會信息港展會大全

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒
來源:互聯(lián)網   發(fā)布日期:2024-12-08 19:55:18   瀏覽:157次  

導讀:AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文主要作者來自LMMs-Lab團隊與新加坡南洋理工大學,分別是張愷宸、沈逸飛、李博,指 ......

AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文主要作者來自LMMs-Lab團隊與新加坡南洋理工大學,分別是張愷宸、沈逸飛、李博,指導老師為MMLab@NTU劉子緯教授。LMMs-Lab是一個由學生,研究人員和教師組成的團隊,致力于多模態(tài)模型的研究,主要研究方向包括多模態(tài)模型的訓練以及全面評估,此前的工作包括多模態(tài)測評框架 LMMs-Eval,以及多模態(tài)模型 LLaVA-OneVision,長視頻理解模型LongVA等。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

多模態(tài)大模型(LMMs)給語言模型裝上了 “眼睛”,讓 AI 更接近通用智能。但它們的大腦里每個神經元到底在干啥?南洋理工大學 LMMs-Lab 團隊用 “模型看模型” 的方法,成功解鎖了數十萬神經元的秘密。

以 GPT4V 為代表的多模態(tài)大模型(LMMs)在大語言模型(LLMs)上增加如同視覺的多感官技能,以實現更強的通用智能。雖然 LMMs 讓人類更加接近創(chuàng)造智慧,但迄今為止,我們并不能理解自然與人工的多模態(tài)智能是如何產生的。

像 LLaVA 一樣的開源模型是理解多模態(tài)智能的一個契機。但這些模型(在未來)可能比人類更加聰明,如何去理解他們的智力呢?來自南洋理工大學的 LMMs-Lab 團隊給出的解決方案是:問問 LLaVA 自己是怎么說的。

LMMs-Lab 團隊使用 LLaVA-OV-72B 對 LLaVA-NeXT-8B 中的神經元進行了自動解讀,獲得了非常多有趣的結果。

傳統(tǒng)的可解釋性的研究是人工去檢查每個神經元并且解讀他們的含義。這樣的操作很難拓展到多模態(tài)大模型上:其一,多模態(tài)大模型的神經元數量是傳統(tǒng)模型的成百上千倍,人工檢查成本過于高昂;其二,根據神經科學中的分布式表示原理,一個神經元可能會有多個含義,一個語義可能分布在多個神經元當中。

在大語言模型中,OpenAI 和 Anthropic 提出了使用稀疏自編碼機來解離特征表示,或者用更大的語言模型來解讀小模型里面的神經元。比如使用 GPT-4 解讀 GPT-2。但這些工作尚未被應用到多模態(tài)模型當中,圖像作為比語言更加自然的信號,解讀圖像與文字的交互能讓人們更加理解智能的產生。LMMs-Lab 基于這些工作對于 LLaVA-NeXT-8B 做出了初步的嘗試:使用稀疏自編碼機(SAEs)來把多語義神經元解離為單語義神經元,并且用 LLaVA-OV-72B 對單語義神經元進行自動解釋,解釋能夠接近人類水平。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

論文地址:arxiv.org/abs/2411.14982

代碼:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis.

5k 個神經元解讀樣例:lmms-lab/llava-sae-explanations-5k·Datasets at Hugging Face

這個項目能夠讓自動挖掘多模態(tài)大模型中神經元的語義信息,讓后續(xù)研究工作可以通過修改神經元的激活來改變模型行為,包括減少幻覺和增加安全性。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

(a) 把 SAE 放在 Llava 的某一層并且在 Llava-NEXT 所有數據上訓練;(b) 找到一個神經元的最大激活的圖片和區(qū)域,讓 Llava 找出公共點;(c) 刺激神經元可以改變模型行為

具體方法

使用 LMMs 解釋 LMMs 分為以下個步驟:

步驟一:用 SAEs 獲得單語義神經元

SAE 是一個可以追溯到 1996 年的經典解釋性的方法 [1] ,其本質是對特征找到一組互相關性很小的基,把特征分解為這組基的一個稀疏表示。因為基的互相關性很小,所以這些基很可能是單語義的。這篇文章使用了 OpenAI 的兩層 SAE 實現:

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

其中 z 是稀疏表示也是 SAEs 的神經元,W_2 是一組基。

步驟二:使用 LLaVA 解釋單語義神經元

對于上一步當中 SAE 的每個神經元 z,獲得訓練集里面激活最大的 K 張圖片,以及激活最大的圖像區(qū)域,把這些圖像給 LLaVA-OV-72B 找出共同點。

模型對神經元生成的解釋:炸薯條。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

步驟三:刺激對應的神經元

把 SAE 神經元的激活值調高,看看模型如何表現。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

可以看到,無論是否包含圖像輸入或者是純文字輸入,LMM 與 LLM 的不同之處在于能夠理解視覺輸入,我們在稀疏編碼器的神經元中也找到了許多與 LLM 不一樣的地方。在進行神經元探測時,我們發(fā)現不同于先前的 LLM 工作,往往激活最強烈的神經元并不是與高層級概念直接相關的,而是許多低層級的感知神經元。這體現了模型的思考步驟,先看懂物體是什么,再去思考更高層級的抽象概念,譬如情感等概念。

LMMs 獨特的神經元

低層級感知神經元:對線條形狀紋理激活的神經元

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

物體神經元

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

感情與共情神經元

這種方法找到了很多情感神經元,在刺激這些神經元之前,模型是一個冰冷的 AI,刺激這些神經元能夠引發(fā)模型的共情。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

多模態(tài)一致性神經元

對動作場景,以及對應文字圖像都激活的神經元。下圖描繪了對于吃和 hungry 文字都激活的神經元,這樣的神經元在人腦中也存在 [2] 。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

定位模型錯誤原因

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

LMM 在實際應用使往往會產生許多幻覺,上面便是 LLaVA-NeXT-8B 在實際場景下產生幻覺的一個例子,圖片中并未標注玻利維亞但模型仍舊回答了 “Yes”。為了研究為何產生這一現象以及如何通過刺激神經元的方式抑制這一現象,我們效仿了 [3,4] 的方法進行探究。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

通過探究發(fā)現,造成模型輸出 Yes 的罪魁禍首并不在圖像的理解能力上,模型能夠很好的找到需要關注的點,并準確的找到各個國家的名字。然而,在文字上面,我們發(fā)現模型過分的關注了 Bolivia 這一詞,導致了最后的輸出產生幻覺。通過這一探究,我們思考如何能夠抑制這一幻覺現象并展開了實驗。

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態(tài)智能黑盒

我們展示了兩個例子用刺激神經元的方式成功抑制了這一現象。我們嘗試激活 OCR 相關的神經元,強行讓模型關注點集中在圖像上,而這成功使得模型 “回心轉意”,不再依賴文字的輸出。

可能的應用以及局限性

因為這超出了文章的范圍,這篇文章只給出了一個應用:找到引起幻覺的神經元并糾正。在未來,這樣的方法可以找出模型有危害、不誠實行為的原因并加以修正,真正達到可控的 AGI。但到達這個目標還有很多問題需要一一攻克:

1. 更高效的自動可解釋流程  由于稀疏編碼器中的神經元數量眾多且需要緩存大量激活值,解釋所有神經元在目前代價十分高昂。

2. 自動激活神經元的流程  自動且高效地尋找并刺激神經元從而達到控制模型輸出的目的

3. 更準確的自動解釋流程  由于模型的局限性,許多神經元的解釋往往存在錯誤,隨著多模態(tài)大模型的推理能力逐漸增強,我們相信這一問題將會被慢慢攻克

參考文獻

[1] Bruno A Olshausen and David J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381 (6583):607609, 1996.

[2] R Quian Quiroga, Leila Reddy, Gabriel Kreiman, Christof Koch, and Itzhak Fried. Invariant visual representation by single neurons in the human brain. Nature, 435 (7045):11021107, 2005.

[3] Neel Nanda. Attribution patching: Activation patching at industrial scale. https://www.neelnanda.io/mechanistic-interpretability/attribution-patching,2023.Accessed: 2024-09-30.

[4] Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, and Tom Henighan. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread, 2024

贊助本站

相關內容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港