展會信息港展會大全

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密
來源:互聯網   發(fā)布日期:2024-11-10 18:46:02   瀏覽:0次  

導讀:劃重點01谷歌、蘋果等機構研究人員發(fā)現,大模型知道的遠比表現的要多,內部表征可以用來預測LLM可能會犯錯的錯誤類型。02研究團隊分析了LLM內部狀態(tài),發(fā)現真實性信息集中在特定的token,而且并不均勻分布。03然而,現有的錯誤檢測方法往往關注最后生成的token或取平均值,可能會錯過關鍵細節(jié)。04通過比較使用、不使用精確答案token的性能,研究人員發(fā)現精確答案token的性能優(yōu)于 ......

劃重點

01谷歌、蘋果等機構研究人員發(fā)現,大模型知道的遠比表現的要多,內部表征可以用來預測LLM可能會犯錯的錯誤類型。

02研究團隊分析了LLM內部狀態(tài),發(fā)現真實性信息集中在特定的token,而且并不均勻分布。

03然而,現有的錯誤檢測方法往往關注最后生成的token或取平均值,可能會錯過關鍵細節(jié)。

04通過比較使用、不使用精確答案token的性能,研究人員發(fā)現精確答案token的性能優(yōu)于其他位置。

05最后,研究結果表明,使用探測器選擇答案可以提高大模型在所有檢查任務中的準確性。

以上內容由大模型生成,僅供參考

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

新智元報道編輯:桃子

【新智元導讀】大模型幻覺,究竟是怎么來的?谷歌、蘋果等機構研究人員發(fā)現,大模型知道的遠比表現的要多。它們能夠在內部編碼正確答案,卻依舊輸出了錯誤內容。

到現在為止,我們仍舊對大模型「幻覺」如何、為何產生,知之甚少。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

最近,來自Technion、谷歌和蘋果的研究人員發(fā)現,LLM「真實性」的信息集中在特定的token,而且并不均勻分布。

正如論文標題所示,「LLM知道的往往要比表現出來的更多」。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

論文地址:https://arxiv.org/pdf/2410.02707

不僅如此,他們還發(fā)現,內部表征可以用來預測LLM可能會犯錯的錯誤類型。

它的優(yōu)勢在于,未來有助于開發(fā)出針對性的解決方案。

最后,研究團隊還解釋了,大模型內部編碼和外部行為之間存在的差異:

它們可能在內部編碼了正確答案,卻持續(xù)生成錯誤答案。

幻覺,如何定義?

事實錯誤、偏見,以及推理失誤,這些統稱為「幻覺」。

以往,大多數關于幻覺的研究,都集中在分析大模型的外部行為,并檢查用戶如何感知這些錯誤。

然而,這些方法對模型本身如何編碼、處理錯誤提供了有限的見解。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

近期另有一些研究表明,LLM內部狀態(tài)其實「知道」那些輸出可能是錯誤的,而且這種「知識」被編碼在模型內部狀態(tài)中。

這一發(fā)現可以幫助提高錯誤檢測的性能,并進一步緩解這些問題。

不過其中一個缺陷是,這些研究主要集中在檢驗模型生成最后一個token、或提示符中最后一個token。

由于LLM通常會生成長篇的響應,因此這一做法可能會錯過關鍵細節(jié)。

在最新研究中,研究團隊采取了不同的方法:

不只是看最終的輸出,而是分析「確切的答案token」,如若修改,將會改變答案的正確性的相應token。

最終證明了,LLM內部表征所包含的真實性信息,比以往要多得多。

但這種錯誤檢測器難以在不同數據集之間泛化,這說明真實性編碼并非統一的,而是多方面的。

更好的錯誤檢測

給定一個大模型M,輸入提示p、模型生成的響應,任務預測是正確還是錯誤的。

假設可以訪問LLM內部狀態(tài)(即白盒設置),但不能訪問任何外部資源(如搜索引擎或其他LLM)。

數據集使用的是谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

,包含N個問題-標簽對,谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

代表著一系列問題,谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

代表著對應的真實答案。

對于每個問題q_i,作者讓模型M生成響應y_i,得到預測答案集谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

。

接下來, 研究人員構建了錯誤檢測數據集,通過將每個生成的響應_i與真實標簽y_i比較,以評估其正確性。

比較結果會產生出一個正確的標簽z_i ∈ {0, 1}(1表示正確,0表示錯誤)。

這種比較可以通過自動啟發(fā)式方法,在指令型LLM的協助下完成。

最終的錯誤檢測數據集為谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

。其排除了LLM拒絕回答的情況,因為這些可以輕易地被分類為錯誤。

接下來,研究人員在Mistral 7B和Llama 2模型的四個變體上進行了實驗。

這些模型跨越了十個數據集,涵蓋了各種任務。

其中包括問答、自然語言推理、數學問題解決、情感分析。

他們允許模型生成不受限制的響應,來模擬真實世界的使用情況。

這里,一共用到了三種錯誤檢測方法:Aggregated probabilities / logits、P(True)、Probing。

精確答案token

現有的方法經常忽略一個關鍵的細微差別:用于錯誤檢測的token選擇,通常關注最后生成的token或取平均值。

然而,由于大模型通常會生成長篇回復,這種做法可能會錯過關鍵細節(jié)。

還有一些方法使用提示最后的一個token,但本質上是不正確的,因為大模型的單向性,未能考慮生成響應和丟失的情況,其中同一模型的不同采樣答案在不同情況下,有所不同正確性。

對此,研究人員檢查了以往未經檢查的token位置:確切的答案token,代表生成響應中最有意義的部分。

他們將精確答案token定義為那些修改會改變答案的正確性token,而忽略了后續(xù)生成的內容。

如下圖圖1,說明了不同的token位置。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

實驗結果

真實性編碼模式

研究人員首先專注于探索分類器,以了解LLM的內部表征。

具體來說,廣泛分析了層和token選擇對這些分類器激活提取的影響。這是通過系統地探測模型的所有層來完成的,從最后一個問題token開始,一直到最終生成的token。

下圖2顯示了Mistral-7b-Instruct各個層和token中經過訓練的探測器的AUC指標。

雖然,某些數據似乎更容易進行錯誤預測,但所有數據集都表現出一致的真實性編碼模式。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

對于token來說,提示后立即出現了強烈的真實性信號,表明這種表征編碼了有關模型正確回答問題的一般能力的信息。

對著文本生成的進行,該信號會減弱,但在確切的答案token處,再次達到峰值。

在生成過程即將結束時,信號強度再次上升,表明了該表征編碼了整個生成過程的特征,盡管它仍弱于確切答案token。

錯誤檢測結果

接下來,研究人員通過比較使用、不使用精確答案token的性能,來評估各種錯誤檢測方法。

表1比較了三個代表性數據集的AUC。

在這里,他們展示了最后一個精確答案token的結果,它的性能優(yōu)于第一個精確答案token及其前面的token,而最后一個精確答案token之后的token性能類似。

合并精確答案token,有助于改進幾乎所有數據集中的不同錯誤檢測方法。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

任務之間的泛化

以上,探測分類器在檢測錯誤方面有效性,表明了大模型對其輸出的真實性進行了編碼。

但目前仍不清楚的是,它們跨任務的通用性。

然而,理解這一點對于實際應用至關重要,因為錯誤檢測器可能會遇到與訓練時完全不同的示例。

因此,研究人員探討在一個數據集上訓練的探測器,是否可以檢測其他數據集的錯誤。

如下圖3顯示了Mistral-7b-Instruct的泛化結果。在這種情況下,高于0.5的值表明泛化成功。

乍一看,結果似乎與之前的研究一致:大多數熱圖值超過0.5,這意味著跨任務具有一定程度的泛化性。

然而,再仔細檢查,發(fā)現大部分性能可以通過基于logit的真實性檢測來實現,該檢測僅觀察輸出logits。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

圖3b顯示了從最強的基于Logit的基線(Logit-min-exact)中減去結果后的相同熱圖。

這張 調整后的熱圖揭示了探測器的泛化能力很少超過單獨檢查 logits所能達到的效果。

這意味著明顯的概括并非源于真實性的普遍內部編碼,而是反映了已經可以通過邏 輯等外部特征獲取的信息。

調查錯誤類型

在確定了錯誤檢測的局限性后,研究人員轉向錯誤分析。

錯誤分類

圖4說明了,三種代表性的錯誤類型。

在其中一個(圖4a)中,模型通常會給出正確的答案,但偶爾會出錯,這意味著存在正確的信息,但采樣可能會導致錯誤。

在第二種類型中(圖4b),模型經常做出錯誤的響應,盡管它能夠提供正確的答案,這表明盡管不斷犯同樣的錯誤,但仍然保留了一些知識。

在第三種類型中(圖4c),模型生成了大多數答案都是錯誤的,反映出對任何生成的答案的信心較低。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

研究人員通過記錄每個示例的三個特定特征來對錯誤進行分類:(a)生成的不同答案的數量;(b) 正確答案的頻率;(c) 最常見的錯誤答案的頻率。

預測錯誤類型

表2列出了所有模型的測試集結果。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

檢測正確答案

最后,在確定模型編碼各種與真實性相關的信息后,作者又研究了這種內部真實性,如何在響應生成過程中,與外部行為保持一致。

為此,他們使用了探測器(5個經過錯誤檢測訓練),從針對同一問題生成的30個響應中,選擇一個答案。

然后,根據所選答案來衡量模型的準確性。

Mistral-7b-instruct的結果如下圖5所示,總體而言,使用探測器選擇答案可以提高大模型在所有檢查任務中的準確性。

谷歌蘋果曝LLM驚人內幕,自主識錯卻裝糊涂!AI幻覺背后藏著大秘密

總之,這項研究的發(fā)現,可以幫助未來研究人員去設計更好的幻覺環(huán)節(jié)系統。

遺憾的是,它使用的技術需要訪問內部LLM表征,這也主要適用于開源模型的使用。

贊助本站

相關熱詞: google 模型 新智元 蘋果

相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港