當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動態(tài) > Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:25:49 瀏覽：0次

導(dǎo)讀：劃重點(diǎn)01西班牙瓦倫西亞理工大學(xué)團(tuán)隊(duì)在Nature發(fā)表論文，指出隨著大模型規(guī)模的擴(kuò)大和可指導(dǎo)性增強(qiáng)，其可靠性反而下降。02研究發(fā)現(xiàn)，大模型在人類認(rèn)為超高難度的任務(wù)中表現(xiàn)良好，但在同一領(lǐng)域超低難度的任務(wù)中仍可能失敗。03另一方面，新模型在復(fù)雜任務(wù)上的表現(xiàn)優(yōu)于簡單任務(wù)，導(dǎo)致人類難以預(yù)測其錯(cuò)誤輸出。04該團(tuán)隊(duì)提出新的評估框架，根據(jù)人類對任務(wù)難度的預(yù)期更全面且穩(wěn)健地評估 ......

劃重點(diǎn)

01西班牙瓦倫西亞理工大學(xué)團(tuán)隊(duì)在Nature發(fā)表論文，指出隨著大模型規(guī)模的擴(kuò)大和可指導(dǎo)性增強(qiáng)，其可靠性反而下降。

02研究發(fā)現(xiàn)，大模型在人類認(rèn)為超高難度的任務(wù)中表現(xiàn)良好，但在同一領(lǐng)域超低難度的任務(wù)中仍可能失敗。

03另一方面，新模型在復(fù)雜任務(wù)上的表現(xiàn)優(yōu)于簡單任務(wù)，導(dǎo)致人類難以預(yù)測其錯(cuò)誤輸出。

04該團(tuán)隊(duì)提出新的評估框架，根據(jù)人類對任務(wù)難度的預(yù)期更全面且穩(wěn)健地評估大模型的能力和風(fēng)險(xiǎn)。

05為解決大模型不可靠性問題，研究人員建議利用人類對任務(wù)難度的預(yù)期來訓(xùn)練或微調(diào)模型，或引導(dǎo)模型在遇到超出自身能力范圍的問題時(shí)更加謹(jǐn)慎地應(yīng)對。

以上內(nèi)容由大模型生成，僅供參考

在過去幾年，大模型面臨著不可靠性演變的局限性和挑戰(zhàn)。隨著這些模型的擴(kuò)展（使用更多的計(jì)算資源）以及后期塑造（使用人類反饋），大模型與人類用戶在交互中的可靠性卻沒有受到全面分析。

其中一個(gè)原因是學(xué)術(shù)界一直沒有重視在評測中利用任務(wù)難度去提高對通用人工智能系統(tǒng)評估的穩(wěn)健性與全面性。

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多

圖｜周樂鑫（來源：周樂鑫）

為了填補(bǔ)先前研究中的空白，改善人工智能評測的穩(wěn)健型與全面性，以及加深人們對大模型可靠性的理解，近日來自西班牙瓦倫西亞理工大學(xué)團(tuán)隊(duì)于 Nature 發(fā)表了《更大且更易于指導(dǎo)的語言模型變得不那么可靠了》（Larger and more instructable language models become less reliable）[1]。

瓦倫西亞理工大學(xué)本科畢業(yè)生周樂鑫是第一作者，何塞-埃爾南德斯-奧拉羅（Jose Hernandez-Orallo）教授擔(dān)任通訊作者。

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多

圖｜相關(guān)論文（來源：Nature）

該研究或是世界上首次對通用人工智能系統(tǒng)的穩(wěn)健評估，歸功于其在 0-100 的連續(xù)范圍內(nèi)納入了對人類對任務(wù)難度的預(yù)期考量。

在這次研究中，該團(tuán)隊(duì)從三個(gè)維度探討了大模型的可靠性和演變，其一是人類對任務(wù)難度的預(yù)期與大模型性能之間的不一致性現(xiàn)象。

他們的分析發(fā)現(xiàn)，雖然更大且更遵循指令的大模型在人類認(rèn)為超高難度的許多任務(wù)中表現(xiàn)不錯(cuò)，但是它們在許多同一領(lǐng)域超低難度的任務(wù)中仍然會失敗，而人類則不認(rèn)為它們應(yīng)當(dāng)失敗。

因此，目前大模型沒有一個(gè)“安全區(qū)”可以讓人類確信大模型可以完美地運(yùn)行，哪怕只是針對非常低難度的任務(wù)區(qū)域。

實(shí)際上，較新的大模型只在高難度任務(wù)上有明顯進(jìn)步，這加劇了人類難度預(yù)期與大模型性能之間的不一致，導(dǎo)致人類更難通過任務(wù)困難度去預(yù)判模型的錯(cuò)誤輸出。

這一點(diǎn)對于需要級高可靠性的應(yīng)用場景非常重要，因?yàn)槠湓谑褂么竽Ｐ推陂g需要識別具有近乎為零錯(cuò)誤率的“安全操作區(qū)域”。

這與人們的預(yù)期相悖，即隨著模型變得越來越大，其遵循指令的可靠性應(yīng)當(dāng)越來越強(qiáng)。

人們會理所當(dāng)然地認(rèn)為，新模型在完成簡單任務(wù)時(shí)的表現(xiàn)會更加可靠，從而用戶可以利用任務(wù)困難度去更好的預(yù)測的大模型的錯(cuò)誤分布。

接著，該團(tuán)隊(duì)針對大模型的“任務(wù)回避行為”分析了大模型不可靠性的第二個(gè)維度。該課題組介紹了大模型如何通過回復(fù)“我不知道”，或偏離原問題來避免回答問題。

研究結(jié)果表明，早期的模型傾向于回避問題，從而暴露了大模型的局限性。

但是，新的模型相對于較早期的大模型（如 GPT-4 與 GPT-3）, 錯(cuò)誤率大幅上升，因?yàn)楝F(xiàn)在的模型很少規(guī)避回答超出其能力范圍的任務(wù)或問題。

在某些基準(zhǔn)測試中，研究人員甚至發(fā)現(xiàn)錯(cuò)誤率的上升比正確率的提高更快。

這種從“回避”到“自信地給出錯(cuò)誤回復(fù)”的轉(zhuǎn)變，增加了用戶誤判的風(fēng)險(xiǎn)，從而可能導(dǎo)致用戶一開始過度依賴大模型來完成其并不擅長的任務(wù)，不過從長遠(yuǎn)來看，他們可能會失望。

除了這一結(jié)果之外，該團(tuán)隊(duì)還評估了大模型是否會像人類一樣，隨著任務(wù)難度的增加而更頻繁地回避任務(wù)。不過測試情況并非如此：任務(wù)難度與回避任務(wù)之間的相關(guān)性基本為 0。

這種異于人類的自大行為模式，以及先前提到的模型錯(cuò)誤不可預(yù)測性，導(dǎo)致了人類必須仔細(xì)審查模型的輸出，以便發(fā)現(xiàn)并糾正錯(cuò)誤。

但正如課題組在另一項(xiàng)人類研究“人類監(jiān)督和監(jiān)督限制”中所展示的那樣，人類并不擅長這種工作。

該研究分析了大模型可靠性的第三個(gè)維度“模型性能對同一問題的微小表述變化的敏感度”。

目前對于如何提高模型對同一問題的不同提示語的魯棒性，人們對此知之甚少。研究人員觀察到，提示語的穩(wěn)定性隨著擴(kuò)展和成型而提高。

然而，這種改進(jìn)似乎在逐漸減少，而且提示詞靈敏度仍然會導(dǎo)致最新模型出現(xiàn)不可靠的問題，暗示著當(dāng)前的科技范式很難使用戶在未來擺脫指令敏感度這個(gè)問題。

更令人吃驚的是，研究團(tuán)隊(duì)發(fā)現(xiàn)，一些平均表現(xiàn)最好的提示詞格式實(shí)際上會因任務(wù)難度的不同而表現(xiàn)得更差。

例如，用戶可能誤以為某些提示詞效果出色，因?yàn)樗鼈冊谔幚韽?fù)雜任務(wù)中表現(xiàn)良好，但其應(yīng)對在簡單任務(wù)時(shí)卻表現(xiàn)不佳。

這一趨勢令人擔(dān)憂，因?yàn)檫@些結(jié)果表明，人類很難預(yù)測模型何時(shí)會犯錯(cuò)，以判斷整個(gè)交互過程的可靠性。

這可能會引發(fā)額外的成本，以及無法滿足對高可靠性有嚴(yán)格要求的用戶需求。

該課題組還發(fā)現(xiàn)，在實(shí)驗(yàn)完成后發(fā)布的其他新模型也在這三個(gè)維度當(dāng)中存在類似的不可靠性問題，包括：OpenAI o1 preview、o1 mini、LLaMA 3.1 405B Instruct 和 Claude 3.5 Sonnet[2]。

在分析完了三個(gè)模型不可靠性的維度之后，可以得出目前大模型和其演變的趨勢并不樂觀的結(jié)論。

因此，研究人員很想根據(jù)觀察結(jié)果，來了解人類監(jiān)督是否可作為緩解不可靠問題的解決方案。但是，在一項(xiàng)廣泛的人類研究中，他們發(fā)現(xiàn)情況其實(shí)有所不同。

實(shí)際上，人類不善于發(fā)現(xiàn)模型的錯(cuò)誤，而且令人驚訝的是，人們經(jīng)常將不正確的模型輸出誤判為正確。

這表明人類沒有足夠的能力成為這些模型的可靠監(jiān)督者，從而使大模型在高風(fēng)險(xiǎn)領(lǐng)域的應(yīng)用變得更加復(fù)雜。

為此，該研究論文引入了一個(gè)新的評估框架，可以根據(jù)人類對任務(wù)難度的預(yù)期來更全面且穩(wěn)健地評估大模型的能力和風(fēng)險(xiǎn)。

雖然上面的這部分內(nèi)容在該論文中沒有太多的討論，但實(shí)際上在人工智能評估領(lǐng)域做出了重大貢獻(xiàn)。

這是因?yàn)樵u估人工智能系統(tǒng)的標(biāo)準(zhǔn)方法一直在使用側(cè)重于總分（如準(zhǔn)確率）的基準(zhǔn)。

然而，由于這些基準(zhǔn)通常擁有模糊且隨機(jī)的任務(wù)難度分布，它們無法穩(wěn)健或全面地描述人工智能系統(tǒng)的能力和局限性，也無法提供更多關(guān)于被評估模型在未來新任務(wù)中將如何表現(xiàn)的見解。

后者至關(guān)重要，因?yàn)樗侨斯ぶ悄茉u估的首要目標(biāo)之一。畢竟，人們想知道并預(yù)測何時(shí)何地可以安全地部署這些模型。

研究人員的方法通過描述大模型之于人類難度的能力，避開基準(zhǔn)測試中信息量小且對任務(wù)難度分布極為敏感的總分指標(biāo)（例如正確率），從而對人工智能進(jìn)行更穩(wěn)健的評估。

例如，當(dāng)所包含的任務(wù)實(shí)例太容易或太困難時(shí)，人工智能可以在衡量數(shù)學(xué)推理能力的基準(zhǔn)測試中分別獲得 100% 或 0% 的分?jǐn)?shù)。

這項(xiàng)工作始于他們在 GPT-4 紅隊(duì)的工作期間。研究團(tuán)隊(duì)的目標(biāo)是根據(jù)任務(wù)難度，對 GPT-4 及其前身的性能和不穩(wěn)定性如何演變進(jìn)行穩(wěn)健地評估，分析 GPT 系列過去三年的發(fā)展趨勢。

為了確保該團(tuán)隊(duì)的結(jié)果也適用于其他語言模型系列，研究人員還將 LLaMA 和 BLOOM 模型系列也納入了分析范圍。

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多

圖｜ LLaMA 和 BLOOM 系列以及非指導(dǎo) GPT 模型的擴(kuò)展分析（來源：Nature）

隨著模型越來越大、可指導(dǎo)性越來越強(qiáng)，研究團(tuán)隊(duì)對了解人類對任務(wù)難度的預(yù)期與大模型性能之間的差異的演變過程產(chǎn)生了興趣。

盡管 OpenAI 前聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞蘇茨克維（Ilya Sutskever）曾預(yù)測這種差異會隨著時(shí)間的推移而減少，但該團(tuán)隊(duì)發(fā)現(xiàn)事實(shí)并非如此。

正如之前他們在“新的評估框架”中提到的，加入對人類難度的考量比只關(guān)注挑戰(zhàn)性越來越高的任務(wù)（如基準(zhǔn)測試所做的）更穩(wěn)健、更全面，從而為了解模型的能力和風(fēng)險(xiǎn)提供新的視角。

盡管這項(xiàng)研究并沒有直接解決大模型的可靠性問題，但是通過揭示現(xiàn)有的“擴(kuò)大模型規(guī)模和提高模型的可指導(dǎo)性”的方法并未能有效解決大模型可靠性和安全性的根本問題，來重新審視這個(gè)問題。

它挑戰(zhàn)了之前的假設(shè)，即更強(qiáng)大的模型自然會導(dǎo)致更可預(yù)測和更可靠的行為。

這表明，他們需要從根本上改變大模型的設(shè)計(jì)和評估方式，特別是對于需要高可靠性和安全性的應(yīng)用。

論文具體也分析了導(dǎo)致模型不可靠性的若干潛在原因以及可能的解決方法：

在擴(kuò)大模型方面，近年來的基準(zhǔn)測試逐漸趨向于包含更多難度較高的示例，或者賦予所謂“權(quán)威”來源更大的權(quán)重，這使得研究人員更注重優(yōu)化模型在復(fù)雜任務(wù)上的表現(xiàn)，從而在整體難度一致性上逐步惡化。

而在提高模型可指導(dǎo)性方面，有證據(jù)證明在后期塑造的方法（如強(qiáng)化學(xué)習(xí)與人類反饋，RLHF）中，受雇人員傾向于對回避任務(wù)的回答給予懲罰，使得模型在面對難以解決的難題時(shí)更傾向于“編造”答案。

針對如何解決這些不可靠性，論文提出了一些可能的策略，比如可以借助人類對任務(wù)難度的預(yù)期來更有效地訓(xùn)練或微調(diào)模型，或者利用任務(wù)難度和模型的自信度，引導(dǎo)模型在遇到超出自身能力范圍的問題時(shí)更加謹(jǐn)慎地應(yīng)對。

參考資料：

1. Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable.Nature 634, 6168 (2024). https://doi.org/10.1038/s41586-024-07930-y

2. https://x.com/lexin_zhou/status/1838961179936293098.

運(yùn)營/排版：何晨龍

上一篇：歷史與AI的距離｜AI在古典學(xué)中的應(yīng)用

下一篇：北京人工智能研究院王仲遠(yuǎn)：大模型推動人工智能邁向通用智能

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:25:49 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:25:49 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Nature論文成果：研究人員發(fā)現(xiàn)AI模型越大，可靠性下降越多
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-08 19:25:49 瀏覽：0次