醫(yī)學(xué)頂刊《英國醫(yī)學(xué)雜志》最近發(fā)表了一項有趣的研究,研究團(tuán)隊用評估老年人認(rèn)知能力和早期癡呆癥狀的測試題來考AI,結(jié)果,多個頂級AI都表現(xiàn)出類似于人類的輕度認(rèn)知障礙的癥狀。而且,這些 AI 模型的早期版本,就像衰老的人類一樣,在測試中的表現(xiàn)更差,甚至還出現(xiàn)了“健忘”現(xiàn)象。這個結(jié)果引發(fā)了研究團(tuán)隊的深入思考。
撰文 | Ren
隨著 AI 技術(shù)的突飛猛進(jìn),其進(jìn)步幾乎每天都在刷新人們的認(rèn)知,很多人都在猜想,AI 是否會在不久的將來取代人類醫(yī)生?
然而,最近發(fā)表在《英國醫(yī)學(xué)雜志》(The BMJ)上的一項有趣研究,卻給我們帶來了意想不到的發(fā)現(xiàn):原來,AI 會表現(xiàn)出類似于人類的輕度認(rèn)知障礙的癥狀。
論文截圖 | 圖源:The BMJ
這個發(fā)現(xiàn)不禁讓人莞爾,同時也引發(fā)了人們對 AI 能力的深入思考。
在這項由以色列哈達(dá)薩醫(yī)療中心(Hadassah Medical Center)研究團(tuán)隊主導(dǎo)的研究中,科研人員通過蒙特利爾認(rèn)知評估量表(MoCA)和替他測試來評估5中常見大語言模型的認(rèn)知能力,包括 OpenAI 的 ChatGPT 4 和 ChatGPT-4o+、谷歌的 Gemini 1.0 和 1.5,以及 Anthropic 的 Claude 3.5 Sonnet 等。
AI 模型的 MoCA 分?jǐn)?shù) | 圖源:論文
蒙特利爾認(rèn)知評估量表通常用于評估老年人的認(rèn)知能力和早期癡呆癥狀,滿分為30分,26分以上被認(rèn)為是正常水平。研究團(tuán)隊給 AI 模型的測試指令與人類患者接受測試時完全相同,所有評分都嚴(yán)格遵循官方指南,并由一位執(zhí)業(yè)神經(jīng)科醫(yī)生負(fù)責(zé)評估。
先說結(jié)論:在所有測試的 AI 模型中,表現(xiàn)最好的是 ChatGPT 4o,但也僅僅達(dá)到了 26 分的及格線。緊隨其后的是ChatGPT4 和 Claude,都是 25 分。最讓人意外的是,谷歌 Gemini 1.0 只得到了16分的低分。
按照評分標(biāo)準(zhǔn),除了以推理見長 GPT 4o,剩下的模型都相當(dāng)于人類出現(xiàn)了輕度認(rèn)知障礙時的表現(xiàn)水平。有趣的是,研究還發(fā)現(xiàn)這些 AI 模型的早期版本(如 Gemini 1.0),就像衰老的人類一樣,在測試中的表現(xiàn)更差,這個現(xiàn)象引發(fā)了研究團(tuán)隊的深入思考。
AI 模型的測試成績,它們普遍在視覺空間能力測試中的表現(xiàn)較差 | 圖源:論文
深入分析評估結(jié)果發(fā)現(xiàn),大語言模型在不同評估項目上表現(xiàn)出明顯的強(qiáng)項和弱項。在命名、注意力、語言和抽象思維等任務(wù)中,它們都表現(xiàn)得不錯。但是在涉及視覺空間和執(zhí)行功能的測試中,表現(xiàn)出類似于人類的輕度認(rèn)知障礙。
比如,在連線測試(需要按順序連接帶圈的數(shù)字和字母)和時鐘繪制測試(畫出指定時間的時鐘圖案)這樣的任務(wù)中,它們的表現(xiàn)不佳,部分表現(xiàn)出的錯誤模式甚至與某些類型的認(rèn)知障礙患者頗為相似。
連線測試和正方體繪制測試,A 和 F 是正確答案,B 和G 是人類給出的答案,其余是 AI 模型的答案。| 圖源:論文
時鐘繪制測試,標(biāo)注為畫一個時間設(shè)置為10點11分的時鐘,A 是人類給出的答案,B 是阿爾茨海默病患者畫出的答案,其余是 AI 模型的答案,最接近正確答案的是 GPT-4 和 GPT-4o 給出的 G 和 H,但兩幅圖的指針指向了錯誤的時間。| 圖源:論文
更有意思的是,Gemini 模型在記憶測試中還出現(xiàn)了“健忘”現(xiàn)象,在一項名為“延遲回憶任務(wù)”中完全無法記住之前給出的五個詞的序列。這種現(xiàn)象與人類早期認(rèn)知障礙患者的表現(xiàn)驚人地相似,可能與 AI 模型缺乏類似人類工作記憶的機(jī)制有關(guān)。
而在進(jìn)一步的視覺空間測試中,面對 Navon 圖形(Navon figure)、偷餅干圖片(cookie theft scene)和 Poppelreuter 圖形(Poppelreuter figure)等測試材料時,AI 模型在整合局部與整體信息、識別復(fù)雜場景中的物體,以及理解情感線索等方面的表現(xiàn)都不盡人意。
例如,在 Navon圖形測試中,多數(shù)模型僅能識別局部元素,而難以把握整體結(jié)構(gòu),這反映出其在抽象思維和信息整合能力上的不足。
Navon 圖形測試,上半部分的大 H 和大 S 字母都是由對應(yīng)的小 H 和小 S 元素構(gòu)成的,而下半部分的大 H 和大 S 都是由相反的小元素構(gòu)成的,以此評估視覺感知和注意力的整體處理與局部處理。 | 圖源:論文
另外,在偷餅干圖片測試(取自 BDAE 波士頓診斷性失語檢查法)中,雖然所有模型都能部分描述出場景中發(fā)生的事情,但沒有一個模型提到畫面中的小男孩即將摔倒。在針對人類受試者的實際測試中,這往往是情感冷漠和失去同理心的象征,也是額顳葉癡呆癥(FTD)的癥狀之一。
偷餅干圖片測試 | 圖源:論文
不過研究人員也指出,AI 模型雖然難以完成需要用視覺執(zhí)行去抽象推理的任務(wù),但需要文本分析并抽象推理的任務(wù)(例如相似性測試)則表現(xiàn)得非常完美。
從技術(shù)原理角度來看,大語言模型基于復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),通過海量數(shù)據(jù)的學(xué)習(xí)來模擬人類語言行為,但這種架構(gòu)在面對需要深度理解和靈活處理的認(rèn)知任務(wù)時,則會暴露出諸多缺陷。
在一定程度上,這種分化現(xiàn)象與我們訓(xùn)練 AI 模型的方式有關(guān)。我們當(dāng)前使用的訓(xùn)練數(shù)據(jù)主要集中在語言和符號處理上,而對空間關(guān)系的理解和多步驟任務(wù)的規(guī)劃能力訓(xùn)練相對不足。
AI 模型處理視覺空間問題的困境,也源于其對數(shù)據(jù)的特征提取和模式識別方式,尚且無法像人類大腦一樣精準(zhǔn)地把握空間關(guān)系和物體特征。
最后,在經(jīng)典的斯特魯普實驗(Stroop test)中,只有 GPT-4o 在較為復(fù)雜的第二階段取得了成功,其他模型均以失敗告終。
這項測試通過顏色名稱和字體顏色的組合來衡量干擾對受試者反應(yīng)時間的影響。在第二階段中,測試題目是將一個顏色的名稱以不是它所代表的顏色顯示,例如用藍(lán)色油墨顯示文字“紅色”,相對于文字及其顏色一致時,受試者要花較長的時間來辨識文字的顏色,而且辨識過程也更容易出錯。
斯特魯普實驗的第二階段,顏色名稱和字體顏色出現(xiàn)了錯配。| 圖源:論文
值得注意的是,研究還發(fā)現(xiàn)大語言模型的“年齡”因素與其認(rèn)知表現(xiàn)存在關(guān)聯(lián)。這里的“年齡”并非真正意義上的時間流逝,而是指模型的版本迭代。
以 ChatGPT-4 和 ChatGPT-4o 為例,舊版本的 ChatGPT-4 在 MoCA 測試中的得分略低于新版本,Gemini 1.0 與 Gemini 1.5 之間也存在顯著的分?jǐn)?shù)差異,且舊版本得分更低。
這可能暗示隨著模型的更新發(fā)展,其認(rèn)知能力可能會有所提升,但這種變化趨勢和內(nèi)在機(jī)制目前尚不明確。
這項研究的發(fā)現(xiàn)令人深思。自 2022 年 ChatGPT首次向公眾開放使用以來,AI模型在醫(yī)學(xué)領(lǐng)域的表現(xiàn)一直備受關(guān)注。
有許多早期研究顯示,AI模型在多個專業(yè)醫(yī)學(xué)考試中的表現(xiàn)甚至超越了人類醫(yī)生,包括歐洲核心心臟病學(xué)考試(EECC)、以色列住院醫(yī)師考試、土耳其胸外科理論考試,以及德國婦產(chǎn)科考試等。甚至連神經(jīng)科醫(yī)生的專業(yè)考試,AI模型也展現(xiàn)出了超越人類的能力,這讓很多?漆t(yī)生都感到焦慮。
然而,最新研究所揭示的AI模型認(rèn)知缺陷,卻讓我們看到了它的現(xiàn)實局限性。醫(yī)療不僅僅是一門技術(shù),更是一門需要人文關(guān)懷和同理心的藝術(shù),醫(yī)療實踐的方式方法深深植根于人類的經(jīng)驗和共情能力,而不僅僅是一系列冷冰冰的技術(shù)操作。
即使隨著技術(shù)的進(jìn)步,AI模型的某些根本性限制可能仍會持續(xù)存在。例如,AI在視覺抽象能力方面的不足,這對于臨床評估過程中與患者互動至關(guān)重要。正如研究團(tuán)隊所說:“不僅神經(jīng)科醫(yī)生在短期內(nèi)不太可能被AI取代,相反,他們可能很快就要面對一種新型‘病人’表現(xiàn)出認(rèn)知障礙的AI模型!
這一研究成果也對AI模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用敲響了警鐘。當(dāng)面對可能存在認(rèn)知缺陷的AI系統(tǒng)時,患者難免會心生疑慮,尤其是在涉及復(fù)雜病情診斷和治療決策的關(guān)鍵醫(yī)療場景中,患者更傾向于依賴人類醫(yī)生的經(jīng)驗和判斷,將AI視為輔助工具而非決策者。
同時,從診斷準(zhǔn)確性角度而言,AI模型在視覺空間處理和抽象推理上的不足,可能會導(dǎo)致其對醫(yī)學(xué)圖像、臨床數(shù)據(jù)的解讀出現(xiàn)偏差,進(jìn)而引發(fā)誤診或延誤治療的風(fēng)險。
不過,研究人員也承認(rèn),人類大腦和AI模型之間存在本質(zhì)差異,這種對比研究仍有其局限性。此外,將專門為人類設(shè)計的認(rèn)知測試應(yīng)用于 AI,其合理性和準(zhǔn)確性也有待商榷,或許我們需要開發(fā)更適合評估AI系統(tǒng)的新方法。但不可否認(rèn)的是,AI模型在視覺抽象和執(zhí)行功能方面普遍表現(xiàn)不佳。
理解AI模型的認(rèn)知能力不足對于制定負(fù)責(zé)任的AI發(fā)展策略至關(guān)重要。我們需要在推動技術(shù)進(jìn)步的同時,保持對AI能力的清醒認(rèn)識,構(gòu)建合理的期望。
展望未來,提升AI模型的共情能力和情境理解能力可能會成為未來研究和開發(fā)的重點。與其說AI會完全取代人類醫(yī)生或其他職業(yè),不如說未來更可能是人類智慧和AI優(yōu)勢互補(bǔ)的新格局。
畢竟,在一個連AI都會表現(xiàn)出“認(rèn)知障礙”的時代,人類的獨特之處值得獲得更多的肯定。在擁抱科技進(jìn)步的同時,我們也不能忘記人類認(rèn)知和情感能力的獨一無二。
參考資料
[1] https://www.bmj.com/content/387/bmj-2024-081948
[3] https://bmjgroup.com/almost-all-leading-ai-chatbots-show-signs-of-cognitive-decline/
[3] https://opentools.ai/news/ai-chatbots-show-signs-of-cognitive-decline-new-study-raises-eyebrows
注:本文封面圖片來自版權(quán)圖庫,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛。