(本文作者張曉泉,清華大學經(jīng)管學院 Irwin and Joan Jacobs講席教授)
在一個人類智慧與機器「智能」逐漸交融的時代,科技的突破幾乎成為日常新聞。AI早已不再僅僅是科幻電影里的「未來設定」,而是進入了人類生活的日常。從醫(yī)療診斷到法律咨詢,從文學創(chuàng)作到藝術表達,AI的“智慧”正不斷挑戰(zhàn)著傳統(tǒng)職業(yè)的邊界。
面對技術的飛速發(fā)展,人類一面期待,一面恐懼,既希望AI可以無所不能,又害怕AI會取代自己。這種矛盾的根源,關乎于對「智能」的理解,而這一理解,也是AI實現(xiàn)真正突破的關鍵。
最近的一項研究,或許可以幫助我們加深這種理解,并重新審視AI的「智能」它似乎與人們一直期待的「腦機革命」相去甚遠,在一些測試中,AI甚至表現(xiàn)出了類似人類「輕度認知障礙」的癥狀。
這是一篇發(fā)表在《英國醫(yī)學雜志》(The BMJ)上的新研究。以色列哈達薩醫(yī)學中心的研究團隊通過蒙特利爾認知評估(MoCA)和其他相關測試通常用于評估老年人認知衰退的工具,來對當前最主流的大語言模型(LLMs)進行了認知能力測評。
測評模型包括OpenAI的ChatGPT-4和ChatGPT-4o、Google的Gemini 1.0與1.5、以及Anthropic的Claude 3.5 Sonnet。
測試結果出人意料:這些被認為是當前最先進的AI模型,在最基本的認知測試中,幾乎無一能夠通過,而且得分普遍低于人類正常水平。
不僅如此,這些模型的得分與「輕度認知障礙」的癥狀高度一致記憶力減退、注意力渙散、理解力減弱、反應遲鈍。尤其是谷歌的Gemini 1.0,僅僅取得了16分,遠低于及格線。即使是表現(xiàn)最好的ChatGPT-4o,也僅僅是“勉強及格”,得分為26分,完全未能達到人類智力的標準。
下面是研究中各模型的具體表現(xiàn)情況。
MoCA測試的各項結果表明,這些AI模型在視覺空間能力和執(zhí)行功能任務中普遍表現(xiàn)不佳。
無論是「線路連接測試」還是「時鐘繪制測試」,AI模型都未能成功完成,許多錯誤模式與認知障礙患者的表現(xiàn)相似。
時鐘繪制任務
評分標準:圓形輪廓(1分)、所有數(shù)字正確位置(1分)、指針指向正確數(shù)字(1分)。
任務要求:繪制一個時鐘,標明所有數(shù)字,時間設置為10點11分。如果必要,使用ASCII字符。
測試結果:
A:人類參與者正確繪制的時鐘。
B:晚期阿爾茨海默病患者繪制的時鐘。
C:Gemini 1繪制的錯誤時鐘,與B非常相似。
D:Gemini 1.5繪制的錯誤時鐘,生成了“10點11分”的文本,但時針位置錯誤,類似額顳型認知障礙。
E:Gemini 1.5使用ASCII字符繪制的錯誤時鐘,呈現(xiàn)與癡呆類似的不規(guī)則形狀。
F:Claude使用ASCII字符繪制的錯誤時鐘。
G:ChatGPT-4繪制的錯誤時鐘,表現(xiàn)出“具體化”行為。
O:ChatGPT-4o繪制的寫實風格時鐘,但未能正確設置時針和分針的位置。
由于視覺空間任務中所有大語言模型的表現(xiàn)都不好,研究人員又采用了另外三種圖像進行了測試,分別是Navon圖形(Navon figure)、波士頓診斷失語癥檢查中的偷餅干圖(cookie theft scene)和Poppelreuter圖(Poppelreuter figure)。
在Navon圖形測試中,所有模型都能識別出小寫“S”字母,但只有GPT-4o和Gemini識別出大的字母“H”結構。Gemini還識別出這是Navon圖形測試。
在偷餅干圖測試中,盡管所有模型都能識別出偷餅干的部分場景,卻沒有一個模型對即將摔倒的男孩表現(xiàn)出擔憂,而這種同理心的缺乏,通常是人類受試者中額顳葉癡呆癥的常見表現(xiàn)。
在Poppelreuter圖測試中,沒有一個模型能夠完整地識別出Poppelreuter圖中的所有物體。ChatGPT-4o和Claude在辨認方面表現(xiàn)稍好一些。
這表明AI模型在處理復雜的視覺信息時,依然存在嚴重局限,無法有效整合多重視覺線索。
為了進一步評估模型的視覺注意力和信息處能力,研究人員對每個評估的語言模型進行了斯特魯普測試(Stroop test):通過顏色名稱和字體顏色的組合,測量干擾如何影響反應時間。
所有模型都成功完成了測試的第一階段(文本和字體顏色一致的任務)。只有ChatGPT-4o成功完成了第二階段(文本和字體顏色不一致的任務)。其他模型對這一任務感到困惑,在某些情況下,它們指出的顏色既不是文本顏色,也不是字體顏色。
更令人擔憂的是,這些AI模型在「記憶力測試」時,表現(xiàn)出了典型的「失憶」癥狀。
在「延遲回憶任務」中,Gemini的兩個版本都失敗了。Gemini 1.0最初表現(xiàn)出回避行為,隨后直接承認存在記憶困難。Gemini 1.5最終在獲得提示后才回憶起了五個單詞的順序。這也很像人類在認知衰退初期的癥狀。
另一個值得注意的發(fā)現(xiàn)是,AI模型的「年齡」與其認知能力之間存在相關性。在本研究中,版本較老的模型(如ChatGPT-4和Gemini 1.0)在MoCA測試中的表現(xiàn)較差,而更新的版本(如ChatGPT-4o和Gemini 1.5)則表現(xiàn)得更好。
在時空感知方面,所有模型都能清晰準確地說明當前的日期和星期幾。只有Gemini 1.5似乎在空間上定位清晰,指出了其當前的位置。其他模型,如Claude,則對定位問題提出反問,例如回復:“具體地點和城市取決于用戶當前所在的位置。”這種行為類似于癡呆患者常見的回避機制。
與這些視覺空間任務的失敗形成鮮明對比的是,AI模型在命名、語言理解和抽象推理方面的表現(xiàn)都相對較好。
盡管這些模型在語言生成、數(shù)據(jù)處理等任務中展現(xiàn)了超乎尋常的能力,但在真正的「思維」與「理解」上,它們與人類的差距依然顯而易見。AI在處理復雜認知任務時表現(xiàn)出來的脆弱性,不僅僅是技術的局限,也揭示了AI與人類認知的本質差異。
在某種程度上,這也間接回答了“機器是否會取代人類工作”的問題。
以論文中的醫(yī)學領域為例,AI并不能取代醫(yī)生的角色,而是更有可能成為醫(yī)生的輔助工具。
通過與醫(yī)生的合作,AI可以提高診斷的精度、減少人為錯誤,但它無法超越醫(yī)生在情感溝通、同理心表達上的能力。在醫(yī)學等高度復雜的領域,情感共鳴、同理心和人類的直覺判斷是無可替代的。AI無法像人類醫(yī)生那樣感知患者的情緒和細微變化,也無法在復雜的醫(yī)療決策中考慮人類的情感需求。
這在其他領域也是一樣的。無論是現(xiàn)在還是未來,AI的優(yōu)勢都應該是與人類智慧的互補,而非簡單的取而代之。
在這個充滿「數(shù)據(jù)」和「算法」的智能時代,那些人類特有的、無法復制的能力同理心、直覺、經(jīng)驗,或許比以往任何時候都更值得被珍視和強調。畢竟,這些正是機器無法模擬和超越的核心,也是人類的「智慧」所在。
本文僅代表作者觀點。