大語言模型很有用,但不能解決人工智能的基本問題,包括推理。
撰文 | 王培(美國天普大學(xué)計算機系)
自從ChatGPT在兩年前橫空出世,各種大語言模型一次又一次地刷新人們的認知,以至于連 “通用人工智能即將到來” 都從狂人囈語成了陳詞濫調(diào),已經(jīng)不足以被用作 “震驚體” 的標(biāo)題了。即使是見慣此間風(fēng)云變幻的人,對此也難免生出恍如隔世之感。今年的諾貝爾獎兩次授予了其背后的人工神經(jīng)網(wǎng)絡(luò)技術(shù),更說得上是 “烈火烹油,鮮花著錦” 。
但與此同時,在學(xué)界內(nèi)部一直存在的質(zhì)疑聲音也開始增加音量。最新的《人工智能雜志》(世界上最大的人工智能學(xué)術(shù)組織AAAI的會員刊物)的封面文章就直言關(guān)于 “可解釋的人工智能” 的研究已經(jīng)陷入泥潭[1],而 “難以解釋”正是深度神經(jīng)網(wǎng)絡(luò)的一個令人詬病之處。近期蘋果公司研究人員的一篇研究報告更是聲稱大語言模型根本不會邏輯推理[2],因而掀起了軒然大波。
雙方辯詞
關(guān)于深度神經(jīng)網(wǎng)絡(luò)是否會推理的爭論已經(jīng)進行若干年了。蘋果公司研究部的文章[2]測評了大語言模型在數(shù)學(xué)領(lǐng)域中的推理能力,其材料是經(jīng)過 “微調(diào)” 的一批原本已經(jīng)能被大語言模型較好解決的 “數(shù)學(xué)應(yīng)用題”。用我們在小學(xué)很熟悉的那種題目做例子,其修改包括(1)替換其中的專有名詞(就像把關(guān)于 “小紅” 的問題改成關(guān)于 “小明” 的),(2)改變其中的數(shù)字(就像把題目中的 “3.5小時” 改成 “2.8小時” ),(3)添加無關(guān)信息(就像在關(guān)于 “小紅登山” 的問題中加上關(guān)于 “小明釣魚” 的描述)。盡管這種修改不涉及這些數(shù)學(xué)問題的邏輯結(jié)構(gòu),卻造成了答案正確率的大幅下滑。文章的結(jié)論是大語言模型既不理解這些問題中的數(shù)學(xué)概念,也不能進行邏輯推理,而僅僅是將面對的問題和訓(xùn)練數(shù)據(jù)中的問題相比較而已。因此,即使那些正確答案也僅僅體現(xiàn)了系統(tǒng)的記憶和匹配能力,而非其邏輯推理能力。我在去年評論ChatGPT時[3]就說過它不會邏輯推理,理由是其結(jié)論質(zhì)量取決于相關(guān)訓(xùn)練數(shù)據(jù)的多寡,所以說只能算是總結(jié)了人們的大量推理過程 “無他,唯手熟爾”。這也正是[2]中的測評結(jié)果所佐證的。
但這個測評結(jié)果尚且不足以為此爭論一錘定音。那些認為大語言模型能推理的人在這個問題上的推理過程大致是這樣的:“某些問題是人們通過推理來解決的,因此它們的解決需要推理能力。現(xiàn)在大語言模型解決了這些問題,因此它們會推理”。根據(jù)這種看法,大語言模型已經(jīng)在很多問題上顯示出遠超常人的推理能力。在這種時候,還以某些錯誤結(jié)論為由說它不能推理,這總難免 “以偏概全” 和 “吹毛求疵” 之嫌。以相關(guān)技術(shù)發(fā)展之神速,怎么知道下面一個版本就堵不上這些漏洞?OpenAI不是已經(jīng)把 “推理” 列為當(dāng)前的主攻方向了嗎?
在至今的辯論中,正反雙方的主要舉證手段還是各自尋找大語言模型在推理中的各種成功或失敗的案例。這種做法的好處是證據(jù)具體和可驗證,但總有管中窺豹之感。這些成功與失敗在多大程度上揭示了系統(tǒng)的一般推理能力,而目前的缺陷中又有多少是可以被后面的研發(fā)所克服的?
何為“推理”?
曾經(jīng)有人說過,很多爭論其實都源于對基本概念的不同理解,而這也正是我前面很多文章都是從概念分析開始的原因 不是喜歡咬文嚼字,而是非如此不能抵達爭論的核心。
“推理” 通常被說成 “由已知判斷(前提)推出新判斷(結(jié)論)的過程”,但如果不對 “推出” 加以進一步限定,那顯然就過于寬泛了。把前提反過來讀一遍肯定不能算推理吧。這里的“推出” 當(dāng)然是指 “正確地推出”,但問題恰恰就在這里:“正確” 與否是根據(jù)什么標(biāo)準確定的?
對推理的研究有兩個不同的學(xué)術(shù)傳統(tǒng)。
邏輯學(xué)和數(shù)學(xué)研究的是推理的規(guī)范性理論和模型,其目標(biāo)是將推理的正確性(也稱 “有效性”)建立在一個體現(xiàn)理性的普適標(biāo)準之上。傳統(tǒng)的推理有效性標(biāo)準是 “保真”,即保證從真前提推出真結(jié)論,而一個邏輯系統(tǒng)就是由滿足這個標(biāo)準的推理規(guī)則組成的。這些規(guī)則是抽象的,只關(guān)乎于前提和結(jié)論的形式,而與其內(nèi)容無關(guān),如在[3]中提到的,從前提 “A是B” 和 “B是C” 中推出結(jié)論 “A是C” 的正確性就不取決于其中的字母代表什么東西。
心理學(xué)研究的是推理的描述性理論和模型,其目標(biāo)是總結(jié)人類推理活動中所實際遵循的規(guī)律。這樣一來,其中的 “正確性” 就和其它經(jīng)驗科學(xué)類似,是指 “理論預(yù)測符合實際觀察” 了。
盡管這兩類理論有一些相近結(jié)論(要是完全不同就麻煩大了),但其間的差異也早就廣為人知。其中典型的例子是我在[4]中介紹過的 “華生選擇任務(wù)”,這里就不再重復(fù)了。
這兩個傳統(tǒng)在人工智能研究中都有體現(xiàn)。人工智能中的推理研究從一開始是基于以數(shù)理邏輯為代表的規(guī)范性理論的,但為了貼近人類的現(xiàn)實思維嘗試了各種 “修正”,也取得了一定的成功,盡管總的說來還是過于理想化,不足以處理各種復(fù)雜的實際問題。
與此不同,深度學(xué)習(xí)(包括大語言模型)中的推理則可以說是在一定程度上借鑒了描述性理論的精神,即根據(jù)人們的推理實踐(而非抽象的理性原則)來確定模型的行為。即使如此,其中的具體做法仍和心理學(xué)完全不同。心理學(xué)和邏輯學(xué)一樣把一個推理過程看作由一系列推理步驟組成,其中每個步驟都有其可以識別、研究的規(guī)律,只是這種規(guī)律性體現(xiàn)在人們的實際行為中,而未必能被某些抽象原則(如 “保真”)來統(tǒng)一解釋。由于神經(jīng)網(wǎng)絡(luò)模型中的推理行為是用人們解決實際問題時的前提和結(jié)論(在大語言模型中往往體現(xiàn)為語句間的先后順序)以 “端到端” 的方式來訓(xùn)練生成的,跳過了中間步驟,其正確性的標(biāo)準也就是 “人們從給定前提中是否推出相同結(jié)論”,而不太在乎這些結(jié)論是如何逐步生成。在計算機強大的信息處理能力和海量訓(xùn)練數(shù)據(jù)的支撐下,這種推理模型取得了令人矚目的成功,但同時也有若干令人詬病之處:
端到端訓(xùn)練放棄了對中間步驟的管控,因此過程和結(jié)果難以理解。
對訓(xùn)練數(shù)據(jù)的依賴造成了概括結(jié)論中的 “偏見”、“過擬合” 等問題。
在訓(xùn)練數(shù)據(jù)不足的問題上靠和樣本的統(tǒng)計相似性猜測答案,正確性難以保證。
由于這些問題都是神經(jīng)網(wǎng)絡(luò)模型的 “本性” 所決定的,因此無法用技術(shù)手段徹底解決。比如近期流行的 “思維鏈” 體現(xiàn)了填補中間步驟的努力,但這種 “鏈” 中的 “環(huán)節(jié)” 仍大多數(shù)是可以進一步分解的推理過程,而非基本的推理步驟,而且其正確性標(biāo)準仍是由訓(xùn)練數(shù)據(jù)來確立的,因此不具有普適性(領(lǐng)域無關(guān)性)。這次蘋果公司研究部的測評恰恰是要求這種描述性模型解決規(guī)范性理論(數(shù)學(xué))中的推理問題,因此表現(xiàn)欠佳就不足為怪了。
先天與后天
在推理的規(guī)范性模型和描述性模型的各種表面差異背后體現(xiàn)出的是對智能(或者說 “認知”、“思維” 等等)的先天因素和后天因素的不同觀點。盡管所有的人都同意二者不可或缺,但對各自的作用仍看法迥異。規(guī)范性模型中的推理規(guī)則基本是先天確定的(盡管所用的推理前提可以后天獲得),而在描述性模型中的推理規(guī)則可以來自后天訓(xùn)練(盡管訓(xùn)練所遵循的算法是先天給定的)。具體到神經(jīng)網(wǎng)絡(luò)模型,更是將 “推理” 看成問題的 “已知” 與 “結(jié)論” 的關(guān)系,而不再限定從已知到結(jié)論的生成過程。這種做法極大簡化了這種模型的構(gòu)造和應(yīng)用過程(只需要提供訓(xùn)練數(shù)據(jù),而無須說明對問題的解法),因此是其成功的重要原因,但同時也是前面提到的那些問題的根源所在。
除了推理模型之外,這種對先天因素和后天因素的不同對待同樣出現(xiàn)在語言模型中。在對自然語言理解的研究中,開始占統(tǒng)治地位的 “規(guī)則學(xué)派”(喬姆斯基學(xué)派)認為語言能力(尤其是語法結(jié)構(gòu))基本上是先天的,而后天的學(xué)習(xí)只起到 “激發(fā)潛能” 的作用,而目前占上風(fēng)的 “統(tǒng)計學(xué)派”(以神經(jīng)網(wǎng)絡(luò)模型為主要實現(xiàn)方式)則認為 “一切皆可學(xué)”,而所需的先天成分只剩下(體現(xiàn)在學(xué)習(xí)算法中的)對訓(xùn)練數(shù)據(jù)的泛化能力。
如果進一步追根尋源,這種體現(xiàn)在不同領(lǐng)域中(不限于上面提到的推理和語言)對先天因素和后天因素的分別強調(diào)可以說各自體現(xiàn)了哲學(xué)中的理性主義和經(jīng)驗主義,而這二者之間的關(guān)系既不是誰對誰錯這么簡單,也不是能靠 “有機統(tǒng)一” 就可以糊弄過去的。對人工智能系統(tǒng)設(shè)計者來說,最重要的決定就包括區(qū)分哪些機制和內(nèi)容要提前設(shè)計好,而哪些該留給訓(xùn)練和教育。純粹遵循理性主義的系統(tǒng)往往過于刻板,無法處理環(huán)境的復(fù)雜性,而純粹遵循經(jīng)驗主義的系統(tǒng)則又常常囿于過往的經(jīng)歷片段,難以保證判斷的普適性。用推理規(guī)則來做比喻,前者就像全靠演繹推理解決問題,其優(yōu)點是準確可靠(“保真”),但超出預(yù)設(shè)前提的范圍就束手無策了,而后者就像全靠類比推理解決問題,其優(yōu)點是靈活機變(如果不在乎生拉硬拽,萬物皆可比),但常常陷入自相矛盾的境地。
在和人類智能相比較時,我認為人工智能系統(tǒng)的(先天)設(shè)計應(yīng)當(dāng)遵循和人類接近的理性原則,但其具體行為應(yīng)當(dāng)基于其自身(后天)經(jīng)驗,而非試圖完全復(fù)制人類行為。落實到我所設(shè)計的推理模型 “納思” 中(見我以前的專欄文章),就是在設(shè)計中體現(xiàn)從人類推理行為中抽象出來的推理規(guī)則,而不指望系統(tǒng)自身能夠?qū)W會它們。在另一方面,讓系統(tǒng)的信念、愿望、概念完全來自于系統(tǒng)自身的經(jīng)驗(包括感知運動經(jīng)驗和言語通信經(jīng)驗),而不依靠事先植入的 “真理” 或 “事實”。簡單說來,對納思的設(shè)計就是試圖以一套類似于人類先天邏輯的推理規(guī)則為元邏輯來實現(xiàn)智能。我不是說在人腦中有一套符號化的推理規(guī)則,而是說我們的自然推理過程是有規(guī)律可循的,而這些規(guī)律可以被整理成符號化的推理規(guī)則而不失其基本特征。在這里,一般意義下的 “邏輯” 和具體的“邏輯系統(tǒng)” 必須加以區(qū)別。邏輯學(xué)從開始就是研究普遍有效的推理、論辯規(guī)范的,而我們平時判斷某個論述是否 “符合邏輯” 也是這個意思。至于將 “推理有效性” 定義成 “保真”,并具體用符號語言描述成一個規(guī)則系統(tǒng),則是對推理規(guī)范的一種特定理解。即使現(xiàn)有的所有邏輯系統(tǒng)都差強人意,“人類推理本無規(guī)律可言” 也不是必然結(jié)論。如果真是如此,為什么我們?nèi)钥赡茉谝欢ǔ潭壬侠斫庖灾劣诮邮芩耍òü湃撕屯鈬耍┑拇罅客评磉^程及其結(jié)果呢?
基于 “智能系統(tǒng)的推理遵循普適規(guī)則” 的信念,納思的推理機制被設(shè)計成一個規(guī)范性模型,其結(jié)論的正確性是根據(jù)納思所依據(jù)的理性原則來確定的,而不是非以人類的流行看法為是非標(biāo)準。但和傳統(tǒng)的規(guī)范性模型不同,納思的設(shè)計預(yù)設(shè)是系統(tǒng)需要在知識和資源相對不足的條件下適應(yīng)環(huán)境,因此判斷一個具體結(jié)論的正確程度的根據(jù)是系統(tǒng)的過去經(jīng)驗,而非客觀事實或未來經(jīng)驗。這樣一來,納思從知識內(nèi)容上說又是個描述性模型,只是其中總結(jié)的是其自身經(jīng)驗,而非人類經(jīng)驗。這樣做的結(jié)果是納思和各種傳統(tǒng)推理模型均有相似之處,但又都有根本性差別。
和大語言模型相比,納思的推理規(guī)則都是在設(shè)計過程中確定的,與系統(tǒng)經(jīng)驗無關(guān),也與應(yīng)用領(lǐng)域無關(guān)。由于這些規(guī)則來自 “在知識和資源相對不足的條件下適應(yīng)環(huán)境” 的需求,而人類的推理機制也是為了滿足這一需求而進化出來的,因此納思的推理過程和結(jié)果都和人類有大量相似之處,因此是原則上可解釋的(盡管對復(fù)雜問題不會很容易)。由于納思的推理結(jié)論來自于系統(tǒng)經(jīng)驗,其經(jīng)驗局限性當(dāng)然也會造成偏見和誤判,但這種知識內(nèi)容上的缺陷不等于系統(tǒng)推理能力的缺陷。
由于納思所遵循的 “先天邏輯” (稱為 “非公理邏輯”,見[5])不同于數(shù)理邏輯,也不包含數(shù)學(xué),系統(tǒng)仍需要通過學(xué)習(xí)來掌握這些理論,而這種學(xué)習(xí)是使用其先天邏輯來進行的,和對人工神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練完全不同。如果讓納思在學(xué)習(xí)相應(yīng)的課程后來做數(shù)學(xué)應(yīng)用題,它也可能犯各種錯誤,但這些錯誤會更接近于小學(xué)生們所犯的,而非大語言模型所犯的。由于納思的研發(fā)還沒有到能對此進行實測的程度,所以可以將此當(dāng)作一個尚待檢驗的預(yù)言。
推理能力的來源
根據(jù)上面的分析,大語言模型可以被看作一種特殊的描述性推理模型,它們通過總結(jié)人類相應(yīng)行為來完成某些推理任務(wù)。管這種能力叫做 “會推理” 不能完全算錯,但說它們 “不會推理,只會模式匹配” 應(yīng)該說更準確,因為它們的確是將一個人類需要通過逐步推理來完成的任務(wù)看作一個端到端的映射(從輸入到輸出的函數(shù)),并通過和已知映射關(guān)系的匹配來完成任務(wù)的。盡管這兩種過程在解決問題的范圍上有很大的重合部分,其差別仍是不該無視的。如果硬要推廣 “推理” 這個詞的適用范圍,那也應(yīng)該說大語言模型 “會推理,但不遵循任何邏輯”。有人認為人工智能有不同于人類的邏輯,但要論證這一點,需要將其推理規(guī)則置于更基本的理性原則(如 “保真”、“適應(yīng)”)之上,而至今我還沒有見到這種論證。
不是所有解決問題過程都可以被稱為 “推理” 的。直觀說來,需要一步一步地 “推”,而每步都要有 “理” 才行。當(dāng)然這種 “字面意思” 不是定義,但只是靠背誦或查詢答案來解決問題肯定不能算推理,盡管這些答案可能是前人通過推理得到的。大語言模型當(dāng)然不是背誦或查詢這么簡單,但離 “根據(jù)合理的規(guī)則或模式,逐步從已知生成答案” 這種對 “推理” 的傳統(tǒng)理解差得就更遠了,而這也就是說它們難以解釋或 “不會推理,只會模式匹配” 的原因。對實際應(yīng)用而言,它們的 “推理能力” 對某些需求而言是夠用的,但對另一些則完全不夠。尤其是不能認為這就算是實現(xiàn)了智能系統(tǒng)的 “推理” 功能了。即使對心理學(xué)中的推理研究都不能完全按大語言模型的辦法做,更不必談邏輯學(xué)和數(shù)學(xué)了。大語言模型在這些學(xué)科中仍然有用,但那是另一些用途(比如總結(jié)現(xiàn)有研究結(jié)果)。
這不是說大語言模型不能學(xué)習(xí)邏輯和數(shù)學(xué)知識。一個信息系統(tǒng)中的 “知識” 通常是存在于兩個層面上的,一般分別稱為 “對象知識” (Object-level Knowledge) 和 “元知識” (Meta-level Knowledge)。具體到傳統(tǒng)意義下的推理系統(tǒng)中來說,作為推理前提和結(jié)論的知識屬于前者,通常是以語句的形式存在的,可以在系統(tǒng)運行過程中增刪和修改,而體現(xiàn)在推理規(guī)則中的知識屬于后者,通常是以程序的形式存在的,在系統(tǒng)運行過程中保持不變。在大語言模型中,訓(xùn)練過程中可調(diào)整的那些參數(shù)就對應(yīng)于對象知識,而完成這種調(diào)整的算法就對應(yīng)于元知識。和前面的討論相聯(lián)系,可以說元知識基本是先天固有的,而對象知識是后天習(xí)得的。
這兩種知識可以相互影響,并在一定程度上相互替代或轉(zhuǎn)化。我們可以學(xué)習(xí)一種邏輯并根據(jù)這種邏輯進行推理,但這種后天習(xí)得的邏輯不可能完全取代我們先天固有的 “元邏輯”,即人類推理活動中自然遵循的法則。即使是完全沒有受過邏輯學(xué)教育的人,其思維活動仍大體上是符合這種邏輯的。在另一方面,即使是邏輯學(xué)家和數(shù)學(xué)家,也不可能用他們的理論知識(比如一階謂詞邏輯或概率論)來完全規(guī)范他們在日常生活中的推理活動。我們當(dāng)然可以教給大語言模型任意一套邏輯,包括納思所遵循的那種,但這對大語言模型而言只是 “對象知識”。它可以據(jù)此回答查詢,但不能完全以此規(guī)范其推理活動,就像人們可能對某種理論倒背如流,但不能總是以此指導(dǎo)行動一樣。
我們的經(jīng)驗可以影響我們的思維活動,但不能決定其中的所有過程,其主要原因就是對 “元知識” 的掌控不能和 “對象知識” 達到同等程度。同理,我們可以通過訓(xùn)練教給大語言模型一套不同的學(xué)習(xí)算法,但無法以此替換其固有的學(xué)習(xí)算法。
即使我們無法在自己的思維規(guī)律中動手腳,但為什么在我們設(shè)計的計算機系統(tǒng)中不能取消 “對象知識”和 “元知識” 之間的區(qū)分呢?能不能讓某種人造神經(jīng)網(wǎng)絡(luò)調(diào)整自身的學(xué)習(xí)算法,或者讓納思根據(jù)經(jīng)驗調(diào)整自身的推理規(guī)則?這在一定程度上的確有可能,但未必是個好主意(比如會破壞系統(tǒng)自身的一貫性),也不可能完全做到(比如需要靠 “元元知識” 來修改 “元知識”)。由于這個話題超出本文的焦點,就不再進一步展開了。
如果智能系統(tǒng)的 “固有邏輯” 不能從自身經(jīng)驗中總結(jié)出來,那么人的這種元知識是哪里來的?盡管我相信智能系統(tǒng)是可以被設(shè)計出來的,這不意味著我認為人類智能也是某種設(shè)計的結(jié)果。相反,在納思中所體現(xiàn)的 “推理觀” (推理是概念替代,而概念是對經(jīng)驗片段的抽象,因此適應(yīng)系統(tǒng)可以通過推理將過去經(jīng)驗應(yīng)用于解決目前情境中的問題)可以在動物智能中發(fā)現(xiàn)其雛形。因此,智能系統(tǒng)的元知識既可能來自設(shè)計,也可能來自進化,只是我不覺得通過進化來得到人工智能比設(shè)計它們更可行罷了(盡管作為一個補充手段還是值得考慮的)。這個問題在[6]中有討論,在這里就不多說了。
總而言之,我對大語言模型的基本評價還和[3]中一樣:很有用,但不能解決人工智能的基本問題,包括推理。
參考文獻
[1] XAI is in trouble, Rosina O Weber et al., AI Magazine, 45:300-316, Fall 2024
[2] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models,Iman Mirzadeh et al., arXiv:2410.05229v1, Oct. 2024
[3] 深度剖析:ChatGPT 及其繼任者會成為通用人工智能嗎?王培, 《返樸》 2023年03月15日
[4] AI是理性的,人類是非理性的,果真如此嗎?王培, 《返樸》 2021年07月14日
[5] 你這是什么邏輯? 王培, 《賽先生》 2016年08月10日
[6] 《智能論綱要》,王培, 上?萍冀逃霭嫔,2022年09月