2024 年 4 月 8 日辛頓獲得尤利西斯獎(jiǎng)?wù),以表彰他?duì)計(jì)算機(jī)科學(xué)人工智能領(lǐng)域的貢獻(xiàn)。他通過(guò)在計(jì)算和工程兩方面的突破,使得深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵組成部分。本文為杰弗里辛頓在獲得尤利西斯獎(jiǎng)?wù)聲r(shí)發(fā)表的演講,簡(jiǎn)明扼要地介紹了神經(jīng)網(wǎng)絡(luò)和大語(yǔ)言模型的基本概念和工作方式。
尤利西斯獎(jiǎng)?wù)率嵌及亓执髮W(xué)學(xué)院頒發(fā)的最高榮譽(yù)。該獎(jiǎng)項(xiàng)設(shè)立于 2005 年,以校友、愛(ài)爾蘭作家詹姆斯喬伊斯(James Joyce)的著作《尤利西斯》(Ulysses )命名,授予為全球做出某種杰出貢獻(xiàn)的個(gè)人。
演講 | 杰弗里辛頓
翻譯 | 陳國(guó)華(北京外國(guó)語(yǔ)大學(xué)外國(guó)語(yǔ)言研究所教授)
“人工智能教父”杰弗里辛頓榮獲都柏林大學(xué)最高榮譽(yù)尤利西斯獎(jiǎng)?wù)。丨圖片來(lái)源:Chris Bellew/Fennell Photography
非常感謝學(xué)院贊譽(yù)有加的頒獎(jiǎng)辭[1]。
我想特別指出一點(diǎn),那就是,我的成功在很大程度上歸功于能夠招到真正優(yōu)秀的研究生。因此我們永遠(yuǎn)不要忘記,在這一領(lǐng)域,工作是研究生做的。
只要有機(jī)會(huì)給他人講課,我就無(wú)法拒絕。很多人實(shí)際上并不知道人工智能是怎么回事。因此,我將用大約20分鐘做一個(gè)非常基礎(chǔ)的、關(guān)于人工智能如何工作的演講,讓那些不喜歡方程式、不知道這些大型聊天機(jī)器人究竟在做什么或如何做事的人們,知道是怎么回事,還請(qǐng)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生和已經(jīng)知道人工智能是怎么回事的各位海涵。
自上世紀(jì)中葉以來(lái),對(duì)智能的研究一直存在兩種范式。一種是受邏輯學(xué)啟發(fā)的思路,其概念是智能的本質(zhì)是推理,這是讓人類如此特別的關(guān)鍵因素。推理是用符號(hào)規(guī)則操縱符號(hào)表達(dá)式來(lái)實(shí)現(xiàn)的,所以,我們真正要做的是了解知識(shí)是如何表征的,是用什么類型的邏輯編程語(yǔ)言來(lái)表征的。學(xué)習(xí)之類的事可以等到以后再做。
另一種是受生物學(xué)啟發(fā)的思路,這一思路完全不同。這一思路認(rèn)為智能的本質(zhì)是學(xué)習(xí),學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中連接的強(qiáng)度,邏輯和其他事情要晚得多。我們得先了解人是如何學(xué)會(huì)控制自己的身體或識(shí)別物體之類的事情,推理之類的事之后再說(shuō)。
什么是神經(jīng)網(wǎng)絡(luò)?我給大家看一張神經(jīng)網(wǎng)絡(luò)示意圖。
圖1:人工神經(jīng)網(wǎng)絡(luò)輸入-輸出層級(jí)關(guān)系示意圖[2]
底層是一些輸入神經(jīng)元,即一幅圖像各個(gè)像素的強(qiáng)度值[3]。然后是多重中間層神經(jīng)元,這些神經(jīng)元會(huì)學(xué)習(xí)從圖像(即輸入數(shù)據(jù))中提取特征。然后是上層的輸出神經(jīng)元,這些神經(jīng)元可能會(huì)說(shuō)出這是一張什么物體的圖像。例如,輸入的可能是一張貓圖或狗圖。你想要神經(jīng)網(wǎng)絡(luò)做到的是,給它輸入一張貓圖,代表貓的神經(jīng)元就會(huì)在輸出端亮起(即輸出結(jié)果是“貓”)。連接線上的那些小彩色點(diǎn)是連接強(qiáng)度(譯者注:原圖紅色小點(diǎn)用黑色表示,綠色小點(diǎn)用灰色表示)[4]。神經(jīng)網(wǎng)絡(luò)所要做到的是學(xué)會(huì)這些強(qiáng)度參數(shù),以便輸出正確結(jié)果。
有一種簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,每個(gè)人都能理解。
我們從一些隨機(jī)連接強(qiáng)度開(kāi)始。選取其中一個(gè)連接,稍微改變一下它的強(qiáng)度,比如稍微增強(qiáng)一點(diǎn),看看輸出的結(jié)果是否有改進(jìn)。要判斷輸出是否有改進(jìn),我們得通過(guò)神經(jīng)網(wǎng)絡(luò)運(yùn)行相當(dāng)多的例子,看它能否給出更好的答案。所以,一開(kāi)始可能它會(huì)說(shuō),這張貓圖是“貓”的概率是50%。我們改變這個(gè)權(quán)重后,它可能會(huì)說(shuō)是51%,這就是有進(jìn)步。我們就這樣修正權(quán)重,然后選取另一權(quán)重來(lái)試,然后繼續(xù)這樣做。如果做的時(shí)間足夠長(zhǎng),我們會(huì)得到這樣一個(gè)神經(jīng)網(wǎng)絡(luò)當(dāng)你把貓的圖像展示給它時(shí),它會(huì)說(shuō)這很可能是“貓”;當(dāng)你把狗的圖像展示給它時(shí),它會(huì)說(shuō)這是“狗”。但如此修正的速度非常非常慢,因?yàn)樘幚砻總(gè)連接,神經(jīng)網(wǎng)絡(luò)得嘗試許多例子,而且我們得多次更新每個(gè)連接。
后來(lái)我們發(fā)現(xiàn)可以用一種有效得多的辦法來(lái)實(shí)現(xiàn)同一目標(biāo)。這是一種被稱為“反向傳播”[5]的算法。首先,我們拍攝一個(gè)物體的圖像,把它傳輸給神經(jīng)網(wǎng)絡(luò),通過(guò)這個(gè)網(wǎng)絡(luò)來(lái)識(shí)別。假設(shè)它說(shuō)有50%的概率是“貓”,那它給出的就是個(gè)誤差,因?yàn)槲覀兿Mf(shuō)這個(gè)圖像100%是“貓”。于是我們通過(guò)這個(gè)網(wǎng)絡(luò)發(fā)回一個(gè)信號(hào),而且就是通過(guò)前面那個(gè)傳達(dá)誤差的神經(jīng)連接發(fā)回去。大致而言,我們可以計(jì)算,而不是衡量,改變一個(gè)權(quán)重會(huì)怎樣改善這個(gè)網(wǎng)絡(luò)的輸出。所以,對(duì)于每一權(quán)重,我們都可以弄清楚,如果稍微增加這一權(quán)重,結(jié)果會(huì)不會(huì)好一點(diǎn)?或者,如果稍微降低這一權(quán)重,結(jié)果會(huì)不會(huì)好一點(diǎn)?我們現(xiàn)在可以采用并行的方式對(duì)所有權(quán)重執(zhí)行這一操作。如果有十億個(gè)權(quán)重,并對(duì)這些權(quán)重采用并行運(yùn)算,速度就會(huì)快十億倍。這就是神經(jīng)網(wǎng)絡(luò)的工作方式。我們通過(guò)反向傳播誤差來(lái)改變每一權(quán)重的算法,只是某種相對(duì)簡(jiǎn)單的微積分。關(guān)鍵的一點(diǎn)是,它確實(shí)有效。神經(jīng)網(wǎng)絡(luò)可以通過(guò)這種方式學(xué)習(xí)識(shí)別事物。
多年來(lái),計(jì)算機(jī)科學(xué)家、計(jì)算機(jī)視覺(jué)研究者們一直都希望實(shí)現(xiàn)這樣一個(gè)目標(biāo):給機(jī)器輸入一個(gè)圖像,機(jī)器就輸出一個(gè)標(biāo)題,說(shuō)明該圖像的內(nèi)容。但他們做不到,遠(yuǎn)遠(yuǎn)做不到。而現(xiàn)在神經(jīng)網(wǎng)絡(luò)能夠做到這一點(diǎn)。我們用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓它學(xué)會(huì)從圖像中提取一批多層級(jí)的特征,這些特征的確能讓計(jì)算機(jī)識(shí)別出圖像的內(nèi)容。
2012年,Alex Krizhevsky和Ilya Sutskever,在我的一點(diǎn)點(diǎn)幫助下,開(kāi)發(fā)出了一個(gè)比已有計(jì)算機(jī)視覺(jué)系統(tǒng)好得多的深度神經(jīng)網(wǎng)絡(luò)。
接著發(fā)生了一件在科學(xué)界非常罕見(jiàn)的事情。計(jì)算機(jī)視覺(jué)研究領(lǐng)域的權(quán)威專家原先一直說(shuō)神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)無(wú)法做到這一點(diǎn),現(xiàn)在卻說(shuō):“哇,它還真有效!”而且他們改變了之前的做法,開(kāi)始使用神經(jīng)網(wǎng)絡(luò)。這可不是科學(xué)家通常有的行為方式,當(dāng)然也不是語(yǔ)言學(xué)家通常有的行為方式。下面,我們就談一談?wù)Z言問(wèn)題。
符號(hào)人工智能圈的許多人說(shuō),層級(jí)特征檢測(cè)器[6]永遠(yuǎn)無(wú)法用來(lái)處理語(yǔ)言,根本行不通。我的網(wǎng)頁(yè)上就引用了這句話。我實(shí)在沒(méi)忍住,于是就讓GPT4來(lái)詳細(xì)解釋這句話錯(cuò)在哪里。所以現(xiàn)在的情形是,我們有GPT4,它能向語(yǔ)言學(xué)家解釋他們說(shuō)的為什么不對(duì),說(shuō)明神經(jīng)網(wǎng)絡(luò)能做什么,不能做什么。語(yǔ)言學(xué)家被一個(gè)叫喬姆斯基的人誤導(dǎo)了好幾代此人實(shí)際上也獲得了這枚享有盛名的獎(jiǎng)?wù)。可?jiàn),名望不會(huì)持久。他有一個(gè)偏執(zhí)古怪的理論,即語(yǔ)言不是學(xué)會(huì)的。他成功地說(shuō)服很多人相信這一點(diǎn)。這個(gè)說(shuō)法顯然是一派胡言。語(yǔ)言顯然是學(xué)會(huì)的。大型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)言,不需要任何先天結(jié)構(gòu),只是從隨機(jī)權(quán)重和大量數(shù)據(jù)中開(kāi)始學(xué)習(xí)。喬姆斯基卻仍然在說(shuō),但這并非真正的語(yǔ)言,這不算數(shù),這是不對(duì)的。許多統(tǒng)計(jì)學(xué)家和認(rèn)知科學(xué)家也說(shuō),永遠(yuǎn)不可能在這樣一個(gè)大網(wǎng)絡(luò)里學(xué)習(xí)語(yǔ)言。喬姆斯基從來(lái)沒(méi)有提出任何一種有關(guān)語(yǔ)義的理論, 他的理論全是關(guān)于句法的。
我們?nèi)绻紤]語(yǔ)義,就會(huì)發(fā)現(xiàn)有兩種截然不同的語(yǔ)義理論。一種是符號(hào)人工智能研究者相信的結(jié)構(gòu)主義理論,大多數(shù)語(yǔ)言學(xué)家也相信這種理論,即一個(gè)詞的意思來(lái)自于它與其他詞的關(guān)系[7]。
你如果想捕捉一個(gè)詞的意思,就需要制作一個(gè)關(guān)系圖,圖中包含這個(gè)詞與其他詞的鏈接,也許還有鏈接點(diǎn)上的標(biāo)簽,說(shuō)明它怎樣與其他詞相關(guān)。這就是一個(gè)語(yǔ)義網(wǎng)絡(luò),是捕捉意思所需要的。
此外還有一種非常不同的理論,來(lái)自1930年代的心理學(xué),即一個(gè)詞的意思是一個(gè)大的特征集合,意思相近的詞具有近似的特征集合[8]。
這兩種理論看起來(lái)完全不同。但實(shí)際上,我們可以把二者統(tǒng)一起來(lái)。我認(rèn)為第一個(gè)做到這一點(diǎn)的是我在1985年制作的一個(gè)小型語(yǔ)言模型。這個(gè)模型與現(xiàn)在的大語(yǔ)言模型有很多共同之處。它通過(guò)嘗試預(yù)測(cè)下一個(gè)詞來(lái)學(xué)習(xí)。具體而言,它學(xué)習(xí)每個(gè)詞的特征以及這些特征之間的相互作用,這樣就可以預(yù)測(cè)下一個(gè)詞的特征。重要的是,所有知識(shí)都體現(xiàn)在給一個(gè)詞分配哪些特征以及不同詞的特征應(yīng)該怎樣相互作用。這個(gè)模型不存儲(chǔ)任何句子,卻可以重構(gòu)句子,也就是通過(guò)反復(fù)預(yù)測(cè)下一個(gè)詞來(lái)生成句子。這也是大語(yǔ)言模型的工作原理。它實(shí)際上不存儲(chǔ)任何文本,而是學(xué)習(xí)從文本中提取特征,把它分配給各個(gè)單詞,并提取這些特征之間的相互作用,這樣就可以預(yù)測(cè)下一個(gè)詞的特征。
這個(gè)微小的語(yǔ)言模型并非旨在為工程助力,而是旨在解釋人們?nèi)绾瓮ㄟ^(guò)語(yǔ)言來(lái)表達(dá)和領(lǐng)悟意思,所以它實(shí)際上是人類語(yǔ)言的工作模型。如果有人告訴你這種模型不像我們,跟我們的工作方式完全不同。你就問(wèn)他,那人類語(yǔ)言是怎樣工作的?他如果是語(yǔ)言學(xué)家,會(huì)告訴你,“用符號(hào)規(guī)則,用操縱符號(hào)表達(dá)式的規(guī)則”。但實(shí)際上,那些說(shuō)這種模型和我們?nèi)祟惒煌娜,?shí)際上并沒(méi)有什么模型,來(lái)說(shuō)明人類語(yǔ)言是怎樣工作的,所以我也不知道他們?cè)趺粗郎窠?jīng)網(wǎng)絡(luò)模型跟我們?nèi)祟惖哪P筒煌。然而神?jīng)網(wǎng)絡(luò)研究者卻的確有一個(gè)我們?nèi)祟愓Z(yǔ)言如何工作的模型。下面我詳細(xì)介紹一個(gè)小模型,因?yàn)槲乙恢闭J(rèn)為,理解一個(gè)小的具體事物比進(jìn)行虛而不實(shí)的抽象要好得多。虛而不實(shí)的抽象看著了不起,但要真正理解事物, 需要一個(gè)細(xì)微的具體例子。
這里有兩棵家譜樹(shù)。
圖2:家譜樹(shù)示意圖
圖中一些是英國(guó)人,還有一些是意大利人。這是1950年代,那時(shí)的家庭非常非常簡(jiǎn)單,沒(méi)有離婚,沒(méi)有收養(yǎng),沒(méi)有同性婚姻,都是很常規(guī)的家庭。你可能會(huì)注意到這些樹(shù)有些類似,具有相同的結(jié)構(gòu)。我們將把這些關(guān)系樹(shù)變成一串三元組。從這些關(guān)系樹(shù)中,我們可以通過(guò)一些關(guān)系術(shù)語(yǔ)(如兒子、女兒、侄子、侄女、母親等)來(lái)記錄信息。然后我們可以制作下面這樣的三元組:
科林有父親詹姆斯,科林有母親維多利亞,詹姆斯有妻子維多利亞。從“科林有父親詹姆斯”和“科林有母親維多利亞”,我們可以推斷出“詹姆斯有妻子維多利亞”。因此,研究符號(hào)人工智能的人認(rèn)為人腦里有這些符號(hào)串的表征,同時(shí),還有允許你從舊的符號(hào)串中得出新的符號(hào)串的規(guī)則,比如:
(如果X有母親Y)且(Y有丈夫Z),那么(X有父親Z)
這就是他們心目中邏輯的全部工作原理。
我所做的是制作一個(gè)神經(jīng)網(wǎng)絡(luò),只要調(diào)節(jié)網(wǎng)絡(luò)的權(quán)重,該網(wǎng)絡(luò)就能學(xué)會(huì)上面那種知識(shí)。但該網(wǎng)絡(luò)內(nèi)部不儲(chǔ)存符號(hào)串,不存儲(chǔ)任何符號(hào)表達(dá)式,里面全是特征和特征之間的相互作用。在神經(jīng)網(wǎng)絡(luò)中做這件事,關(guān)鍵問(wèn)題是,對(duì)于一清二楚的規(guī)則,你或許能夠采用符號(hào)的方式來(lái)做。但我們的大部分知識(shí)并非完全正確,有很多例外。一旦出現(xiàn)了不符合規(guī)則的例外情況,使用大神經(jīng)網(wǎng)絡(luò)來(lái)找這些規(guī)則,效果會(huì)好得多。
我當(dāng)時(shí)使用的神經(jīng)網(wǎng)絡(luò)看起來(lái)是這個(gè)樣子。它底層有兩個(gè)輸入:一個(gè)是僅代表某人名字的單個(gè)(discrete)符號(hào),另一個(gè)是表示關(guān)系名稱的單個(gè)符號(hào)。我們想要的輸出是一個(gè)人的名字,這個(gè)人與以上兩個(gè)輸入有著上述關(guān)系。訓(xùn)練用的數(shù)據(jù)就是這個(gè)樣子。神經(jīng)網(wǎng)絡(luò)要學(xué)會(huì)的是先將一個(gè)人的名字轉(zhuǎn)換成一串特征。就這些家譜樹(shù)而言,這些特征代表這個(gè)人的本質(zhì)。一旦神經(jīng)網(wǎng)絡(luò)為這個(gè)人和這一關(guān)系完成了這種轉(zhuǎn)換,它就會(huì)讓這些特征集合在中間相互作用,就可以預(yù)測(cè)輸出人的特征,然后根據(jù)輸出人的特征,就可以預(yù)測(cè)出輸出人是誰(shuí)。這種方法效果很好,可以讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。它可以重新產(chǎn)生輸入給它的事實(shí),也就是說(shuō),如果所學(xué)的權(quán)重里信息足夠多,你給它一個(gè)用于訓(xùn)練的例子,它就能給出正確答案;不僅如此,它還可以推斷。也就是說(shuō),你可以給它輸入它從未見(jiàn)過(guò)的例子、從未見(jiàn)過(guò)的人名、從未見(jiàn)過(guò)的關(guān)系、從未見(jiàn)過(guò)的組合,它也能給出正確答案。問(wèn)題是,它是怎樣做到這一點(diǎn)的?答案是,它學(xué)會(huì)了相當(dāng)于我們心目中的自然特征的東西。拿人來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了一個(gè)人的某些特征,比如國(guó)籍,例如,如果知道輸入人是英格蘭人,就知道答案是,國(guó)籍是英國(guó);如果輸入人是意大利人,那么輸出答案就是,國(guó)籍是意大利。
我剛才說(shuō)過(guò),這兩個(gè)家庭是非常簡(jiǎn)單的家庭。這也是個(gè)很小的網(wǎng)絡(luò),瓶頸層[9]中只有六個(gè)神經(jīng)元,分別代表國(guó)籍、這個(gè)人屬于哪一輩、屬于家譜樹(shù)的哪個(gè)分支;其中輩分特征會(huì)有三個(gè)值,因?yàn)橛腥吶耍ㄗ钕螺、中間輩或最上輩)。這種輩分特征只有在學(xué)習(xí)關(guān)系特征時(shí)才有用。比如,這種關(guān)系要求輸出人比輸入人高一輩。比如“叔侄”關(guān)系就是這樣。神經(jīng)網(wǎng)絡(luò)如果知道輸入人的輩分,而且知道關(guān)系特征是高出一輩,就可以預(yù)測(cè)輸出人的輩分,這有助于它輸出正確的答案。這就是它的工作原理。而且它的確發(fā)現(xiàn)了符號(hào)人工智能研究者所相信的符號(hào)規(guī)則。這些研究者當(dāng)中沒(méi)有人抱怨這不是真正的學(xué)習(xí)。他們說(shuō),“好吧,它是在學(xué)習(xí),但這是一種很笨的學(xué)習(xí)方式!
再看大語(yǔ)言模型,它可以被視為(我個(gè)人認(rèn)為)前面那個(gè)小模型的后代。他們對(duì)這個(gè)小模型做了調(diào)整,使之增大了許多,也復(fù)雜了許多。所以它有更多的詞,適用于自然語(yǔ)言,而不僅是些簡(jiǎn)單的示例。它使用更多層級(jí)的神經(jīng)元,因?yàn)椴荒軓姆?hào)就直接得出意義。有的符號(hào)可能像may這個(gè)詞,可以指一個(gè)月份,可以是一個(gè)情態(tài)詞,也可以是一個(gè)女子的名字。我們得利用上下文來(lái)消除歧義,比如用層層向上推進(jìn)的辦法,所以神經(jīng)網(wǎng)絡(luò)有更多的層次。不同詞的特征之間的相互作用也就要復(fù)雜得多,但它與小模型在本質(zhì)上屬于同一類模型。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí),會(huì)將所有信息存儲(chǔ)在特征之間交互作用的權(quán)重中。
語(yǔ)言學(xué)家說(shuō),這只是美化了的自動(dòng)補(bǔ)全,只是在利用統(tǒng)計(jì)學(xué)的把戲,只是在將文本臨摹拼湊在一起。但請(qǐng)記住,神經(jīng)網(wǎng)絡(luò)不存儲(chǔ)任何文本。硬說(shuō)它是自動(dòng)補(bǔ)全而不承認(rèn)它是學(xué)習(xí),就是在胡言亂語(yǔ),因?yàn)樗麄兡X子里想的是一種老式自動(dòng)補(bǔ)全。老式自動(dòng)補(bǔ)全會(huì)存儲(chǔ)詞串,例如fish and chips這個(gè)常見(jiàn)的詞串。如果你看到了fish and,你可能會(huì)說(shuō),下一個(gè)詞很可能是chips,因?yàn)檫@是個(gè)非常常見(jiàn)的詞串。而神經(jīng)網(wǎng)絡(luò)根本不是以這種自動(dòng)補(bǔ)全的方式工作的。它將詞轉(zhuǎn)換為特征,并利用特征之間的交互作用來(lái)進(jìn)行預(yù)測(cè)。
因此,大語(yǔ)言模型的工作方式,以及我們?nèi)祟惖墓ぷ鞣绞骄褪,我們看到很多文本,或?tīng)到很多詞串,進(jìn)而獲知詞的特征,以及這些特征之間的交互作用。所謂理解,就是這么回事。神經(jīng)網(wǎng)絡(luò)模型正在以與人類完全相同的方式做理解。
語(yǔ)言學(xué)家的另一個(gè)論調(diào)是,這種模型是在制造幻覺(jué),它實(shí)際上并不真的理解自己在說(shuō)什么。就語(yǔ)言模型而言,這不應(yīng)稱為制造幻覺(jué),而應(yīng)稱為“非故意虛構(gòu)”(confabulation)。自1930年代以來(lái),心理學(xué)一直在研究這個(gè)問(wèn)題,人們慣于非故意虛構(gòu)。這種模型進(jìn)行非故意虛構(gòu)這一事實(shí),使之實(shí)際上更像我們?nèi)祟。大多?shù)人認(rèn)為我們的記憶就像一種文件,你把它放在某處,然后去那里把它取回來(lái),就像把信息輸?shù)诫娔X里然后把它讀取出來(lái)。但人類記憶根本不是這樣。人的記憶總是在重構(gòu)。如果你回憶最近發(fā)生的事,你的重構(gòu)會(huì)相當(dāng)準(zhǔn)確;如果回憶很久以前的事,你就經(jīng)常會(huì)把所有細(xì)節(jié)弄錯(cuò),而且根本意識(shí)不到這一點(diǎn),反而會(huì)對(duì)這些細(xì)節(jié)信心十足。這方面的一個(gè)極好案例就是John Dean的記憶。
就水門事件,John Dean曾宣誓作證,回憶白宮各種會(huì)議上發(fā)生的事情,可是卻把細(xì)節(jié)全弄錯(cuò)了。他說(shuō)Haldeman說(shuō)了什么什么,但實(shí)際上說(shuō)這話的是另一個(gè)人,Haldeman根本沒(méi)有參會(huì)。關(guān)于他的證詞,毋庸置疑的是,他是在盡力說(shuō)實(shí)話。他說(shuō)出了事情的要點(diǎn),即他們?cè)噲D掩蓋水門事件時(shí)究竟發(fā)生了什么。但他以為自己記得很清楚的細(xì)節(jié),其實(shí)是錯(cuò)的,沒(méi)有全錯(cuò),但很多都記錯(cuò)了。Ulrich Neisser有一篇論文很好地證明了這一點(diǎn)。John Dean以為自己記得很清楚的事情,你一聽(tīng)錄音帶就知道他根本記錯(cuò)了,但他記住了事情的實(shí)質(zhì)。
這是個(gè)極好的例子。
現(xiàn)在,聊天機(jī)器人在非故意虛構(gòu)方面的表現(xiàn)比我們?nèi)祟愒愀。它這種虛構(gòu)的頻率比我們高,而且不知道自己是在非故意虛構(gòu)。但它一直在進(jìn)步。我認(rèn)為不久后,聊天機(jī)器人在非故意虛構(gòu)方面不會(huì)比我們差多少。聊天機(jī)器人是在非故意虛構(gòu),這一事實(shí)并不表明它不理解自己做的事或與我們?nèi)祟惒煌炊砻魉c我們?nèi)祟惙浅O嗨啤?br/>
我的演講到此為止。我想對(duì)大家說(shuō)的是,這些大型聊天機(jī)器人不像普通的計(jì)算機(jī)軟件,反而更像我們?nèi)祟。由此?dǎo)致了一大堆人工智能的風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)我暫且不談,有關(guān)內(nèi)容可以參考這篇存檔論文[10]。
好,我說(shuō)完了。
注釋
[1] 劉海濤使用錄音筆和翻譯軟件完成演講的英文轉(zhuǎn)寫和英漢翻譯,提供了一個(gè)原始版本。在此基礎(chǔ)上,譯者根據(jù)現(xiàn)場(chǎng)錄音,校勘英文轉(zhuǎn)寫并全面修訂譯文,后經(jīng)編輯部審核定稿。英文轉(zhuǎn)寫文本經(jīng)過(guò)辛頓審核,并許可演講稿的翻譯出版。熊文新、詹衛(wèi)東、梁昊、李葆嘉、袁毓林都參加了譯稿的潤(rùn)色。詹衛(wèi)東對(duì)譯文中涉及 AI 語(yǔ)言技術(shù)細(xì)節(jié)的表述提出了很多寶貴的專業(yè)意見(jiàn)。詹衛(wèi)東和李葆嘉的一些解釋有助于理解辛頓演講的內(nèi)容和背景,故此用作譯文的腳注。
[2] 原圖為幻燈文件頁(yè)面,圖題為編者所加。下文圖 2 同。
[3] 即圖像每個(gè)像素的亮度值和顏色值等。(詹衛(wèi)東注)
[4] 即神經(jīng)元之間的連接權(quán)重參數(shù) 。(同上)
[5] “反向傳播”是backpropagation(簡(jiǎn)稱BP)在人工智能界通行的中文譯名,它指一種算法,即,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,所建模型從輸入開(kāi)始,先用前向傳播,得到輸出結(jié)果,然后比較輸出結(jié)果跟期望結(jié)果之間的差距(誤差),計(jì)算損失函數(shù)值,再?gòu)妮敵鰧娱_(kāi)始,逐層向輸入層方向(即向后)計(jì)算每個(gè)神經(jīng)元的梯度,即損失函數(shù)值對(duì)每個(gè)參數(shù)(權(quán)重和偏置)的偏導(dǎo)數(shù)。利用鏈?zhǔn)椒▌t,將梯度從輸出層反向傳播到輸入層,逐層更新每個(gè)神經(jīng)元突觸的權(quán)重參數(shù)。BP算法是神經(jīng)網(wǎng)絡(luò)訓(xùn)練最核心的算法之一,能使神經(jīng)網(wǎng)絡(luò)高效地學(xué)習(xí)和調(diào)整參數(shù),從而在訓(xùn)練數(shù)據(jù)上取得良好的性能。由于辛頓等人的工作,使得誤差反向傳播算法成為大規(guī)模多層(深度)神經(jīng)網(wǎng)絡(luò)參數(shù)(權(quán)重)學(xué)習(xí)的標(biāo)準(zhǔn)方法。(同上)
[6] 即深度神經(jīng)網(wǎng)絡(luò)。(同上)
[7] 此為現(xiàn)代語(yǔ)義學(xué)的第一塊基石德國(guó)學(xué)者創(chuàng)立的語(yǔ)義場(chǎng)理論。1924 年 G. Ipsen 受格式塔理論的影響提出語(yǔ)義場(chǎng)。1931 年 J. Trier 提出語(yǔ)義聚合場(chǎng)。1934 年 W. Porzig 提出語(yǔ)義組合場(chǎng)。1968 年M. Quillian提出語(yǔ)義網(wǎng)絡(luò)。1973 年 R. Simmons 提出語(yǔ)義網(wǎng)絡(luò)理論。1985 年 G. Miller 主持研制詞網(wǎng)。(李葆嘉注)
[8] 此為現(xiàn)代語(yǔ)義學(xué)的第二塊基石美法學(xué)者創(chuàng)立的義征分析法。1937 年 K. Davis 提出親屬稱謂的基元分析法。1956 年 W. Goodenough、F. Lounsbury 沿用此法。1963 年 J. Katz 和 J. Fodor 將語(yǔ)義成分分析法導(dǎo)入生成語(yǔ)法。1960 年代 B. Pottie、E. Coeriu、A. Greimas 提出詞的所指由語(yǔ)義要素組成,圖像所指和語(yǔ)言所指相同。語(yǔ)義特征分析法可追溯到德謨克利特的原子論,以及笛卡爾、 A. Arnauld 和P. Nicol 的語(yǔ)義基元論。(同上)
[9] 該神經(jīng)網(wǎng)絡(luò)瓶頸層的特征數(shù)量顯著少于前一層和后一層的特征數(shù)量。這一層通常用于降維或壓縮信息,以提取最重要的特征。(詹衛(wèi)東注)
[10] Yoshua Bengio 等,Managing extreme AI risks amid rapid progress,https://arxiv.org/pdf/2310.17688.pdf [2024 年 7 月 11 日最后訪問(wèn)]。