日韩久久无码一区二区三区,久久久久无码精品国产AV性色

導(dǎo)讀：2024 年 4 月 8 日辛頓獲得尤利西斯獎?wù)�，以表彰他對計算機(jī)科學(xué)人工智能領(lǐng)域的貢獻(xiàn)。他通過在計算和工程兩方面的突破，使得深度神經(jīng)網(wǎng)絡(luò)成為計算的關(guān)鍵組成部分。本文為杰弗里辛頓在獲得尤利西斯獎?wù)聲r發(fā)表的演講，簡明扼要地介紹了神經(jīng)網(wǎng)絡(luò)和大語言模型的基本概念和工作方式。尤利西斯獎?wù)率嵌及亓执髮W(xué)學(xué)院頒發(fā)的最高榮譽。該獎項設(shè)立于 2005 年，以校友、愛爾蘭作家詹姆斯喬 ......

2024 年 4 月 8 日辛頓獲得尤利西斯獎?wù)拢员碚盟麑τ嬎銠C(jī)科學(xué)人工智能領(lǐng)域的貢獻(xiàn)。他通過在計算和工程兩方面的突破，使得深度神經(jīng)網(wǎng)絡(luò)成為計算的關(guān)鍵組成部分。本文為杰弗里辛頓在獲得尤利西斯獎?wù)聲r發(fā)表的演講，簡明扼要地介紹了神經(jīng)網(wǎng)絡(luò)和大語言模型的基本概念和工作方式。

尤利西斯獎?wù)率嵌及亓执髮W(xué)學(xué)院頒發(fā)的最高榮譽。該獎項設(shè)立于 2005 年，以校友、愛爾蘭作家詹姆斯喬伊斯（James Joyce）的著作《尤利西斯》（Ulysses ）命名，授予為全球做出某種杰出貢獻(xiàn)的個人。

演講 | 杰弗里辛頓

翻譯 | 陳國華（北京外國語大學(xué)外國語言研究所教授）

杰弗里·辛頓：從小語言到大語言，人工智能究竟如何理解人類？

“人工智能教父”杰弗里辛頓榮獲都柏林大學(xué)最高榮譽尤利西斯獎?wù)�。丨圖片來源：Chris Bellew/Fennell Photography

非常感謝學(xué)院贊譽有加的頒獎辭[1]。

我想特別指出一點，那就是，我的成功在很大程度上歸功于能夠招到真正優(yōu)秀的研究生。因此我們永遠(yuǎn)不要忘記，在這一領(lǐng)域，工作是研究生做的。

只要有機(jī)會給他人講課，我就無法拒絕。很多人實際上并不知道人工智能是怎么回事。因此，我將用大約20分鐘做一個非�；A(chǔ)的、關(guān)于人工智能如何工作的演講，讓那些不喜歡方程式、不知道這些大型聊天機(jī)器人究竟在做什么或如何做事的人們，知道是怎么回事，還請計算機(jī)科學(xué)專業(yè)的學(xué)生和已經(jīng)知道人工智能是怎么回事的各位海涵。

自上世紀(jì)中葉以來，對智能的研究一直存在兩種范式。一種是受邏輯學(xué)啟發(fā)的思路，其概念是智能的本質(zhì)是推理，這是讓人類如此特別的關(guān)鍵因素。推理是用符號規(guī)則操縱符號表達(dá)式來實現(xiàn)的，所以，我們真正要做的是了解知識是如何表征的，是用什么類型的邏輯編程語言來表征的。學(xué)習(xí)之類的事可以等到以后再做。

另一種是受生物學(xué)啟發(fā)的思路，這一思路完全不同。這一思路認(rèn)為智能的本質(zhì)是學(xué)習(xí)，學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中連接的強(qiáng)度，邏輯和其他事情要晚得多。我們得先了解人是如何學(xué)會控制自己的身體或識別物體之類的事情，推理之類的事之后再說。

什么是神經(jīng)網(wǎng)絡(luò)？我給大家看一張神經(jīng)網(wǎng)絡(luò)示意圖。

杰弗里·辛頓：從小語言到大語言，人工智能究竟如何理解人類？

圖1：人工神經(jīng)網(wǎng)絡(luò)輸入-輸出層級關(guān)系示意圖[2]

底層是一些輸入神經(jīng)元，即一幅圖像各個像素的強(qiáng)度值[3]。然后是多重中間層神經(jīng)元，這些神經(jīng)元會學(xué)習(xí)從圖像（即輸入數(shù)據(jù)）中提取特征。然后是上層的輸出神經(jīng)元，這些神經(jīng)元可能會說出這是一張什么物體的圖像。例如，輸入的可能是一張貓圖或狗圖。你想要神經(jīng)網(wǎng)絡(luò)做到的是，給它輸入一張貓圖，代表貓的神經(jīng)元就會在輸出端亮起（即輸出結(jié)果是“貓”）。連接線上的那些小彩色點是連接強(qiáng)度（譯者注：原圖紅色小點用黑色表示，綠色小點用灰色表示）[4]。神經(jīng)網(wǎng)絡(luò)所要做到的是學(xué)會這些強(qiáng)度參數(shù)，以便輸出正確結(jié)果。

有一種簡單的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法，每個人都能理解。

我們從一些隨機(jī)連接強(qiáng)度開始。選取其中一個連接，稍微改變一下它的強(qiáng)度，比如稍微增強(qiáng)一點，看看輸出的結(jié)果是否有改進(jìn)。要判斷輸出是否有改進(jìn)，我們得通過神經(jīng)網(wǎng)絡(luò)運行相當(dāng)多的例子，看它能否給出更好的答案。所以，一開始可能它會說，這張貓圖是“貓”的概率是50%。我們改變這個權(quán)重后，它可能會說是51%，這就是有進(jìn)步。我們就這樣修正權(quán)重，然后選取另一權(quán)重來試，然后繼續(xù)這樣做。如果做的時間足夠長，我們會得到這樣一個神經(jīng)網(wǎng)絡(luò)當(dāng)你把貓的圖像展示給它時，它會說這很可能是“貓”；當(dāng)你把狗的圖像展示給它時，它會說這是“狗”。但如此修正的速度非常非常慢，因為處理每個連接，神經(jīng)網(wǎng)絡(luò)得嘗試許多例子，而且我們得多次更新每個連接。

后來我們發(fā)現(xiàn)可以用一種有效得多的辦法來實現(xiàn)同一目標(biāo)。這是一種被稱為“反向傳播”[5]的算法。首先，我們拍攝一個物體的圖像，把它傳輸給神經(jīng)網(wǎng)絡(luò)，通過這個網(wǎng)絡(luò)來識別。假設(shè)它說有50%的概率是“貓”，那它給出的就是個誤差，因為我們希望它說這個圖像100%是“貓”。于是我們通過這個網(wǎng)絡(luò)發(fā)回一個信號，而且就是通過前面那個傳達(dá)誤差的神經(jīng)連接發(fā)回去。大致而言，我們可以計算，而不是衡量，改變一個權(quán)重會怎樣改善這個網(wǎng)絡(luò)的輸出。所以，對于每一權(quán)重，我們都可以弄清楚，如果稍微增加這一權(quán)重，結(jié)果會不會好一點？或者，如果稍微降低這一權(quán)重，結(jié)果會不會好一點？我們現(xiàn)在可以采用并行的方式對所有權(quán)重執(zhí)行這一操作。如果有十億個權(quán)重，并對這些權(quán)重采用并行運算，速度就會快十億倍。這就是神經(jīng)網(wǎng)絡(luò)的工作方式。我們通過反向傳播誤差來改變每一權(quán)重的算法，只是某種相對簡單的微積分。關(guān)鍵的一點是，它確實有效。神經(jīng)網(wǎng)絡(luò)可以通過這種方式學(xué)習(xí)識別事物。

多年來，計算機(jī)科學(xué)家、計算機(jī)視覺研究者們一直都希望實現(xiàn)這樣一個目標(biāo)：給機(jī)器輸入一個圖像，機(jī)器就輸出一個標(biāo)題，說明該圖像的內(nèi)容。但他們做不到，遠(yuǎn)遠(yuǎn)做不到。而現(xiàn)在神經(jīng)網(wǎng)絡(luò)能夠做到這一點。我們用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)，讓它學(xué)會從圖像中提取一批多層級的特征，這些特征的確能讓計算機(jī)識別出圖像的內(nèi)容。

2012年，Alex Krizhevsky和Ilya Sutskever，在我的一點點幫助下，開發(fā)出了一個比已有計算機(jī)視覺系統(tǒng)好得多的深度神經(jīng)網(wǎng)絡(luò)。

接著發(fā)生了一件在科學(xué)界非常罕見的事情。計算機(jī)視覺研究領(lǐng)域的權(quán)威專家原先一直說神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)無法做到這一點，現(xiàn)在卻說：“哇，它還真有效！”而且他們改變了之前的做法，開始使用神經(jīng)網(wǎng)絡(luò)。這可不是科學(xué)家通常有的行為方式，當(dāng)然也不是語言學(xué)家通常有的行為方式。下面，我們就談一談?wù)Z言問題。

符號人工智能圈的許多人說，層級特征檢測器[6]永遠(yuǎn)無法用來處理語言，根本行不通。我的網(wǎng)頁上就引用了這句話。我實在沒忍住，于是就讓GPT4來詳細(xì)解釋這句話錯在哪里。所以現(xiàn)在的情形是，我們有GPT4，它能向語言學(xué)家解釋他們說的為什么不對，說明神經(jīng)網(wǎng)絡(luò)能做什么，不能做什么。語言學(xué)家被一個叫喬姆斯基的人誤導(dǎo)了好幾代此人實際上也獲得了這枚享有盛名的獎?wù)��？梢�，名望不會持久。他有一個偏執(zhí)古怪的理論，即語言不是學(xué)會的。他成功地說服很多人相信這一點。這個說法顯然是一派胡言。語言顯然是學(xué)會的。大型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語言，不需要任何先天結(jié)構(gòu)，只是從隨機(jī)權(quán)重和大量數(shù)據(jù)中開始學(xué)習(xí)。喬姆斯基卻仍然在說，但這并非真正的語言，這不算數(shù)，這是不對的。許多統(tǒng)計學(xué)家和認(rèn)知科學(xué)家也說，永遠(yuǎn)不可能在這樣一個大網(wǎng)絡(luò)里學(xué)習(xí)語言。喬姆斯基從來沒有提出任何一種有關(guān)語義的理論，他的理論全是關(guān)于句法的。

我們?nèi)绻紤]語義，就會發(fā)現(xiàn)有兩種截然不同的語義理論。一種是符號人工智能研究者相信的結(jié)構(gòu)主義理論，大多數(shù)語言學(xué)家也相信這種理論，即一個詞的意思來自于它與其他詞的關(guān)系[7]。

你如果想捕捉一個詞的意思，就需要制作一個關(guān)系圖，圖中包含這個詞與其他詞的鏈接，也許還有鏈接點上的標(biāo)簽，說明它怎樣與其他詞相關(guān)。這就是一個語義網(wǎng)絡(luò)，是捕捉意思所需要的。

此外還有一種非常不同的理論，來自1930年代的心理學(xué)，即一個詞的意思是一個大的特征集合，意思相近的詞具有近似的特征集合[8]。

這兩種理論看起來完全不同。但實際上，我們可以把二者統(tǒng)一起來。我認(rèn)為第一個做到這一點的是我在1985年制作的一個小型語言模型。這個模型與現(xiàn)在的大語言模型有很多共同之處。它通過嘗試預(yù)測下一個詞來學(xué)習(xí)。具體而言，它學(xué)習(xí)每個詞的特征以及這些特征之間的相互作用，這樣就可以預(yù)測下一個詞的特征。重要的是，所有知識都體現(xiàn)在給一個詞分配哪些特征以及不同詞的特征應(yīng)該怎樣相互作用。這個模型不存儲任何句子，卻可以重構(gòu)句子，也就是通過反復(fù)預(yù)測下一個詞來生成句子。這也是大語言模型的工作原理。它實際上不存儲任何文本，而是學(xué)習(xí)從文本中提取特征，把它分配給各個單詞，并提取這些特征之間的相互作用，這樣就可以預(yù)測下一個詞的特征。

這個微小的語言模型并非旨在為工程助力，而是旨在解釋人們?nèi)绾瓮ㄟ^語言來表達(dá)和領(lǐng)悟意思，所以它實際上是人類語言的工作模型。如果有人告訴你這種模型不像我們，跟我們的工作方式完全不同。你就問他，那人類語言是怎樣工作的？他如果是語言學(xué)家，會告訴你，“用符號規(guī)則，用操縱符號表達(dá)式的規(guī)則”。但實際上，那些說這種模型和我們?nèi)祟惒煌娜�，實際上并沒有什么模型，來說明人類語言是怎樣工作的，所以我也不知道他們怎么知道神經(jīng)網(wǎng)絡(luò)模型跟我們?nèi)祟惖哪Ｐ筒煌�。然而神�?jīng)網(wǎng)絡(luò)研究者卻的確有一個我們?nèi)祟愓Z言如何工作的模型。下面我詳細(xì)介紹一個小模型，因為我一直認(rèn)為，理解一個小的具體事物比進(jìn)行虛而不實的抽象要好得多。虛而不實的抽象看著了不起，但要真正理解事物，需要一個細(xì)微的具體例子。

這里有兩棵家譜樹。

杰弗里·辛頓：從小語言到大語言，人工智能究竟如何理解人類？

圖2：家譜樹示意圖

圖中一些是英國人，還有一些是意大利人。這是1950年代，那時的家庭非常非常簡單，沒有離婚，沒有收養(yǎng)，沒有同性婚姻，都是很常規(guī)的家庭。你可能會注意到這些樹有些類似，具有相同的結(jié)構(gòu)。我們將把這些關(guān)系樹變成一串三元組。從這些關(guān)系樹中，我們可以通過一些關(guān)系術(shù)語（如兒子、女兒、侄子、侄女、母親等）來記錄信息。然后我們可以制作下面這樣的三元組：

科林有父親詹姆斯，科林有母親維多利亞，詹姆斯有妻子維多利亞。從“科林有父親詹姆斯”和“科林有母親維多利亞”，我們可以推斷出“詹姆斯有妻子維多利亞”。因此，研究符號人工智能的人認(rèn)為人腦里有這些符號串的表征，同時，還有允許你從舊的符號串中得出新的符號串的規(guī)則，比如：

（如果X有母親Y）且（Y有丈夫Z），那么（X有父親Z）

這就是他們心目中邏輯的全部工作原理。

我所做的是制作一個神經(jīng)網(wǎng)絡(luò)，只要調(diào)節(jié)網(wǎng)絡(luò)的權(quán)重，該網(wǎng)絡(luò)就能學(xué)會上面那種知識。但該網(wǎng)絡(luò)內(nèi)部不儲存符號串，不存儲任何符號表達(dá)式，里面全是特征和特征之間的相互作用。在神經(jīng)網(wǎng)絡(luò)中做這件事，關(guān)鍵問題是，對于一清二楚的規(guī)則，你或許能夠采用符號的方式來做。但我們的大部分知識并非完全正確，有很多例外。一旦出現(xiàn)了不符合規(guī)則的例外情況，使用大神經(jīng)網(wǎng)絡(luò)來找這些規(guī)則，效果會好得多。

我當(dāng)時使用的神經(jīng)網(wǎng)絡(luò)看起來是這個樣子。它底層有兩個輸入：一個是僅代表某人名字的單個（discrete）符號，另一個是表示關(guān)系名稱的單個符號。我們想要的輸出是一個人的名字，這個人與以上兩個輸入有著上述關(guān)系。訓(xùn)練用的數(shù)據(jù)就是這個樣子。神經(jīng)網(wǎng)絡(luò)要學(xué)會的是先將一個人的名字轉(zhuǎn)換成一串特征。就這些家譜樹而言，這些特征代表這個人的本質(zhì)。一旦神經(jīng)網(wǎng)絡(luò)為這個人和這一關(guān)系完成了這種轉(zhuǎn)換，它就會讓這些特征集合在中間相互作用，就可以預(yù)測輸出人的特征，然后根據(jù)輸出人的特征，就可以預(yù)測出輸出人是誰。這種方法效果很好，可以讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。它可以重新產(chǎn)生輸入給它的事實，也就是說，如果所學(xué)的權(quán)重里信息足夠多，你給它一個用于訓(xùn)練的例子，它就能給出正確答案；不僅如此，它還可以推斷。也就是說，你可以給它輸入它從未見過的例子、從未見過的人名、從未見過的關(guān)系、從未見過的組合，它也能給出正確答案。問題是，它是怎樣做到這一點的？答案是，它學(xué)會了相當(dāng)于我們心目中的自然特征的東西。拿人來說，神經(jīng)網(wǎng)絡(luò)學(xué)會了一個人的某些特征，比如國籍，例如，如果知道輸入人是英格蘭人，就知道答案是，國籍是英國；如果輸入人是意大利人，那么輸出答案就是，國籍是意大利。

我剛才說過，這兩個家庭是非常簡單的家庭。這也是個很小的網(wǎng)絡(luò)，瓶頸層[9]中只有六個神經(jīng)元，分別代表國籍、這個人屬于哪一輩、屬于家譜樹的哪個分支；其中輩分特征會有三個值，因為有三輩人（最下輩、中間輩或最上輩）。這種輩分特征只有在學(xué)習(xí)關(guān)系特征時才有用。比如，這種關(guān)系要求輸出人比輸入人高一輩。比如“叔侄”關(guān)系就是這樣。神經(jīng)網(wǎng)絡(luò)如果知道輸入人的輩分，而且知道關(guān)系特征是高出一輩，就可以預(yù)測輸出人的輩分，這有助于它輸出正確的答案。這就是它的工作原理。而且它的確發(fā)現(xiàn)了符號人工智能研究者所相信的符號規(guī)則。這些研究者當(dāng)中沒有人抱怨這不是真正的學(xué)習(xí)。他們說，“好吧，它是在學(xué)習(xí)，但這是一種很笨的學(xué)習(xí)方式�！�

再看大語言模型，它可以被視為（我個人認(rèn)為）前面那個小模型的后代。他們對這個小模型做了調(diào)整，使之增大了許多，也復(fù)雜了許多。所以它有更多的詞，適用于自然語言，而不僅是些簡單的示例。它使用更多層級的神經(jīng)元，因為不能從符號就直接得出意義。有的符號可能像may這個詞，可以指一個月份，可以是一個情態(tài)詞，也可以是一個女子的名字。我們得利用上下文來消除歧義，比如用層層向上推進(jìn)的辦法，所以神經(jīng)網(wǎng)絡(luò)有更多的層次。不同詞的特征之間的相互作用也就要復(fù)雜得多，但它與小模型在本質(zhì)上屬于同一類模型。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時，會將所有信息存儲在特征之間交互作用的權(quán)重中。

語言學(xué)家說，這只是美化了的自動補全，只是在利用統(tǒng)計學(xué)的把戲，只是在將文本臨摹拼湊在一起。但請記住，神經(jīng)網(wǎng)絡(luò)不存儲任何文本。硬說它是自動補全而不承認(rèn)它是學(xué)習(xí)，就是在胡言亂語，因為他們腦子里想的是一種老式自動補全。老式自動補全會存儲詞串，例如fish and chips這個常見的詞串。如果你看到了fish and，你可能會說，下一個詞很可能是chips，因為這是個非常常見的詞串。而神經(jīng)網(wǎng)絡(luò)根本不是以這種自動補全的方式工作的。它將詞轉(zhuǎn)換為特征，并利用特征之間的交互作用來進(jìn)行預(yù)測。

因此，大語言模型的工作方式，以及我們?nèi)祟惖墓ぷ鞣绞骄褪�，我們看到很多文本，或聽到很多詞串，進(jìn)而獲知詞的特征，以及這些特征之間的交互作用。所謂理解，就是這么回事。神經(jīng)網(wǎng)絡(luò)模型正在以與人類完全相同的方式做理解。

語言學(xué)家的另一個論調(diào)是，這種模型是在制造幻覺，它實際上并不真的理解自己在說什么。就語言模型而言，這不應(yīng)稱為制造幻覺，而應(yīng)稱為“非故意虛構(gòu)”（confabulation）。自1930年代以來，心理學(xué)一直在研究這個問題，人們慣于非故意虛構(gòu)。這種模型進(jìn)行非故意虛構(gòu)這一事實，使之實際上更像我們?nèi)祟�。大多�?shù)人認(rèn)為我們的記憶就像一種文件，你把它放在某處，然后去那里把它取回來，就像把信息輸?shù)诫娔X里然后把它讀取出來。但人類記憶根本不是這樣。人的記憶總是在重構(gòu)。如果你回憶最近發(fā)生的事，你的重構(gòu)會相當(dāng)準(zhǔn)確；如果回憶很久以前的事，你就經(jīng)常會把所有細(xì)節(jié)弄錯，而且根本意識不到這一點，反而會對這些細(xì)節(jié)信心十足。這方面的一個極好案例就是John Dean的記憶。

就水門事件，John Dean曾宣誓作證，回憶白宮各種會議上發(fā)生的事情，可是卻把細(xì)節(jié)全弄錯了。他說Haldeman說了什么什么，但實際上說這話的是另一個人，Haldeman根本沒有參會。關(guān)于他的證詞，毋庸置疑的是，他是在盡力說實話。他說出了事情的要點，即他們試圖掩蓋水門事件時究竟發(fā)生了什么。但他以為自己記得很清楚的細(xì)節(jié)，其實是錯的，沒有全錯，但很多都記錯了。Ulrich Neisser有一篇論文很好地證明了這一點。John Dean以為自己記得很清楚的事情，你一聽錄音帶就知道他根本記錯了，但他記住了事情的實質(zhì)。

這是個極好的例子。

現(xiàn)在，聊天機(jī)器人在非故意虛構(gòu)方面的表現(xiàn)比我們?nèi)祟愒愀�。它這種虛構(gòu)的頻率比我們高，而且不知道自己是在非故意虛構(gòu)。但它一直在進(jìn)步。我認(rèn)為不久后，聊天機(jī)器人在非故意虛構(gòu)方面不會比我們差多少。聊天機(jī)器人是在非故意虛構(gòu)，這一事實并不表明它不理解自己做的事或與我們?nèi)祟惒煌�，反而表明它與我們?nèi)祟惙浅Ｏ嗨啤?br/>

我的演講到此為止。我想對大家說的是，這些大型聊天機(jī)器人不像普通的計算機(jī)軟件，反而更像我們?nèi)祟�。由此�?dǎo)致了一大堆人工智能的風(fēng)險。這些風(fēng)險我暫且不談，有關(guān)內(nèi)容可以參考這篇存檔論文[10]。

好，我說完了。

注釋

[1] 劉海濤使用錄音筆和翻譯軟件完成演講的英文轉(zhuǎn)寫和英漢翻譯，提供了一個原始版本。在此基礎(chǔ)上，譯者根據(jù)現(xiàn)場錄音，�？庇⑽霓D(zhuǎn)寫并全面修訂譯文，后經(jīng)編輯部審核定稿。英文轉(zhuǎn)寫文本經(jīng)過辛頓審核，并許可演講稿的翻譯出版。熊文新、詹衛(wèi)東、梁昊、李葆嘉、袁毓林都參加了譯稿的潤色。詹衛(wèi)東對譯文中涉及 AI 語言技術(shù)細(xì)節(jié)的表述提出了很多寶貴的專業(yè)意見。詹衛(wèi)東和李葆嘉的一些解釋有助于理解辛頓演講的內(nèi)容和背景，故此用作譯文的腳注。

[2] 原圖為幻燈文件頁面，圖題為編者所加。下文圖 2 同。

[3] 即圖像每個像素的亮度值和顏色值等。（詹衛(wèi)東注）

[4] 即神經(jīng)元之間的連接權(quán)重參數(shù) 。（同上）

[5] “反向傳播”是backpropagation（簡稱BP）在人工智能界通行的中文譯名，它指一種算法，即，在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中，所建模型從輸入開始，先用前向傳播，得到輸出結(jié)果，然后比較輸出結(jié)果跟期望結(jié)果之間的差距（誤差），計算損失函數(shù)值，再從輸出層開始，逐層向輸入層方向（即向后）計算每個神經(jīng)元的梯度，即損失函數(shù)值對每個參數(shù)（權(quán)重和偏置）的偏導(dǎo)數(shù)。利用鏈?zhǔn)椒▌t，將梯度從輸出層反向傳播到輸入層，逐層更新每個神經(jīng)元突觸的權(quán)重參數(shù)。BP算法是神經(jīng)網(wǎng)絡(luò)訓(xùn)練最核心的算法之一，能使神經(jīng)網(wǎng)絡(luò)高效地學(xué)習(xí)和調(diào)整參數(shù)，從而在訓(xùn)練數(shù)據(jù)上取得良好的性能。由于辛頓等人的工作，使得誤差反向傳播算法成為大規(guī)模多層（深度）神經(jīng)網(wǎng)絡(luò)參數(shù)（權(quán)重）學(xué)習(xí)的標(biāo)準(zhǔn)方法。（同上）

[6] 即深度神經(jīng)網(wǎng)絡(luò)。（同上）

[7] 此為現(xiàn)代語義學(xué)的第一塊基石德國學(xué)者創(chuàng)立的語義場理論。1924 年 G. Ipsen 受格式塔理論的影響提出語義場。1931 年 J. Trier 提出語義聚合場。1934 年 W. Porzig 提出語義組合場。1968 年M. Quillian提出語義網(wǎng)絡(luò)。1973 年 R. Simmons 提出語義網(wǎng)絡(luò)理論。1985 年 G. Miller 主持研制詞網(wǎng)。（李葆嘉注）

[8] 此為現(xiàn)代語義學(xué)的第二塊基石美法學(xué)者創(chuàng)立的義征分析法。1937 年 K. Davis 提出親屬稱謂的基元分析法。1956 年 W. Goodenough、F. Lounsbury 沿用此法。1963 年 J. Katz 和 J. Fodor 將語義成分分析法導(dǎo)入生成語法。1960 年代 B. Pottie、E. Coeriu、A. Greimas 提出詞的所指由語義要素組成，圖像所指和語言所指相同。語義特征分析法可追溯到德謨克利特的原子論，以及笛卡爾、 A. Arnauld 和P. Nicol 的語義基元論。（同上）

[9] 該神經(jīng)網(wǎng)絡(luò)瓶頸層的特征數(shù)量顯著少于前一層和后一層的特征數(shù)量。這一層通常用于降維或壓縮信息，以提取最重要的特征。（詹衛(wèi)東注）

[10] Yoshua Bengio 等，Managing extreme AI risks amid rapid progress,https://arxiv.org/pdf/2310.17688.pdf [2024 年 7 月 11 日最后訪問]。

杰弗里·辛頓：從小語言到大語言，人工智能究竟如何理解人類？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-29 11:51:19 瀏覽：621次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

杰弗里·辛頓：從小語言到大語言，人工智能究竟如何理解人類？ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-29 11:51:19 瀏覽：621次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

杰弗里·辛頓：從小語言到大語言，人工智能究竟如何理解人類？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-29 11:51:19 瀏覽：621次