国产亚洲一卡二卡3卡四卡,2021手机日本卡一卡二新区,97亚洲熟妇自偷自拍另类图片

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-19 08:56:40 瀏覽：7033次

導(dǎo)讀：近年來，以 ChatGPT 為代表的大模型飛速發(fā)展，在自然語言處理上展現(xiàn)出驚人的效果，儼然成為新一輪科技革命的重要驅(qū)動力量，深刻改變著人類的生產(chǎn)方式、生活方式和學(xué)習(xí)方式。雖然大模型取得了突破性的進展，但其在多語言能力上的探索仍然十分滯后，并存在著...

近年來，以 ChatGPT 為代表的大模型飛速發(fā)展，在自然語言處理上展現(xiàn)出驚人的效果，儼然成為新一輪科技革命的重要驅(qū)動力量，深刻改變著人類的生產(chǎn)方式、生活方式和學(xué)習(xí)方式。

雖然大模型取得了突破性的進展，但其在多語言能力上的探索仍然十分滯后，并存在著諸多的局限性。

為此，北京交通大學(xué)助理教授黃鍇宇和合作者，針對大模型在多語言場景下的語種維度和領(lǐng)域維度，進行了一次總結(jié)和分析。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性

圖 | 相關(guān)論文（來源：arXiv）

日前，相關(guān)論文以《多語言大型語言模型研究綜述：最新進展和新前沿》（A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers）為題發(fā)在 arXiv[1]。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性

圖 | 黃鍇宇（來源：黃鍇宇）

黃鍇宇和加拿大蒙特利爾大學(xué)博士生莫馮然是共同一作。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性

圖 | 莫馮然（來源：莫馮然）

在這篇論文中，他們找出了通用數(shù)據(jù)驅(qū)動型大模型主要面臨的三個問題：

第一，語言遷移問題。

大模型的訓(xùn)練數(shù)據(jù)主要專注以英文為核心的通用文本數(shù)據(jù)。

現(xiàn)有的具備一定多語言能力的大模型，也主要以高資源語種為主，所能支持的語種數(shù)量十分有限。

在資源受限的語種性能表現(xiàn)上存在一定的桎梏，比如難以生成流利的句子等。

第二，知識累積問題。

由于數(shù)據(jù)的限制，現(xiàn)有的數(shù)據(jù)難以實現(xiàn)互相共享和持續(xù)更新。

當(dāng)將所有語言數(shù)據(jù)匯聚到一個語言模型中，模型的通用知識也會隨著差異化訓(xùn)練而產(chǎn)生遺忘。這會讓模型難以保持原本擅長的語言能力和其他能力。

不同語言之間的知識也存在沖突，造成大模型的知識持續(xù)累積能力不足，使得其在單一模型內(nèi)難以實現(xiàn)多語言環(huán)境的通用人工智能。

第三，領(lǐng)域適應(yīng)問題。

在多語言場景下的特定領(lǐng)域，大模型存在適應(yīng)性不足的問題。

現(xiàn)有的領(lǐng)域級衍生大模型一般是單語模型。而在不同語言場景中，領(lǐng)域任務(wù)同時存在文化差異和語種差異，這時難以利用翻譯、中軸語等弱對齊方式進行語料庫擴展。

因此，在非英文場景之下，特定領(lǐng)域的語料庫十分匱乏，這讓模型難以擴展成為多語言的領(lǐng)域級大模型。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性

（來源：arXiv）

而在本次工作中，研究人員探究了當(dāng)前大模型在多個維度下的多語言能力和訓(xùn)練方法，并提出了發(fā)掘大模型多語言潛力的方法。

同時，他們還引入“大模型的多語言性”這一概念，針對具有優(yōu)質(zhì)多語言能力的現(xiàn)有大模型進行了系統(tǒng)性調(diào)查。

課題組表示：大模型的多語言性，有別于傳統(tǒng)的多語言大模型的概念。也就是說，現(xiàn)有的大模型不再過分強調(diào)自身是否是一個多語言大模型。

因此，該團隊為這些模型提供了新的分類結(jié)構(gòu)、比較分析和多視角探索，以評估其適用性和局限性，以便為大模型的有效利用提供建議。

對于大模型來說，它們基于數(shù)據(jù)驅(qū)動的范式。因此，研究人員針對與多語言有關(guān)的可用數(shù)據(jù)集和可用評測基準(zhǔn)，也進行了總結(jié)和討論。

通過此，他們繪制出一張概括圖，并將這張圖起名為“1+2+3+4”：即一個發(fā)展樹（One Tree）、兩種范式（Two Paradigms）、三種架構(gòu)（Three Architectures）、四個未來探索點（Four Frontiers）。

通過此，他們針對近些年大模型的多語言能力，進行了一次綜述性歸納，旨在探索多語言自然語言處理和多語言大模型的下一步發(fā)展方向。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性

（來源：arXiv）

正如研究人員在論文中所提到的：目前，多語言人工智能還面臨著諸多挑戰(zhàn)。而在大模型時代，這些挑戰(zhàn)也仍舊存在。

這些挑戰(zhàn)制約著大模型在推理能力、安全性和領(lǐng)域級解決方案等多方面的應(yīng)用。

因此，該團隊希望本次工作能夠起到如下作用：即推動大模型在新一代多語言對話助手和多語言信息檢索系統(tǒng)等方面的應(yīng)用。

同時，研究人員指出在發(fā)展多語言大模型的同時，還需要思考下一代多語言人工智能的范式。

目前，大模型仍需依靠海量數(shù)據(jù)的支撐和驅(qū)動，這在多語言場景下會讓其應(yīng)用面臨一定的掣肘。

一種語言的使用群體規(guī)模，決定了該類語音數(shù)據(jù)的規(guī)模。而一些資源匱乏的語言，也許永遠不具備形成海量資源的可能。

而人類從頭學(xué)習(xí)新語言、或借助一門基礎(chǔ)語言再學(xué)習(xí)一門新語言，根本無需很多數(shù)據(jù)。即人類通過學(xué)習(xí)詞匯和語法，就能很快進行造句，從而達到交流的目的。

但是，目前的人工智能技術(shù)顯然并不具備這種能力，因此該團隊認為多語言人工智能的進一步發(fā)展，將能夠促進類人智能研究的發(fā)展，從而為探索人腦理解和生成語言的方式帶來助力。

此外，由于當(dāng)前大模型的數(shù)量非常多，僅國內(nèi)就有兩百多個大模型，因此在一篇論文中很難做到全部覆蓋。

為此，研究人員發(fā)布了一個 GitHub 倉庫和對應(yīng)的 leaderboard，以用于陳列和在多個維度上比較現(xiàn)有大模型的多語言能力。

未來，除了繼續(xù)維護上述倉庫之外，他們也會延展多語言能力的評測方法，促進多語言社區(qū)的發(fā)展。

黃鍇宇補充稱：“語言，既是智能的一種表現(xiàn)形式，也是人類智慧的結(jié)晶，并會影響人類理解世界的方式。”

語言的界限，也意味著人類世界的界限。由于語言的獨特性和多樣性，打造多語言社區(qū)需要全世界人類的共同努力。

目前，英文社區(qū)仍然處于領(lǐng)先發(fā)展的狀態(tài)，其他語言社區(qū)在這種發(fā)展態(tài)勢下可能會被越拉越遠，甚至逐漸消亡。

但是，多語言社區(qū)的持續(xù)發(fā)展，對于維護語言穩(wěn)定和語種的多樣性、以及保護資源匱乏語種不“被消亡”至關(guān)重要。

因此，黃鍇宇希望多語言人工智能技術(shù)，可以成為打破語言界限的一種福祉。

參考資料：

1.https://arxiv.org/pdf/2405.10936

運營/排版：何晨龍

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-19 08:56:40 瀏覽：7033次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-19 08:56:40 瀏覽：7033次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題，并指出發(fā)展多語言AI的緊迫性
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-19 08:56:40 瀏覽：7033次