展會信息港展會大全

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題,并指出發(fā)展多語言AI的緊迫性
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-19 08:56:40   瀏覽:7033次  

導(dǎo)讀:近年來,以 ChatGPT 為代表的大模型飛速發(fā)展,在自然語言處理上展現(xiàn)出驚人的效果,儼然成為新一輪科技革命的重要驅(qū)動力量,深刻改變著人類的生產(chǎn)方式、生活方式和學(xué)習(xí)方式。 雖然大模型取得了突破性的進展,但其在多語言能力上的探索仍然十分滯后,并存在著...

近年來,以 ChatGPT 為代表的大模型飛速發(fā)展,在自然語言處理上展現(xiàn)出驚人的效果,儼然成為新一輪科技革命的重要驅(qū)動力量,深刻改變著人類的生產(chǎn)方式、生活方式和學(xué)習(xí)方式。

雖然大模型取得了突破性的進展,但其在多語言能力上的探索仍然十分滯后,并存在著諸多的局限性。

為此,北京交通大學(xué)助理教授黃鍇宇和合作者,針對大模型在多語言場景下的語種維度和領(lǐng)域維度,進行了一次總結(jié)和分析。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題,并指出發(fā)展多語言AI的緊迫性

圖 | 相關(guān)論文(來源:arXiv)

日前,相關(guān)論文以《多語言大型語言模型研究綜述:最新進展和新前沿》(A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers)為題發(fā)在 arXiv[1]。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題,并指出發(fā)展多語言AI的緊迫性

圖 | 黃鍇宇(來源:黃鍇宇)

黃鍇宇和加拿大蒙特利爾大學(xué)博士生莫馮然是共同一作。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題,并指出發(fā)展多語言AI的緊迫性

圖 | 莫馮然(來源:莫馮然)

在這篇論文中,他們找出了通用數(shù)據(jù)驅(qū)動型大模型主要面臨的三個問題:

第一,語言遷移問題。

大模型的訓(xùn)練數(shù)據(jù)主要專注以英文為核心的通用文本數(shù)據(jù)。

現(xiàn)有的具備一定多語言能力的大模型,也主要以高資源語種為主,所能支持的語種數(shù)量十分有限。

在資源受限的語種性能表現(xiàn)上存在一定的桎梏,比如難以生成流利的句子等。

第二,知識累積問題。

由于數(shù)據(jù)的限制,現(xiàn)有的數(shù)據(jù)難以實現(xiàn)互相共享和持續(xù)更新。

當(dāng)將所有語言數(shù)據(jù)匯聚到一個語言模型中,模型的通用知識也會隨著差異化訓(xùn)練而產(chǎn)生遺忘。這會讓模型難以保持原本擅長的語言能力和其他能力。

不同語言之間的知識也存在沖突,造成大模型的知識持續(xù)累積能力不足,使得其在單一模型內(nèi)難以實現(xiàn)多語言環(huán)境的通用人工智能。

第三,領(lǐng)域適應(yīng)問題。

在多語言場景下的特定領(lǐng)域,大模型存在適應(yīng)性不足的問題。

現(xiàn)有的領(lǐng)域級衍生大模型一般是單語模型。而在不同語言場景中,領(lǐng)域任務(wù)同時存在文化差異和語種差異,這時難以利用翻譯、中軸語等弱對齊方式進行語料庫擴展。

因此,在非英文場景之下,特定領(lǐng)域的語料庫十分匱乏,這讓模型難以擴展成為多語言的領(lǐng)域級大模型。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題,并指出發(fā)展多語言AI的緊迫性

(來源:arXiv)

而在本次工作中,研究人員探究了當(dāng)前大模型在多個維度下的多語言能力和訓(xùn)練方法,并提出了發(fā)掘大模型多語言潛力的方法。

同時,他們還引入“大模型的多語言性”這一概念,針對具有優(yōu)質(zhì)多語言能力的現(xiàn)有大模型進行了系統(tǒng)性調(diào)查。

課題組表示:大模型的多語言性,有別于傳統(tǒng)的多語言大模型的概念。也就是說,現(xiàn)有的大模型不再過分強調(diào)自身是否是一個多語言大模型。

因此,該團隊為這些模型提供了新的分類結(jié)構(gòu)、比較分析和多視角探索,以評估其適用性和局限性,以便為大模型的有效利用提供建議。

對于大模型來說,它們基于數(shù)據(jù)驅(qū)動的范式。因此,研究人員針對與多語言有關(guān)的可用數(shù)據(jù)集和可用評測基準(zhǔn),也進行了總結(jié)和討論。

通過此,他們繪制出一張概括圖,并將這張圖起名為“1+2+3+4”:即一個發(fā)展樹(One Tree)、兩種范式(Two Paradigms)、三種架構(gòu)(Three Architectures)、四個未來探索點(Four Frontiers)。

通過此,他們針對近些年大模型的多語言能力,進行了一次綜述性歸納,旨在探索多語言自然語言處理和多語言大模型的下一步發(fā)展方向。

科學(xué)家揭示數(shù)據(jù)驅(qū)動型大模型的三大問題,并指出發(fā)展多語言AI的緊迫性

(來源:arXiv)

正如研究人員在論文中所提到的:目前,多語言人工智能還面臨著諸多挑戰(zhàn)。而在大模型時代,這些挑戰(zhàn)也仍舊存在。

這些挑戰(zhàn)制約著大模型在推理能力、安全性和領(lǐng)域級解決方案等多方面的應(yīng)用。

因此,該團隊希望本次工作能夠起到如下作用:即推動大模型在新一代多語言對話助手和多語言信息檢索系統(tǒng)等方面的應(yīng)用。

同時,研究人員指出在發(fā)展多語言大模型的同時,還需要思考下一代多語言人工智能的范式。

目前,大模型仍需依靠海量數(shù)據(jù)的支撐和驅(qū)動,這在多語言場景下會讓其應(yīng)用面臨一定的掣肘。

一種語言的使用群體規(guī)模,決定了該類語音數(shù)據(jù)的規(guī)模。而一些資源匱乏的語言,也許永遠不具備形成海量資源的可能。

而人類從頭學(xué)習(xí)新語言、或借助一門基礎(chǔ)語言再學(xué)習(xí)一門新語言,根本無需很多數(shù)據(jù)。即人類通過學(xué)習(xí)詞匯和語法,就能很快進行造句,從而達到交流的目的。

但是,目前的人工智能技術(shù)顯然并不具備這種能力,因此該團隊認為多語言人工智能的進一步發(fā)展,將能夠促進類人智能研究的發(fā)展,從而為探索人腦理解和生成語言的方式帶來助力。

此外,由于當(dāng)前大模型的數(shù)量非常多,僅國內(nèi)就有兩百多個大模型,因此在一篇論文中很難做到全部覆蓋。

為此,研究人員發(fā)布了一個 GitHub 倉庫和對應(yīng)的 leaderboard,以用于陳列和在多個維度上比較現(xiàn)有大模型的多語言能力。

未來,除了繼續(xù)維護上述倉庫之外,他們也會延展多語言能力的評測方法,促進多語言社區(qū)的發(fā)展。

黃鍇宇補充稱:“語言,既是智能的一種表現(xiàn)形式,也是人類智慧的結(jié)晶,并會影響人類理解世界的方式。”

語言的界限,也意味著人類世界的界限。由于語言的獨特性和多樣性,打造多語言社區(qū)需要全世界人類的共同努力。

目前,英文社區(qū)仍然處于領(lǐng)先發(fā)展的狀態(tài),其他語言社區(qū)在這種發(fā)展態(tài)勢下可能會被越拉越遠,甚至逐漸消亡。

但是,多語言社區(qū)的持續(xù)發(fā)展,對于維護語言穩(wěn)定和語種的多樣性、以及保護資源匱乏語種不“被消亡”至關(guān)重要。

因此,黃鍇宇希望多語言人工智能技術(shù),可以成為打破語言界限的一種福祉。

參考資料:

1.https://arxiv.org/pdf/2405.10936

運營/排版:何晨龍

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港