近年來依托大模型驅(qū)動(dòng)的人工智能(AI)已經(jīng)滲入現(xiàn)代社會(huì)的方方面面,但它的高速發(fā)展離不開海量數(shù)據(jù)的支持,以至于業(yè)內(nèi)將數(shù)據(jù)形容為推動(dòng)AI發(fā)展的“燃料”和“礦產(chǎn)”。但美國(guó)人工智能巨頭OpenAI公司聯(lián)合創(chuàng)始人兼前首席科學(xué)家伊利亞蘇茨克維爾近日公開警告“AI的訓(xùn)練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機(jī)”,立即引起AI業(yè)內(nèi)的廣泛討論:AI大模型真的將陷入數(shù)據(jù)荒?未來該怎么辦?
“預(yù)訓(xùn)練模式必將終結(jié)”
美國(guó)“連線”網(wǎng)站稱,AI發(fā)展離不開三大核心要素:算法、算力和數(shù)據(jù)。如今算力隨著硬件升級(jí)和數(shù)據(jù)中心擴(kuò)建正在持續(xù)增長(zhǎng),算法也在不斷迭代,但數(shù)據(jù)的增加速度開始跟不上AI的發(fā)展需要。蘇茨克維爾在加拿大溫哥華舉行的第38屆神經(jīng)信息處理系統(tǒng)年會(huì)的演講中警告,“我們熟知的預(yù)訓(xùn)練模式必將終結(jié)。”他解釋說,“AI的訓(xùn)練數(shù)據(jù),正像石油一樣,面臨著耗盡的危機(jī)。無法改變的事實(shí)是:我們只有一個(gè)互聯(lián)網(wǎng)。我們已經(jīng)達(dá)到數(shù)據(jù)峰值,不會(huì)再有更多數(shù)據(jù)了,我們必須處理好現(xiàn)有的數(shù)據(jù)!
清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽(yáng)17日對(duì)《環(huán)球時(shí)報(bào)》記者表示,大模型的預(yù)訓(xùn)練是指在構(gòu)建大型人工智能模型(如GPT系列)時(shí),首先在海量未標(biāo)注的數(shù)據(jù)上進(jìn)行初步訓(xùn)練的過程。通過自監(jiān)督學(xué)習(xí)方法,模型學(xué)習(xí)語言的基本結(jié)構(gòu)、語法規(guī)則和廣泛的知識(shí),形成通用的語言表示。這一階段使模型能夠理解和生成自然語言,為后續(xù)的具體任務(wù)(如文本分類、問答系統(tǒng)等)提供堅(jiān)實(shí)的基礎(chǔ)。預(yù)訓(xùn)練不僅提升了模型在各種任務(wù)中的表現(xiàn),還減少了對(duì)大量標(biāo)注數(shù)據(jù)的需求,加速了應(yīng)用開發(fā)的進(jìn)程。
這并非AI業(yè)內(nèi)首次注意到“數(shù)據(jù)不夠用”的情況。英國(guó)《經(jīng)濟(jì)學(xué)人》雜志不久前也在題為《AI公司很快將耗盡大部分互聯(lián)網(wǎng)數(shù)據(jù)》的報(bào)道中,援引研究公司Epoch AI的預(yù)測(cè)稱,“互聯(lián)網(wǎng)上可用的人類文本數(shù)據(jù)將在2028年耗盡”。
為何AI需要的數(shù)據(jù)越來越多?
沈陽(yáng)介紹說,如今大模型訓(xùn)練對(duì)數(shù)據(jù)的需求量確實(shí)在快速增長(zhǎng),呈現(xiàn)出近似成倍疊加的趨勢(shì)。具體來說,像GPT這樣的模型通常需要數(shù)百億到數(shù)萬億字的數(shù)據(jù)來進(jìn)行預(yù)訓(xùn)練。這些龐大的數(shù)據(jù)集幫助模型深入理解語言結(jié)構(gòu)和語義關(guān)系,從而實(shí)現(xiàn)其最終的強(qiáng)大性能和廣泛的應(yīng)用能力。
對(duì)于每次大模型迭代都會(huì)導(dǎo)致數(shù)據(jù)量需求急速增加的原因,沈陽(yáng)解釋稱,這主要源于模型規(guī)模的擴(kuò)大和性能提升的需求。隨著模型參數(shù)數(shù)量增加,模型的學(xué)習(xí)和表達(dá)能力也隨之增強(qiáng),就需要更多的數(shù)據(jù)來充分訓(xùn)練這些參數(shù),并確保模型具備良好的泛化能力。
另一方面,數(shù)據(jù)的多樣性和覆蓋面也是推動(dòng)數(shù)據(jù)需求增長(zhǎng)的重要因素。為了提升模型的通用性和適應(yīng)性,必須使用涵蓋廣泛主題和語言風(fēng)格的海量數(shù)據(jù),這不僅有助于模型理解復(fù)雜的語言結(jié)構(gòu)和語義關(guān)系,還能確保其在各種應(yīng)用場(chǎng)景中表現(xiàn)出色。同時(shí),隨著模型應(yīng)用范圍的擴(kuò)展,如多模態(tài)和跨領(lǐng)域應(yīng)用,對(duì)不同類型和領(lǐng)域的數(shù)據(jù)需求也顯著增加,進(jìn)一步推動(dòng)了數(shù)據(jù)量的增長(zhǎng)。
總的來說,技術(shù)迭代與數(shù)據(jù)量之間存在緊密的正相關(guān)關(guān)系。每一次技術(shù)進(jìn)步,尤其是模型規(guī)模和復(fù)雜度的提升,都會(huì)帶動(dòng)對(duì)更大、更豐富的數(shù)據(jù)集的需求。這種需求的急速增加不僅是為了提升模型性能和泛化能力,還為了支持其在更廣泛和復(fù)雜的應(yīng)用場(chǎng)景中的表現(xiàn)。
隨著大模型(如GPT-4o及Open AI o1 Pro其后續(xù)版本)的規(guī)模不斷擴(kuò)大,對(duì)訓(xùn)練數(shù)據(jù)的需求量呈指數(shù)級(jí)增長(zhǎng)。每一次模型迭代,參數(shù)數(shù)量的增加都要求更多的數(shù)據(jù)以確保模型能夠充分學(xué)習(xí)和泛化。如今互聯(lián)網(wǎng)和其他數(shù)據(jù)源的增長(zhǎng)速度并未完全跟上這種需求,導(dǎo)致可用于訓(xùn)練的高質(zhì)量數(shù)據(jù)相對(duì)稀缺。此外,隨著隱私法規(guī)的日益嚴(yán)格,如歐盟發(fā)布《通用數(shù)據(jù)保護(hù)條例》,大模型研制企業(yè)和機(jī)構(gòu)想要獲取和使用大規(guī)模數(shù)據(jù)變得更加復(fù)雜和受限,進(jìn)一步加劇了數(shù)據(jù)供需不平衡的問題。
未來或?qū)⑦M(jìn)入“小數(shù)據(jù)”時(shí)代?
沈陽(yáng)表示,將AI可用數(shù)據(jù)的現(xiàn)狀比作傳統(tǒng)礦產(chǎn)資源,并非單純因?yàn)閿?shù)據(jù)“總量”枯竭,更像是隨著“礦藏”不斷開采,能輕松獲取的優(yōu)質(zhì)“礦石”(高質(zhì)量數(shù)據(jù))變少了,剩下的數(shù)據(jù)要么同質(zhì)化較高、要么質(zhì)量較低,因此無法直接滿足新一代大模型的訓(xùn)練需求。如今的數(shù)據(jù)可能仍有海量存在,但充斥著偏見、不一致或缺乏標(biāo)注,類似于經(jīng)過開采剩余的礦石貧礦化嚴(yán)重,需要更多的精煉和加工。
因此未來要想應(yīng)對(duì)這種局面,除了繼續(xù)尋求新的數(shù)據(jù)來源(包括更偏僻的語料、專業(yè)領(lǐng)域的數(shù)據(jù)),還可以嘗試合成數(shù)據(jù)、數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等策略,提升數(shù)據(jù)利用效率與質(zhì)量管理水平?偟膩碚f,困境不單純是“數(shù)量不夠”,更是數(shù)據(jù)“質(zhì)量與可用性”不足帶來的挑戰(zhàn),應(yīng)對(duì)之策是在技術(shù)、策略、制度層面全方位提升數(shù)據(jù)處理的精度與效率。
其中合成數(shù)據(jù)成為應(yīng)對(duì)大模型訓(xùn)練數(shù)據(jù)短缺的新思路。相比于從現(xiàn)實(shí)世界中采集或測(cè)量的真實(shí)數(shù)據(jù),合成數(shù)據(jù)是基于模擬真實(shí)數(shù)據(jù)的分布特征和統(tǒng)計(jì)特性,再通過生成模型而創(chuàng)建的。它能根據(jù)實(shí)際需求生成海量可訓(xùn)練的數(shù)據(jù)集,但也存在所謂“過擬合”問題,導(dǎo)致大模型在合成數(shù)據(jù)上表現(xiàn)良好,但在真實(shí)場(chǎng)景中表現(xiàn)不佳。
沈陽(yáng)強(qiáng)調(diào),我們討論近來在全球引發(fā)高度關(guān)注的“AI大模型預(yù)訓(xùn)練數(shù)據(jù)是否將耗盡”這個(gè)話題時(shí),要厘清兩個(gè)問題:一是業(yè)內(nèi)討論的預(yù)訓(xùn)練數(shù)據(jù)是否將“耗盡”主要針對(duì)的是可用于大模型訓(xùn)練的文本數(shù)據(jù),但大模型對(duì)空間數(shù)據(jù)、視頻數(shù)據(jù),以及傳感器感應(yīng)到的自然界中的海量數(shù)據(jù)的學(xué)習(xí)與利用才剛剛開始。也就是說由AI大模型學(xué)習(xí)和使用文本數(shù)據(jù)邁向這些上述提到的巨量數(shù)據(jù),還將會(huì)面臨一個(gè)巨大量級(jí)的擴(kuò)張。二是未來我們一方面要持續(xù)強(qiáng)化大模型的預(yù)訓(xùn)練,但更重要的是研究推理,研究智能體,研究人機(jī)共生。“也就是在研究怎樣讓AI通過海量數(shù)據(jù)學(xué)習(xí),能力變強(qiáng)的同時(shí),更要研究怎樣讓人類也變得更強(qiáng)。不管AI能力有多強(qiáng),人類最終要能夠駕馭AI!
中國(guó)科學(xué)院大學(xué)教授呂本富17日接受《環(huán)球時(shí)報(bào)》記者采訪時(shí)表示,所謂AI大模型預(yù)訓(xùn)練的數(shù)據(jù)“耗盡”,主要是指互聯(lián)網(wǎng)上的數(shù)據(jù)和各種出版數(shù)據(jù)。而每個(gè)人一生的記憶數(shù)據(jù)依然存在個(gè)人頭腦中,還沒有被有效發(fā)掘。隨著預(yù)訓(xùn)練數(shù)據(jù)是否將耗盡引發(fā)熱烈討論,也有觀點(diǎn)認(rèn)為未來將進(jìn)入“小模型”時(shí)代。呂本富認(rèn)為,未來大模型、垂類模型和智能體都要找到自己的價(jià)值域。學(xué)術(shù)界還有“世界模型”的提法,不同于現(xiàn)在的大語言模型,世界模型中不僅有邏輯關(guān)系(概率判斷),還有物理規(guī)律。所以,未來大模型在更高層次上的“決戰(zhàn)”,并沒有結(jié)束。