盡管大語言模型已經(jīng)在許多任務(wù)中表現(xiàn)出色,但它們在超出訓(xùn)練集分布泛化方面的能力仍然未被充分理解。例如,在自然語言處理中,大語言模型在某些泛化任務(wù)中的確表現(xiàn)優(yōu)異,但在其他任務(wù)中可能會產(chǎn)生事實性錯誤或誤導(dǎo)性信息。
近日,上海人工智能實驗室徐興成研究員與包括上?萍即髮W(xué)張海鵬、趙梓博以及復(fù)旦大學(xué)楊燕青在內(nèi)的合作者,通過一套統(tǒng)一的理論框架闡明了基于 Transformer 的語言模型在不同算術(shù)場景中的泛化機(jī)制,并揭示了任務(wù)屬性和訓(xùn)練數(shù)據(jù)對于模型表現(xiàn)的決定性作用。這能幫助人們更好地理解模型泛化行為,還為更高效的數(shù)據(jù)訓(xùn)練以及更優(yōu)的人工智能對齊提供指導(dǎo)。
首先,本次成果將能指導(dǎo)模型訓(xùn)練優(yōu)化。通過對訓(xùn)練數(shù)據(jù)質(zhì)量和覆蓋范圍加以分析,可以更好地理解向內(nèi)和向外泛化的影響,從而優(yōu)化訓(xùn)練數(shù)據(jù)的選擇和使用,同時還能節(jié)省數(shù)據(jù)資源。此外,通過對任務(wù)屬性進(jìn)行分析,可以幫助設(shè)計與模型屬性相容的結(jié)構(gòu),從而提升模型的向外泛化能力。
其次,本次成果將能用于自然語言處理研究。即將泛化理論用于自然語言處理中的復(fù)雜任務(wù)分析,使其能夠更準(zhǔn)確、更高效地處理各種語言任務(wù)。
再次,本次成果將能用于人工智能對齊與安全提升。通過深入理解大語言模型在不同任務(wù)中的泛化機(jī)制,可以設(shè)計出更加安全、更加可控的人工智能系統(tǒng)。
圖 | 徐興成(來源:徐興成)
圍繞泛化性,研究人員試圖弄清:為什么不同任務(wù)之間會存在差異?在失敗的任務(wù)中大語言模型究竟學(xué)到了什么?在成功的任務(wù)中大語言模型又是如何實現(xiàn)有效泛化的?
由于直接在自然語言任務(wù)開展探索受到數(shù)據(jù)復(fù)雜性、內(nèi)外分布界定困難性以及評估標(biāo)準(zhǔn)不明確的制約,他們選擇以算術(shù)任務(wù)作為研究模型泛化行為的重要途徑。這些任務(wù)具有很好的數(shù)學(xué)結(jié)構(gòu)和評價標(biāo)準(zhǔn),提供了分析和理解泛化現(xiàn)象的理想環(huán)境。以此,他們希望回答幾個關(guān)鍵問題:
首先,為什么在某些任務(wù)中,模型可以在合適的位置編碼下正確地執(zhí)行更長的未見算術(shù)任務(wù)(比如加法),而在更復(fù)雜的任務(wù)(比如乘法)中的效果卻不盡如人意?
其次,為什么無論使用何種位置編碼,模型在特定模數(shù)下(例如模 100)對于更長的未見模運算表現(xiàn)良好,而在非常接近的模數(shù)下(例如模 101)卻表現(xiàn)不佳?
此前的研究者們通過各類實驗,也發(fā)現(xiàn)了各種看似無關(guān)的分布外泛化現(xiàn)象,卻缺乏統(tǒng)一理論。為了克服“盲人摸象’的困境,該課題組找到了一個統(tǒng)一分析框架,用以探索和揭示這些分布外泛化現(xiàn)象背后的統(tǒng)一理論。
基于此,他們定義和發(fā)現(xiàn)了向內(nèi)分布外泛化概念和向外分布外泛化概念,從而讓諸多長度泛化問題變得清晰起來。
同時,他們也發(fā)現(xiàn)了訓(xùn)練數(shù)據(jù)在向內(nèi)泛化中和向外泛化中所扮演的不同角色,從而能夠幫助人們理解訓(xùn)練數(shù)據(jù)覆蓋范圍對于模型泛化性能的影響。
另外,這一過程也讓研究人員意識到任務(wù)屬性對于模型表現(xiàn)差異的重要影響,從而回答了模型如何才能學(xué)會加法。
圖 | 絕對位置編碼語言模型在加法任務(wù)中的逐位測試準(zhǔn)確率(來源:arXiv)
日前,相關(guān)論文以《看似不相關(guān)的關(guān)聯(lián):算術(shù)推理任務(wù)中生成模型泛化的原則性理解》(Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks)為題發(fā)布于 arXiv[1],同時這篇論文正在投稿中。
圖 | 相關(guān)論文(來源:arXiv)
后續(xù),他們計劃進(jìn)一步深化對大語言模型泛化性的理解,并探索其在其他任務(wù)中的應(yīng)用。
其一,將擴(kuò)展到更復(fù)雜的任務(wù),包括自然語言處理中的復(fù)雜語義理解、邏輯和因果推理等。
其二,將探索多模態(tài)模型的泛化性。
其三,將打造高效的數(shù)據(jù)訓(xùn)練方法。他們希望以此減少模型訓(xùn)練對大規(guī)模數(shù)據(jù)集的依賴,并提高模型在數(shù)據(jù)不足時的泛化能力。
其四,將實現(xiàn)人工智能對齊與安全。即利用研究人員對于泛化機(jī)制的理解,來增強(qiáng)人工智能系統(tǒng)的安全性和可靠性。
該團(tuán)隊補(bǔ)充稱,他們也期望在人工智能的發(fā)展過程中引入更多的理論基礎(chǔ),從而減少試探性方法所帶來的不確定性。他們相信通過集體的智慧和努力,未來的人工智能系統(tǒng)將更智能、更可靠。
參考資料:
1.https://arxiv.org/pdf/2407.17963
排版:初嘉實