劃重點(diǎn)
01加拿大女王大學(xué)研究團(tuán)隊提出AI基礎(chǔ)模型評審團(tuán)方法,旨在提升AI研究效率。
02該團(tuán)隊收集了來自17家頂尖科技公司的上千篇行業(yè)博客文章,創(chuàng)新性地使用基礎(chǔ)模型進(jìn)行自動分類和標(biāo)注。
03通過分析這些博客,研究團(tuán)隊發(fā)現(xiàn)基礎(chǔ)模型對軟件工程的賦能以及軟件工程原則如何應(yīng)用于基礎(chǔ)模型的開發(fā)和部署。
04為此,課題組提出了未來研究的方向,以期推動學(xué)術(shù)界與業(yè)界的深度結(jié)合。
05未來,該團(tuán)隊將繼續(xù)升級基礎(chǔ)模型陪審團(tuán)方法,并期待與企業(yè)深度合作,推動基礎(chǔ)模型在各個領(lǐng)域的廣泛應(yīng)用。
以上內(nèi)容由大模型生成,僅供參考
近年來,人工智能基礎(chǔ)模型(如 GPT-4 等大語言模型)快速發(fā)展,對各行各業(yè)產(chǎn)生了深遠(yuǎn)影響。
然而,雖然學(xué)術(shù)界對這些模型在軟件工程中的應(yīng)用進(jìn)行了大量研究,但大部分研究主要聚焦于理論層面,很少涉及一線工程師在實際工作中的真實體驗和反饋。而這些反饋,往往僅在科技公司發(fā)布的行業(yè)博客中隱約可見。
這些行業(yè)博客通常由頂尖科技公司的工程師和研究人員撰寫,分享他們在開發(fā)、部署和應(yīng)用基礎(chǔ)模型時的實踐經(jīng)驗。
這些博客不僅是科技公司展示技術(shù)實力的窗口,還記錄了最新技術(shù)趨勢、解決方案和遇到的挑戰(zhàn)。
然而,由于這些內(nèi)容屬于“灰色文獻(xiàn)”(即非正式出版物),缺乏系統(tǒng)性的分析,很容易被學(xué)術(shù)界忽視。
這就好比聆聽樂隊的錄音室專輯,卻未能親臨他們的現(xiàn)場演唱會缺乏的正是那種在一線“現(xiàn)場”工作的真實感受。
基于上述情況,來自加拿大女王大學(xué)的研究團(tuán)隊決定轉(zhuǎn)換視角,直接傾聽那些實際使用這些模型的工程師們的聲音,包括:他們?nèi)绾卧谌粘9ぷ髦袘?yīng)用這些基礎(chǔ)模型,他們遇到了哪些具體的挑戰(zhàn)和機(jī)遇等。這些都是學(xué)術(shù)研究中難以觸及的寶貴信息。
圖|李豪(來源:李豪)
日前,相關(guān)論文以《軟件工程和基礎(chǔ)模型:使用基礎(chǔ)模型評審團(tuán)從行業(yè)博客中獲取的見解》(Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models)為題發(fā)表在預(yù)印本網(wǎng)站 arXiv 上 [1]。
女王大學(xué)博士后研究員李豪是第一作者兼通訊作者,加拿大阿爾伯塔大學(xué)考爾保羅貝澤默(Cor-Paul Bezemer)教授和女王大學(xué)艾哈邁德E哈桑(Ahmed E. Hassan)教授擔(dān)任共同通訊作者。
圖|相關(guān)論文(來源:arXiv)
創(chuàng)新方法:利用基礎(chǔ)模型提升技術(shù)文獻(xiàn)分析效率
為了挖掘這座“寶藏”,該課題組收集了來自 17 家頂尖科技公司(如英偉達(dá)、谷歌等)的上千篇行業(yè)博客文章。面對海量數(shù)據(jù),傳統(tǒng)的分析手段顯然難以勝任。于是他們提出:為什么不讓基礎(chǔ)模型自己來做這件事呢?
于是,研究人員創(chuàng)新地提出了“基礎(chǔ)模型陪審團(tuán)”的方法。
簡單來說,讓多個基礎(chǔ)模型協(xié)作,對這些博客文章進(jìn)行自動分類和標(biāo)注,就像是讓 AI 幫人們讀懂這些文章。這種方法不僅大幅提升了研究效率,還展示了基礎(chǔ)模型在處理大量技術(shù)文獻(xiàn)上的潛力。
圖|研究方法學(xué)的概覽(來源:arXiv)
該團(tuán)隊在這項研究中共經(jīng)歷了七個重要階段,從最初的思路調(diào)整到最終的成果發(fā)布,每一步都深思熟慮,系統(tǒng)化推進(jìn)。
起初,課題組將目光聚焦于白皮書,因其通常展現(xiàn)公司在基礎(chǔ)模型(FMs, Foundation Models)和軟件工程(SE,Software Engineering)領(lǐng)域的技術(shù)戰(zhàn)略。然而深入探討后發(fā)現(xiàn),白皮書更多用于宣傳公司理念,缺乏一線工程師的實際操作經(jīng)驗。
因此,他們轉(zhuǎn)而分析科技公司的技術(shù)博客。相較之下,博客內(nèi)容往往由工程師撰寫,貼近真實的技術(shù)應(yīng)用場景,成為研究基礎(chǔ)模型賦能軟件工程(FM4SE,F(xiàn)Ms into SE practices)和軟件工程原則賦能基礎(chǔ)模型(SE4FM,SE methodologies to FMs)實踐的理想數(shù)據(jù)來源。
為明確研究方向,團(tuán)隊提出了兩個關(guān)鍵問題:
(1)業(yè)界博客中涉及哪些基礎(chǔ)模型在軟件工程中的應(yīng)用?
(2)軟件工程原則如何應(yīng)用于基礎(chǔ)模型的開發(fā)和部署?這兩個問題貫穿研究始終,確保內(nèi)容緊扣業(yè)界需求。
接下來,在數(shù)據(jù)收集階段,他們從全球頂尖科技公司的博客中篩選出四千多篇相關(guān)文章,涵蓋基礎(chǔ)模型、軟件開發(fā)、云計算等領(lǐng)域。
為了保證數(shù)據(jù)的相關(guān)性,引入了“基礎(chǔ)模型陪審團(tuán)”方法,以關(guān)鍵詞篩查與人工復(fù)核結(jié)合,最終鎖定了千余篇符合主題的博客文章。這一方法避免了無關(guān)信息的干擾,確保數(shù)據(jù)內(nèi)容的可靠性。
另外,研究人員面對海量非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)手動標(biāo)注不僅耗時且容易出錯。為此,課題組創(chuàng)新性地提出了“基礎(chǔ)模型陪審團(tuán)”方法,讓多個大語言模型協(xié)作進(jìn)行內(nèi)容分類和信息提取。
每個模型如同陪審員,對內(nèi)容進(jìn)行評分與分類,最終以投票形式?jīng)Q定結(jié)果。這種方法提升了數(shù)據(jù)篩選的效率和準(zhǔn)確性,使團(tuán)隊能更迅速地聚焦于有價值的內(nèi)容。
緊接著,在數(shù)據(jù)標(biāo)注完成后,該團(tuán)隊深入分析這些信息,發(fā)現(xiàn) FM4SE 領(lǐng)域的熱點(diǎn)集中在代碼生成和代碼理解,而 SE4FM 則主要關(guān)注模型部署、系統(tǒng)架構(gòu)和任務(wù)編排。通過這些分析,團(tuán)隊進(jìn)一步了解了業(yè)界在兩個方向上的實際需求和技術(shù)焦點(diǎn)。
基于這些洞見,課題組提出了未來研究的方向,以期推動學(xué)術(shù)界與業(yè)界的深度結(jié)合。
例如,如何利用基礎(chǔ)模型進(jìn)行遺留系統(tǒng)現(xiàn)代化,如何在模型開發(fā)中提升性能并優(yōu)化數(shù)據(jù)管理等。這些方向不僅為學(xué)術(shù)研究提供了新思路,也為基礎(chǔ)模型的實際應(yīng)用帶來啟示。
完成研究總結(jié)后,團(tuán)隊還整理并發(fā)布了研究成果,希望能為學(xué)術(shù)界和業(yè)界提供實踐參考。同時,他們公開了數(shù)據(jù)與方法,期望其他研究者在此基礎(chǔ)上進(jìn)一步優(yōu)化和拓展,以更好地應(yīng)對未來的技術(shù)挑戰(zhàn)。
推動學(xué)術(shù)與行業(yè)的協(xié)同發(fā)展:基礎(chǔ)模型與軟件工程的前景
通過分析這些博客,研究團(tuán)隊觀察到兩個有趣的趨勢。
首先是基礎(chǔ)模型對軟件工程的賦能。工程師們利用基礎(chǔ)模型優(yōu)化了軟件開發(fā)的各個流程,不僅包括代碼生成,還幫助理解復(fù)雜代碼、生成代碼摘要,以及推薦適合的應(yīng)用程序編程接口。
這個“智能助手”角色為開發(fā)者提供了實用的支持,大幅提升了工作效率,減少了日常開發(fā)中的重復(fù)性工作。
其次,軟件工程的方法也在反過來賦能基礎(chǔ)模型的開發(fā)和部署。面對資源消耗巨大的大型模型,工程師們探討如何高效部署和運(yùn)營這些模型,如何設(shè)計靈活的系統(tǒng)架構(gòu)以支持模型擴(kuò)展等問題。
他們分享的實踐經(jīng)驗包括通過云服務(wù)部署模型,或利用模型壓縮技術(shù)使大型模型可在本地設(shè)備上運(yùn)行,既解決了隱私問題,也顯著降低了硬件成本。
這些發(fā)現(xiàn)不僅對一線工程實踐有了更清晰的理解,也揭示了基礎(chǔ)模型與軟件工程之間的深度融合。
此次研究成果不僅在學(xué)術(shù)界產(chǎn)生了顯著影響,更在應(yīng)用方面展現(xiàn)出重要的價值。
首先,這項研究為學(xué)術(shù)界提供了一份清晰的指南,揭示了基礎(chǔ)模型在促進(jìn)軟件工程和軟件工程優(yōu)化基礎(chǔ)模型的關(guān)鍵難點(diǎn)。它有助于研究人員更精準(zhǔn)地選擇研究方向,使學(xué)術(shù)探索更密切地貼合行業(yè)需求。
此外,該團(tuán)隊提出的利用基礎(chǔ)模型自動化分析文獻(xiàn)的方法,如同為研究人員配備了一臺智能文獻(xiàn)助手。
在快速發(fā)展的科技領(lǐng)域中,這一方法能高效地收集、分類和解讀大量非正式文獻(xiàn),為研究人員在海量信息篩選方面提供工具,以顯著提升研究效率。
總的來說,該研究展示了同行如何利用基礎(chǔ)模型提升代碼生成、漏洞檢測和模型部署等具體任務(wù)。這些經(jīng)驗為開發(fā)者優(yōu)化工作流程提供了新思路,幫助基礎(chǔ)模型更好地融入項目實踐。
在教育領(lǐng)域,這項研究為課程內(nèi)容的更新提供了寶貴的參考。教育者們可以通過融入這些前沿知識,培養(yǎng)出更加符合行業(yè)需求的新型人才,讓學(xué)生們在畢業(yè)后更快適應(yīng)基礎(chǔ)模型在實際工作中的應(yīng)用。
基于這一成果,課題組對基礎(chǔ)模型在不同領(lǐng)域的潛力充滿興趣,并計劃在這一“無人區(qū)”深入探索,挖掘更多“寶藏”。
據(jù)了解,“基礎(chǔ)模型陪審團(tuán)”方法也在進(jìn)一步升級中,該團(tuán)隊希望將這把“萬能鑰匙”打磨得更加精致、高效,并嘗試應(yīng)用于其他領(lǐng)域,以便在未來的技術(shù)探索中發(fā)揮更大作用。
此外,課題組還期待與企業(yè)深度合作,參與真實項目,通過了解開發(fā)者在應(yīng)用基礎(chǔ)模型時面臨的實際挑戰(zhàn),進(jìn)而推動這一技術(shù)在各個領(lǐng)域的廣泛應(yīng)用。
參考資料:
1.https://doi.org/10.48550/arXiv.2410.09012
排版:何晨龍、劉雅坤