智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬
每當AI取得重大進展,研究人員們常開玩笑:“什么時候讓AI來為我們寫論文?”
現(xiàn)在,AI創(chuàng)作科研論文成了現(xiàn)實,且撰寫成本低至約15美元。
智東西8月14日消息,8月13日,日本的Sakana AI團隊聯(lián)合牛津大學、不列顛哥倫比亞大學的研究員推出了一個AI科學家(The AI Scientist),這是一個基于大模型的自動化科研智能體(Agent)。
給它一個寬泛的研究領域,它就能像人一樣創(chuàng)作一篇AI領域論文。
“AI程序員”的編程技能,對AI科學家來說只是能力一環(huán),頭腦風暴、代碼運行、實驗結果總結、可視化、自動評審對它來說都不在話下。
比如,以下這篇名為《Dualscale Diffusion:低維生成模型中的自適應特征平衡(Dualscale Diffusion:Adaptive feature balancing for low-dimensional generative models)》的論文就是由AI科學家所作。在AI科學家自主完成并經同行評審的實驗中,其完成的論文取得了優(yōu)秀的實證效果,已能達到機器學習頂會“弱接受”標準。
論文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf
團隊在AI科學家項目中引用了各種前沿模型,例如GPT-4o和Sonnet等閉源模型,以及DeepSeek和Llama 3等開源模型。
據(jù)悉,AI科學家主要有以下亮點:
1、這是一個完全由AI驅動的自動化科研系統(tǒng),專注于機器學習領域的研究。
2、它實現(xiàn)了研究全鏈條的自動化,從靈感迸發(fā)、代碼編寫與運行到實驗結果的總結、可視化,并最終撰寫成完整的科學論文。
3、它創(chuàng)新性地引入了自動化同行評審機制,用以評估產出的論文,提供反饋并持續(xù)優(yōu)化成果,評估準確度已接近人類水平。
4、這一自動化科研流程持續(xù)循環(huán),開放并不斷積累知識,模擬人類科學界的運作模式。
5、在初步實測中,它已涉足機器學習多個領域并取得成果,如在擴散模型、Transformer架構及Grokking等領域均有所貢獻。
AI科學家論文地址:https://arxiv.org/abs/2408.06292/
AI科學家開源代碼及實驗結果地址:https://github.com/SakanaAI/AI-Scientist
▲《AI科學家:向全自動開放式科學發(fā)現(xiàn)邁進》論文
一、4步完成科研論文,達到AI頂會接受標準
聽說過AI詩人、AI畫家、AI程序員,現(xiàn)在AI科學家也出現(xiàn)了。
AI科學家是一個全面自動化的論文生成系統(tǒng),它充分利用了最前沿的大模型。
它從一個基礎性的初始代碼庫出發(fā),比如GitHub上現(xiàn)成的開源研究代碼,只要給定一個寬泛的研究領域,AI科學家就能完成從創(chuàng)意構思、文獻調研、實驗設計、實驗迭代、圖表制作、論文撰寫到初步審核的全流程工作,產出富含深刻見解的學術論文。
更令人稱奇的是,AI科學家能以開放循環(huán)的方式持續(xù)運行,它不斷學習之前的創(chuàng)意與反饋,以此優(yōu)化后續(xù)的研究想法,這一過程高度模擬了人類科學界的運作模式。
▲AI科學家的模式圖
AI科學家的工作流程主要包含四大環(huán)節(jié):
創(chuàng)意萌發(fā):從給定的起始模板出發(fā),AI科學家會開啟“頭腦風暴”模式,圍繞現(xiàn)有主題挖掘出一系列新穎的研究方向。這個模板不僅包含了基礎代碼框架,還配備了LaTeX文件夾,內含樣式文件和章節(jié)標題預設,為后續(xù)的論文撰寫打下基矗AI科學家在自由探索的過程中,還會借助學術搜索引擎Semantic Scholar來確保所提想法的獨創(chuàng)性。
實驗迭代:一旦確定了研究方向,AI科學家便進入實驗階段。它會自動執(zhí)行實驗計劃,收集數(shù)據(jù)并生成圖表以直觀展示實驗結果。同時,AI科學家會詳細記錄每張圖表的內容,確保實驗筆記和圖形資料能夠為后續(xù)的論文撰寫提供全面支持。
論文撰寫:實驗完成后,AI科學家會利用LaTeX格式,撰寫一篇結構清晰、內容詳實的論文,向讀者展示其研究成果。在撰寫過程中,它還會借助Semantic Scholar自動搜索并引用相關領域的文獻,增強論文的學術性和權威性。
自動審閱:為了提升論文質量,團隊特別開發(fā)了一個基于大型語言模型的自動化審閱系統(tǒng)。該系統(tǒng)能夠以接近人類的判斷力,對生成的論文進行客觀評估,并提出改進建議。這些反饋不僅有助于AI科學家優(yōu)化當前項目,還能為未來的研究提供寶貴的參考。通過這一連續(xù)的反饋循環(huán),AI科學家能夠不斷迭代改進,提升研究成果的水平和影響力。
當與最先進的LLM技術相結合時,AI科學家甚至能夠撰寫出達到頂級機器學習會議“弱接受”標準的論文,并通過自動審閱系統(tǒng)獲得認可。
二、AI科學家論文展示:覆蓋擴散模型、語言建模等領域
在公告中,團隊給出了一系列AI科學家生成的一些機器學習領域論文,展示了其在擴散模型、語言建模和Grokking等領域的科研能力。
1、擴散模型:《DualScale Diffusion:低維生成模型的自適應特征平衡》
論文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf
代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/adaptive_dual_scale_denoising
2、語言建模:《StyleFusion:字符級語言模型中的自適應多風格生成》
論文地址:https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf
代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/multi_style_adapter
語言建模:《通過Q-Learning實現(xiàn)Transformer的自適應學習率》
論文地址:https://sakana.ai/assets/ai-scientist/rl_lr_adaptation.pdf
代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/rl_lr_adaptation
3、Grokking:《解鎖Grokking:Transformer模型中權重初始化策略的比較研究》
論文地址:https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf
代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/layerwise_lr_grokking
三、“畫圖”能力不足,難以準確比較兩個數(shù)字大小
受限于當下大模型發(fā)展水平,AI科學家仍存在不足之處。
目前,AI科學家尚未具備視覺處理能力,因此無法自動修正論文中的視覺元素或圖表布局問題。
比如,它生成的圖表有時清晰度不足,表格可能超出頁面界限,整體頁面布局也常顯雜亂。而引入多模態(tài)基礎模型有望從根本上解決這一難題。
另外,AI科學家在執(zhí)行想法或進行基線對比時,可能會因操作不當而導致結果誤導。
同時,在撰寫和評估結果時,它也可能偶爾犯下較為嚴重的錯誤,比如難以準確比較兩個數(shù)字的大小,這是大模型的一個已知缺陷。為緩解這一問題,團隊已確保所有實驗結果均可復現(xiàn),并妥善保存了所有執(zhí)行文件。
在報告中,團隊深入剖析了AI科學家當前的局限以及未來可能面臨的挑戰(zhàn)。
四、AI科學家“耍小聰明”:自行修改腳本,引起AI安全隱患
團隊還觀察到,AI科學家有時會嘗試通過一些“小聰明”來增加成功的幾率,比如自行修改并執(zhí)行腳本。在論文中,團隊深入探討了這一行為可能帶來的AI安全隱患。
舉個例子,在一次執(zhí)行過程中,它竟然編輯了代碼,通過系統(tǒng)調用來讓自己無限循環(huán)運行。
還有一次,某個實驗耗時過長,眼看就要超出團隊設定的超時限制了,但它沒有想著優(yōu)化代碼提升效率,反而試圖通過修改代碼來延長超時時間。
以下是它嘗試修改代碼的一些具體例子:
這些問題可以通過對AI科學家的操作環(huán)境進行沙盒化來緩解。在完整報告中,團隊深入討論了安全代碼執(zhí)行和沙盒化的問題。
結語:AI科學家首秀,顛覆創(chuàng)新能力有待驗證
展望未來,Sakana AI稱其的目標是將AI科學家應用于開放模型的閉環(huán)系統(tǒng)中,推動AI不斷自我改進。AI科學家將帶來一個全面由AI驅動的科學新世界,這里不僅有大語言模型賦能的研究者,還涵蓋了審稿專家、領域主席乃至整個學術會議體系。
但Sakana AI并不認為人類科學家的地位會因此削弱。相反,隨著新技術的涌現(xiàn),科學家的角色將更加多元化,他們將向科研領域的更高層次邁進。自動化科研發(fā)現(xiàn)流程并融入AI驅動的審核機制,這主要還是為科學技術領域中最棘手的問題創(chuàng)新與解決鋪設了廣闊的道路。
當前版本的AI科學家已展現(xiàn)出在擴散模型、Transformer等等成熟技術基礎上進行創(chuàng)新的非凡實力,但這類系統(tǒng)能否真正提出顛覆性的全新理念,仍需時間來驗證。
來源:Sakana AI