圖源:Pixabay
2024年,諾貝爾獎將人工智能(AI)推上了科學(xué)界的中心舞臺,AI領(lǐng)域的科學(xué)家連續(xù)斬獲諾貝爾物理學(xué)獎與化學(xué)獎,這一令人意想不到的結(jié)果震撼了學(xué)術(shù)界。
多年后,如果我們回望2024年的諾獎頒獎,或許會發(fā)現(xiàn)這并不是一個意外,而是一個歷史性的轉(zhuǎn)折點(diǎn)AI驅(qū)動的新科學(xué)正式接過了傳統(tǒng)科學(xué)的接力棒,開啟了全新的AI for Science研究時代。
AI正在編織一張跨越傳統(tǒng)學(xué)科界限的大網(wǎng),引領(lǐng)我們進(jìn)入一個前所未見的未來。美國國家工程院外籍院士沈向洋在一次對談中這樣表達(dá),“如果說今天有什么事是我們一定要做的,那就是AI for Science。難以想象今天還有什么事情比它更重要,今年諾貝爾獎的頒布便是最好證明[1]。”
在今年諾獎頒發(fā)前,美國機(jī)器學(xué)習(xí)之父湯姆米切爾(Tom M. Mitchell)就在他撰寫的AI for Science 白皮書中提到,AI for Science帶來了加速科學(xué)發(fā)展的機(jī)遇。AI已經(jīng)顯著加速了從細(xì)胞生物學(xué)到材料科學(xué)、天氣和氣候建模,再到神經(jīng)科學(xué)等廣泛科學(xué)領(lǐng)域的研究進(jìn)展[2]。
谷歌DeepMind最近一篇報告也聲稱,AI for Science有望開啟科學(xué)發(fā)現(xiàn)的新黃金時代。當(dāng)下,現(xiàn)代科學(xué)的進(jìn)步受到了規(guī)模和復(fù)雜性的阻礙,無論是數(shù)量猛漲的文獻(xiàn)還是日益繁復(fù)的實(shí)驗(yàn)都在阻礙科學(xué)家尋求突破。而深度學(xué)習(xí)方法最擅長從大規(guī)模數(shù)據(jù)中提煉信息,從復(fù)雜的環(huán)境中識別模式[3]。
從科學(xué)家手動整理資料,依賴學(xué)科理論提出假設(shè),到AI主導(dǎo),直接從數(shù)據(jù)出發(fā)識別模式和提出假設(shè)。這帶來的不僅是效率上的變化,更是整個科研范式的改變。
AI賦能各個學(xué)科的交叉研究,只是AI影響科學(xué)的第一步。AI for Science更宏偉的藍(lán)圖,是徹底打破學(xué)科界限。
圖靈獎得主、中科院院士姚期智相信,AI for Science給所有科學(xué)帶來的變革是“不可阻擋”的!癆I科學(xué)正在引領(lǐng)學(xué)科交叉創(chuàng)新改變世界的面貌。過去數(shù)百年來,科學(xué)家們在各自的領(lǐng)域以內(nèi)發(fā)展,而今,我們將進(jìn)入一個更廣闊的大科學(xué)時代[4]!
AI賦能科學(xué)家,更專注從0到1
而這樣的一個AI時代,對中國的科學(xué)研究又有特殊的意義。
在今年《科技日報》的訪談中,中國科學(xué)院院士、中國科學(xué)技術(shù)大學(xué)副校長楊金龍?zhí)岬剑骸坝捎跉v史原因,我國的基礎(chǔ)研究在很長一段時期內(nèi)落后于西方國家。充分利用人工智能,把握好這一輪科學(xué)研究范式變革的機(jī)遇,有利于我國在基礎(chǔ)研究的國際競爭中獲得主動地位”。
對于這種科研模式的重大變革,各大高校也早已聞風(fēng)而動。仿佛一夜之間,高校們成了算力采購的大戶,各地高校紛紛開始打造AI基礎(chǔ)設(shè)施。[5]
2018年,西湖大學(xué)成立,其高性能計(jì)算中心幾乎同時成立,為學(xué)!案咂瘘c(diǎn)、小而精、研究型”的辦學(xué)定位提供算力支撐。2020年,西湖大學(xué)開始攜手浪潮信息等企業(yè)共建計(jì)算中心,滿足各學(xué)科領(lǐng)域?qū)τ诖笠?guī)模數(shù)據(jù)處理和大規(guī)?茖W(xué)計(jì)算的需求。
正是在這些算力的支持下,申恩志才得以順利地進(jìn)行自己的那項(xiàng)傳統(tǒng)方法無法進(jìn)行的研究。
申恩志是西湖大學(xué)非編碼核酸生物學(xué)實(shí)驗(yàn)室的研究員,他的研究對象是非編碼RNA。
非編碼RNA,即那些不編碼蛋白質(zhì)的RNA。從DNA到RNA再到蛋白質(zhì),這是遺傳學(xué)的“中心法則”,然而,這條“中心法則”中的DNA、RNA、蛋白質(zhì),3種物質(zhì)在數(shù)量上并不均等。人類的蛋白質(zhì)編碼基因大約有2萬個,但蛋白質(zhì)的種類卻超過5萬個,而在所有的RNA中,98%都是沒有編碼蛋白質(zhì)的非編碼RNA。MicroRNA(小RNA,是非編碼RNA的一種)曾兩次獲得過諾貝爾獎。
然而,因?yàn)榉蔷幋aRNA不編碼蛋白質(zhì),要研究們的分子機(jī)制和生理功能,“經(jīng)典生物化學(xué)缺少技術(shù)工具支撐”。且隨著高通量技術(shù)帶來的數(shù)據(jù)指數(shù)級的膨脹,高效解析測序數(shù)據(jù),分析出其中的調(diào)控關(guān)系,找到調(diào)控規(guī)律,用經(jīng)典的方法幾乎成了不可能完成的任務(wù)。
這是人類基因序列中的“暗物質(zhì)”,它們龐大、復(fù)雜,在生命體里是高度動態(tài)的,可以跟很多其他生命分子相互作用、相互調(diào)節(jié)。目前的研究發(fā)現(xiàn),這些非編碼RNA不僅參與生物體的各種基本生命過程,且與很多重大疾病的發(fā)生密切相關(guān)。用申恩志的話講,這些非編碼RNA“可能譜寫著更復(fù)雜更精確的生命現(xiàn)象”。
幸而,在這個時代,已經(jīng)有了可以幫助科學(xué)家的AI,申恩志這個領(lǐng)域也正是較早利用AI實(shí)現(xiàn)科研模式變革的領(lǐng)域,正是在這個模式下,本屆化學(xué)獎得主Demis Hassabis團(tuán)隊(duì)開發(fā)的AlphaFold自問世以來,已被廣泛應(yīng)用在很多生物學(xué)領(lǐng)域研究中。
對于新的科研模式變革,中國科學(xué)院院士鄂維南曾經(jīng)評價:過去科學(xué)界的研究模式稱為“小農(nóng)模式”,數(shù)百年里,科學(xué)家們在各自的領(lǐng)域內(nèi)深耕細(xì)作,往往由同一團(tuán)隊(duì)完成從理論到開發(fā)的全過程,這是一種相對低效的,不互通有無的方式。AI for science的推進(jìn),使得我們可以消弭的界限,從統(tǒng)一的基礎(chǔ)研究平來考慮不同學(xué)科的各類不同問題,從“小農(nóng)模式”轉(zhuǎn)為“安卓模式”。
在申恩志那個由信息學(xué)、生化、生物物理、遺傳學(xué)、制藥等等各種不同背景的科研人員組成的幾乎涵蓋“海陸空”的實(shí)驗(yàn)室團(tuán)隊(duì),交叉學(xué)科的研究幾乎是常態(tài),研究者們不利用數(shù)據(jù)建模型,也用AI做分析,用AI做其他各種輔助,努力加速自己對生命研究的進(jìn)程。
對于實(shí)驗(yàn)室中的這些AI輔助,申恩志說:“很多疾病的發(fā)生是因?yàn)榈鞍拙幋a基因的異常導(dǎo)致的,如果我們了解了小RNA的靶向規(guī)律,理論上來說,幾乎所有的疾病都能包括進(jìn)來……我們要感謝AI時代的到來,把從1到n的事情留給機(jī)器去做,留出更多的時間來做從0到1的分析,我們就可以有更多的精力來真正做事,進(jìn)而加快了我們對現(xiàn)在整個人類面臨問題的解決的速度”。
尋找最高效的智能模型,
也許需要回歸人腦
這是個變革的時代,AI在前沿科技領(lǐng)域取得了諸如AlphaFold2、核聚變智能控制、新冠藥物設(shè)計(jì)等諸多令人矚目的成果,AI for Science正在成為一種新的研究范式。
時至今日,AI for Science在科學(xué)研究的各個階段,從閱讀文獻(xiàn)、設(shè)計(jì)實(shí)驗(yàn)、材料/靶點(diǎn)的篩選,到數(shù)據(jù)的分析,文獻(xiàn)的輔助寫作,甚至無人實(shí)驗(yàn),幾乎都有了一些成型的產(chǎn)品。
然而,此時此刻,AI for Science的深度發(fā)展所面臨的問題是什么?
楊金龍?jiān)岬竭^兩個方面:數(shù)據(jù),以及,“如何打造人工智能的思維能力”。前者,高質(zhì)量,統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù),需要各個學(xué)科的努力,而后者,壓力給到了那些真正希望探尋智力本源的研究者們。
西湖大學(xué)人工智能教授金耀初的研究便是圍繞后一個問題的解決,事實(shí)上,他最為感興趣的是:智能的從0到1是如何開始的?智能能否通過演化發(fā)育的機(jī)制自發(fā)地產(chǎn)生出來?
“我們現(xiàn)在經(jīng)常講大模型,有千億級的復(fù)雜度,(能耗極高),人腦其實(shí)也是有千億級復(fù)雜度的神經(jīng)元,但是人腦的功率大概只有20~25瓦,非常高效!苯鹨跽f。這也是他決定從發(fā)育的角度去研究AI,探索如何用一個簡單的系統(tǒng)來進(jìn)化出一個很復(fù)雜的系統(tǒng)的原因。
金耀初是歐洲科學(xué)院院士、國際電氣和電子工程師協(xié)會(IEEE)會員、IEEE計(jì)算智能學(xué)會主席,他興趣廣泛,研究領(lǐng)域幾乎“上天入地”,有汽車的噴氣發(fā)動機(jī)和自適應(yīng)巡航系統(tǒng)、空中客車的機(jī)體設(shè)計(jì),也有,疫苗預(yù)測、醫(yī)學(xué)圖像的處理、多機(jī)器人的組織等等。盡管這些領(lǐng)域千差萬別,但在金耀初看來,它們解決問題的方法卻是共通的,那就是他癡迷研究了多年的演化算法。
2023年10月,金耀初加入西湖大學(xué),在這里,他創(chuàng)立了一個自己的“伊甸園”他那個名為“演化及發(fā)育神經(jīng)網(wǎng)絡(luò)”(Evolutionary Developmental Neural Systems)的實(shí)驗(yàn)室,英文名縮寫正是EDEN(伊甸園),象征著人類產(chǎn)生時的懵懂階段。
在自己的伊甸園中,金耀初希望用AI模擬人類的起源過程,在自然環(huán)境中不斷演化發(fā)育出更智慧的智能系統(tǒng),而他則觀察AI“跟環(huán)境的交互”,探索AI不斷的自我的成長,自我的演進(jìn)。
在金耀初看來,自然演化是一個很“懶”的過程,即:如果某個生物用一個簡單系統(tǒng)能活得很好的話,它就不會去搞得很復(fù)雜。所以,“生物的演化過程并不是一個單一的增加復(fù)雜度的過程,而是要找到一個最適合這個環(huán)境的結(jié)構(gòu)”。而這,也許正是目前的大模型所缺乏的。
人腦有一些很重要的特征,比如:功能分區(qū)、模塊化、模塊的合作協(xié)同,有這些,才能如此高效地出現(xiàn)我們看到的這些高等智能,這些東西,現(xiàn)在的大模型還沒有。“所以,我希望通過一些演化和發(fā)育的途徑來實(shí)現(xiàn)有分模塊化的人工神經(jīng)網(wǎng)絡(luò)模型,這可能是我們需要探索的一個方向”。
目前,金耀初的演化算法已成功應(yīng)用于多個實(shí)際復(fù)雜工程系統(tǒng)優(yōu)化。2024年07月,金耀初因其在復(fù)雜系統(tǒng)進(jìn)化優(yōu)化領(lǐng)域的開創(chuàng)性貢獻(xiàn),榮獲2025年IEEE Frank Rosenblatt Award大獎,成為本年度全球唯一獲此殊榮的學(xué)者。該大獎創(chuàng)立于2004年,是IEEE為紀(jì)念神經(jīng)網(wǎng)絡(luò)的創(chuàng)始人之一Frank Rosenblatt而設(shè)立的。
演化算法之外,金耀初也在與同在工學(xué)院人工智能系的藍(lán)振忠探討合作,尋找大模型與演化優(yōu)化算法的結(jié)合點(diǎn),希望通過模仿交互,實(shí)現(xiàn)自我迭代,利用新的算法,藍(lán)振忠希望實(shí)現(xiàn)自己的心理AI之夢。
2020年,藍(lán)振忠從谷歌辭職,回國加入西湖大學(xué),擔(dān)任深度學(xué)習(xí)實(shí)驗(yàn)室負(fù)責(zé)人,希望能夠打造一臺能隨時隨地陪伴、輔助心理咨詢的對話機(jī)器人。目前,他們已上線了第一個產(chǎn)品AI心理咨詢師“小天”,“小天”的日活躍用戶有幾萬人。
算力,AI時代創(chuàng)新的瓶頸
AI驅(qū)動科學(xué)的前景美好,但在眼下,很多高校卻面臨著現(xiàn)實(shí)的尷尬。它們擁有的算力資源,實(shí)在和業(yè)界相差太遠(yuǎn)了。沒有算力的支持,AI驅(qū)動的研究也只能是無源之水。
例如,申恩志團(tuán)隊(duì)所從事的非編碼 RNA研究,就對算力和 AI 算法的穩(wěn)定性、泛化能力都有著頗高的要求。高通量技術(shù)帶來的海量轉(zhuǎn)錄組數(shù)據(jù),需要依靠 AI 進(jìn)行快速處理,從而識別并分類潛在序列。
“整個人類基因組堿基對約有30億,對于這樣龐大數(shù)據(jù)的分析,在方法和計(jì)算量上的都是十分復(fù)雜的問題,現(xiàn)在有了算力支持和AI的技術(shù)支撐,可以幫助我們更快更好的找到答案!鄙甓髦菊f。
可以說,AI工具已經(jīng)貫穿了科學(xué)研究的全流程,算力則成為了不可或缺的支撐。
而現(xiàn)在高校算力不足是一個普遍的現(xiàn)象。根據(jù)《Nature》雜志的報道,一項(xiàng)針對全球數(shù)十家機(jī)構(gòu)的學(xué)者進(jìn)行的調(diào)查顯示,許多在大學(xué)工作的科學(xué)家都對AI研究可用的算力不足表示不滿。他們沒有預(yù)算買到必要的GPU,通常用于訓(xùn)練人工智能模型的GPU,一塊價格可能高達(dá)數(shù)千美元。相比之下,大型科技公司的研究人員預(yù)算更高,可以在 GPU 上花費(fèi)更多。
研究報告的合著者、羅德島普羅維登斯布朗大學(xué)的計(jì)算機(jī)科學(xué)家 Apoorv Khandelwal 說,"那些行業(yè)巨頭可能擁有數(shù)千個GPU,而學(xué)術(shù)界可能只擁有一小部分GPU[6]!
即使是最頂尖的高校,算力資源的不足仍然是制約科學(xué)發(fā)展和創(chuàng)新的關(guān)鍵。今年5月,斯坦福大學(xué)教授李飛飛稱學(xué)術(shù)界正在面臨AI計(jì)算資源的嚴(yán)重短缺,斯坦福大學(xué)的自然語言實(shí)驗(yàn)室只有64塊GPU!跋啾裙I(yè)界,學(xué)術(shù)界正在從懸崖上跌落!崩铒w飛說[7]。
中國高校的算力儲備就更為不足,底子薄弱,使用也很不均衡。一項(xiàng)相關(guān)調(diào)研顯示,2022年時,國內(nèi)只有大約8.4%的高校已建設(shè)校級算力平臺,校級算力平臺的運(yùn)算能力主要分布在250Tflops以下;存儲空間主要分布在500TB以下。在大模型熱潮興起時,很多國內(nèi)高校實(shí)驗(yàn)室只能用消費(fèi)級的GPU去做實(shí)驗(yàn)[8]。
在藍(lán)振忠實(shí)驗(yàn)室發(fā)布在西湖大學(xué)網(wǎng)站上的招聘信息中,列出的吸引應(yīng)聘者的第一個優(yōu)勢是“實(shí)驗(yàn)室有足夠的服務(wù)器設(shè)備支持大語言模型的研究,可保證實(shí)驗(yàn)項(xiàng)目高效進(jìn)行”。算力對搞大模型的藍(lán)振忠團(tuán)隊(duì)至關(guān)重要,“小天”就是基于西湖大學(xué)算力資源打造的。算力對金耀初團(tuán)隊(duì)、申恩志團(tuán)隊(duì)等做AI跨學(xué)科研究的科學(xué)家同樣重要。
這有賴于西湖大學(xué)對科研人員長期充足的算力支持。西湖大學(xué)在計(jì)算中心的建設(shè)上,走在了國內(nèi)高校的前列。
2020年以來,西湖大學(xué)計(jì)算中心與浪潮信息合作,除了構(gòu)建算力系統(tǒng),還打造了領(lǐng)先的算力平臺AIStation。
通過AIStation平臺,西湖大學(xué)的計(jì)算中心能夠統(tǒng)一管理計(jì)算資源,將計(jì)算資源利用率提升到90%以上,減少資源閑置,緩解多人使用下的資源擁擠以及計(jì)算資源不足問題。為西湖大學(xué)全校各研究機(jī)構(gòu)提供高質(zhì)量、高可靠性、高定制化的科學(xué)計(jì)算和數(shù)據(jù)分析解決方案,滿足各學(xué)科領(lǐng)域與人工智能融合對于大規(guī)模數(shù)據(jù)處理和大規(guī)?茖W(xué)計(jì)算的需求。
參考文獻(xiàn)
[1]科技新聞. (2024, November 23). IDEA研究院沈向洋:從PMF到TMF,AI For Science是一定要做的事.
[2]Mitchell, T. (n.d.). How Can AI Accelerate Science, and How Can Our Government Help? Carnegie Mellon University. ml
[3]DeepMind. (2024). AI for Science.
[4]知識分子. (2024, April 28). AI正在改變所有學(xué)科?圖靈獎得主姚期智:大科學(xué)時代來了.
[5]周享. (2024, November 27). 一覺醒來,高校成了智算采購大戶. 數(shù)智前線
[6]Nature. (2024, November 20). AI’s computing gap: academics lack access to powerful chips needed for research.
[7]Bloomberg Live. (2024, May 9). Top Researcher Li on the Promises and Perils of AI
[8]賽爾網(wǎng)絡(luò). (2022). 高校網(wǎng)絡(luò)服務(wù)情況和教育信息化需求調(diào)研報告 (2022年度).
本文經(jīng)授權(quán)轉(zhuǎn)載自公眾號“知識分子”(ID:The-Intellectual)