劃重點(diǎn)
01DeepMind的AlphaFold2在2020年CASP競(jìng)賽中預(yù)測(cè)了超過(guò)90%的蛋白質(zhì)結(jié)構(gòu),引發(fā)了科學(xué)界的關(guān)注和討論。
02然而,AlphaFold2在預(yù)測(cè)已知蛋白質(zhì)結(jié)構(gòu)的功能和準(zhǔn)確性方面仍有局限,需要與實(shí)驗(yàn)方法相結(jié)合。
03為此,其他研究團(tuán)隊(duì)如貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計(jì)研究所和谷歌DeepMind正在改進(jìn)他們的深度學(xué)習(xí)算法,以預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)的結(jié)構(gòu)。
04盡管如此,AlphaFold2的成功已經(jīng)改變了生物學(xué)家對(duì)人工智能的態(tài)度,激發(fā)了他們?cè)诮Y(jié)構(gòu)生物學(xué)領(lǐng)域的更多探索。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
2024 年 10 月 9 日北京時(shí)間 17 時(shí) 45 分許,戴維貝克(David Baker)因計(jì)算蛋白質(zhì)設(shè)計(jì),戴米斯哈薩比斯(Demis Hassabis)和約翰江珀(John Jumper)因蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)共同獲得 2024 年諾貝爾化學(xué)獎(jiǎng)。
戴維貝克(David Baker)是美國(guó)化學(xué)家、計(jì)算生物學(xué)家,華盛頓大學(xué)教授、蛋白質(zhì)設(shè)計(jì)研究所主任,計(jì)算蛋白質(zhì)設(shè)計(jì)和預(yù)測(cè)領(lǐng)域先驅(qū)。貝克1962年出生于美國(guó)華盛頓州,1984年在哈佛大學(xué)取得生物學(xué)學(xué)士學(xué)位,1989年獲得加利佛尼亞大學(xué)伯克利分校生物化學(xué)博士學(xué)位, 并在加利福尼亞大學(xué)舊金山分校完成生物物理方向的博士后訓(xùn)練。貝克是被廣泛使用的蛋白質(zhì)結(jié)構(gòu)從頭設(shè)計(jì)和預(yù)測(cè)軟件“羅賽塔”的發(fā)明人,他的團(tuán)隊(duì)還設(shè)計(jì)出了首個(gè)具有全新折疊結(jié)構(gòu)的人工蛋白質(zhì)Top7。
戴米斯哈薩比斯(Demis Hassabis)是英國(guó)計(jì)算機(jī)科學(xué)家,人工智能研究者、前游戲設(shè)計(jì)師,DeepMind(現(xiàn)Google DeepMind)聯(lián)合創(chuàng)始人及首席執(zhí)行官。哈薩比斯1976年出生于英國(guó)倫敦,幼年便展現(xiàn)出驚人的智力天賦,13歲達(dá)到國(guó)際象棋大師水平。青少年時(shí)代的哈薩比斯大部分時(shí)間在家由父母輔導(dǎo)自學(xué),15歲時(shí)開(kāi)始游戲設(shè)計(jì)師生涯,并在21歲獲得劍橋大學(xué)計(jì)算機(jī)科學(xué)學(xué)位。畢業(yè)后,他繼續(xù)游戲設(shè)計(jì)師工作,運(yùn)用AI算法參與開(kāi)發(fā)了著名游戲《黑與白》、《共和國(guó):革命》和《邪惡天才》;在此過(guò)程中,他對(duì)神經(jīng)科學(xué)產(chǎn)生濃厚興趣并重返校園,2009年獲得倫敦大學(xué)學(xué)院認(rèn)知神經(jīng)科學(xué)博士學(xué)位,其后在麻省理工學(xué)院-哈佛大學(xué)進(jìn)行神經(jīng)科學(xué)和人工智能研究。2010年,哈薩比斯在英國(guó)倫敦聯(lián)合創(chuàng)立機(jī)器學(xué)習(xí)公司DeepMind,并帶領(lǐng)團(tuán)隊(duì)先后發(fā)布震撼世界的AlphaGo、AlphaFold系列模型。在谷歌收購(gòu) DeepMind 后,哈薩比斯帶領(lǐng)團(tuán)隊(duì)主導(dǎo)了谷歌最先進(jìn)的人工智能模型Gemini的開(kāi)發(fā)。
約翰江珀(John Jumper)是 Google DeepMind 高級(jí)研究員。江珀 1985 年出生于美國(guó)阿肯色州,2007 年在美國(guó)范德比爾特大學(xué)取得物理學(xué)和數(shù)學(xué)學(xué)士學(xué)位, 2008 年在英國(guó)劍橋大學(xué)取得理論凝聚態(tài)物理學(xué)碩士學(xué)位。之后,江珀在美國(guó)生物化學(xué)研究公司 D. E. Shaw Research 擔(dān)任了 3 年科學(xué)助理,利用計(jì)算機(jī)模擬進(jìn)行分子動(dòng)力學(xué)研究,并開(kāi)發(fā)了一種從這些模擬中提取關(guān)鍵數(shù)據(jù)的算法。2017 年,江珀在美國(guó)芝加哥大學(xué)取得理論化學(xué)博士學(xué)位,利用機(jī)器學(xué)習(xí)模擬蛋白質(zhì)折疊和動(dòng)力學(xué)研究。之后,他又在芝加哥大學(xué)完成了博士后研究,繼續(xù)從事蛋白質(zhì)預(yù)測(cè)深度學(xué)習(xí)模型的研究工作。2018 年起,江珀進(jìn)入英國(guó) DeepMind 公司擔(dān)任高級(jí)研究員。在 DeepMind 公司,江珀和同事開(kāi)發(fā)了AlphaFold 系列模型,他也是 AlphaFold2 開(kāi)發(fā)團(tuán)隊(duì)的領(lǐng)導(dǎo)者。
《環(huán)球科學(xué)》雜志2024年10月新刊推出“AI重塑結(jié)構(gòu)生物學(xué)”系列專(zhuān)題文章,恰逢其時(shí)地對(duì)今年諾貝爾化學(xué)獎(jiǎng)的成果及三位獲獎(jiǎng)?wù)叩难芯窟M(jìn)行了深入解讀。文章系統(tǒng)梳理了計(jì)算蛋白質(zhì)設(shè)計(jì)與結(jié)構(gòu)領(lǐng)域的發(fā)展歷程,并詳盡解析了其中的重大突破與前沿進(jìn)展。為方便讀者系統(tǒng)完整地了解今年的獲獎(jiǎng)成果,我們特將兩萬(wàn)余字的專(zhuān)題內(nèi)容全文刊出。
撰文| 亞塞明薩普拉科格盧(Yasemin Saplakoglu)
翻譯| 金燁鐘博子韜
審校| 張陽(yáng)
打破僵局的“羅塞塔”
2020年12月,上百位計(jì)算科學(xué)家端坐在各自的電腦屏幕前,見(jiàn)證了科學(xué)新紀(jì)元的展開(kāi)。他們因?yàn)橐粓?chǎng)會(huì)議匯聚一堂。在這場(chǎng)友好的競(jìng)爭(zhēng)中,一些人已經(jīng)參與了近三十年,沉迷于探討一個(gè)不變的問(wèn)題著名的“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題”。它解釋起來(lái)很簡(jiǎn)單:人們能否憑借最為簡(jiǎn)單的信息一段蛋白質(zhì)分子的一維序列,精準(zhǔn)預(yù)測(cè)出它的三維結(jié)構(gòu)?蛋白質(zhì)維持著我們細(xì)胞與身體的活力和運(yùn)轉(zhuǎn),由于它的行為取決于其形狀與結(jié)構(gòu),因此成功解答這一問(wèn)題將深刻影響我們對(duì)疾并新藥研發(fā)以及生命機(jī)制的理解。
這個(gè)會(huì)議每?jī)赡昱e辦一次,科學(xué)家會(huì)在會(huì)議中測(cè)試自己最新研發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具。然而,解決方案總是遙不可及,其中一些人賭上了自己的全部科研生涯,試圖提高預(yù)測(cè)的準(zhǔn)確性。這場(chǎng)競(jìng)爭(zhēng)始終處于嬰兒學(xué)步階段,所以大家并不認(rèn)為2020年會(huì)有所不同。
但是,他們錯(cuò)了。就在那一周,一名叫約翰江珀(John Jumper)的科學(xué)家在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這一領(lǐng)域嶄露頭角,他展示了一套全新的人工智能(AI)工具“阿爾法折疊2”(AlphaFold2),它是谷歌位于英國(guó)倫敦的人工智能子公司“深度思維”(DeepMind)的研發(fā)成果。在在線視頻會(huì)議上,這名在該領(lǐng)域資歷尚淺的科學(xué)家報(bào)告的數(shù)據(jù)表明,AlphaFold2的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)模型準(zhǔn)確率超過(guò)90%,是緊隨其后的對(duì)手的5倍。
一瞬間,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)從不可解的難題變成了不再令人痛苦的問(wèn)題。人類(lèi)思維陷入僵局,AI大獲成功,一舉震驚了生物學(xué)界。“我當(dāng)時(shí)就驚呆了,”與會(huì)的美國(guó)哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目(Program for Mathematical Genomics)的系統(tǒng)生物學(xué)家穆罕默德庫(kù)雷希(Mohammed AlQuraishi)說(shuō),“很多人不愿意承認(rèn)(AlphaFold2的成就)。”
但在總結(jié)發(fā)言中,會(huì)議組織者約翰莫爾特(John Moult)以不容置疑的口氣說(shuō)道:AlphaFold2“在很大程度上解決了”蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,自此徹底改變了蛋白質(zhì)科學(xué)。莫爾特身穿黑色高領(lǐng)衫,坐在自家辦公室的書(shū)架前,在會(huì)議軟件上點(diǎn)擊自己的幻燈片,語(yǔ)氣激動(dòng)又帶著一絲不祥的口吻:“這不是終結(jié),而是開(kāi)始。”
當(dāng)谷歌的公關(guān)部門(mén)將這一消息在全球大肆宣揚(yáng)之后,媒體為之瘋狂。各大頭條口徑一致:AlphaFold2“將改變一切”。而那些將一生貢獻(xiàn)于探索單個(gè)蛋白質(zhì)結(jié)構(gòu)的結(jié)構(gòu)生物學(xué)家們則心生恐懼,擔(dān)心自己會(huì)失業(yè)。一些人主張AlphaFold2會(huì)革新藥物研發(fā),能讓生物學(xué)家快速確定蛋白質(zhì)結(jié)構(gòu),創(chuàng)造全新的靶向藥物。其他人則反駁說(shuō)這些結(jié)果大部分都是炒作,這個(gè)世界并不會(huì)因此出現(xiàn)什么變化。莫爾特自己也無(wú)法理解這個(gè)橫空出世的新事物。會(huì)議結(jié)束時(shí),他提出了一個(gè)每個(gè)人都想問(wèn)的問(wèn)題:“接下來(lái)怎么辦?”
現(xiàn)在,時(shí)間已經(jīng)過(guò)去了三年半,他這個(gè)問(wèn)題終于能得到回應(yīng)了。毫無(wú)疑問(wèn),AlphaFold2確實(shí)改變了生物學(xué)家研究蛋白質(zhì)的方式。然而,盡管AlphaFold2是強(qiáng)大的預(yù)測(cè)工具,但它并非無(wú)所不能。它非常巧妙地使用不同于科學(xué)家的方法解決了一部分蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,卻無(wú)法取代生物實(shí)驗(yàn),反而更加凸顯了實(shí)驗(yàn)的必要性。
也許AlphaFold2最大的影響力是讓生物學(xué)家注意到了AI的威力。它啟發(fā)了新的算法,例如設(shè)計(jì)出自然界中并不存在的全新蛋白質(zhì),也催生了新的生物技術(shù)公司以及實(shí)踐科學(xué)的新方法。它的新版本AlphaFold3在2024年5月上線,引領(lǐng)生物學(xué)預(yù)測(cè)技術(shù)進(jìn)入下一階段:構(gòu)建蛋白質(zhì)與其他分子(諸如DNA或者RNA)結(jié)合的復(fù)合體結(jié)構(gòu)。“這是迄今為止最宏大的‘機(jī)器學(xué)習(xí)驅(qū)動(dòng)科學(xué)’的故事。”庫(kù)雷希說(shuō)道。
不過(guò),AI無(wú)法填補(bǔ)的鴻溝仍然大量存在。這類(lèi)工具無(wú)法模擬蛋白質(zhì)隨著時(shí)間推移而發(fā)生的變化,或者說(shuō)無(wú)法構(gòu)建處于自身生存環(huán)境即細(xì)胞中的蛋白質(zhì)的動(dòng)態(tài)結(jié)構(gòu)。而在科學(xué)家為AlphaFold2的預(yù)測(cè)能力折服之前,人類(lèi)對(duì)蛋白質(zhì)結(jié)構(gòu)背后隱藏秘密的不懈追求,已經(jīng)持續(xù)了半個(gè)多世紀(jì)。
問(wèn)題的誕生
一張折紙不過(guò)是一層被壓縮的木漿,直到以特定方式折疊,它才煥發(fā)新生。只需要幾次精準(zhǔn)地翻卷和壓折,這張紙就能變成“算命大師”預(yù)言你的未來(lái)。在同一張紙上改變一些折疊步驟,一只紙鶴就此展翅而來(lái),給收到它的人帶來(lái)好運(yùn)。
同樣,一長(zhǎng)串氨基酸分子鏈本身沒(méi)有任何功能,直到它自發(fā)折疊成固有形狀,生物學(xué)家稱(chēng)之為蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)的結(jié)構(gòu)決定了自身與其他生命分子結(jié)合或相互作用的方式,從而定義它在細(xì)胞中的作用。
地球上已知的蛋白質(zhì)種類(lèi)上億,未知的則更多。它們無(wú)所不能:血紅蛋白和肌紅蛋白在肌肉和身體中循環(huán)輸送氧氣。角蛋白為頭發(fā)、指甲與皮膚提供結(jié)構(gòu)框架。胰島素協(xié)助葡萄糖進(jìn)入細(xì)胞,轉(zhuǎn)化成能量。蛋白質(zhì)可以呈現(xiàn)無(wú)數(shù)形狀結(jié)構(gòu),以匹配生命活動(dòng)過(guò)程中無(wú)數(shù)的“工作需求”。“從原子到生態(tài)系統(tǒng),(蛋白質(zhì)結(jié)構(gòu))就像是一種通用語(yǔ)。”庫(kù)雷希打比方道,“萬(wàn)物源自此處。”
細(xì)胞讓名為氨基酸的小分子像雛菊花環(huán)一樣連起來(lái)形成多肽長(zhǎng)鏈,制造出蛋白質(zhì)。它所選擇的氨基酸取決于DNA提供的一連串指令。在這個(gè)創(chuàng)造過(guò)程中,多肽鏈一瞬之間就能彎曲扣合,精準(zhǔn)折疊成蛋白質(zhì)最終的三維結(jié)構(gòu)。一旦脫離分子組裝流水線,蛋白質(zhì)就會(huì)立刻奔赴屬于自己的生物學(xué)工作。
如果蛋白質(zhì)無(wú)法順利完成折疊過(guò)程,災(zāi)難將接踵而至,破壞身體功能。蛋白質(zhì)錯(cuò)誤折疊或展開(kāi)都會(huì)產(chǎn)生毒性,導(dǎo)致細(xì)胞死亡。許多疾病與身體障礙,例如鐮狀細(xì)胞貧血,都由蛋白質(zhì)錯(cuò)誤折疊造成。此外,錯(cuò)誤折疊的蛋白質(zhì)還會(huì)凝聚成斑塊,成為阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的生物學(xué)標(biāo)志。
然而,無(wú)人確切知曉蛋白質(zhì)折疊究竟是如何發(fā)生的。這些簡(jiǎn)單分子鏈中的序列信息如何編碼蛋白質(zhì)的復(fù)雜結(jié)構(gòu)?這是“我們能夠提出的最深刻的問(wèn)題”,美國(guó)約翰霍普金斯大學(xué)(Johns Hopkins University)大學(xué)的生物物理學(xué)名譽(yù)教授喬治羅斯(George Rose)如此評(píng)價(jià)道。
科學(xué)家對(duì)這個(gè)問(wèn)題的探索最早可追溯至20世紀(jì)30年代,但真正開(kāi)始動(dòng)手嘗試解謎則是在50年代中期。當(dāng)時(shí),生物化學(xué)家克里斯蒂安安芬森(Christrian Anfinsen)將蛋白質(zhì)加入化學(xué)溶液中,試圖打斷化學(xué)鍵展開(kāi)蛋白質(zhì),或者令其錯(cuò)誤折疊。安芬森發(fā)現(xiàn),被打開(kāi)或錯(cuò)誤折疊的蛋白質(zhì)會(huì)自發(fā)重構(gòu)成正確結(jié)構(gòu)。這個(gè)后來(lái)為他贏得了諾貝爾獎(jiǎng)的發(fā)現(xiàn),表明蛋白質(zhì)會(huì)根據(jù)其內(nèi)部代碼形成三維結(jié)構(gòu),這個(gè)代碼是由它的氨基酸鏈書(shū)寫(xiě)的。
于是,安芬森假設(shè),我們應(yīng)該能找到一種方法,通過(guò)氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)的形狀結(jié)構(gòu)。這就是后來(lái)廣為人知的“蛋白質(zhì)折疊問(wèn)題”。
一旦多肽鏈組裝完成,蛋白質(zhì)便能在千分之一秒內(nèi)折疊成形,速度之快讓分子生物學(xué)家塞勒斯利文索爾(Cyrus Levinthal)困惑不已。在他1969年發(fā)表的論文《如何優(yōu)雅折疊》(How to Fold Graciously)中,利文索爾計(jì)算出,如果蛋白質(zhì)嘗試每一種可能的折疊方式,那么組裝完畢所需的時(shí)間可能會(huì)無(wú)限漫長(zhǎng)。他思索著,顯然一定有什么方法能更直接地“護(hù)送”蛋白走在正確折疊的道路上。
隨著時(shí)間的推移,蛋白質(zhì)折疊問(wèn)題已經(jīng)分化成了全新的類(lèi)型。如今的科學(xué)家提出了三大主要問(wèn)題:能否通過(guò)蛋白質(zhì)氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)?蛋白質(zhì)的折疊編碼是什么?它的折疊機(jī)制又是怎樣的?
20世紀(jì)60年代早期,隨著首批實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)相繼問(wèn)世,這些問(wèn)題開(kāi)始“鉆入”科學(xué)家的大腦。英國(guó)劍橋大學(xué)(University of Cambridge)的兩位生物學(xué)家馬克斯佩魯茨(Max Perutz)和約翰肯德魯(John Kendrew)讓蛋白質(zhì)生長(zhǎng)成晶體,用X射線轟擊后測(cè)量射線偏折的程度,這一技術(shù)便是X射線晶體學(xué)(X-ray crystallography)。如此一來(lái),他們就能確定血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)。這一過(guò)程耗費(fèi)了兩人二十多年的時(shí)間,最終為他們帶來(lái)了諾貝爾獎(jiǎng)。
自此之后,無(wú)數(shù)科研人員努力鉆研,不僅想要理解不同蛋白質(zhì)不同的結(jié)構(gòu)形態(tài),還想要知道它們是如何形成的。“想要看清事物的樣貌是人的本性,因?yàn)橹挥兄淙,才能知其所以然?rdquo;英國(guó)格拉斯哥大學(xué)(University of Glasgow)的結(jié)構(gòu)生物學(xué)家海倫沃爾登(Helen Walden)解釋道。有些人從蛋白質(zhì)化學(xué)入手,其他人則集中解決物理角度上的問(wèn)題。實(shí)驗(yàn)科學(xué)家展開(kāi)艱苦的研究工作,重構(gòu)蛋白質(zhì)結(jié)構(gòu);計(jì)算生物學(xué)家以各種方式結(jié)合算法進(jìn)行編程和重編程,通過(guò)模型和模擬來(lái)捕捉線索。
隨著被破解的蛋白質(zhì)結(jié)構(gòu)越來(lái)越多,這個(gè)領(lǐng)域需要新的方法來(lái)組織與共享信息。1971年,為蛋白質(zhì)結(jié)構(gòu)存檔的蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank)成立了。這個(gè)免費(fèi)的數(shù)據(jù)庫(kù)成為了需要了解蛋白質(zhì)結(jié)構(gòu)、探索生物學(xué)問(wèn)題的研究者的可靠研究工具。蛋白質(zhì)數(shù)據(jù)庫(kù)成立之初,里面只保存了7種蛋白質(zhì)結(jié)構(gòu)。50年之后谷歌DeepMind用它來(lái)訓(xùn)練AlphaFold2時(shí),它所保存的蛋白質(zhì)結(jié)構(gòu)數(shù)量已超過(guò)14萬(wàn),這都是結(jié)構(gòu)生物學(xué)家在實(shí)驗(yàn)室內(nèi)解析所得。
實(shí)驗(yàn)科學(xué)家的苦惱
從20世紀(jì)70年代中期開(kāi)始,珍妮特桑頓(Janet Thorntom)每隔幾個(gè)月一定會(huì)收到一只郵包,里面是一盤(pán)12英寸磁帶,記錄著被存入蛋白質(zhì)數(shù)據(jù)庫(kù)的新結(jié)構(gòu)數(shù)據(jù)。作為英國(guó)牛津大學(xué)(Oxford University)的生物物理學(xué)家,桑頓迫不及待地打開(kāi)包裹,在新結(jié)構(gòu)被發(fā)現(xiàn)后的第一時(shí)間展開(kāi)分析。她收到的第一份磁帶中只有20個(gè)結(jié)構(gòu)。
每一個(gè)蛋白質(zhì)結(jié)構(gòu)都凝結(jié)著數(shù)年研究的心血。通常情況下,讓單個(gè)蛋白質(zhì)結(jié)晶,從中收集數(shù)據(jù)或解釋數(shù)據(jù)以解析出折疊結(jié)構(gòu),需要一個(gè)博士生在研究生院里投入四年或更長(zhǎng)的時(shí)間。牛津大學(xué)生物物理系當(dāng)時(shí)是全球X射線晶體學(xué)的研究中心之一。1965年,蛋白質(zhì)晶體學(xué)領(lǐng)域的先驅(qū)之一戴維菲利普斯(David Phillips)首先確定了溶菌酶的結(jié)構(gòu)這是我們的免疫系統(tǒng)用來(lái)攻擊細(xì)菌的一種蛋白質(zhì)。
使用X射線晶體學(xué)方法,牛津大學(xué)的生物物理學(xué)家繪制出了蛋白質(zhì)電子密度圖譜,圖中電子集中的區(qū)域可能包含一個(gè)原子。桑頓和同事將電子密度圖譜打印到塑料薄片上,一張又一張地疊放起來(lái),創(chuàng)造出了蛋白質(zhì)地理的 “等高線圖”。
然后,他們將圖片轉(zhuǎn)變成物理模型。科學(xué)家將打印在塑料上的圖譜放入名為“理查茲盒”(Richards box)的設(shè)備中,該設(shè)備1968年由牛津大學(xué)生物物理學(xué)家弗雷德里克理查茲(Frederic Richards)發(fā)明,并以他的名字命名。理查茲盒的內(nèi)部有一面以一定角度傾斜的鏡子,能將圖片反射到工作區(qū)域內(nèi),這樣科學(xué)家就能真切地看清每一個(gè)原子之間的相對(duì)位置。接下來(lái),他們使用圓球和小棍子,搭建出物理實(shí)體模型。
這一方法過(guò)程繁瑣,限制頗多。1971年,后來(lái)成為著名晶體學(xué)家的路易絲約翰遜(Louise Johnson)正在搭建磷酸酶的模型,它由842個(gè)氨基酸組成,是當(dāng)時(shí)科學(xué)家研究的最大蛋白質(zhì)。為了建模,約翰遜必須爬上兩層樓高的理查茲盒,這是牛津?yàn)榱怂难芯繉?zhuān)門(mén)建造的。
模型建成后,科學(xué)家用尺來(lái)測(cè)量各原子之間的距離,確定蛋白質(zhì)結(jié)構(gòu)坐標(biāo)。“這個(gè)方法很古老,”桑頓說(shuō)。接下來(lái),他們將所有坐標(biāo)數(shù)據(jù)輸入計(jì)算機(jī)中,計(jì)算機(jī)版本的蛋白質(zhì)結(jié)構(gòu)看上去像一片密林,她繼續(xù)解釋道,原子雜亂聚集在一起,只有戴上3D眼鏡,才開(kāi)始能看到蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。“整個(gè)過(guò)程非常折磨人,”桑頓說(shuō),“但結(jié)果出來(lái)后又令人愉悅。”
經(jīng)過(guò)年復(fù)一年的努力付出,一旦科研人員確信自己的蛋白質(zhì)結(jié)構(gòu)無(wú)誤,他們就將數(shù)據(jù)提交給蛋白質(zhì)數(shù)據(jù)庫(kù)。1984年,數(shù)據(jù)庫(kù)內(nèi)存放了152種蛋白質(zhì)結(jié)構(gòu),到了1992年,這一數(shù)字增長(zhǎng)至747。
就在實(shí)驗(yàn)科學(xué)家努力建造物理模型的同時(shí),另一批蛋白質(zhì)生物學(xué)家計(jì)算生物科學(xué)家卻另辟蹊徑。他們思考著安芬森對(duì)于可以通過(guò)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的假說(shuō),并且有點(diǎn)兒過(guò)于自信了。
書(shū)寫(xiě)自己的法則
20世紀(jì)60年代初,還是本科生的約翰莫爾特打算成為物理學(xué)家。然后,他了解到了蛋白質(zhì)折疊問(wèn)題。“有人舉辦了一場(chǎng)講座,說(shuō)生物太重要了,不能只留給生物學(xué)家。”他說(shuō),“我很自負(fù)地把這話當(dāng)真了。”被講座深深吸引的莫爾特將自己的職業(yè)生涯轉(zhuǎn)向了另一個(gè)方向。
畢業(yè)之后,莫爾特進(jìn)入了蛋白質(zhì)晶體學(xué)領(lǐng)域。他破譯出若干蛋白質(zhì)結(jié)構(gòu),包括β-內(nèi)酰胺酶(一種能破壞青霉素的細(xì)菌酶)。1970年他在牛津大學(xué)獲得了分子生物物理學(xué)博士學(xué)位。但在開(kāi)始博士后工作的時(shí)候,他厭倦了實(shí)驗(yàn)方法,開(kāi)始轉(zhuǎn)向日漸蓬勃的蛋白質(zhì)計(jì)算領(lǐng)域。計(jì)算生物學(xué)家,可以說(shuō)是實(shí)驗(yàn)科學(xué)家的對(duì)立面,他們編寫(xiě)計(jì)算機(jī)算法,嘗試證明安芬森是對(duì)的:給程序投喂氨基酸鏈,讓它生成正確的蛋白質(zhì)結(jié)構(gòu)。
從生物實(shí)驗(yàn)轉(zhuǎn)向計(jì)算領(lǐng)域并非易事。莫爾特習(xí)慣了對(duì)每個(gè)蛋白質(zhì)結(jié)構(gòu)進(jìn)行緩慢但細(xì)致的研究。而在新領(lǐng)域中,關(guān)于算法的論文一篇接一篇,常常宣稱(chēng)已經(jīng)解決了蛋白質(zhì)結(jié)構(gòu)問(wèn)題以及相關(guān)的子問(wèn)題。
莫爾特對(duì)此持懷疑態(tài)度。“計(jì)算生物學(xué)領(lǐng)域發(fā)表的文章并不像我以前熟悉的研究那么嚴(yán)謹(jǐn)。”他說(shuō),“這并不是因?yàn)檫@個(gè)圈子里的人都是騙子,而是因?yàn)槿绻氵M(jìn)行計(jì)算研究,就是在虛擬世界中工作。”
在虛擬世界中,計(jì)算科學(xué)家編寫(xiě)自己的法則,而自然世界的法則在此不發(fā)揮作用。他們?cè)O(shè)計(jì)自己的算法,好讓原子以某一方式凝聚在一起,或者讓蛋白質(zhì)總是向右或向左折疊。隨著時(shí)間的推移,模型與現(xiàn)實(shí)越來(lái)越遙遠(yuǎn)。在一個(gè)完全處于自己掌控的世界中,人們很難始終保持嚴(yán)謹(jǐn),莫爾特如此評(píng)價(jià)道。
盡管如此,他能看到這兩個(gè)領(lǐng)域各自的優(yōu)勢(shì)。實(shí)驗(yàn)科學(xué)家的研究細(xì)致但緩慢;計(jì)算科學(xué)家迅速卻偏離生物物理的現(xiàn)實(shí),所以他們經(jīng)常出錯(cuò)。于是,他想到,一定有一種方法,能夠?qū)⑦@兩個(gè)途徑結(jié)合起來(lái)。
開(kāi)始“跺腳”
20世紀(jì)90年代初,莫爾特和同事克日什托夫菲德利斯(Krzysztof Fidelis)想出了一個(gè)辦法來(lái)規(guī)范領(lǐng)域內(nèi)混亂的形勢(shì)。他們創(chuàng)立了一個(gè)群體性科學(xué)實(shí)驗(yàn),稱(chēng)為“全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽”(Critical Assessment of Structure Prediction,CASP)。
他們的思路很簡(jiǎn)單,作為CASP的組織者,莫爾特與菲德利斯會(huì)公布一張氨基酸序列清單,這些序列所代表的蛋白質(zhì)結(jié)構(gòu)已被實(shí)驗(yàn)科學(xué)家解析出來(lái),但尚未公開(kāi)發(fā)表。隨后,全球的計(jì)算科學(xué)團(tuán)隊(duì)可以使用他們能想到的任何方法來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。將有一支獨(dú)立的科學(xué)家團(tuán)隊(duì)評(píng)估后者的模型,將其與實(shí)驗(yàn)確定的結(jié)構(gòu)做對(duì)比。
這個(gè)主意被推行開(kāi)來(lái),CASP很快成為了用計(jì)算生物學(xué)方法解決結(jié)構(gòu)預(yù)測(cè)難題的試驗(yàn)常當(dāng)時(shí)AI還未誕生,計(jì)算方法主要涉及分子物理學(xué)模擬。對(duì)于科學(xué)家來(lái)說(shuō),這正是將自己的想法付諸實(shí)驗(yàn),與同行公開(kāi)測(cè)試的好機(jī)會(huì)。“這原本不是競(jìng)賽。”桑頓說(shuō),“但結(jié)果卻成為了一場(chǎng)競(jìng)賽。”
每隔兩年,科學(xué)家齊聚阿西洛瑪會(huì)議中心(Asilomar conference center),這是一座位于美國(guó)加利福尼亞州蒙特利附近的古老教堂,曾是基督教新教衛(wèi)理公會(huì)的靜修場(chǎng)所。會(huì)議期間,組織者宣布競(jìng)賽結(jié)果,計(jì)算生物學(xué)家彼此交流自己的方法。如果與會(huì)者不喜歡他們聽(tīng)到的內(nèi)容,莫爾特鼓勵(lì)學(xué)者們?cè)谀镜匕迳隙迥_表達(dá)意見(jiàn)。
“一開(kāi)始,跺腳聲響成一片。”他說(shuō)。曾跟隨桑頓學(xué)習(xí)過(guò)的英國(guó)倫敦大學(xué)學(xué)院(University College London)生物信息學(xué)教授戴維瓊斯(David Jones)回憶道,“聲響就跟打鼓一樣。”如果會(huì)議陷入細(xì)節(jié)的泥沼,生物學(xué)家們就會(huì)跺腳;如果言過(guò)其實(shí),他們也會(huì)跺腳;如果發(fā)言人不停重復(fù)或者過(guò)于嗦,他們還是會(huì)跺腳。當(dāng)然,這些都是友好性跺腳,“并不令人生厭”。
無(wú)論出于何種原因,當(dāng)嘈雜的跺腳聲傳入發(fā)言人的耳中,總會(huì)讓人尷尬。“感謝上帝,我發(fā)言的時(shí)候從來(lái)沒(méi)人跺腳。”瓊斯說(shuō)道,他的團(tuán)隊(duì)提出了一套名為“穿針引線”(threading)的計(jì)算方法,這種方法將氨基酸序列“編織”進(jìn)已知的蛋白質(zhì)結(jié)構(gòu)中,據(jù)此來(lái)匹配正確的結(jié)構(gòu)。結(jié)果還不錯(cuò)。“我們很滿意,之后一切就順理成章了。”瓊斯笑著回憶道,“還充滿樂(lè)趣。”
意大利帕多瓦大學(xué)(University of Padua)生物信息學(xué)教授西爾維奧托薩托(Silvio Tosatto)說(shuō),當(dāng)時(shí)大家都興奮不已。“人們認(rèn)為自己能成為百萬(wàn)富翁,因?yàn)樗麄冋莆樟苏_的算法,還有一些人覺(jué)得自己馬上就能得諾貝爾獎(jiǎng)了。”
在最初幾年內(nèi),什么都沒(méi)發(fā)生。當(dāng)被問(wèn)及當(dāng)時(shí)CASP的預(yù)測(cè)結(jié)果提交情況時(shí),莫爾特頓了一下說(shuō):“隨機(jī)是個(gè)不錯(cuò)的說(shuō)法。”有些方法的表現(xiàn)超出預(yù)期,例如“同源性建模”(homology modeling),這種方法將已知蛋白質(zhì)結(jié)構(gòu)作為參照,用來(lái)推測(cè)未知的蛋白結(jié)構(gòu)。其他方法則一無(wú)所獲。大部分結(jié)構(gòu)預(yù)測(cè) “看上去都很折磨人”,莫爾特說(shuō)道。
“我樂(lè)于看到他們失敗。”荷蘭癌癥研究所(Netherlands Cancer Insitute)和烏特勒支大學(xué)(Utrecht University)的結(jié)構(gòu)生物學(xué)家阿納斯塔西斯佩拉基斯(Anastassis Perrakis)開(kāi)玩笑道。他向CASP組織者提供實(shí)驗(yàn)確定的結(jié)構(gòu),用于預(yù)測(cè)競(jìng)賽。“這不是競(jìng)爭(zhēng),但我們喜歡在科學(xué)上互相逗樂(lè)。”
在這一過(guò)程中,明顯的領(lǐng)先者出現(xiàn)了。1996年,第二屆CASP結(jié)束之后,一位名叫戴維貝克(David Baker)的年輕人邀請(qǐng)瓊斯一同坐車(chē)去機(jī)常貝克聽(tīng)過(guò)瓊斯的演講,正在鉆研自己的計(jì)算模型。雖然模型還沒(méi)準(zhǔn)備好參加CASP,但他很想先和瓊斯聊一下。瓊斯在車(chē)上聽(tīng)了他的想法,也沒(méi)想過(guò)以后還會(huì)再見(jiàn)。
然而,1998年下一輪競(jìng)賽期間,貝克就帶著自己的“羅塞塔”(Rosetta)算法一鳴驚人。他成為了“最難打敗的人”,瓊斯這樣評(píng)價(jià)道。羅塞塔這樣的算法模擬氨基酸分子中原子之間的相互作用,以此預(yù)測(cè)它們的折疊方式。這“表明你確實(shí)可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),”貝克解釋說(shuō),“但不夠好,也不夠精確,用途不大。”
2008年時(shí),人類(lèi)還能戰(zhàn)勝計(jì)算機(jī)。貝克當(dāng)時(shí)已經(jīng)在美國(guó)華盛頓大學(xué)(University of Washington)擁有了自己的實(shí)驗(yàn)室。他開(kāi)發(fā)了一款名為“折疊它”(Foldit)的免費(fèi)在線游戲,玩家需要將給定的氨基酸鏈折疊成蛋白質(zhì)結(jié)構(gòu)。在一篇發(fā)表于《自然》(Nature)的論文中,他的團(tuán)隊(duì)報(bào)告說(shuō)在模擬蛋白質(zhì)結(jié)構(gòu)方面,人類(lèi)玩家的表現(xiàn)超越了羅塞塔算法。
然而,人類(lèi)的領(lǐng)先優(yōu)勢(shì)并沒(méi)有持續(xù)太久。在21世紀(jì)10年代初,“協(xié)同演化”(co-evolution)這一概念的重大突破推動(dòng)了領(lǐng)域的發(fā)展,后來(lái)還成為了AI預(yù)測(cè)工具誕生的關(guān)鍵。這一概念已存在了幾十年,解釋起來(lái)相當(dāng)簡(jiǎn)單:通過(guò)比較數(shù)百個(gè)乃至數(shù)千個(gè)密切相關(guān)但彼此不同的蛋白質(zhì)的氨基酸序列,科學(xué)家能夠識(shí)別出那些發(fā)生了突變氨基酸,重點(diǎn)是,還能確定它們是否與其他氨基酸同步突變。如果兩個(gè)氨基酸共同變化,它們很可能以某種方式相連。“你就能說(shuō):‘這兩個(gè)氨基酸在空間上可能很接近。’”美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室(Lawrence Berkeley National Laboratory)的結(jié)構(gòu)生物學(xué)家保羅亞當(dāng)斯(Paul Adams)解釋道。
但直到21 世紀(jì)10年代初,這種預(yù)測(cè)哪些氨基酸可能存在物理接觸的準(zhǔn)確率依然很低,徘徊在20%~24%。后來(lái),科學(xué)家注意到自己的統(tǒng)計(jì)學(xué)方法會(huì)引入錯(cuò)誤,數(shù)據(jù)表明一些氨基酸存在接觸,但實(shí)際上并沒(méi)有。接下來(lái),莫爾特了解到,幾十年來(lái)統(tǒng)計(jì)學(xué)家一直敏銳地知到這樣的錯(cuò)誤確實(shí)存在。他說(shuō),當(dāng)你回頭看時(shí),你會(huì)想,“我怎么會(huì)這么蠢?”
計(jì)算生物學(xué)家改進(jìn)了統(tǒng)計(jì)學(xué)工具。到2016年,氨基酸接觸預(yù)測(cè)的準(zhǔn)確率攀升至47%,兩年之后則達(dá)到70%。貝克的算法便是建立在這一成功之上:2014年羅塞塔非常精準(zhǔn)地生成了兩個(gè)蛋白質(zhì)結(jié)構(gòu),CASP評(píng)估方甚至認(rèn)為貝克可能解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的難題。
協(xié)同演化的見(jiàn)解“絕妙無(wú)比”,亞當(dāng)斯如此說(shuō)道。在不使用機(jī)器學(xué)習(xí)的情況下,協(xié)同演化是“推動(dòng)領(lǐng)域前進(jìn)的重大事件之一”。然而,該領(lǐng)域的發(fā)展仍然有限。協(xié)同演化要求大量的相似蛋白質(zhì)彼此比對(duì),而實(shí)驗(yàn)科學(xué)家解析蛋白質(zhì)結(jié)構(gòu)的速度沒(méi)那么快,無(wú)法滿足計(jì)算科學(xué)家的需求。對(duì)此,莫爾特套用了一個(gè)演化生物學(xué)術(shù)語(yǔ):研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的進(jìn)度是一種“間斷平衡”。有時(shí)候,大家覺(jué)得好像幾十億年都沒(méi)出現(xiàn)什么好想法,然后,一些令人振奮的事情就會(huì)發(fā)生。
AlphaFold2一鳴驚人
2016年,戴維瓊斯(David Jones)在《自然》(Nature)雜志發(fā)布的一篇新論文中瞥見(jiàn)了未來(lái)。在這篇論文中,谷歌(Google)旗下、位于英國(guó)倫敦的人工智能團(tuán)隊(duì)深度思維的研究人員詳細(xì)描述了他們?nèi)绾问褂靡环N名為“深度學(xué)習(xí)”(deep learning)的算法,在古老的圍棋游戲中擊敗了人類(lèi)冠軍。這一成果令瓊斯十分驚訝。“形勢(shì)正在變化,”他回憶起當(dāng)時(shí)自己的想法,“我意識(shí)到了解深度學(xué)習(xí)迫在眉睫。”
深度學(xué)習(xí)是一種受人腦啟發(fā)而開(kāi)發(fā)的人工智能方法。在大腦中,分子信息通過(guò)神經(jīng)元組成的一個(gè)神經(jīng)網(wǎng)絡(luò)傳遞。神經(jīng)元是腦細(xì)胞的一種,它們有一些名為樹(shù)突的小手臂,可以“抓住”鄰近神經(jīng)元釋放的信號(hào)分子(也稱(chēng)為神經(jīng)遞質(zhì)),這些信號(hào)分子會(huì)告訴接收的神經(jīng)元是否激活并傳播信號(hào)。“如果神經(jīng)元接收到足夠多的刺激,那么它就會(huì)激活并釋放信號(hào)分子,”美國(guó)布朗大學(xué)計(jì)算機(jī)科學(xué)教授邁克爾利特曼(Michael Littman)說(shuō)道。這些信號(hào)分子被釋放后,會(huì)傳遞給下一個(gè)神經(jīng)元。
20世紀(jì)50年代,一些計(jì)算機(jī)科學(xué)家意識(shí)到,他們可以將電子比特連接在一起,創(chuàng)建一個(gè)“人工神經(jīng)網(wǎng)絡(luò)”(Artificial Neural Network,ANN)。ANN中的每個(gè)單元都是一個(gè)節(jié)點(diǎn),研究人員將其比作一個(gè)人工神經(jīng)元:在ANN中,人工神經(jīng)元接受來(lái)自其他人工神經(jīng)元的信息,并通過(guò)計(jì)算決定是否需要向下一個(gè)人工神經(jīng)元傳遞信號(hào)。信息會(huì)通過(guò)多層人工神經(jīng)元傳播,以產(chǎn)生一個(gè)特定的結(jié)果,例如從一張圖像中識(shí)別出一只狗。神經(jīng)元層數(shù)越多,進(jìn)行的計(jì)算就會(huì)越復(fù)雜。然而,早期的ANN僅有兩層神經(jīng)元。在20世紀(jì)90年代,這一數(shù)量增加到三層,并一直維持了20年。“我們無(wú)法找到可靠的方法來(lái)創(chuàng)建更深層的網(wǎng)絡(luò),”利特曼說(shuō)道。
自20世紀(jì)90年代以來(lái),包括瓊斯和約翰莫爾特(John Moult)在內(nèi)的結(jié)構(gòu)生物學(xué)家就一直在嘗試將ANN應(yīng)用于蛋白質(zhì)科學(xué)。然而,淺層神經(jīng)網(wǎng)絡(luò)的局限性和稀疏的數(shù)據(jù)阻礙了他們前進(jìn)。不過(guò)在大概十年之前,計(jì)算機(jī)科學(xué)家學(xué)會(huì)了如何更好地構(gòu)建ANN,從而可靠地訓(xùn)練更多層的網(wǎng)絡(luò)。ANN的深度從20層、50層、100層逐漸增加到數(shù)千層。“為了將這些新網(wǎng)絡(luò)與上世紀(jì)90年代的ANN區(qū)分開(kāi)來(lái),人們開(kāi)始稱(chēng)其為‘深度學(xué)習(xí)’,”利特曼說(shuō)道,“如果說(shuō)機(jī)器學(xué)習(xí)領(lǐng)域的人特別擅長(zhǎng)哪件事,那一定是起一些有吸引力的名字。”深度學(xué)習(xí)徹底變革了人工智能,讓算法不僅在圖像和語(yǔ)音識(shí)別方面表現(xiàn)卓越,甚至在游戲中擊敗了人類(lèi)。
2016年3月,當(dāng)DeepMind的聯(lián)合創(chuàng)始人戴米斯哈薩比斯(Demis Hassabis)在韓國(guó)首爾觀看他的AI系統(tǒng)“阿爾法圍棋”(AlphaGo)在圍棋比賽中擊敗一位人類(lèi)世界冠軍時(shí),他突然回想起自己在大學(xué)時(shí)玩蛋白質(zhì)折疊游戲Foldit的經(jīng)歷。他不禁思考:既然DeepMind的研究人員能夠編寫(xiě)一個(gè)模仿圍棋大師直覺(jué)的算法,他們是否也能開(kāi)發(fā)出一個(gè)算法,去模擬Foldit玩家對(duì)生物學(xué)一無(wú)所知但仍能成功折疊蛋白質(zhì)的直覺(jué)呢?
美國(guó)芝加哥豐田計(jì)算技術(shù)研究院(Toyota Technological Institute at Chicago)的教授許錦波(Jinbo Xu)也意識(shí)到了深度學(xué)習(xí)在解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的潛力。當(dāng)時(shí),計(jì)算機(jī)科學(xué)家在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中取得了巨大成功,在這種網(wǎng)絡(luò)中,算法會(huì)將圖像分解為小塊,并通過(guò)識(shí)別這些小塊之間的模式來(lái)處理圖像。受到這些圖像處理網(wǎng)絡(luò)的啟發(fā),許錦波將這一技術(shù)引入蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。他使用一種叫做矩陣的數(shù)學(xué)對(duì)象,來(lái)描述在空間上彼此接近的氨基酸,然后將這個(gè)矩陣作為圖像輸入CNN。算法會(huì)在這些圖像中尋找規(guī)律,以預(yù)測(cè)蛋白質(zhì)中各個(gè)原子的三維坐標(biāo)。
2016年,許錦波在預(yù)印本文庫(kù)arXiv上發(fā)布了研究成果,并隨后將其發(fā)表在《公共科學(xué)圖書(shū)館計(jì)算生物學(xué)》(PLOS Computational Biology)上。莫爾特說(shuō),“這項(xiàng)工作在該領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響,它向人們展示了‘如何使用深度學(xué)習(xí)來(lái)做這類(lèi)事情(比如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè))’。”沒(méi)過(guò)多久,許多蛋白質(zhì)結(jié)構(gòu)研究小組也開(kāi)始嘗試深度學(xué)習(xí)。穆罕默德庫(kù)雷希(Mohammed AlQuraishi)和他的研究團(tuán)隊(duì)開(kāi)發(fā)了首個(gè)完全依靠ANN直接預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法,這類(lèi)方法也被稱(chēng)為“端到端”方法盡管預(yù)測(cè)效果并不理想。其他研究者也開(kāi)始探索這種革命性的新方法。
“最初我并不完全知道自己想用深度學(xué)習(xí)來(lái)解決什么具體問(wèn)題,但我意識(shí)到我需要進(jìn)入這一領(lǐng)域,”瓊斯說(shuō)道。于是,他開(kāi)始撰寫(xiě)經(jīng)費(fèi)申請(qǐng)以尋找自己的方向,就在這時(shí),他恰巧收到了來(lái)自DeepMind的電子郵件。他們?cè)儐?wèn)了瓊斯關(guān)于全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP)的情況,并表示愿意提供幫助。“我以為他們的意思只是想說(shuō):我們擁有很多算力,”瓊斯說(shuō)道。然而,在瓊斯見(jiàn)到他們之后,他發(fā)現(xiàn)谷歌顯然有更大的雄心壯志。而為了實(shí)現(xiàn)這些目標(biāo),這家科技巨頭需要更多學(xué)術(shù)界的人才。
新秀登場(chǎng)
2016年,當(dāng)瓊斯開(kāi)始作為顧問(wèn)參與DeepMind的項(xiàng)目時(shí)即后來(lái)的阿爾法折疊(AlphaFold),約翰江珀(John Jumper)正在美國(guó)芝加哥大學(xué)攻讀他的理論化學(xué)博士學(xué)位。江珀在青年時(shí)期不僅自學(xué)了編程,還展現(xiàn)出物理方面的天賦。所以當(dāng)他進(jìn)入大學(xué)時(shí),盡管他的工程師父母擔(dān)心他將來(lái)可能很難找到工作,但他還是堅(jiān)定選擇了數(shù)學(xué)和物理專(zhuān)業(yè)。“我一直認(rèn)為自己會(huì)成為一名研究‘宇宙法則’的物理學(xué)家,”江珀說(shuō),“我一直很喜歡這種探索宇宙真理的想法。”
在美國(guó)范德比爾特大學(xué)(Vanderbilt University)就讀本科期間,他與費(fèi)米實(shí)驗(yàn)室的研究人員合作研究一種名為夸克的亞原子粒子的獨(dú)特性質(zhì)。一天,當(dāng)他和很多研究人員一起坐在午餐桌旁時(shí),他聽(tīng)到了一個(gè)令人沮喪的消息。“我們正在設(shè)計(jì)的這個(gè)實(shí)驗(yàn),什么時(shí)候會(huì)啟動(dòng)?”江珀回憶起當(dāng)時(shí)曾這樣問(wèn)道。一位教授表示可能要等到他退休后,而另一位更年長(zhǎng)的教授說(shuō),他可能看不到那一天了。
“我希望從事一些時(shí)間周期更短的科學(xué)研究,”江珀說(shuō)道。本科畢業(yè)后,他開(kāi)始攻讀凝聚態(tài)物理學(xué)的博士學(xué)位,但很快便輟學(xué)了。這之后他在位于紐約的D.E. 肖研究公司(D.E. Shaw Research)找到了一份工作,這家公司當(dāng)時(shí)正在進(jìn)行蛋白質(zhì)動(dòng)力學(xué)模擬的基礎(chǔ)研究。通過(guò)了解蛋白質(zhì)如何運(yùn)動(dòng)和變化,他們希望能夠更好地理解各種疾。ɡ绶伟┑闹虏C(jī)制。
這是江珀第一次了解到自己的工作具有潛在的重大意義:“這關(guān)乎人類(lèi)的健康,能延長(zhǎng)人們的生命”。在接下來(lái)的3年里,江珀在公司的超級(jí)計(jì)算機(jī)上模擬蛋白質(zhì)的運(yùn)動(dòng),這些超級(jí)計(jì)算機(jī)專(zhuān)門(mén)用于加速分子動(dòng)力學(xué)模擬。“有時(shí)候我花一天時(shí)間進(jìn)行的模擬比我整個(gè)博士期間的總和都要多,”他說(shuō)。
2011年,他再次攻讀博士學(xué)位,這次是在芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍然對(duì)蛋白質(zhì)的結(jié)構(gòu)和運(yùn)動(dòng)充滿興趣,但同時(shí)也為學(xué)術(shù)界緩慢的研究進(jìn)展而沮喪。“我不再能使用D.E. 肖研究公司那些定制的計(jì)算機(jī)硬件了,”江珀說(shuō)道。他想知道是否可以使用人工智能“當(dāng)時(shí)我們稱(chēng)之為統(tǒng)計(jì)物理學(xué)”來(lái)實(shí)現(xiàn)快速的蛋白質(zhì)模擬,這個(gè)過(guò)程通常需要借助先進(jìn)的機(jī)器才能實(shí)現(xiàn)。于是他開(kāi)始涉足機(jī)器學(xué)習(xí)和ANN。
也是在此期間,他開(kāi)始思考蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題。他認(rèn)為利用蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank, PDB)中的結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù)就能解決這個(gè)問(wèn)題到2012年時(shí),該數(shù)據(jù)庫(kù)已包含超過(guò)7.6萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)。“我相信這些數(shù)據(jù)是足夠的,”江珀說(shuō)道,“但當(dāng)時(shí)的方法還不夠成熟。”
在博士期間,江珀一直致力于利用機(jī)器學(xué)習(xí)來(lái)模擬蛋白質(zhì)的折疊和運(yùn)動(dòng)過(guò)程。2017年,剛獲得博士學(xué)位的他聽(tīng)聞DeepMind正在開(kāi)展蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),便申請(qǐng)了研究科學(xué)家的職位。“當(dāng)時(shí)這個(gè)項(xiàng)目仍然是保密的,”江珀說(shuō)道。在面試中,只要他提到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),DeepMind團(tuán)隊(duì)就會(huì)迅速轉(zhuǎn)移話題,“然而,正是因?yàn)樗麄冞@樣做了太多次,我才確信他們確實(shí)在做這件事情。”
2017年10月,江珀來(lái)到了DeepMind位于倫敦的辦公室。在瓊斯的幫助下,團(tuán)隊(duì)已經(jīng)在對(duì)AlphaFold進(jìn)行深入的開(kāi)發(fā)工作。“那段時(shí)間非常有趣,我們會(huì)不停地提出各種想法。”瓊斯說(shuō)道,“最終一個(gè)好的核心想法浮現(xiàn)出來(lái),團(tuán)隊(duì)便開(kāi)始沿著這個(gè)方向展開(kāi)工作。”為了訓(xùn)練他們的算法,DeepMind團(tuán)隊(duì)使用了PDB中超過(guò)14萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)。他們將這些信息輸入到一個(gè)CNN中,但對(duì)人工智能架構(gòu)本身沒(méi)有進(jìn)行太多改動(dòng)。“這是 ‘標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)’”,江珀說(shuō)道。
到2018年春天,AlphaFold已經(jīng)準(zhǔn)備好參加CASP,與真正的蛋白質(zhì)科學(xué)家們展開(kāi)競(jìng)爭(zhēng)。“這有點(diǎn)像F1賽車(chē),”瓊斯回憶道,“你以為你造了最好的車(chē),但你不知道其他團(tuán)隊(duì)造了什么。”這場(chǎng)比賽的風(fēng)險(xiǎn)很高,DeepMind團(tuán)隊(duì)討論了是否應(yīng)該匿名參賽,畢竟他們不想冒著被羞辱的風(fēng)險(xiǎn)。“沒(méi)有人想失敗。”瓊斯說(shuō),“在學(xué)術(shù)界,這是研究工作的一部分。如果你失敗了就只能繼續(xù)前進(jìn),因?yàn)槟銢](méi)有其他選擇。但如果你是一家市值數(shù)十億美元的科技公司,嘗試做某事卻失敗了,這顯然會(huì)給外界留下不好的印象。”
他們最終還是決定以DeepMind的名義提交結(jié)果。在12月召開(kāi)的CASP會(huì)議的前幾個(gè)月,瓊斯收到了CASP組織者的消息。他們建議DeepMind團(tuán)隊(duì)來(lái)參加會(huì)議,因?yàn)锳lphaFold表現(xiàn)非常好,它在超過(guò)一半的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中,給出了最好的預(yù)測(cè)。盡管這次勝利并不算特別耀眼,其蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)總分只比第二名高13分,但也給人留下了深刻印象。“顯然,一些有趣的事情發(fā)生了,”莫爾特說(shuō)道。
算法新生
這場(chǎng)勝利極大地鼓舞了DeepMind團(tuán)隊(duì),但他們深知距離徹底解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題還有一段很長(zhǎng)的路要走。哈薩比斯再次將他們聚集在一起。“我們要繼續(xù)攻克這個(gè)問(wèn)題嗎?”江珀回憶起哈薩比斯的話,“如果不繼續(xù),那就去尋找那些我們能產(chǎn)生巨大影響的問(wèn)題。”江珀繼續(xù)說(shuō),“有那么一刻,我們決定要把這個(gè)問(wèn)題徹底解決。”于是,他們重新回到起點(diǎn),開(kāi)始新一輪的研究。
憑借著在物理、化學(xué)、生物學(xué)和計(jì)算領(lǐng)域的多樣化背景,江珀給那些頭腦風(fēng)暴會(huì)議帶來(lái)了獨(dú)特的見(jiàn)解。不久后,他開(kāi)始領(lǐng)導(dǎo)這個(gè)團(tuán)隊(duì),團(tuán)隊(duì)的規(guī)模也從最初的6人擴(kuò)大到了15人。“有一些非常特別的事情正在發(fā)生,”拉斐爾湯曾德(Raphael Townshend)說(shuō)道。2019年,他曾在DeepMind實(shí)習(xí),后來(lái)創(chuàng)辦了由人工智能驅(qū)動(dòng)的生物科技公司“原子人工智能”(Atomic AI)。
在學(xué)術(shù)界,專(zhuān)家們往往彼此分隔,各自研究一些獨(dú)立項(xiàng)目,很少尋求合作。而在DeepMind,來(lái)自統(tǒng)計(jì)學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算化學(xué)、軟件工程等領(lǐng)域的專(zhuān)家們齊聚一堂,共同研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。他們還擁有谷歌提供的龐大財(cái)力和計(jì)算資源。“我在博士期間需要花費(fèi)幾個(gè)月完成的事情,在這里一天就能完成,”湯曾德說(shuō)道。
“位于倫敦的DeepMind辦公室充滿活力,而其中的大部分活力都來(lái)自江珀。”湯曾德說(shuō),“我認(rèn)為他是一個(gè)真正的天才,同時(shí)也是一個(gè)非常謙遜的人。”美國(guó)計(jì)算機(jī)科學(xué)家埃倫鐘(Ellen Zhong)說(shuō)道:“他深受團(tuán)隊(duì)的喜愛(ài)。”鐘曾于2021年在DeepMind實(shí)習(xí),現(xiàn)在是美國(guó)普林斯頓大學(xué)(Princeton University)的助理教授。
在江珀的領(lǐng)導(dǎo)下,團(tuán)隊(duì)對(duì)AlphaFold進(jìn)行了重構(gòu),開(kāi)發(fā)了AlphaFold2。DeepMind設(shè)計(jì)了一種新型的轉(zhuǎn)換架構(gòu)(Transformer)“在過(guò)去5年中,這種深度學(xué)習(xí)模型幾乎推動(dòng)了所有機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)突破”,湯曾德說(shuō)道。這種ANN通過(guò)調(diào)整連接的強(qiáng)度來(lái)建造更精確的數(shù)據(jù)表征,在AlphaFold2中用于處理蛋白質(zhì)的演化和結(jié)構(gòu)數(shù)據(jù)。隨后,這些數(shù)據(jù)會(huì)被第二個(gè)Transformer架構(gòu)用來(lái)預(yù)測(cè)一個(gè)蛋白質(zhì)的三維結(jié)構(gòu)。AlphaFold2將預(yù)測(cè)的結(jié)構(gòu)與一些修正數(shù)據(jù)繼續(xù)輸入這些架構(gòu)中,以進(jìn)一步優(yōu)化預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)。
“當(dāng)我們剛開(kāi)始研發(fā)AlphaFold2時(shí),算法表現(xiàn)得非常糟糕,但并沒(méi)有我們預(yù)期的那么糟。”江珀說(shuō),“它得到了一些看起來(lái)有點(diǎn)像蛋白質(zhì)的螺旋結(jié)構(gòu)。”但隨著他們進(jìn)一步優(yōu)化算法,他們注意到預(yù)測(cè)的效率和準(zhǔn)確性都大幅提高。“這確實(shí)讓人有些害怕。”江珀說(shuō)道,“如果它表現(xiàn)得太好,通常意味著你做錯(cuò)了什么。”但他們檢查后沒(méi)有發(fā)現(xiàn)任何問(wèn)題,AlphaFold2確實(shí)在正常工作。
團(tuán)隊(duì)決定進(jìn)行一項(xiàng)內(nèi)部實(shí)驗(yàn),看看他們的系統(tǒng)是否對(duì)生物學(xué)家有所幫助。他們挑選了大約50篇發(fā)表在《科學(xué)》(Science)、《自然》(Nature)和《細(xì)胞》(Cell)等頂級(jí)期刊上的論文。這些論文不僅描述了一種新的蛋白質(zhì)結(jié)構(gòu),還從蛋白質(zhì)的結(jié)構(gòu)中得出了一些關(guān)于其功能的見(jiàn)解。他們想看看AlphaFold2的表現(xiàn)能否與實(shí)驗(yàn)人員費(fèi)時(shí)費(fèi)力獲得的研究成果相媲美。
于是,他們將這些氨基酸序列輸入AlphaFold2的預(yù)測(cè)引擎。對(duì)于每個(gè)序列,它給出的預(yù)測(cè)都很接近論文中的實(shí)驗(yàn)獲得的蛋白質(zhì)結(jié)構(gòu)。然而,在DeepMind團(tuán)隊(duì)看來(lái),這仍然不夠準(zhǔn)確,這些結(jié)構(gòu)中缺少實(shí)驗(yàn)研究人員從蛋白質(zhì)中獲得的一些關(guān)鍵細(xì)節(jié)。“你認(rèn)為自己跑完了比賽,卻發(fā)現(xiàn)只是跑了一半,”江珀說(shuō)道。在接下來(lái)的6個(gè)月里,團(tuán)隊(duì)進(jìn)一步優(yōu)化了系統(tǒng),一點(diǎn)一點(diǎn)地改進(jìn)細(xì)節(jié)。在2020年CASP的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)名單發(fā)布前幾周,他們又進(jìn)行了另一次有效性測(cè)試,江珀對(duì)這次結(jié)果感到滿意。DeepMind在2020年春季向CASP提交了他們的預(yù)測(cè)結(jié)果,接下來(lái)是等待最終結(jié)果。
震驚世界
到初夏時(shí),莫爾特收到了一封來(lái)自CASP評(píng)估員的電子郵件,寫(xiě)著“看看這個(gè),真是令人印象深刻”。郵件的附件是一個(gè)AlphaFold2預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)。莫爾特非常驚訝,但他認(rèn)為這只是一次偶然的成功。
緊接著,他收到了一封又一封這樣的電子郵件。“這很不尋常,”他回憶起當(dāng)時(shí)的想法。有3個(gè)、4個(gè)甚至一大堆近乎完美的蛋白質(zhì)預(yù)測(cè)結(jié)構(gòu),而它們?nèi)縼?lái)自AlphaFold2。到夏末時(shí),莫爾特說(shuō),“我們迅速意識(shí)到,有一些極其超乎想象的事情發(fā)生了。”
CASP評(píng)估員會(huì)將每個(gè)提交的蛋白質(zhì)預(yù)測(cè)結(jié)構(gòu)與相對(duì)應(yīng)的、經(jīng)過(guò)實(shí)驗(yàn)獲得并驗(yàn)證的結(jié)構(gòu)進(jìn)行比較,給出評(píng)分。滿分為100分,意味著預(yù)測(cè)的結(jié)構(gòu)與實(shí)際結(jié)構(gòu)中的每一個(gè)原子都能完美匹配。莫爾特一直認(rèn)為,任何超過(guò)90分的結(jié)果都能表明算法已經(jīng)有效地解決了蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)問(wèn)題。AlphaFold2預(yù)測(cè)的大多數(shù)結(jié)構(gòu)都已經(jīng)達(dá)到甚至超過(guò)了90分。會(huì)議召開(kāi)的前幾個(gè)月,莫爾特打電話告訴了江珀這個(gè)消息。“我激動(dòng)得爆了粗口,”江珀回憶道,“妻子當(dāng)時(shí)還問(wèn)我是否還好。”
2020年12月,新冠疫情暴發(fā)不足一年之際,江珀在CASP的視頻會(huì)議上展示了AlphaFold2。和其他與會(huì)者一樣,瓊斯在家觀看了會(huì)議。“我完全呆在那里……看著一切徐徐展開(kāi),”他說(shuō),“我沒(méi)有發(fā)泄情緒的途徑,因?yàn)橥聜兌疾辉谏磉?hellip;…我們都處于疫情防控中,哪也去不了。”
對(duì)于任何不是ANN專(zhuān)家的人來(lái)說(shuō),其中的概念聽(tīng)起來(lái)會(huì)都很復(fù)雜。不過(guò)即便如此,結(jié)論卻很明確:DeepMind已經(jīng)解決了蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)問(wèn)題,他們開(kāi)發(fā)的AlphaFold2能夠基于蛋白質(zhì)的氨基酸序列來(lái)準(zhǔn)確預(yù)測(cè)其結(jié)構(gòu)。“唉,我最喜歡的課題完蛋了,”瓊斯回憶道,“DeepMind殺死了比賽,一切都結(jié)束了。”多年以來(lái),阿納斯塔西斯佩拉基斯(Anastassis Perrakis)一直向CASP提交未發(fā)表的蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果以供比賽使用。當(dāng)他看到AlphaFold2預(yù)測(cè)的、他的研究團(tuán)隊(duì)辛苦獲得的一個(gè)蛋白質(zhì)結(jié)構(gòu)時(shí),他心想:“完了。”AlphaFold2完全正確地預(yù)測(cè)了該蛋白質(zhì)的結(jié)構(gòu)。在疫情防控期間,獨(dú)自在家的科學(xué)家們一致認(rèn)為蛋白質(zhì)科學(xué)的世界至此永遠(yuǎn)改變了。當(dāng)他們展望這片新的領(lǐng)域時(shí),心中只有一個(gè)問(wèn)題:接下來(lái)怎么辦?
從預(yù)測(cè)到創(chuàng)造
結(jié)構(gòu)生物學(xué)家突然陷入了混亂。“一開(kāi)始,許多人進(jìn)行了深刻的反思”,西爾維奧托薩托(Silvio Tosatto)說(shuō)道,他從全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP)的早期就開(kāi)始參加這項(xiàng)比賽。一些結(jié)構(gòu)生物學(xué)家擔(dān)心,他們的工作可能會(huì)變得過(guò)時(shí)。另一些人則表現(xiàn)出防御性姿態(tài),聲稱(chēng)“阿爾法折疊2”(AlphaFold2)的預(yù)測(cè)結(jié)果并不準(zhǔn)確。
這一刻,那些長(zhǎng)期致力于解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題的計(jì)算生物學(xué)家感到苦樂(lè)參半,他們其中一些人甚至已經(jīng)研究了數(shù)十年時(shí)間。CASP賽后,穆罕默德庫(kù)雷希(Mohammed AlQuraishi)撰寫(xiě)了一篇博客文章,其中引用了一位與會(huì)者的話,他形容這感覺(jué)就像自己的孩子第一次離開(kāi)家。
盡管對(duì)這種備受矚目的新工具感到不安,但許多科學(xué)家還是欣喜若狂。過(guò)去,那些不從事蛋白質(zhì)結(jié)構(gòu)研究的科學(xué)家,在進(jìn)行涉及多學(xué)科問(wèn)題的研究時(shí),必須與結(jié)構(gòu)生物學(xué)家合作,才能確定實(shí)驗(yàn)中的蛋白質(zhì)結(jié)構(gòu)。現(xiàn)在,他們只需按幾個(gè)按鈕,只靠自己就能得到結(jié)構(gòu)。
在媒體上,AlphaFold2被形容為將“改變一切”的嶄新的人工智能(AI)突破。但科學(xué)家花了數(shù)月甚至數(shù)年的時(shí)間,才終于理清AlphaFold2的能力和局限性。大約是在約翰江珀(John Jumper)演講的6個(gè)月后,谷歌子公司“深度思維”(DeepMind)發(fā)表了他們的結(jié)果,并公開(kāi)了AlphaFold2的底層代碼。生物學(xué)家開(kāi)始嘗試使用這個(gè)工具。阿納斯塔西斯佩拉基斯(Anastassis Perrakis)說(shuō):“AlphaFold2發(fā)布的第二天,我們就試著把它裝到了我們的圖形處理單元(GPU)服務(wù)器上。”
珍妮特桑頓(Janet Thornton)表示:“我原本以為AlphaFold2會(huì)失敗,但它實(shí)際上取得了驚人的成功。”漸漸地,人們開(kāi)始意識(shí)到,AlphaFold2不僅不是一種威脅,反而可能成為加速研究的催化劑。它沒(méi)有讓結(jié)構(gòu)生物學(xué)家失業(yè),而是給他們提供了一個(gè)新的工具,讓他們更好地完成工作。海倫沃爾登(Helen Walden)說(shuō):“如果你只是把結(jié)構(gòu)生物學(xué)家看作解析蛋白質(zhì)結(jié)構(gòu)的技術(shù)專(zhuān)家,那么是的,結(jié)構(gòu)生物學(xué)家當(dāng)然會(huì)失業(yè)。”但這樣說(shuō)就好比認(rèn)為,人類(lèi)基因組計(jì)劃讓基因組學(xué)家變得多余了,因?yàn)樗麄儾辉倌馨l(fā)表解析單個(gè)基因序列的論文了。
在許多情況下,結(jié)構(gòu)生物學(xué)家的目標(biāo)是通過(guò)研究蛋白質(zhì)的結(jié)構(gòu)來(lái)發(fā)現(xiàn)其功能。有了AlphaFold2,他們就能基于這種工具在幾分鐘內(nèi)生成的蛋白質(zhì)結(jié)構(gòu),提出關(guān)于蛋白質(zhì)功能的假設(shè),而不必事先通過(guò)數(shù)月甚至數(shù)年的實(shí)驗(yàn)來(lái)解析結(jié)構(gòu)。保羅亞當(dāng)斯(Paul Adams)說(shuō):“它在許多方面都推動(dòng)結(jié)構(gòu)生物學(xué)向著更好的方向發(fā)展,這并非一件壞事,反而會(huì)讓這個(gè)研究領(lǐng)域變得更加令人興奮。”
然而,AlphaFold2并未像一些人預(yù)測(cè)的那樣立即帶來(lái)各種新藥。研究人員很快了解到,這個(gè)工具也有局限性:AlphaFold2的預(yù)測(cè)并不完美。佩拉基斯說(shuō),它預(yù)測(cè)的結(jié)果仍需通過(guò)實(shí)驗(yàn)驗(yàn)證,但你“可以更快地開(kāi)始具體結(jié)構(gòu)的研究”,F(xiàn)在,當(dāng)他的學(xué)生開(kāi)始一個(gè)新課題時(shí),他們會(huì)首先使用AlphaFold2預(yù)測(cè)特定蛋白質(zhì)的結(jié)構(gòu),然后再用實(shí)驗(yàn)驗(yàn)證。
佩拉基斯認(rèn)為,他和其他研究人員仍會(huì)在一定程度上繼續(xù)使用X射線晶體學(xué)。但是,為了得到初始的蛋白質(zhì)結(jié)構(gòu),許多人已經(jīng)開(kāi)始將深度學(xué)習(xí)預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與先進(jìn)的電子顯微鏡技術(shù)(例如冷凍電子顯微術(shù))結(jié)合使用。冷凍電子顯微術(shù)(cryo-EM)又稱(chēng)冷凍電鏡術(shù),是一種用于分析快速冷凍的含水生物樣品的透射電鏡成像技術(shù),通過(guò)電子轟擊樣品進(jìn)行分析。將這兩種技術(shù)相結(jié)合之后,研究人員就能迅速開(kāi)展對(duì)蛋白質(zhì)功能的研究,專(zhuān)注于研究更有趣的科學(xué)問(wèn)題。庫(kù)雷希表示,AlphaFold2“極大推動(dòng)了”冷凍電子顯微術(shù)的應(yīng)用。
轉(zhuǎn)變已經(jīng)開(kāi)始了。2022年6月,《科學(xué)》(Science)的一期特刊揭示了人類(lèi)核孔復(fù)合體近原子水平分辨率的結(jié)構(gòu)。對(duì)于這個(gè)由30種不同蛋白質(zhì)組成的龐大而復(fù)雜的蛋白質(zhì)復(fù)合體,其結(jié)構(gòu)解析幾十年來(lái)一直是生物學(xué)中的難題。這群科學(xué)家使用AlphaFold2的預(yù)測(cè)結(jié)果,填補(bǔ)了核孔復(fù)合體中未能用冷凍電子顯微術(shù)解析的部分。江珀表示,當(dāng)他讀到這篇論文,看到其他科學(xué)家利用AlphaFold2取得了生物學(xué)上的突破,就是在那一刻,他意識(shí)到“AlphaFold2確實(shí)非常重要”。
過(guò)去三年中,類(lèi)似核孔復(fù)合體這樣的發(fā)現(xiàn)點(diǎn)綴了蛋白質(zhì)科學(xué)領(lǐng)域的發(fā)展歷程。AlphaFold2已經(jīng)預(yù)測(cè)了許多蛋白質(zhì)結(jié)構(gòu),它們幫助科學(xué)家研究疾病并創(chuàng)造了新的藥物遞送工具。美國(guó)博德研究所(Broad Institute)的分子生物學(xué)家張鋒說(shuō):“它對(duì)我們非常有幫助。”他用AlphaFold2設(shè)計(jì)了一種分子注射器,用于將藥物遞送到人體細(xì)胞中。除了藥物遞送,了解蛋白質(zhì)的結(jié)構(gòu)也有助于藥物開(kāi)發(fā):例如,如果研究人員能找到緊密貼合靶標(biāo)蛋白形狀并能改變其功能的分子,它就有潛力作為藥物。盡管一些研究表明,AlphaFold2的預(yù)測(cè)結(jié)果并不如實(shí)驗(yàn)得到的結(jié)構(gòu)有用,但也有研究表明AlphaFold2的預(yù)測(cè)結(jié)果同樣有效。總的來(lái)看,AI工具對(duì)藥物發(fā)現(xiàn)的全面影響仍在逐步顯現(xiàn)。
然而,在預(yù)測(cè)已知蛋白質(zhì)的結(jié)構(gòu)和功能之外,一些生物學(xué)家已經(jīng)在嘗試將AlphaFold2用于其他用途。他們轉(zhuǎn)而用人工智能設(shè)計(jì)自然界中不存在的蛋白質(zhì),這一技術(shù)對(duì)設(shè)計(jì)新型藥物至關(guān)重要。
開(kāi)拓新領(lǐng)域
觀看了江珀在2020年CASP會(huì)議上的演講后,戴維貝克(David Baker)幾乎立即就回到了他的羅塞塔(Rosetta)算法工作中。當(dāng)時(shí),谷歌尚未公開(kāi)AlphaFold2的底層源代碼。即便如此,“我們開(kāi)始嘗試他們介紹的一些想法”,貝克說(shuō)道。就在谷歌DeepMind在《自然》(Nature)上發(fā)表AlphaFold2的同一天,貝克和團(tuán)隊(duì)宣布了AlphaFold2的競(jìng)爭(zhēng)對(duì)手“羅塞塔折疊”(RoseTTAFold),它也有極高的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精確度。RoseTTAFold同樣使用深度學(xué)習(xí)來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但其底層架構(gòu)與AlphaFold2非常不同。托薩托說(shuō):“科學(xué)想法一旦被提出,人們就可能對(duì)其進(jìn)行逆向工程并嘗試在其基礎(chǔ)上進(jìn)行構(gòu)建,至少對(duì)那些擁有足夠資源的人而言是這樣。”
RoseTTAFold并不孤單。包括美國(guó)元宇宙(Meta)公司在內(nèi)的其他AlphaFold2競(jìng)爭(zhēng)者也開(kāi)發(fā)了自己的算法,用于解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)或相關(guān)問(wèn)題。一些公司已經(jīng)擴(kuò)展到了蛋白質(zhì)以外的領(lǐng)域,例如拉斐爾湯曾德(Raphael Townshend)所在的美國(guó)生物科技初創(chuàng)公司“原子人工智能”(Atomic AI),就使用深度學(xué)習(xí)來(lái)解析RNA的結(jié)構(gòu)。然而,在單分子結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,目前還沒(méi)有算法能達(dá)到AlphaFold2的精度,桑頓說(shuō)道。“我相信他們最終會(huì)做到這種精度,但我認(rèn)為要再現(xiàn)另一個(gè)那樣的‘AlphaFold2時(shí)刻’將會(huì)非常困難。”
CASP建立了一種卓有成效的競(jìng)爭(zhēng)傳統(tǒng)。至少在大眾眼中,貝克和江珀將這種競(jìng)爭(zhēng)延續(xù)了下去。貝克說(shuō):“他們可能覺(jué)得我在與他們競(jìng)爭(zhēng),但我覺(jué)得他們只是啟發(fā)了我們。”江珀則對(duì)此表示歡迎,他說(shuō):“讓人們?cè)谶@個(gè)科學(xué)基礎(chǔ)上繼續(xù)開(kāi)發(fā)是非常重要的。如果AlphaFold2沒(méi)有知識(shí)上的傳承,那對(duì)我來(lái)說(shuō)將是一件很悲哀的事。”
貝克已經(jīng)在發(fā)展他的項(xiàng)目傳承,重點(diǎn)關(guān)注蛋白質(zhì)科學(xué)的新前沿領(lǐng)域蛋白質(zhì)設(shè)計(jì)。此前,生物學(xué)家受限于研究自然界中已經(jīng)存在的蛋白質(zhì),但在貝克設(shè)想的科學(xué)中,他們可以設(shè)計(jì)全新的蛋白質(zhì),這些人為設(shè)計(jì)的蛋白質(zhì)可以專(zhuān)門(mén)用于利用陽(yáng)光、分解塑料或作為藥物和疫苗的基矗
荷蘭胡布雷赫特研究所(Hubrecht Institute)的結(jié)構(gòu)生物學(xué)家丹尼薩托(Danny Sahtoe)曾在貝克的指導(dǎo)下完成博士后研究,他說(shuō):“對(duì)于目前自然界中不同類(lèi)型的蛋白質(zhì)而言,其結(jié)構(gòu)或形狀的數(shù)量相當(dāng)有限。理論上,還存在更多的可能性。如果能有更多形狀,那也意味著蛋白質(zhì)可以擁有更多功能。”
現(xiàn)任美國(guó)華盛頓大學(xué)(University of Washington)蛋白質(zhì)設(shè)計(jì)研究所(Institute for Protein Design)所長(zhǎng)的貝克說(shuō),蛋白質(zhì)設(shè)計(jì)本質(zhì)上是“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的逆向問(wèn)題”。使用蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法時(shí),科學(xué)家會(huì)將氨基酸序列輸入深度學(xué)習(xí)算法,并讓它輸出蛋白質(zhì)結(jié)構(gòu)。而蛋白質(zhì)設(shè)計(jì)則不同,蛋白質(zhì)設(shè)計(jì)師是將特定的蛋白質(zhì)結(jié)構(gòu)輸入算法,然后讓它輸出氨基酸序列。緊接著,他們會(huì)基于模型輸出的序列,再在實(shí)驗(yàn)室中構(gòu)建出設(shè)計(jì)的蛋白質(zhì)。
AlphaFold2和RoseTTAFold本身無(wú)法生成這些序列,因?yàn)樗鼈兊木幊踢壿媹?zhí)行的是相反的操作。但貝克基于RoseTTAFold的神經(jīng)架構(gòu),創(chuàng)建了一個(gè)專(zhuān)門(mén)用于設(shè)計(jì)蛋白質(zhì)的迭代版本,名為“RoseTTAFold擴(kuò)散”(RoseTTAFold diffusion),簡(jiǎn)稱(chēng)“RF擴(kuò)散”。薩托說(shuō),蛋白質(zhì)設(shè)計(jì)領(lǐng)域已經(jīng)存在了很長(zhǎng)時(shí)間,但深度學(xué)習(xí)加速了這一進(jìn)程,它使切實(shí)可行的蛋白質(zhì)計(jì)算機(jī)模型的設(shè)計(jì)過(guò)程變得“極其快速”。過(guò)去,訓(xùn)練有素的蛋白質(zhì)設(shè)計(jì)師需要數(shù)周或數(shù)月的時(shí)間,才能創(chuàng)建一個(gè)新蛋白質(zhì)的骨架。而現(xiàn)在,他們幾天之內(nèi)甚至一夜之間就能完成。
貝克還更新了Foldit游戲,將他的執(zhí)念融入其中:玩家不再是構(gòu)建蛋白質(zhì)結(jié)構(gòu),而是設(shè)計(jì)蛋白質(zhì)。這一嘗試確實(shí)富有成效;谝恍┩婕以O(shè)計(jì)的蛋白質(zhì),貝克實(shí)驗(yàn)室已經(jīng)撰寫(xiě)了多篇論文。而且一名世界頂級(jí)Foldit玩家如今正就讀于華盛頓大學(xué),是貝克一位同事的研究生。
貝克說(shuō):“我們真的理解蛋白質(zhì)的折疊過(guò)程嗎?如果我們?cè)O(shè)計(jì)出能折疊成新結(jié)構(gòu)的新序列,那就表明我們對(duì)蛋白質(zhì)折疊有了相當(dāng)多的了解。從某種意義上說(shuō),你也可以將它看作蛋白質(zhì)折疊問(wèn)題的一種解決方案。”
相信與懷疑
AlphaFold2的成功無(wú)疑改變了生物學(xué)家對(duì)人工智能的態(tài)度。長(zhǎng)期以來(lái),許多實(shí)驗(yàn)生物學(xué)家并不相信計(jì)算方法,他們覺(jué)得一些機(jī)器學(xué)習(xí)方法可能會(huì)讓數(shù)據(jù)看起來(lái)很好,而實(shí)際使用時(shí)并非如此。然而,谷歌DeepMind的成功明確證明了“你可以用它進(jìn)行嚴(yán)肅的科學(xué)研究”,庫(kù)雷希說(shuō)道,F(xiàn)在,任何對(duì)這件事的懷疑都會(huì)被人反問(wèn):“那AlphaFold2呢?”許錦波,那位曾推進(jìn)卷積神經(jīng)網(wǎng)絡(luò)研究的計(jì)算生物學(xué)家說(shuō):“現(xiàn)在,生物學(xué)家開(kāi)始相信我們的預(yù)測(cè)結(jié)果。而在以前,生物學(xué)家總是懷疑我們的預(yù)測(cè)是否可靠。”
這種信任的建立要?dú)w功于AlphaFold2平臺(tái)的一個(gè)特性:它不僅能生成蛋白質(zhì)的三維模型,還會(huì)自我評(píng)估預(yù)測(cè)的準(zhǔn)確性,對(duì)結(jié)構(gòu)中的每個(gè)部分給出從0到100的置信度評(píng)分。2022年7月,谷歌DeepMind發(fā)布了2.18億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè),幾乎涵蓋了世界上所有已知蛋白質(zhì)。之后,亞當(dāng)斯便決定開(kāi)始分析AlphaFold2的自我評(píng)估結(jié)果。他將這些預(yù)測(cè)的結(jié)構(gòu)與已通過(guò)實(shí)驗(yàn)解析的蛋白質(zhì)結(jié)構(gòu)進(jìn)行比較,并獨(dú)立評(píng)估它們的準(zhǔn)確性。
亞當(dāng)斯說(shuō):“好消息是,當(dāng)AlphaFold2認(rèn)為自己正確的時(shí)候,它通常非常正確。當(dāng)它認(rèn)為自己不對(duì)時(shí),它通常也確實(shí)不對(duì)。”然而,在AlphaFold2對(duì)其預(yù)測(cè)結(jié)果“非常有信心”(置信度評(píng)分不低于90分,滿分為100分)的情況下,大約在10%的例子中,預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果不一致。
AI系統(tǒng)似乎具有一定的自我懷疑能力,這可能會(huì)導(dǎo)致人們過(guò)度依賴其結(jié)論。大多數(shù)生物學(xué)家將AlphaFold2視為一種預(yù)測(cè)工具,但也有一些人走得太遠(yuǎn)了。一些過(guò)去與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家,甚至用AlphaFold2取代了結(jié)構(gòu)生物學(xué)家,并將其預(yù)測(cè)視為真理。佩拉基斯說(shuō),有些科學(xué)家在發(fā)表論文中展示的蛋白質(zhì)結(jié)構(gòu)顯然是錯(cuò)誤的,任何結(jié)構(gòu)生物學(xué)家都能看出來(lái)。“但他們會(huì)說(shuō):‘好吧,那是AlphaFold2預(yù)測(cè)的結(jié)構(gòu)。’”美國(guó)國(guó)立衛(wèi)生研究院(NIH)的研究員勞倫波特(Lauren Porter)表示:“一些人對(duì)這些深度學(xué)習(xí)模型的能力過(guò)于自信了。我們應(yīng)該盡可能多地使用這些深度學(xué)習(xí)模型,但也需要以謹(jǐn)慎和謙遜的態(tài)度來(lái)對(duì)待它們。”
戴維瓊斯(David Jones)聽(tīng)說(shuō),有些從事計(jì)算解析蛋白質(zhì)結(jié)構(gòu)的科學(xué)家在爭(zhēng)取資金時(shí)遇到了困難。他說(shuō):“你知道的,普遍的看法是,DeepMind已經(jīng)做到了,那為什么你還在做這個(gè)方向?”但瓊斯認(rèn)為,這項(xiàng)工作仍然是必要的,因?yàn)锳lphaFold2并非無(wú)懈可擊,他說(shuō):“(距離真正解決該領(lǐng)域的所有問(wèn)題)依舊存在非常大的差距,有些事情它顯然做不到。”
雖然AlphaFold2在預(yù)測(cè)小型、簡(jiǎn)單蛋白質(zhì)的結(jié)構(gòu)方面表現(xiàn)出色,但在預(yù)測(cè)包含多個(gè)組成部分的蛋白質(zhì)復(fù)合體時(shí),其準(zhǔn)確性仍然較低。它也無(wú)法考慮蛋白質(zhì)的環(huán)境因素或蛋白質(zhì)與其他分子的結(jié)合,而這些因素會(huì)在自然狀態(tài)下改變蛋白質(zhì)的形狀。例如,有時(shí)蛋白質(zhì)需要被特定的離子、鹽或金屬包圍才能正確折疊。沃爾登說(shuō):“目前,AlphaFold2在理解蛋白質(zhì)所處環(huán)境方面還有些問(wèn)題。”她的團(tuán)隊(duì)已經(jīng)通過(guò)實(shí)驗(yàn)解析了幾個(gè)AlphaFold2無(wú)法預(yù)測(cè)的結(jié)構(gòu)。
自然界中還存在幾類(lèi)動(dòng)態(tài)的蛋白質(zhì),它們的功能十分重要,但AlphaFold2對(duì)它們的結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性較差。這些會(huì)發(fā)生形變的蛋白質(zhì),也被稱(chēng)為折疊轉(zhuǎn)換蛋白質(zhì)(fold-switching protein),它們的結(jié)構(gòu)并不是靜態(tài)的,其形狀會(huì)在與其他分子相互作用時(shí)發(fā)生變化。即使是相同的氨基酸序列,有些蛋白質(zhì)也會(huì)折疊成截然不同的形狀。波特說(shuō),折疊轉(zhuǎn)換蛋白質(zhì)“挑戰(zhàn)了序列編碼單一結(jié)構(gòu)的范式,因?yàn)樗鼈冿@然不只有一種結(jié)構(gòu)”。與用于訓(xùn)練DeepMind算法的數(shù)十萬(wàn)種靜態(tài)、單一結(jié)構(gòu)的蛋白質(zhì)相比,用于訓(xùn)練的折疊轉(zhuǎn)換蛋白質(zhì)只有大約100個(gè)例子,盡管肯定還有更多此類(lèi)蛋白質(zhì)存在。波特表示,“一般來(lái)說(shuō),這些算法是為了預(yù)測(cè)單個(gè)折疊結(jié)構(gòu)而設(shè)計(jì)的”,因此有這樣的表現(xiàn)也許并不令人意外。
還有一些蛋白質(zhì)會(huì)像汽車(chē)專(zhuān)賣(mài)店外的充氣人偶一樣胡亂擺動(dòng)。固有無(wú)序蛋白(IDP)或固有無(wú)序蛋白質(zhì)區(qū)域缺乏穩(wěn)定的結(jié)構(gòu),它們會(huì)不斷地?fù)u擺和重新形成。丹麥哥本哈根大學(xué)(University of Copenhagen)的計(jì)算蛋白質(zhì)生物物理學(xué)教授克雷斯滕林多夫-拉森(Kresten Lindorff-Larsen)說(shuō):“它們?cè)诤芏喾矫娑急蝗撕鲆暳,僅僅是因?yàn)樗鼈冇悬c(diǎn)煩人。”大約44%的人類(lèi)蛋白質(zhì)都包含一個(gè)由至少30個(gè)氨基酸組成的無(wú)序區(qū)域,“這是一個(gè)相對(duì)較大的比例”,林多夫-拉森表示。AlphaFold2能預(yù)測(cè)某個(gè)區(qū)域可能是固有無(wú)序的,但它不能告訴你這種無(wú)序狀態(tài)具體是什么樣的。
對(duì)于江珀來(lái)說(shuō),AlphaFold2最讓他失望的點(diǎn)在于,它無(wú)法顯示兩種僅相差一個(gè)氨基酸(即點(diǎn)突變)的蛋白質(zhì)之間的結(jié)構(gòu)差異。他說(shuō),點(diǎn)突變“有時(shí)會(huì)對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能產(chǎn)生相當(dāng)顯著的影響,但AlphaFold2常常會(huì)忽視這些區(qū)別”,它會(huì)為兩個(gè)序列生成相同的結(jié)構(gòu)。2023年9月,DeepMind發(fā)布了AlphaMissense,這是一種能預(yù)測(cè)此類(lèi)點(diǎn)突變影響的深度學(xué)習(xí)算法。它無(wú)法展示結(jié)構(gòu)上的變化,但會(huì)根據(jù)已知致病蛋白質(zhì)中類(lèi)似突變的信息,告知用戶該突變是否可能導(dǎo)致蛋白質(zhì)致病或出現(xiàn)功能障礙。
然而,就算AlphaFold2能夠完美地預(yù)測(cè)所有蛋白質(zhì)的結(jié)構(gòu),它仍然遠(yuǎn)未達(dá)到模擬生命的程度。因?yàn)樵诩?xì)胞中,蛋白質(zhì)從來(lái)都不是單獨(dú)行動(dòng)的。
AlphaFold3誕生
細(xì)胞內(nèi)部復(fù)雜而混亂。細(xì)胞的外膜包裹著細(xì)胞內(nèi)的生化環(huán)境,這里密集地?cái)D滿了各種分子部件蛋白質(zhì)、信號(hào)分子、信使RNA和細(xì)胞器等等。蛋白質(zhì)彼此之間以及與其他分子相互結(jié)合,這會(huì)改變它們的形態(tài)與功能。
盡管AlphaFold2在預(yù)測(cè)單個(gè)蛋白質(zhì)結(jié)構(gòu)方面表現(xiàn)出色,但它并未幫助生物學(xué)家更深入地理解蛋白質(zhì)在這種復(fù)雜天然環(huán)境中的表現(xiàn)。這正是該領(lǐng)域當(dāng)前研究的方向。蛋白質(zhì)科學(xué)領(lǐng)域的兩大人工智能巨頭谷歌DeepMind和貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計(jì)研究所,目前正在改進(jìn)他們的深度學(xué)習(xí)算法,用于預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)的結(jié)構(gòu)。2024年春天,兩個(gè)機(jī)構(gòu)都發(fā)表了論文,描述了他們?cè)谠擃I(lǐng)域的類(lèi)似進(jìn)展。他們更新的算法AlphaFold3和RoseTTAFold All-Atom,使他們能預(yù)測(cè)蛋白質(zhì)與蛋白質(zhì)、DNA、RNA和其他小分子結(jié)合時(shí)的結(jié)構(gòu)。
生物學(xué)家才剛剛開(kāi)始測(cè)試這些更新。庫(kù)雷希表示,到目前為止,AlphaFold3的準(zhǔn)確性遠(yuǎn)高于RoseTTAFold All-Atom,但這次并不像“AlphaFold2時(shí)刻”那樣是一次巨大的飛躍。對(duì)于預(yù)測(cè)一些大分子,例如RNA的結(jié)構(gòu),它的準(zhǔn)確性仍低于其他基于物理的系統(tǒng)和實(shí)驗(yàn)方法。
即便如此,這些新算法仍朝著正確的方向邁出了一步。蛋白質(zhì)與其他分子之間的相互作用對(duì)其在細(xì)胞中的功能至關(guān)重要。為了開(kāi)發(fā)出能與蛋白質(zhì)結(jié)合并按需改變其活性的藥物,研究人員需要了解兩者形成的復(fù)合體的結(jié)構(gòu)。不過(guò)亞當(dāng)斯表示,兩種算法都不太可能在短期內(nèi)帶來(lái)新藥。他說(shuō):“這兩種方法的準(zhǔn)確性仍然有限,但它們都在原有基礎(chǔ)上有了巨大進(jìn)步。”
DeepMind的新產(chǎn)品還有一個(gè)重大變化。AlphaFold2的底層代碼是開(kāi)源的,因此其他研究人員可以研究該算法并將其改造后用于自己的項(xiàng)目。然而,谷歌目前仍選擇將AlphaFold3的源代碼作為商業(yè)機(jī)密保護(hù)起來(lái),而不是公開(kāi)分享。庫(kù)雷希說(shuō):“至少目前,沒(méi)人能像使用AlphaFold2那樣運(yùn)行和使用AlphaFold3。”
早在AlphaFold3發(fā)布之前,研究人員就已經(jīng)在測(cè)試AlphaFold2,看它能否提供有關(guān)蛋白質(zhì)在不同構(gòu)象下的有用信息。美國(guó)布朗大學(xué)(Brown University)的化學(xué)與物理學(xué)副教授布倫達(dá)魯本斯坦(Brenda Rubenstein)對(duì)激酶很感興趣,這是一類(lèi)能激活其他蛋白質(zhì)的蛋白質(zhì)。具體來(lái)說(shuō),她想了解一種會(huì)導(dǎo)致癌癥的激酶的作用機(jī)制,以便她針對(duì)這種激酶開(kāi)發(fā)更精確的藥物。魯本斯坦的實(shí)驗(yàn)室使用了一種基于物理的方法,通過(guò)牛頓定律映射原子的三維坐標(biāo)來(lái)對(duì)激酶的結(jié)構(gòu)建模。這項(xiàng)研究已經(jīng)耗費(fèi)了兩年半的時(shí)間。
“大約一年前,我們說(shuō):能不能更快地完成這個(gè)過(guò)程呢?”魯本斯坦說(shuō)道。于是,他們嘗試以一種新的方式使用AlphaFold2。通過(guò)給算法輸入相關(guān)蛋白質(zhì)的數(shù)據(jù),她發(fā)現(xiàn)AlphaFold2能以超過(guò)80%的準(zhǔn)確性,預(yù)測(cè)該激酶在不同構(gòu)象下的結(jié)構(gòu)。庫(kù)雷希說(shuō),“如果用正確的方式使用AlphaFold2,你就能讓它輸出多個(gè)不同構(gòu)象”,魯本斯坦的實(shí)驗(yàn)室是發(fā)現(xiàn)這一點(diǎn)的幾個(gè)實(shí)驗(yàn)室之一,“這件事非常振奮人心”。
庫(kù)雷希希望,深度學(xué)習(xí)能在2040年前實(shí)現(xiàn)模擬整個(gè)細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動(dòng)力學(xué)。然而,要實(shí)現(xiàn)這一目標(biāo),需要在實(shí)驗(yàn)和計(jì)算兩個(gè)方面都取得飛躍性進(jìn)展。
捷足先登
對(duì)許多生物學(xué)家而言,AlphaFold2是他們一直在等待的突破。CASP的目標(biāo)一直都是:創(chuàng)建能根據(jù)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算工具。盡管如此,許多人忍不住要問(wèn):在如此多專(zhuān)家已經(jīng)奮斗了幾十年的情況下,為何一個(gè)相對(duì)較新的團(tuán)隊(duì)卻能破解蛋白質(zhì)的代碼呢?不可否認(rèn),谷歌DeepMind的計(jì)算機(jī)和蛋白質(zhì)科學(xué)家團(tuán)隊(duì)為這個(gè)問(wèn)題帶來(lái)了全新的見(jiàn)解。與此同時(shí),蛋白質(zhì)科學(xué)的土壤已變得肥沃,已經(jīng)準(zhǔn)備好迎接深度學(xué)習(xí)的革命,庫(kù)雷希說(shuō)道,“這些事情不是憑空出現(xiàn)的”。
在2020年CASP賽前,許多研究人員都已經(jīng)預(yù)料到,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的突破會(huì)通過(guò)人工智能實(shí)現(xiàn)。湯曾德說(shuō):“一切都在朝那個(gè)方向發(fā)展。”但他們沒(méi)想到這種突破會(huì)來(lái)自一家市值數(shù)十億美元的科技公司,也沒(méi)想到它會(huì)來(lái)得這么快。一些人認(rèn)為,AlphaFold2并不是什么新的科學(xué)成就,不過(guò)是巧妙的工程設(shè)計(jì)。一些人對(duì)貝克的算法沒(méi)能奪冠感到驚訝,而另一些人則并不意外,因?yàn)楣雀鐳eepMind擁有無(wú)與倫比的資源。桑頓說(shuō),每年大約有100個(gè)實(shí)驗(yàn)室參加CASP,盡管他們已經(jīng)開(kāi)始采用AI技術(shù),但他們“可能沒(méi)有DeepMind那樣的AI專(zhuān)業(yè)知識(shí),也沒(méi)有那樣的算力,而DeepMind基本上可以使用無(wú)限的算力”。
桑頓還推測(cè),谷歌在蛋白質(zhì)科學(xué)方面缺乏專(zhuān)業(yè)知識(shí),這反而可能釋放了他們的創(chuàng)造力。她表示,“他們心無(wú)旁騖”,專(zhuān)注于構(gòu)建一個(gè)出色的人工神經(jīng)網(wǎng)絡(luò)。而蛋白質(zhì)生物學(xué)家則背負(fù)了很多包袱:在開(kāi)發(fā)AI工具時(shí),他們總希望能捕捉到蛋白質(zhì)折疊過(guò)程中原子層面的分子物理和化學(xué)過(guò)程。DeepMind則采用了不同的方法:把氨基酸序列數(shù)據(jù)轉(zhuǎn)化為三維結(jié)構(gòu),至于如何實(shí)現(xiàn),這并不重要。沃爾登表示:“他們并沒(méi)有試圖解決蛋白質(zhì)折疊問(wèn)題,我想這是此前許多預(yù)測(cè)方法嘗試在做的事。相反,他們實(shí)際上只是簡(jiǎn)單粗暴地將原子的最終位置映射到空間中。有趣的是,他們可能正是因此才解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。”
對(duì)一些生物學(xué)家而言,這種方法沒(méi)能解決蛋白質(zhì)折疊問(wèn)題。從結(jié)構(gòu)生物學(xué)的早期階段開(kāi)始,研究人員就希望能了解氨基酸鏈折疊成蛋白質(zhì)這一過(guò)程背后的規(guī)則。隨著AlphaFold2的出現(xiàn),大多數(shù)生物學(xué)家認(rèn)為,結(jié)構(gòu)預(yù)測(cè)問(wèn)題已經(jīng)解決。然而,蛋白質(zhì)折疊問(wèn)題并未解決。埃倫鐘(Ellen Zhong)說(shuō):“現(xiàn)在,你只是有了這個(gè)黑箱,它能以某種方式告訴你折疊后的狀態(tài),卻無(wú)法告訴你究竟如何到達(dá)那個(gè)狀態(tài)。”布朗大學(xué)的計(jì)算機(jī)科學(xué)家邁克爾利特曼(Michael Littman)則表示,“這不是科學(xué)家解決問(wèn)題的方式。”
美國(guó)約翰霍普金斯大學(xué)(Johns Hopkins University)的生物物理學(xué)榮譽(yù)退休教授喬治羅斯(George Rose)說(shuō),這聽(tīng)起來(lái)可能像是“語(yǔ)義上的爭(zhēng)論,但當(dāng)然不是這樣”。AlphaFold2可以基于它對(duì)數(shù)十萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)的分析,識(shí)別出給定氨基酸序列可能的折疊模式。但它無(wú)法告訴科學(xué)家關(guān)于蛋白質(zhì)折疊過(guò)程的任何信息。羅斯說(shuō):“對(duì)許多人而言,你并不需要知道這些,他們也不在乎。但科學(xué),至少在過(guò)去500年左右的時(shí)間里,它一直致力于理解事情的發(fā)生過(guò)程。”羅斯認(rèn)為,要理解以蛋白質(zhì)為基礎(chǔ)的生命動(dòng)態(tài)、機(jī)制、功能和本質(zhì),你需要一個(gè)完整的故事,而這正是深度學(xué)習(xí)算法無(wú)法告訴我們的。
對(duì)約翰莫爾特(John Moult)而言,機(jī)器做到了一些自己無(wú)法理解的事情,這沒(méi)什么關(guān)系。他說(shuō):“我們都習(xí)慣了讓機(jī)器做我們做不到的事情。比如說(shuō),我沒(méi)法跑得像我的車(chē)那么快。”而對(duì)于那些試圖研究蛋白質(zhì),并且只需要大致了解其外觀的分子生物學(xué)家來(lái)說(shuō),如何達(dá)到這個(gè)目標(biāo)也并不重要。
波特表示:“但在我們真正了解蛋白質(zhì)折疊的原理之前,我們永遠(yuǎn)不會(huì)有100%可靠的預(yù)測(cè)方法。我們必須了解基本的物理原理,才能做出最有依據(jù)的預(yù)測(cè)。”庫(kù)雷希則說(shuō):“我們一直在調(diào)整目標(biāo)。我確實(shí)認(rèn)為,核心問(wèn)題已經(jīng)解決了。所以現(xiàn)在的重點(diǎn)是,接下來(lái)會(huì)發(fā)生什么。”
即使生物學(xué)家還在繼續(xù)爭(zhēng)論這些話題,但對(duì)于這個(gè)無(wú)疑已經(jīng)發(fā)生改變的領(lǐng)域,其他人已經(jīng)開(kāi)始展望未來(lái),同時(shí)也回顧了其近來(lái)的發(fā)展歷程。有時(shí),佩拉基斯會(huì)對(duì)過(guò)去的工作方式產(chǎn)生一陣懷舊之情。2022年,他的團(tuán)隊(duì)用X射線晶體學(xué)解析了一種參與微管(為細(xì)胞提供結(jié)構(gòu)支撐的巨型棒狀結(jié)構(gòu))修飾的酶的結(jié)構(gòu)。佩拉基斯說(shuō):“我意識(shí)到,我再也不會(huì)那樣做了。過(guò)去,在工作了幾個(gè)月之后,第一次看到結(jié)構(gòu)被解析出來(lái)的時(shí)候,會(huì)讓人有一種非常特別的滿足感。”
AlphaFold2并沒(méi)有讓那些實(shí)驗(yàn)變得過(guò)時(shí),相反,它凸顯了這些實(shí)驗(yàn)的必要性。它將歷史上截然不同的兩個(gè)學(xué)科聯(lián)系在了一起,開(kāi)啟了一場(chǎng)新的、激動(dòng)人心的對(duì)話。
新世界
波特感嘆道,70年前,人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì)。“再看看現(xiàn)在我們能看到什么”,無(wú)論是自然界中存在的還是人為設(shè)計(jì)的蛋白質(zhì),這樣一個(gè)龐大的蛋白質(zhì)世界,在我們眼中變成了一個(gè)又一個(gè)結(jié)構(gòu)。佩拉基斯表示,“相比于AlphaFold誕生之前,如今的蛋白質(zhì)生物學(xué)領(lǐng)域變得更加令人興奮了。”這種興奮來(lái)自許多方面,包括基于結(jié)構(gòu)的藥物發(fā)現(xiàn)可能會(huì)重新振興,科學(xué)家提出假設(shè)的速度會(huì)變快,以及它給理解細(xì)胞內(nèi)復(fù)雜的相互作用帶來(lái)了希望。庫(kù)雷希說(shuō):“這種感覺(jué)就像是當(dāng)年基因組學(xué)的那場(chǎng)革命。”對(duì)于生物學(xué)家,無(wú)論是實(shí)驗(yàn)科學(xué)家還是在電腦前運(yùn)行程序的計(jì)算科學(xué)家,這里的數(shù)據(jù)都太多太多了,他們才剛開(kāi)始弄清楚如何處理這些數(shù)據(jù)。
但正如世界各地由人工智能帶來(lái)的其他突破一樣,這一突破也可能存在上限。AlphaFold2的成功建立在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,即那些由耐心的實(shí)驗(yàn)人員精心解析的數(shù)十萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)。盡管AlphaFold3和相關(guān)算法在預(yù)測(cè)分子復(fù)合體結(jié)構(gòu)方面已經(jīng)取得了一些成功,但其準(zhǔn)確性仍落后于它的前輩在單一蛋白質(zhì)結(jié)構(gòu)上的表現(xiàn),部分原因是可用的訓(xùn)練數(shù)據(jù)顯著減少了。
桑頓說(shuō),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題“幾乎是AI解決方案的一個(gè)完美案例”,因?yàn)樗惴ǹ梢栽跀?shù)十萬(wàn)個(gè)以統(tǒng)一方式收集的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)上進(jìn)行訓(xùn)練。然而,蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)可能只是生物學(xué)中有組織的數(shù)據(jù)共享的特例。如果沒(méi)有高質(zhì)量的數(shù)據(jù)用于訓(xùn)練算法,它們也無(wú)法做出準(zhǔn)確的預(yù)測(cè)。江珀表示:“我們很幸運(yùn),在我們遇到這個(gè)問(wèn)題時(shí),它正好已經(jīng)到了可以解決的時(shí)機(jī)。”
沒(méi)人知道深度學(xué)習(xí)在解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題上的成功能否延續(xù)到其他科學(xué)領(lǐng)域,哪怕只是生物學(xué)的其他領(lǐng)域。但像庫(kù)雷希這樣的一些人對(duì)此持樂(lè)觀態(tài)度,他說(shuō):“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)真的只是冰山一角。”例如,化學(xué)家也需要進(jìn)行成本高昂的計(jì)算。庫(kù)雷希說(shuō),借助深度學(xué)習(xí),這些計(jì)算的速度已經(jīng)比以前快了一百萬(wàn)倍。
人工智能顯然能推動(dòng)解決特定類(lèi)型的科學(xué)問(wèn)題,但在推進(jìn)知識(shí)進(jìn)展方面,它對(duì)科學(xué)家的幫助可能是有限的。庫(kù)雷希表示,“歷史上,科學(xué)一直是關(guān)乎理解自然的”,也就是理解生命和宇宙背后的過(guò)程。深度學(xué)習(xí)工具揭示的是解決方案而并非過(guò)程。如果科學(xué)通過(guò)這些工具向前發(fā)展,那它還是真正的科學(xué)嗎?庫(kù)雷希繼續(xù)說(shuō),“如果你能治愈癌癥,你還會(huì)在乎所使用的療法是如何起效的嗎?未來(lái)幾年,這將是我們會(huì)不斷爭(zhēng)論的問(wèn)題。”如果許多研究人員決定放棄理解自然的過(guò)程,那么人工智能不僅會(huì)改變科學(xué),它也會(huì)改變科學(xué)家。
與此同時(shí),CASP的組織者們正面臨一個(gè)不同的問(wèn)題:如何延續(xù)他們的競(jìng)賽和會(huì)議。AlphaFold2是CASP的產(chǎn)物,它解決了人們組織這個(gè)會(huì)議原本要解決的主要問(wèn)題。莫爾特說(shuō):“如今的CASP到底是為了什么?對(duì)我們而言,這是一個(gè)巨大的沖擊。”2022年,CASP會(huì)議在土耳其安塔利亞市舉行。盡管谷歌DeepMind并未參賽,但該團(tuán)隊(duì)的存在感依然很強(qiáng)。瓊斯說(shuō):“無(wú)非就是人們使用了或多或少的AlphaFold。”他表示,從這個(gè)意義上說(shuō),谷歌還是贏了。
如今,一些研究人員對(duì)參加CASP的興趣也減弱了。許錦波說(shuō):“一看到那個(gè)結(jié)果,我就轉(zhuǎn)變了研究方向。”也有一些人仍在繼續(xù)改進(jìn)自己的算法。比如瓊斯仍然涉足結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,但這對(duì)現(xiàn)在的他來(lái)說(shuō)更多只是一種愛(ài)好。諸如庫(kù)雷希和貝克等其他人,則在繼續(xù)開(kāi)發(fā)新的結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)算法。在與一家市值數(shù)十億美元的公司競(jìng)爭(zhēng)的前景面前,他們毫不畏懼。
莫爾特和會(huì)議的組織者們也在努力改進(jìn)。下一輪CASP已于2024年5月開(kāi)放報(bào)名。他希望深度學(xué)習(xí)能征服結(jié)構(gòu)生物學(xué)的更多方面,比如RNA或生物分子復(fù)合體。莫爾特說(shuō):“這種方法已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問(wèn)題上奏效了,而結(jié)構(gòu)生物學(xué)領(lǐng)域還有許多其他相關(guān)問(wèn)題。”
下一次CASP會(huì)議將于2024年12月在加勒比海碧藍(lán)的海水旁舉行。屆時(shí),微風(fēng)和煦,或許討論的氛圍也會(huì)十分和睦。曾經(jīng)激烈的跺腳聲早已平息,至少表面上是這樣。今年的競(jìng)賽會(huì)是什么樣子,誰(shuí)也無(wú)法預(yù)測(cè)。但如果從過(guò)去幾屆CASP中尋找線索的話,莫爾特知道,他只能期待一件事,“那就是驚喜”。
本文選自《環(huán)球科學(xué)》10月刊專(zhuān)題報(bào)道“AI重塑結(jié)構(gòu)生物學(xué)”。