劃重點
01谷歌DeepMind的AlphaFold2在2020年CASP競賽中預測蛋白質結構,準確度高達90分以上,引發(fā)科學界關注。
02然而,AlphaFold2在預測某些點突變和蛋白質與環(huán)境相互作用方面仍有局限,需要實驗驗證。
03為此,研究人員正在開發(fā)更先進的算法,如AlphaFold3和RoseTTAFold All-Atom,以提高預測準確性。
04同時,蛋白質科學領域的研究人員正嘗試將深度學習與冷凍電鏡等技術相結合,以更好地研究蛋白質結構。
05盡管AlphaFold2的成功引發(fā)了關于人工智能在科學領域應用的討論,但科學家們仍堅信理解基本原理對于科學發(fā)展至關重要。
以上內容由騰訊混元大模型生成,僅供參考
2024年諾貝爾化學獎公布,一半授予大衛(wèi)貝克(David Baker),“以表彰在計算蛋白質設計方面的貢獻”;另一半則共同授予德米斯哈薩比斯(Demis Hassabis)和約翰M詹珀(John M. Jumper),“以表彰他們在蛋白質結構預測方面的成就”。
德米斯哈薩比斯和約翰詹珀成功地利用人工智能技術預測了幾乎所有已知蛋白質的結構。而大衛(wèi)貝克掌握了生命的構建模塊,并創(chuàng)造了全新的蛋白質。本文將為你詳解AlphaFold的歷史,以及它為何值得獲獎。
2020 年 12 月,由于新冠疫情限制了大家的活動,許多人無法親自參加會議,數(shù)百名計算科學家聚集在屏幕前,共同見證科學新時代的到來。
他們聚集在一起是為了參加一個會議,一個持續(xù)近三十年的友誼賽。他們其中有些人親身參與過這項賽事,并通過這項比賽同聚一堂,癡迷于探討同一個問題這便是蛋白質折疊問題。簡單來說就是:我們能否根據最基本的信息也就是蛋白質分子的一維分子編碼準確預測出其三維結構?蛋白質讓人類細胞和身體保持活力和正常運轉。由于蛋白質的結構決定了它的行為,因此成功解決這個問題將對我們了解疾并研發(fā)新藥和理解生命體的運作方式產生深遠影響。
在每兩年舉行一次的會議上,科學家們將用最新的蛋白質折疊工具做測試。但解決方案似乎總是遙不可及。有些人窮極一生都在力求逐步提高預測的準確性,因此這項賽事只能說是蹣跚前行,參賽的研究者們沒有理由認為2020年會有所不同。
但他們想錯了。
一串一維的分子如何正確折疊成特定的三維結構?這被稱為蛋白質折疊(protein folding problem)的問題近期被人工智能解決了。圖源:Fran Pulido
比賽當周,蛋白質科學界的新秀John Jumper展示了谷歌 DeepMind在倫敦的人工智能分部推出的最新人工智能工具:AlphaFold2。他通過Zoom會議分享的相關數(shù)據顯示,AlphaFold2的三維蛋白質結構預測模型準確率超過90%,比最接近的競爭對手高出5倍。
一瞬間,蛋白質折疊問題的解決方案從遙不可及變?yōu)榱送偈挚傻。人工智能輕松地過了人類智慧舉步維艱的泥潭,這震撼了整個生物學界。出席會議的哥倫比亞大學數(shù)學基因組學項目的系統(tǒng)生物學家Mohammed AlQuraishi表示:“我感到非常震驚。很多人都拒絕接受這個現(xiàn)實。”
但在總結陳詞時,會議組織者John Moult打消了所有疑慮。他幾乎斬釘截鐵地表示:AlphaFold2已經“基本解決”了蛋白質折疊問題,并永遠改變了蛋白質科學。他穿著黑色高領毛衣,坐在家中辦公室的書架前,用Zoom分享著自己的幻燈片,“這不是結束,而是開始,”他這樣說道,語氣既令人興奮又令人擔憂。
蛋白質是具有數(shù)億種不同結構的分子。每一種都具有特定的生物功能,有些負責在血液中輸送氧氣,有些則負責引發(fā)化學反應。具體功能通常由其形狀或結構決定。
上:從左往右依次為SARS-COV-2刺突蛋白、新冠疫苗靶點;5-羥色胺受體、管控情緒與消化;血紅蛋白、輸送血液中的氧氣;細胞因子、調節(jié)免疫防御。
下:從左往右依次為膠原蛋白、讓組織成型;螢火蟲螢光素酶、發(fā)光;抗體、鑒別外來物質;胰島素、調節(jié)血糖;淀粉酶、消化淀粉;瘦素、控制食欲。圖源:RCSB PDB
當谷歌的公關部門向全世界發(fā)布這一消息時,媒體為之瘋狂。AlphaFold2“將會改變一切”的說法占據了各大新聞的頭版頭條。那些畢生致力于研究單個蛋白質結構的蛋白質生物學家擔心自己會丟掉飯碗。還有人聲稱,AlphaFold2將徹底改變藥物研發(fā),因為生物學家可以快速了解蛋白質的結構,從而更高效地研發(fā)出以蛋白質為靶點的新藥。其他人則反駁說,這些結果大多是炒作,不會帶來實質性改變。
Moult自己也幾乎無法理解這件事本身意味著什么。他在會議最后問出了大家都想問的問題:“接下來怎么辦?”
這個問題已經是三年半以前的事了,現(xiàn)在我們終于能夠嘗試回答他的問題了。
不可否認,AlphaFold2的確改變了生物學家研究蛋白質的方式。然而,雖然AlphaFold2是一個強大的預測工具,但它并不是一個全知全能的機器。它非常巧妙地解決了蛋白質折疊問題的一部分,但并不是科學家所想的那樣。它并沒有取代生物實驗,而是強調了生物實驗的必要性。
AlphaFold2最大的影響可能是讓生物學家關注人工智能的力量。它已經啟發(fā)了新的算法,包括設計在自然界中不存在的新蛋白質的算法。此外,它還催生了新型生物技術公司,引領了新的科學實踐方式。2024年5月,其繼任者AlphaFold3發(fā)布,它能夠模擬蛋白質和DNA或RNA等其他分子的結構與相互作用,標志著生物領域的預測模型進入了新的發(fā)展階段。
AlQuraishi表示:“這是迄今為止科學領域最重要的‘機器學習’故事。”
然而,生物科學領域仍有許多人工智能未能跨越的鴻溝。這些工具無法模擬蛋白質如何隨時間發(fā)生變化,也無法根據蛋白質存在的環(huán)境(即細胞內)對其進行建模。在勞倫斯伯克利國家實驗室開發(fā)生物分子結構建模算法的結構生物學家Paul Adams表示:“AlphaFold似乎改變了一切,又好像什么都沒有改變。”
本文便是有關來自谷歌DeepMind的Jumper團隊是如何變革蛋白質科學及其如何影響人工智能在生物學領域未來應用的故事。
前夜
(1)物理基礎
一張折紙在以特定方式折疊之前,只不過是壓制的木漿,而在折疊之后,它才能煥然一新。幾經精妙的卷曲與翻折,它就變成了一個紙制的算命工具,可以用來預測你的未來。而只需改變幾個折疊步驟,同一張紙就可以變成一只展翅飛翔的仙鶴,給人帶來好運。
同樣,一長串氨基酸分子在自發(fā)折疊成其固有形狀(生物學家稱之為結構)之前沒有任何功能。蛋白質的結構決定了它如何與其他分子結合或相互作用,因此也決定了它在細胞中的作用。
圖源:Mark Belan,翻譯:vicky,制圖:存源
地球上有幾億種已知的蛋白質,還有更多未知的蛋白質。它們無所不能:血紅蛋白和肌紅蛋白將氧氣運送到肌肉和身體各處。角蛋白構成頭發(fā)、指甲和皮膚的外層結構。胰島素使葡萄糖進入細胞,轉化為能量。蛋白質的形態(tài)似乎變幻莫測,以滿足實際生活中各種各樣的需求。
“從原子到生態(tài)系統(tǒng),(蛋白質結構)像是一種通用語言,是一切的起源,”AlQuraishi說道。
細胞通過菊花鏈的方式將氨基酸這種小分子連接成長長的多肽串,從而生成蛋白質。它所選擇的氨基酸取決于DNA提供給它的一組基本指令。生成后不到一秒,多肽串就會開始精確地彎曲、扣合、折疊成蛋白質的最終三維結構。一旦裝配完成,它們便會立刻開始履行自己的生物職能。
如果蛋白質不能很好地完成這一折疊過程,那么人體將會經受一系列危及性命的打擊。錯誤折疊或結構解開的蛋白質會導致中毒和細胞死亡。許多疾病和失調都是由錯誤折疊的蛋白質引起的,如鐮狀細胞貧血。此類蛋白質還會聚集成塊,這也是阿爾茨海默病和帕金森病等神經退行性疾病的特征。
然而,沒有人真正了解蛋白質是如何折疊的。這些簡單分子鏈中的序列信息又是如何編碼蛋白質的復雜結構呢?約翰霍普金斯大學生物物理學名譽教授George Rose表示“這是我們能提出的最深奧的問題。”
20世紀50年代,生物化學家Christian Anfinsen進行的實驗表明,氨基酸串內部含有一種內在的代碼,指示它如何折疊成蛋白質并且應該有一種方法可以從這一代碼中預測蛋白質的結構。這個假設被稱為安芬森教條(Anfinsen’s dogma)。圖源:PBH Images/Alamy
早在20世紀30年代,科學家們就開始探究這個問題。但真正取得突破要等到20世紀50年代中期,當時一位名叫Christian Anfinsen的生物化學家將蛋白質加入化學溶液中,這一做法要么會導致蛋白質的鍵斷裂,使其結構展開;要么會導致蛋白質發(fā)生錯誤折疊。通過觀察,他發(fā)現(xiàn),展開或折疊錯誤的蛋白質可以自發(fā)地重新折疊成正確的結構。這一發(fā)現(xiàn)證明了蛋白質的三維結構是由內部編碼(由氨基酸串的編碼)決定的,Christian Anfinsen也憑此獲得了諾貝爾獎。
基于這一發(fā)現(xiàn),Anfinsen提出了一個假設:應該有一種方法可以根據氨基酸序列預測蛋白質的結構這就是后來廣為人知的蛋白質折疊問題。
一旦多肽鏈組裝完成,它們就能在千分之一秒內折疊成正確的結構,速度之快令分子生物學家Cyrus Levinthal咋舌。在1969年發(fā)表的論文《如何優(yōu)雅地折疊》(How to Fold Graciously)中,Levinthal計算出,如果一個蛋白質要嘗試每一種可能的折疊方案,那么它的組裝時間將長得無法想象。他推測,顯然是有某種更為直接地方式引導了蛋白質的正確折疊。
隨著時間的推移,蛋白質折疊問題又衍生出新的問題,主要有三個:能否根據氨基酸序列預測蛋白質的結構?折疊編碼是什么?折疊機制是什么?
20 世紀 60 年代初,當?shù)谝慌ㄟ^實驗決定的蛋白質結構問世時,這些問題開始在科學家的心中生根發(fā)芽。劍橋大學的兩位生物學家Max Perutz和John Kendrew將蛋白質培育成晶體,用X射線轟擊它們,并測量射線如何彎曲這種技術被稱為X射線晶體學(X-ray crystallography)。通過這種方法,他們確定了血紅蛋白和肌紅蛋白的三維結構。這項實驗耗時二十多年,為兩人贏得了諾貝爾獎。
John Kendrew(左)和Max Perutz(右)利用 X 射線晶體學仔細揭示了血紅蛋白和肌紅蛋白的結構。隨后,他們使用小球(代表原子)和棍子(代表化學鍵)構建了物理模型。圖源:MRC Laboratory of Molecular Biology
從那時起,無數(shù)研究人員不懈努力,試圖了解不同蛋白質的結構,及其底層的機制。格拉斯哥大學的結構生物學家Helen Walden表示:“想弄清楚事物的外觀是人類的本能,因為這樣我們便能了解其功能。”還有一些科學家嘗試從化學或物理的角度解決問題。他們日復一日地在實驗室里辛勤工作,最終成功重建了蛋白質的結構。計算生物學家通過模型和模擬尋找線索,他們用不同的算法規(guī)則組合對模型和模擬進行編程并不斷改進更新。
隨著越來越多的蛋白質結構被發(fā)現(xiàn),蛋白質科學界需要一種方法來組織和共享這些信息。1971年,蛋白質數(shù)據庫(Protein Data Bank),作為一個存儲蛋白質結構的檔案庫,應運而生。該數(shù)據庫可免費使用,對于所有想要通過了解蛋白質結構來探究生物問題的研究者來說,都是一個可靠的工具。
蛋白質數(shù)據庫建立之初,只保存了7種蛋白質的結構。將近50年后,當谷歌DeepMind利用它來訓練AlphaFold2時,它已記錄了超過14萬種蛋白質結構每個結構都是由結構生物學家費盡周折解碼出來的。
(2)實驗派的苦惱
從20世紀70年代中期起,牛津大學的生物物理學家Janet Thornton每隔幾個月就會收到一個郵包。里面是一卷12英寸的磁帶,包含了存入蛋白質數(shù)據庫的新蛋白質結構數(shù)據。她會迫不及待地撕開包裹,想要立刻開始分析新發(fā)現(xiàn)的蛋白質結構。她收到的第一盤磁帶上只包含20種蛋白質結構的數(shù)據。
“有很多學生說,‘我想來解決蛋白質折疊問題,’”去年從歐洲分子生物學實驗室退休的結構生物學家Janet Thornton說。“但坦率地說,我對如何做到這一點沒有任何新想法。”圖源:Jeff Dowling, EMBL-EBI
磁帶記錄的每一個蛋白質都是多年心血的結晶。通常情況下,一名博士生會在讀研的四年間或花費更長時間研究單個蛋白質的結晶,從中收集數(shù)據或解讀數(shù)據,從而厘清其折疊結構。
牛津大學生物物理系當時是世界X射線晶體學中心之一。1965年,蛋白質晶體學的先驅之一David Phillips在牛津大學首次測定了溶菌酶的結構,這種酶會被免疫系統(tǒng)用來對抗細菌。牛津大學的生物物理學家利用X射線晶體學繪制了蛋白質的電子密度圖;電子聚集的區(qū)域很可能含有一個原子。Thornton和她的同事們將這些電子密度圖打印到塑料板上,然后將它們疊放在一起,從而繪制出蛋白質的形態(tài)“輪廓圖”。
X射線晶體學可以幫助科學家繪制電子密度圖,直觀地顯示電子聚集的位置,從而顯示分子中可能存在原子的位置。通過將電子密度圖疊放在一起(左圖),科學家可以推斷出蛋白質或青霉素等其他分子的結構(右圖)。圖源:Science Museum Group
隨后,他們將輪廓圖轉換成了物理模型。他們先將塑料平面圖放入理查茲盒中以牛津大學生物物理學家弗雷德里克理查茲(Frederic Richards)命名的裝置,他于1968年發(fā)明了這種裝置。理查茲盒內設有一面傾斜的鏡子,能將輪廓圖反射到一個工作區(qū)內,這讓科學家們能看到每個原子相對于其他原子的準確位置。然后,他們用小球和棍子搭建出了一個物理模型。
這種方法既繁瑣又有局限性。1971年,Louise Johnson著手為磷酸化酶建模,包含842個氨基酸的磷酸化酶是當時學界研究過的最大的蛋白質。為了成功建立模型,Johnson不得不爬梯子進入牛津大學專門為她的項目建造的兩層樓高的理查茲盒中。她日后成為了知名晶體學家。
模型完成后,科學家們用尺子測量了原子間的距離,從而得出蛋白質結構的各個坐標。Thornton表示:“這種方法太過時了。”然后,他們將坐標輸入計算機。她說,電腦上看起來就像一片茂密的森林,原子們雜亂無章地擠在一起。只有戴上3D眼鏡觀察結構時,才能看清蛋白質的拓撲結構。
“這個過程太折磨人了,能堅持到底已經非常了不起了,”Thornton感慨道。
X射線晶體學的工作原理。
年復一年,他們終于成功了。一旦研究人員確認了自己所復構的蛋白質結構,他們就會將其提交給蛋白質數(shù)據庫。到1984年,已有152個蛋白質的結構被存入了數(shù)據庫。1992年,這一數(shù)字攀升至747個。
當實驗學家們還在苦苦研究物理模型時,另一學派的蛋白質生物學家計算科學家們卻采取了不同的方法。但是,當他們考量Anfinsen所提出的假設,即根據氨基酸序列預測蛋白質結構時,卻顯得有點過于自信了。
(3)制定規(guī)則
20世紀60年代初,John Moult還是一名大學生時,就計劃成為一名物理學家。后來,他了解到了蛋白質折疊問題。他說:“有人來給我們講了一堂課,說生物學問題太重要了,不能留給生物學家來解決。我當時很傲慢,所以當真了。”被生物學迷住的他將職業(yè)生涯轉向了另一個方向。
畢業(yè)后,Moult進入了蛋白質晶體學領域。他解碼了幾種蛋白質的結構,包括β-內酰胺酶,這是一種能夠破壞青霉素的細菌酶。1970年,他在牛津大學獲得分子生物物理學博士學位。但當開啟博士后研究后,他厭倦了實驗派的方法,并開始轉向逐步發(fā)展壯大的計算派。計算生物學家與實驗學家不同,他們編寫計算機算法,試圖證明Anfinsen的假設,即他們可以向一個程序輸入一串氨基酸,從而生成正確的蛋白質結構。
John Moult與人共同創(chuàng)立了“結構預測關鍵評估”(CASP) 實驗,迫使他自己和其他計算生物學家根據實驗確定的蛋白質結構,來測試他們的蛋白質計算機模型。圖源:Umit Gulsen / Quanta Magazine
從生物實驗到計算的轉變并非坦途。Moult已經習慣了以慢工出細活地方式解析單一蛋白質的結構。但在計算生物學領域,每隔一段時間就有論文聲稱蛋白質折疊問題和相關子問題已經得到了解決。
Moult對此表示懷疑。他說:“在這一領域發(fā)表的論文不像我以前所在領域那樣嚴謹。這并不是說計算生物學領域都是騙子,而是因為此類計算工作都是在虛擬世界中完成的。”
在虛擬世界中,當自然界的規(guī)則不起作用時,計算學家們就會制定自己的規(guī)則。他們會設計算法,讓原子以某種方式粘在一起,或者讓蛋白質總是向右或向左折疊。隨著時間的推移,這些模型變得越來越脫離現(xiàn)實。Moult認為,在一個你可以完全控制的世界里,人很難保持嚴謹。
不過,他還是認為兩種方法都有可取之處。實驗派工作精細,但速度緩慢;計算派進展迅速,但卻遠離生物物理現(xiàn)實,以至于經常出錯。
他想,一定有辦法把兩種方法的優(yōu)點結合起來。
(4)跺腳以示反對
20世紀90年代初,Moult和他的同事Krzysztof Fidelis想出了一個辦法來規(guī)范計算生物學領域的混亂局面。他們啟動了一個名為“結構預測關鍵評估”(Critical Assessment of Structure Prediction,簡稱 CASP)的社區(qū)科學實驗。
這個想法很簡單。作為CASP的發(fā)起人,Moult和Fidelis會公布一份蛋白質氨基酸序列列表,上面列舉了近期已被解析的蛋白質結構,相關數(shù)據由相應的實驗人員提供,但結果尚未發(fā)布。然后,世界各地的計算研究小組將使出渾身解數(shù)來預測蛋白質的結構。一個獨立的科學家小組將通過比較他們的答案和實驗證實的結構來評估這些預測模型。
這個想法被付諸實踐。于是,CASP很快就成為以計算方法解決蛋白質折疊問題的試驗常那時還沒有人工智能,計算方法主要是模擬分子的物理學原理。這是科學家們公開與同行同場競技,驗證自己觀點的機會。Thornton表示:“CASP本意并不是為了比賽,但實際上已經成為一項賽事。”
CASP每兩年舉辦一次,科學家們會在阿西洛馬會議中心齊聚一堂,這是加利福尼亞州蒙特雷附近一座古老的小教堂,曾經是衛(wèi)理公會教徒的隱居地。與會期間,組織者會宣布競賽結果,計算學家們會發(fā)表演講,介紹自己所用的方法。Moult鼓勵與會者如果不贊同陳述的內容,可以在木地板上跺幾腳以示反對。
他說:“剛開始的時候,跺腳聲確實是此起彼伏。”
曾師從Thornton的倫敦大學學院生物信息學教授David Jones回憶說:“跺腳聲仿佛鼓聲一樣。”如果演講者所分享的細節(jié)太冗長,生物學家們會跺腳;如果陳述內容夸大其詞,他們也會跺腳;如果演講者的觀點重復或過于雜亂,他們還會跺腳。Jones表示:“跺腳聲并不討厭,”因為這都是善意的聲音。
早期的CASP會議在加利福尼亞州蒙特雷的阿西洛瑪會議中心舉行。當與會者在木地板上跺腳時,聲音就像鼓聲一樣。圖源:Aramark Destinations
不管跺腳是出于什么原因,當跺腳聲在演講者耳邊響起時,都會讓人感到尷尬。Jones說:“感謝老天爺,我演講時沒人跺過腳。有一年,他和同事們提出了一種名為“穿線法(threading)”的計算方法,即通過已知的蛋白質結構編織氨基酸序列,尋找契合點。他們的表現(xiàn)還可以。“我們當時很高興。......但之后就開始走下坡路了,”Jones笑著回憶道.“真的,挺很意思的。”
帕多瓦大學生物信息學教授Silvio Tosatto表示,當時學界興致盎然。“大家覺得如果自己有能夠正確預測蛋白質結構的算法,就可以成為百萬富翁。還有一些人認為諾貝爾獎已經近在咫尺了。”
當然,早年這些美夢都沒成真。當被問及在此期間,CASP收到的分享報告質量如何時,Moult停頓了一下,說道:“可以用參差不齊(Random)來形容。”
有些方法的效果比預期的要好,比如“同源建模(homology modeling)”,它通過比較已知蛋白質的結構來推導未知蛋白質的結構。還有些方法則一敗涂地。Moult說,大多數(shù)模型的預測結果都是“扭曲變形的”。
荷蘭癌癥研究所和烏特勒支大學的結構生物學家Anastassis Perrakis開玩笑說:“我很喜歡看到他們失敗。”他曾將實驗驗證的蛋白質結構提供給CASP組織者作為比賽參考。“這不是較勁,我們只是喜歡就科學問題捉弄彼此。”
不過在這一過程中,也有一些人嶄露頭角。1996年,第二屆CASP結束后,一位名叫David Baker的年輕人邀請Jones共乘一輛出租車前往機常他聽過Jones的演講,正在研究自己的計算模型。雖然他還沒準備好參加這次的CASP,但他想和Jones聊聊。于是,Jones在出租車上傾聽了他的想法,但沒想過會再見到他。
等到1998年,這位年輕人憑借自己的算法Rosetta驚艷全常Jones說,他當時可謂是“一馬當先”。
David Baker 現(xiàn)在是世界領先的蛋白質設計專家之一,他憑借名為 Rosetta 的高性能算法,在CASP中成為了眾矢之的。。圖源:BBVA Foundation
Rosetta這樣的算法可以模擬氨基酸分子的原子間相互作用,從而預測它們將如何折疊。它們“表明你確實可以預測蛋白質結構。但它還不夠好,也不夠準確,因此實用價值有限,”Baker評論道。
2008年,計算機的表現(xiàn)依然不如人類。Baker當時正在華盛頓大學管理自己的實驗室,他創(chuàng)建了一款名為Foldit的免費在線游戲,玩家可以將一串串氨基酸折疊成蛋白質結構。他的團隊在發(fā)表于《自然》期刊的一篇論文中報告說,人類玩家在蛋白質建模方面的表現(xiàn)優(yōu)于Rosetta。
但人類的領先優(yōu)勢不會持續(xù)太久。2010年代初,科學家們在一個被稱為“協(xié)同進化(co-evolution)”的概念上取得了重大突破,這推動了這一領域的發(fā)展,并為日后人工智能的發(fā)展打下了重要基石。這個概念其實已經存在了幾十年,簡單明了的說就是:通過比較成百上千個蛋白質中密切相關的氨基酸序列,科學家們可以識別出發(fā)生變異的氨基酸。更重要的是,可以確定它們是否與其他氨基酸同步發(fā)生變異。如果兩個氨基酸同時發(fā)生了變化,那么它們之間很可能存在某種聯(lián)系。伯克利實驗室的結構生物學Adams表示:“我們可以說,這兩個氨基酸也許在空間上很靠近。”
蛋白質的協(xié)同進化能夠揭示其結構。圖源:Mark Belan
但直到2010年代初,這種預測哪些氨基酸會發(fā)生接觸的方法令人失望,準確率徘徊在20% 到24%之間。隨后,科學家們注意到,他們的統(tǒng)計方法存在誤差,也就是說一些看似彼此接觸的氨基酸實際上并沒有任何接觸。后來,Moult了解到,幾十年來,統(tǒng)計學家一直對這種誤差的存在心知肚明。他說,回首往事,你會想“我當初怎么這么笨?”
隨后,計算生物學家清理了統(tǒng)計工具。到了2016年,接觸預測的準確率已經飆升至47%。兩年后,準確率達到了70%。Baker的算法之所以能取得成功還要歸功于以下原因:2014年,Rosetta生成了兩個非常精確的蛋白質結構,以至于CASP評審員認為Baker可能已經解決了蛋白質折疊問題。
Adams表示,協(xié)同進化的洞見“非常奇妙”。在不使用機器學習的情況下,協(xié)同進化是“真正推動該領域發(fā)展的重大事件之一”。
然而,這項突破并沒能帶領該領域走得太遠。協(xié)同進化需要大量相似的蛋白質進行比較,而實驗人員解析蛋白質結構的速度不足以滿足計算人員的需求。
談及這一切時,Moult引用了進化生物學中的一個術語:歲月在間斷平衡(punctuated equilibrium)中流逝。有時,人們感覺好像十億年都沒有進化出好的想法,但緊接著便有可能發(fā)生令人興奮的進展。
問世
(1)倉促上陣
2016年,David Jones在《自然》期刊上發(fā)表的一篇新論文中瞥見了未來的景象。來自谷歌DeepMind(一個位于倫敦的人工智能團隊)的研究人員詳細介紹了他們的算法是如何利用一種被稱為深度學習的方法,在圍棋這項古老的棋盤游戲中擊敗人類冠軍的。
Jones大吃一驚。“大事即將發(fā)生,我真的要了解深度學習了,”他回憶道。
深度學習是一種受人類大腦啟發(fā)的人工智能技術。在你的大腦中,分子信息通過由神經元這種腦細胞構成的互通互聯(lián)網絡進行傳輸。神經元向外延伸的突起叫做樹突,可以捕捉鄰近神經元派出的分子,這些分子會告訴接收神經元,是否需要發(fā)射和傳播信號。
布朗大學計算機科學系的教授Michael Littman說:“如果該神經元接受到了足夠多的活動分子,那么該神經元就會被激活,從而發(fā)出信號。這將導致另一波分子被釋放到下一個神經元。”
20世紀50年代,計算機科學家意識到,他們可以將電子比特連接起來,創(chuàng)建“神經網絡”。神經網絡中的每個單元都是一個節(jié)點,研究人員將其比喻為神經元:一個神經元接收來自其他神經元的信息,然后計算是否向下一個神經元發(fā)射信息。在這樣的神經網絡中,信息通過多層神經元傳播,產生特定的結果,比如識別圖像中的狗等。
神經網絡的工作原理。圖源:Mark Belan
神經元的層數(shù)越多,能進行的計算越復雜。但早期的神經網絡一般只有兩層。到了20世紀90年代,神經元層數(shù)增加到了三層,并在接下來20年間都未增加。Littman說:“我們不知道如何可靠地創(chuàng)建比這更深層的神經網絡。”
自20世紀90年代以來,包括Jones和Moult在內的結構生物學家一直嘗試將神經科學網絡運用到蛋白質科學中,但淺層網絡和稀疏數(shù)據的局限性讓他們止步不前。隨后時間來到20世紀10年代初,計算機科學家們學會了如何更好地構建神經網絡,以便對更多層神經元進行穩(wěn)定的訓練。神經網絡的層數(shù)也逐漸從20層、50層、100層發(fā)展到數(shù)千層。Littman表示:“為了區(qū)別于我們在90年代的做法,人們開始稱之為‘深度學習’。要說機器學習領域的研究者們擅長什么,那可以說是創(chuàng)造一些酷炫的名詞了。”
深度學習改變了人工智能,使算法能夠出色地識別照片或聲音中的特征,并在游戲中擊敗了人類。
2016年3月,當DeepMind聯(lián)合創(chuàng)始人Demis Hassabis在首爾見證其旗下的人工智能系統(tǒng)AlphaGo在歷史悠久的圍棋比賽中擊敗人類世界冠軍時,他回想起了自己在大學時玩Foldit的情景。他想知道,如果DeepMind的研究人員能寫出模仿圍棋大師直覺的算法,難道他們不能寫出模仿Foldit游戲玩家直覺的算法嗎?這樣的算法雖然不懂生物學,卻知道如何折疊蛋白質。
2016年,谷歌DeepMind的人工智能系統(tǒng)AlphaGo戰(zhàn)勝了世界圍棋冠軍李世石(右),其模仿人類直覺的能力引起了生物學家對深度學習在蛋白質科學中潛力的關注。圖源:Google DeepMind
芝加哥豐田工業(yè)大學的教授許錦波(Jinbo Xu)也認識到了利用深度學習解決蛋白質折疊問題的潛力。他受到了神經網絡在圖像識別方面所取得的成績的啟發(fā)。當時,計算機科學家已經在卷積網絡方面取得了巨大成功,卷積網絡利用深度學習算法將圖像分割成若干塊,并識別它們之間的模式。許教授將這一技術引入了蛋白質折疊領域。他使用一種稱為矩陣的數(shù)學對象來表示哪些氨基酸在空間中彼此鄰近,然后將數(shù)據作為圖像輸入卷積網絡。該算法通過尋找這些圖像之間的模式來預測組成蛋白質的原子的三維坐標。
2016年,他在arxiv.org上發(fā)布了這項的預印*(后來發(fā)表在PLOS Computational Biology上),向人們展示了“深度學習的潛在應用”。Moult表示:“這在當時對蛋白質折疊領域影響頗深。”
Wang, Sheng, et al. "Accurate de novo prediction of protein contact map by ultra-deep learning model."PLoS computational biology13.1 (2017): e1005324.
不久之后,蛋白質結構研究小組開始涉足深度學習。AlQuraishi和他的團隊率先開發(fā)出了一種方法,可以完全通過神經網絡直接預測蛋白質結構,也就是所謂的“端到端”(end-to-end)方法,只是效果并不理想。其他人則是各顯神通,努力想要跟上這波科研的新浪潮。
Jones說:“我當時并不清楚自己想用深度學習做什么,但我意識到我需要了解和運用深度學習。”
在他已經開始撰寫資助申請,自尋出路時,他收到了谷歌DeepMind的一封電子郵件。他們向Jones詢問了CASP競賽的情況,并表示愿意提供幫助。“我以為他們的意思是:我們可以提供強大的計算機能力,”瓊斯說道。
雙方見面之后,Jones發(fā)現(xiàn)谷歌的野心顯然不止于此。但要實現(xiàn)自己的雄心壯志,這家科技巨頭公司需要更多的科學人才。
(2)新秀入場
2016年,Jones開始擔任谷歌DeepMind的顧問,負責一個后來被稱為AlphaFold的項目;與此同時,John Jumper正在芝加哥大學完成他的理論化學博士學位。
少年時期,Jumper自學了計算機編程。他在物理方面也很有天賦。因此,到了選擇大學專業(yè)時,盡管他的父母都是工程師且擔心他找不到工作,但他還是決定學習數(shù)學和物理。
“我一直以為自己會成為一名研究‘宇宙法則’的物理學家,”Jumper說。“我一直熱愛探索宇宙真理的這一理念。”
作為一名本科生,John Jumper學習了物理和數(shù)學,然后找到了一份創(chuàng)建蛋白質計算機模擬的工作。這些經歷使他能夠領導谷歌DeepMind 的AlphaFold項目。圖源:John Jumper
在范德比爾特大學讀本科時,他與費米國家加速器實驗室的研究人員合作,研究夸克(quarks)這種亞原子粒子的奇特屬性。一天,當他和研究人員坐在一起吃午飯時,他得知了一個壞消息。“那么,我們正在進行的這項實驗什么時候才能啟動呢?”Jumper回憶自己曾這樣問他們。其中一位教授說,他可能退休前等不到了。另一位年紀稍長的教授說,他可能都活不到那一天。
“我希望自己做科研耗費的時間比兩位教授說的短一點,”Jumper說。在完成本科學業(yè)后,他參與了一個理論凝聚態(tài)物質物理學的博士課程但很快就輟學了。他在D.E. Shaw研究公司找到了一份工作,這是一家紐約的公司,當時正在進行蛋白質基本模擬的研究。通過了解蛋白質如何運動和變化,他們希望能更好地理解各種疾病的機制,例如肺癌。
這是Jumper第一次意識到自己工作的潛在重要性。“這關乎健康和延長人們的壽命,”他說。在接下來的三年里,Jumper在公司的超級計算機上對蛋白質的運動進行了建模,這些超級計算機是專門為更快地模擬分子而建造的。“有時候,我在周二一天做的模擬比我整個博士期間要做的還多,”他說。
2011年,他決定再次嘗試讀研,這次是在芝加哥大學學習理論化學。他仍然對蛋白質結構和運動感興趣。但他對學術界的緩慢進展感到沮喪。“我再也無法使用我在D.E. Shaw公司用過的那種定制計算機硬件了,”Jumper說。他想知道是否可以使用人工智能(當時被稱為統(tǒng)計物理)來實現(xiàn)快速模擬,而這通常需要先進的機器。他開始涉足機器學習和神經網絡。
在此期間,他也開始思考蛋白質折疊問題。他覺得這個問題應該可以用蛋白質數(shù)據庫中的訓練數(shù)據來解決到2012年,該數(shù)據庫已包含超過76,000種蛋白質結構。
Jumper說:“我當時相信數(shù)據量已經足夠多了,但是想法還不夠成熟。”
2017年,Jumper聽說谷歌DeepMind開始涉足蛋白質結構預測。他剛剛完成博士學位,讀博期間恰好主攻利用機器學習來模擬蛋白質折疊和動態(tài)。于是,他申請了谷歌的研究科學家職位。
“這個項目當時處于保密階段,”他說。如果他在面試中提到蛋白質折疊,DeepMind團隊就會轉移話題。“您轉移話題太多次的話,只會讓我更加確定貴公司在做什么。”Jumper說。
谷歌 DeepMind 總部位于倫敦。圖源:Buildington
2017年10月,他來到了DeepMind位于倫敦的辦公室。在顧問Jones的幫助下,團隊已經開始深入開發(fā)AlphaFold。“那會兒真的太有意思了,我們不斷提出各種想法,”Jones說。“最終會有一個比較好的核心想法脫穎而出,然后他們便開始全力推進。”
為了訓練算法,DeepMind團隊使用了超過140,000個來自蛋白質數(shù)據庫的蛋白質結構。他們將這些信息輸入到一個卷積網絡中,但并沒有對AI架構本身進行太多改動。“這是‘標準的機器學習’,”Jumper說道。
到了2018年春季,AlphaFold準備參加CASP,與“正統(tǒng)的”蛋白質科學家們同臺競技。“有點像一級方程式賽車,”Jones回憶道。“你認為自己建造了最好的賽車,但你不知道其他車隊的實力如何。”由于風險很高,DeepMind團隊討論是否應匿名參賽,因為他們不想被當眾羞辱。
Jones說:“沒有人想失敗。”在學術界,失敗是工作的一部分;你失敗了,只能繼續(xù)前行,因為你別無選擇。“但如果是一家價值數(shù)十億美元的科技公司,那么失敗的嘗試顯然會很讓公司看著狼狽。”
他們最終決定以谷歌DeepMind的名義提交參賽成果。在12月會議開始前幾個月,Jones收到了CASP組織方的回復,他們建議DeepMind團隊線下參加會議,因為AlphaFold表現(xiàn)非常出色。
雖然他們在預測蛋白質結構方面的準確性大約是第二名的2.5倍,但并非絕對碾壓。不過,他們的凱旋依舊給人留下了深刻印象。“顯然,有趣的事情正在上演,”Moult說道。
(3)重啟算法
這次勝利對DeepMind團隊來說本應是一針強心劑,但他們知道自己離真的解決蛋白質折疊問題還相距甚遠。幾個月前,Hassabis將團隊成員召集在一起。“我們的目標是否是真正解決這個問題?”Jumper回憶起他當時說的話。“如果這不是我們的目標,那我們就著手解決能夠真正產生巨大影響的問題。”
John Jumper懷疑生物學家已經研究了足夠的蛋白質結構來解決蛋白質折疊問題。 2017年開始在谷歌DeepMind工作的Jumper 說:“我相信數(shù)據已經足夠了。”但“想法還不夠”。圖源:Google DeepMind
憑借在物理學、化學、生物學和計算領域的多重背景,Jumper在頭腦風暴會議上分享了獨到的見解。很快,他開始領導這個從六人擴展到十五人的團隊。“他們在做一件很特別的事情,”Raphael Townshend評價道。2019年,他曾在谷歌DeepMind實習,后來自己成立了AI驅動的生物技術公司Atomic AI。
在學術界,專家們經常各自為政,負責獨立的項目,很少有合作。而在DeepMind,統(tǒng)計學、結構生物學、計算化學、軟件工程等領域的專家們協(xié)同合作,共同解決蛋白質折疊問題。他們還擁有谷歌強大的財政和計算資源支持。“作為博士生,我可能要花幾個月的時間才能完成的事情,在這里一天內就能完成,”Townshend說。
他說,倫敦DeepMind辦公室氛圍活躍,而這種活力很大程度上歸功于Jumper。“我覺得他是一個真正的天才,同時也是一個非常謙遜的人,團隊成員都非常喜歡他。”計算機科學家Ellen Zhong這樣評價道。2021年,她曾在DeepMind實習,現(xiàn)任普林斯頓大學的助理教授。
在Jumper的領導下,團隊對AlphaFold進行了重構。他們設計了一種新型的Transformer架構這是一種深度學習技術,“在過去五年中推動了幾乎每一次機器學習領域的突破,”Townshend說道。神經網絡通過調整神經元連接的強度來創(chuàng)建更精確的數(shù)據表征,主要是關于蛋白質進化和結構的數(shù)據。它通過第二個Transformer架構運行這些數(shù)據,以預測蛋白質的三維結構。然后,該算法會將預測所得的3D結構與修訂后的數(shù)據結合起來,返回到Transformer架構中運行數(shù)次,以達到提高蛋白質3D結構預測準確性的效果。
變革性的架構
當他們剛開始研發(fā)AlphaFold2時,他們的算法“很糟糕,但沒有我們預期的那么糟糕,”Jumper說。“(它)輸出了一些看起來有點像蛋白質的螺旋結構。”但隨著對算法的進一步優(yōu)化,他們注意到預測的效率和準確性大幅提升。
“這實際上讓人感到害怕,”Jumper說。如果它表現(xiàn)得太好,通常意味著“你做錯了一些事情。”但檢查過后,他們沒有發(fā)現(xiàn)問題,優(yōu)化后的算法就是有效。
團隊決定進行一次內部實驗,檢驗他們的系統(tǒng)是否對生物學家有幫助。他們識別出大約50篇發(fā)表在《科學》、《自然》和《細胞》等頂級期刊上的論文,這些論文不僅描述了新的蛋白質結構,還基于結構分享了有關蛋白質功能的深刻見解。他們想看看AlphaFold2的效果能否與實驗人員費時費力的實驗方法相媲美。
他們輸入了氨基酸序列,然后開啟了AlphaFold2的預測引擎。對于每個輸入的序列,AlphaFold2預測出的蛋白質結構都接近論文中實驗所得的結果。然而,在團隊看來,這還不夠準確。這些結構缺少實驗人員發(fā)現(xiàn)的關鍵細節(jié)。“你感覺好像已經跑完了比賽,卻發(fā)現(xiàn)其實只完成了一半,”Jumper說道。
接下來的六個月里,團隊一點一點的改進系統(tǒng)。距離2020年CASP競賽的蛋白質候選名單發(fā)布還有幾周時,他們進行了另一次有用性測試。Jumper對這次測試結果感到滿意。于是,谷歌DeepMind在2020年春季向CASP提交了他們的預測效果,然后等待評估結果。
(4)學科大地震
初夏時節(jié),Moult收到了一位CASP評估人員發(fā)給他的電子郵件:“看看這個,相當令人印象深刻。”郵件附上了由谷歌DeepMind團隊提出的蛋白質結構預測解決方案。Moult確實被震撼到了,但他認為這是單一案例,不可復現(xiàn)。
然后他收到了另一封郵件,然后又一封郵件。“奇怪了,”他回憶自己當時的感受。他收到了三個,四個,許多個接近完美的蛋白質預測結果而且全部來自DeepMind團隊。到了夏末,“我們迅速意識到……發(fā)生了非常非常不同尋常的事情,”Moult說道。
CASP的評估人員通過比較預測的蛋白質結構與其經過驗證的實驗結構來評分。如果模型預測和實驗結果一一對應,十分完美,那么得分是100分。Moult一直認為,90以上的分數(shù)表明算法有效地解決了蛋白質的結構。AlphaFold的大多數(shù)預測結果都達到或超過了90分。
會議前幾個月,Moult通過電話將這個消息分享給了Jumper。“我(興奮地)當場大聲咒罵,”Jumper回憶道。“我妻子還關心地問我還好嗎。”
2020年12月,在新冠疫情爆發(fā)不到一年的時間里,Jumper在CASP在線會議上通過Zoom展示了AlphaFold2。
像其他與會者一樣,Jones也在家中觀看。“我當時就呆住了……看著眼前發(fā)生的一切,”他說。“因為同事不在身邊……我們都被封鎖在家,無法分享這一切。”
對于任何不是神經網絡專家的人來說,這些想法很復雜。即便如此,結論卻很明確。DeepMind已經解決了蛋白質折疊問題中的結構預測部分。AlphaFold2能夠基于氨基酸序列準確預測蛋白質的結構。
“啊,我的最愛研究課題走到了盡頭,”Jones回憶道。“DeepMind終結了比賽,這就是結局。”
多年來,Anastassis Perrakis一直為CASP競賽貢獻未發(fā)表的實驗結果。當他看到AlphaFold2準確預測出他的團隊煞費苦心解析出的蛋白質結構時,他感到心里咯噔一下。
雖然疫情被獨自困在家里時,但科學家們一致認為蛋白質科學的世界已經發(fā)生了永久性的改變。當這個世界的“居民”眺望眼前的新景色時,他們不由得問出了同一個問題:接下來該怎么辦?
余波
(1)驚訝之余,敬畏之心
結構生物學突然失去結構性了。
Silvio Tosatto從CASP創(chuàng)立早期就開始參與相關賽事了,他說,剛開始的時候,很多人陷入了深思。一些結構生物學家擔心他們的工作將不復存在,另一些則產生了抵觸心理,聲稱AlphaFold2不夠準確。
有些計算生物學家已經為解決蛋白質折疊問題付出了數(shù)十年的心血,但當這一刻真的到來時,他們的感受是苦樂參半的。在CASP結束之后的一篇博客文章中,AlQuraishi引用了一位與會者的話,形容自己感覺像是孩子第一次走出家門的父母。
哥倫比亞大學數(shù)學基因組學項目的系統(tǒng)生物學家 Mohammed AlQuraishi 希望,到2040年,深度學習能夠模擬整個細胞及其內部的所有結構和動態(tài)。圖源:Nicole Pereira
但是,即便對這個耀眼的新工具感到惴惴不安,許多科學家還是非常興奮。那些不進行結構研究的人過去必須與結構生物學家合作來確定蛋白質結構,現(xiàn)在他們只需按幾個按鈕就可以自己得出蛋白質的結構。
媒體口中的AlphaFold2成為了“改變一切”的新人工智能突破。但是,科學家們花了數(shù)月甚至數(shù)年來剖析AlphaFold2的優(yōu)缺點。Jumper演講約六個月后,谷歌DeepMind正式發(fā)布了這款產品并分享了AlphaFold2的底層代碼。“AlphaFold2發(fā)布的第二天,我們就嘗試將它安裝到我們的GPU服務器上了,”Perrakis表示。生物學家們開始了探索。
“我原以為(AlphaFold2)會失敗,”Thornton說。“但實際上它卻取得了巨大的成功。”
荷蘭癌癥研究所和烏特勒支大學的結構生物學家Anastassis Perrakis開玩笑說:“我很喜歡看到他們失敗。”他曾將實驗驗證的蛋白質結構提供給CASP組織者作為比賽參考。“這不是較勁,我們只是喜歡就科學問題捉弄彼此。”圖源:Anastassis Perrakis
Anastassis Perrakis向CASP貢獻了實驗蛋白質結構,計算生物學家在其上測試了他們的方法。“我很高興看到[這些方法]失敗,”他開玩笑說。 “這不是競爭,但我們喜歡在科學上互相取笑。”
科學家們逐漸意識到,AlphaFold2可能并不會威脅到他們的工作,而是加速研究的催化劑。它不僅沒有使結構生物學家失業(yè),反而為他們提供了一種新的工具,使他們的工作更加出色。“如果你認為結構生物學家只是技術專家,他們的工作僅僅是弄清蛋白質的結構,那么他們當然會失業(yè),”Walden說道。但這就像說因為有了人類基因組計劃,基因組學家不能再發(fā)表描述單個基因序列的論文,所以他們會失業(yè)一樣。
在許多情況下,結構生物學家的目標其實是探索蛋白質的功能。有了AlphaFold2,他們可以在幾分鐘內提出假設,而不是等待數(shù)月甚至數(shù)年來通過實驗弄清蛋白質的結構。
Adams認為:“這給結構生物學帶來了許多有益的改變,而非壞處,讓這個領域更加令人興奮。”
然而,它并沒有立即像一些人預測的那樣加速各種新藥的研發(fā),因為研究人員很快發(fā)現(xiàn)這個工具也有其局限性。Perrakis表示,AlphaFold2的預測并不完美,需要實驗驗證,但“你可以更快地進入實際的結構研究”。現(xiàn)在,當他的學生開始一個新項目時,他們會首先使用AlphaFold2預測特定蛋白質的結構,然后進行實驗驗證。
Perrakis認為自己和其他研究人員可能仍會在某些情況下用到X射線晶體學。但是,為了初步構建蛋白質結構,許多人開始將深度學習預測與先進的電子顯微鏡技術如冷凍電鏡(cryo-EM)相結合,這項技術的核心是快速冷凍生物樣本并用電子轟擊它們。解析了結構之后,他們便可以著手研究蛋白質的功能問題。AlQuraishi表示,AlphaFold2的出現(xiàn)加速了冷凍電鏡的應用。
冷凍電鏡(Cryo-EM)的工作原理。
這種轉變已經開始。2022年6月,《科學》雜志的一期特刊揭示了人類核孔復合體的近原子結構。這個由30種不同蛋白質構成的龐大而復雜的結構幾十年來一直是生物學上的難題?茖W家們使用AlphaFold2的預測結果來彌補冷凍電鏡未能解決的蛋白質結構問題。
Jumper表示,看到這篇論文中的其他科學家使用AlphaFold2取得了生物學上的突破,他在那一刻意識到“(AlphaFold)確實非常、非常重要”。
在過去三年里,像核孔復合體這樣的突破標志著蛋白質科學領域的一個又一個里程碑。迄今為止,AlphaFold2預測的蛋白質結構已被用于研究疾病和開發(fā)新的藥物輸送工具。“對我們來說,這非常有幫助,”博德研究所的分子生物學家Feng Zhang表示。他使用AlphaFold2設計了一種將藥物輸送到人體細胞內的分子注射器。了解蛋白質的結構還可以輔助藥物開發(fā),例如,它能幫助研究人員判斷哪些分子能夠附著在蛋白質結構上,并改變其行為。盡管有些研究表明,AlphaFold2的預測結果在藥物研發(fā)領域不如實驗所得有用,但也有研究證明它可以發(fā)揮相同的作用。人們還在探索人工智能工具對藥物開發(fā)的綜合影響。
另一方面,一些生物學家已經不滿足于AlphaFold2在識別已知蛋白質結構和功能方面的應用,轉向設計自然界中不存在的蛋白質,這種技術對創(chuàng)新藥物研發(fā)來說十分關鍵。
(2)新前沿
看到Jumper在2020年CASP會議上的演講后,Baker立刻回到了他的Rosetta算法的工作上。當時谷歌尚未分享AlphaFold2的底層源代碼。盡管如此,“我們開始嘗試他們分享的一些想法,”Baker說。谷歌DeepMind團隊在《自然》期刊上發(fā)表AlphaFold2的當天,Baker和他的團隊宣布了RoseTTAFold,這是一種與準確度能與AlphaFold媲美的預測模型。RoseTTAFold同樣使用深度學習來預測蛋白質結構,但其底層架構與AlphaFold2大相徑庭。
Tosatto表示:“科學理念一旦被提出,其他人就可以逆向工程并在此基礎上進行構建,至少那些有足夠多資源的人可以做到。”
RoseTTAFold并不是AlphaFold唯一的競爭者。Meta也開發(fā)了自己的算法來解決蛋白質結構預測或相關問題。一些公司,已經不局限于蛋白質領域,而是使用深度學習來解析RNA結構,這其中就有Townshend的生物科技初創(chuàng)公司Atomic AI,。然而,在單一結構預測領域,迄今為止還沒有人能夠達到AlphaFold的精確度,Thornton表示:“我相信有些公司也可以做到,但我認為很難再現(xiàn)AlphaFold當初帶來的震撼。”
去年, David Baker(如圖)與John Jumper和Demis Hassabi因其在使用人工智能研究和設計蛋白質方面的革命性工作,共同獲得了生物學和生物醫(yī)學領域的知識前沿獎。圖源:BBVA Foundation
至少對外而言,Baker和Jumper繼續(xù)延續(xù)著CASP的良性競爭傳統(tǒng)。“他們可能覺得我在與他們競爭,但我覺得我們只是從他們的工作中獲取靈感,”Baker說道。
Jumper對此表示歡迎,他說:“大家共同推動這門科學的發(fā)展真的很重要。如果AlphaFold的智慧結晶后繼無人,我覺得是件很悲哀的事情。”
Baker已經扛起了這份傳承的重任,并在嘗試將之運用到蛋白質科學的新前沿中:蛋白質設計。由于生物學家現(xiàn)在只能研究自然界已經存在的蛋白質,所以Baker設想了一門科學,能夠設計出新的蛋白質,專門用來控制陽光、分解塑料或研發(fā)新藥或疫苗。
荷蘭胡布勒支研究所的結構生物學家Danny Sahtoe曾在Baker指導下做博士后研究,他表示:“目前自然界中不同類型的蛋白質結構或形狀的數(shù)量是相當有限的。理論上,應該有更多可能的形狀,而如果你能生成更多形狀的蛋白質,那么就意味著你能擁有更多不同功能的蛋白質。”
作為華盛頓大學蛋白質設計研究所的主任,Baker認為蛋白質設計本質上是“逆蛋白質折疊問題”。與其將氨基酸序列輸入深度學習算法并讓它輸出蛋白質結構,蛋白質設計者應該做的是將一個結構輸入算法并讓它輸出一個序列,然后利用這個序列在實驗室里生成蛋白質。
AlphaFold和RoseTTAFold本身不能輸出這些序列,它們的編程邏輯是相反的。但Baker創(chuàng)建了RoseTTAFold的設計專用迭代版,基于其神經架構,被稱為RoseTTAFold diffusion或RF diffusion。
Sahtoe說,蛋白質設計由來已久,但深度學習加速了這一領域的發(fā)展,讓設計符合現(xiàn)實的蛋白質計算機模型變得“極其快速”。以前,接受過專業(yè)培訓的蛋白質設計師需要幾周或幾個月的時間來創(chuàng)建新蛋白質的骨架,但現(xiàn)在他們可以在幾天內,甚至一夜之間完成。
Foldit是由Baker實驗室開發(fā)的在線游戲,玩家可以借此預測蛋白質結構。
Baker還更新了Foldit,將蛋白質設計融入其中。玩家不僅可以構建蛋白質結構,還可以動手設計蛋白質。這個改變頗具成效,Baker的實驗室已經發(fā)表了幾篇關于玩家設計的蛋白質的論文。Baker在華盛頓大學的同事指導的一名研究生就是世界上最頂尖的Foldit玩家之一。
“我們真的理解蛋白質折疊嗎?如果我們能夠設計出新的序列,并使其折疊成新的結構,那么這表明我們對蛋白質折疊有著相當豐富的了解,”Baker說。“從某種意義上說,這也可以被視為蛋白質折疊問題的解決方案。”
(3)信任練習
AlphaFold2的成功無疑改變了生物學家對人工智能的態(tài)度。長期以來,許多實驗生物學家不信任計算方法,因為他們知道某些機器學習方法可以使數(shù)據看起來比實際更好。但是,谷歌DeepMind團隊“明確地證明了你可以把它用在嚴肅的科研工作中,”AlQuraishi說道。現(xiàn)在如果還有人對此持懷疑態(tài)度,其他人便會反駁道:“好吧,那你怎么看AlphaFold呢?”
推動了卷積網絡發(fā)展的計算生物學家許錦波說:“現(xiàn)在生物學家相信我們的預測結果了,他們以前總是懷疑我們的預測是否可靠。”
這種信任部分源于AlphaFold2平臺的一個特性:它不僅生成蛋白質的3D模型,還按照從0到100的信心等級對結構的不同部分進行評分,以此來自我評估預測的準確性。
2022年7月,在谷歌DeepMind發(fā)布2180萬種蛋白質的結構預測后(幾乎涵蓋了已知的所有蛋白質)Adams決定分析AlphaFold2的自我報告。他將預測結果與這些蛋白質的已解結構進行比較,并獨立評估其準確性。
“好消息是,當AlphaFold認為自己是正確的時候,它往往確實是對的,”Adams說道。“當它認為自己不對時,現(xiàn)實情況往往也是如此。”但是,在大約10%的情況下,當AlphaFold2對其預測“非常自信”(信心等級得分至少90分)時,其預測結果其實與實驗所得有出入,所以它自信過頭了。
AI系統(tǒng)似乎有某種自我懷疑的能力,可能會導致人們過度依賴其結論。大多數(shù)生物學家僅僅將AlphaFold2視為一種預測工具,但有些人步子邁得太大了。一些以前與結構生物學家合作的細胞生物學家和生物化學家已經用AlphaFold2完全取代了結構生物學家,并將其預測結果奉為圭臬。Perrakis說,有時科學家發(fā)表的論文中包含的蛋白質結構在任何結構生物學家看來都顯然是錯誤的。“而他們卻說:‘這可是AlphaFold預測的結果。’”
在美國國立衛(wèi)生研究院,Lauren Porter研究了可以改變構象的蛋白質,稱為折疊轉換蛋白質。他們“挑戰(zhàn)了序列編碼一種結構的范式,”她說,“因為顯然它們不編碼一種結構。”圖源:Lauren Porter
“有些人對這些深度學習模型的能力過于自信,實在太過自信了,”美國國立衛(wèi)生研究院的研究員Lauren Porter這樣認為。“我們應該盡可能多地使用這些深度學習模型,但我們也需要以謹慎和謙遜的態(tài)度對待它們。”
Jones聽說有科學家想通過計算方法確定蛋白質結構,但在申請資金時卻遇到了困難。Jones說:“普遍的看法是DeepMind已經做到了,為什么你還要繼續(xù)做?”但他認為這項工作仍有必要繼續(xù)下去,因為AlphaFold2并非完美無缺。
他表示:“(AlphaFold2)與實際科研要求還存在非常大的差距,有些事情它顯然無法做到。”
雖然AlphaFold2在預測小而簡單的蛋白質結構方面表現(xiàn)出色,但在預測包含多個部分的蛋白質時其準確性較低。它也無法兼顧蛋白質的環(huán)境或與其他分子的結合,而這些因素會在自然狀態(tài)下改變蛋白質的結構。有時,蛋白質需要被某些離子、鹽類物質或金屬類物質包圍才能正確折疊。
Walden說:“目前,AlphaFold還無法確定蛋白質所處的環(huán)境。”她的小組已經通過實驗確定了幾種AlphaFold2無法預測的結構。
AlphaFold2對集中動態(tài)蛋白質的預測結果也不是很好,這些蛋白質的功能也非常重要。有些蛋白質的形狀會發(fā)生改變,因此被稱為折疊轉換蛋白質(fold-switching protein)。此類蛋白質不是靜態(tài)的,它們的形狀隨著與其他分子的相互作用而發(fā)生變化。有些即使具有相同的氨基酸序列,也會折疊成截然不同的形狀。Porter認為,折疊轉換蛋白質“反駁了序列編碼單一結構的傳統(tǒng)觀點,因為這顯然與現(xiàn)實不符”。
此處所示的 RfaH 等折疊轉換蛋白能夠改變構型以執(zhí)行不同的任務。當處于α螺旋形態(tài)時,RfaH蛋白無法與其目標結合但當其轉變?yōu)?beta;-折疊時,就能進行結合。圖源:Lauren Porter
與DeepMind算法訓練用到的數(shù)十萬種靜態(tài)單一結構蛋白質相比,折疊轉換蛋白質只有大約100個,當然肯定還有更多尚未被發(fā)現(xiàn)。Porter說,其實這可能也不是很出人意料,因為“一般來說,這些算法就是為了預測單一折疊而設計的”。
還有一些內在無序蛋白質或蛋白質區(qū)域缺乏穩(wěn)定結構,就像是汽車經銷商門口擺來擺去的充氣玩偶,總是在不停的扭動、重組。“它們在很多方面被忽視了,因為它們有點煩人,”哥本哈根大學計算蛋白質生物物理學教授Kresten Lindorff-Larsen說道。大約44%的人類蛋白質存在至少一個由30個氨基酸組成的無序區(qū)域。Lindorff-Larsen表示:“這是一個相對較大的比例。”
AlphaFold2可以預測某些區(qū)域何時會內在無序的情況,但它無法告訴你這種無序的具體形態(tài)。
對于Jumper來說,最令他失望的是AlphaFold2無法區(qū)分兩個僅相差一個氨基酸的蛋白質,也被稱為點突變(point mutation)。他說,點突變有時會對蛋白質的結構和功能產生相當顯著的影響,但“AlphaFold卻對它們幾乎視而不見,”基于兩段不同的序列生成相同結構預測。
2023年9月,DeepMind發(fā)布了AlphaMissense,這是一種預測此類突變影響的深度學習算法。它不能顯示結構的變化,但它可以根據已知病原蛋白中的類似突變,告知用戶該突變是否可能使蛋白質致病或誘發(fā)功能障礙。
然而,即使AlphaFold2能夠完美預測所有蛋白質,它也離模擬現(xiàn)實中的生物原理相距甚遠。因為在細胞中,蛋白質從不單獨行動。
(4)細胞復雜性
細胞內部復雜且混亂。細胞的外膜包裹著一個擁擠的生化環(huán)境,其中充滿了各種分子成分蛋白質、信號分子、信使RNA、細胞器等。蛋白質相互結合并與其他分子結合,這改變了它們的形式和功能。
蛋白質并不是單獨起作用的:它們不斷與其他分子相互作用。創(chuàng)作者Gael McGill寫道,這幅細胞圖是由真實蛋白質和其他分子的模型組成的,“目的是為了展現(xiàn)細胞分子‘編排’的復雜性和藝術性。”圖源:Evan Ingersoll和Gal McGill, PhD/Digizyme Inc.
AlphaFold2預測單個蛋白質結構的能力并沒有幫助生物學家更好理解復雜天然環(huán)境中的蛋白質。但是,這正是該領域目前正在前進的方向。蛋白質科學領域的人工智能巨頭谷歌DeepMind和David Baker的蛋白質設計研究所,都在優(yōu)化它們的深度學習算法,以預測蛋白質在與其他分子相互作用時所呈現(xiàn)的結構。
在2024年春天,他們都發(fā)表了有關在該領域取得相似進展的論文。通過更新算法,他們分別發(fā)布了AlphaFold3和RoseTTAFold All-Atom,它們能夠預測蛋白質與其他蛋白質、DNA、RNA和其他小分子結合時的結構。
生物學家也開始對這些新模型進行測試。目前為止,AlphaFold3比RoseTTAFold All-Atom準確許多,AlQuraishi表示,但這不是像“AlphaFold2”那樣的技術飛躍。對于某些大分子,如RNA結構,其準確性仍低于其他基于物理學的系統(tǒng)和實驗。
AlphaFold3 可以預測分子復合物的結構,例如在破壞植物的真菌中發(fā)現(xiàn)的這種酶。在此模型結構中,蛋白質(藍色)與單糖(黃色)和離子(黃色球體)相連。圖源:Google DeepMind
盡管如此,這些新算法朝著正確的方向邁進了一步。蛋白質與其他分子的相互作用對其在細胞中的功能至關重要。為了開發(fā)可以與蛋白質結合并按需改變其活性的藥物,研究人員需要了解這些復合物的形態(tài)。然而,Adams說,任何一種算法在短時間內都不太可能催生新的藥物。“這兩種方法的準確性仍然有限,(但)它們都在力所能及的范圍內實現(xiàn)了巨大進步。”
DeepMind的新產品還發(fā)生了一個重要的變化。此前AlphaFold2的底層代碼是開源的,其他研究人員可以研究該算法,在此基礎上進行調整,以便更好地服務自己的項目。然而,谷歌迄今為止都未公開AlphaFold3的源代碼,而是將其作為商業(yè)機密加以保護。AlQuraishi說:“至少目前,沒有人可以像使用(AlphaFold2)那樣運行和使用它。
化學家兼物理學家Brenda Rubenstein找到了如何創(chuàng)造性地使用AlphaFold2來預測她在布朗大學研究的蛋白質的多種構象。圖源:Melissa Shein
即使在AlphaFold3發(fā)布之前,研究人員就已經在測試AlphaFold2,看看它是否能提供有關不同構象下蛋白質的有用信息。布朗大學化學和物理學副教授Brenda Rubenstein對激酶(kinases)這種能激活其他蛋白質的蛋白質很感興趣。具體來說,她想了解一種誘發(fā)癌癥的激酶的機制,以此開發(fā)更精準對癥的藥物。她的實驗室使用物理學的方法對激酶的結構進行了建模,即基于牛頓定律繪制原子的3D坐標。這個過程花了兩年半的時間。
Rubenstein說:“大約一年前,我們開始思考能否加速這個過程?”他們嘗試以一種創(chuàng)新的方式使用AlphaFold2。通過向算法輸入有關相關蛋白質的數(shù)據,她發(fā)現(xiàn)其預測不同構象激酶的準確度超過了80%。
AlQuraishi評價道,Rubenstein的實驗室為數(shù)不多能夠發(fā)現(xiàn)“如果你以正確的方式‘刺激’AlphaFold,它會輸出多個構象”的實驗室之一。“這令人鼓舞。”
AlQuraishi希望到2040年,深度學習能夠模擬一個完整的細胞及其內部的所有結構和動態(tài)。然而,要實現(xiàn)這一目標,需要在實驗和計算兩方面取得質的飛躍。
(5)非專業(yè)視角
對于許多生物學家來說,AlphaFold2是他們一直在等待的突破性技術。CASP的目標是創(chuàng)建能夠基于氨基酸序列預測蛋白質結構的計算工具。然而,許多人不禁要問:為什么一個初出茅廬的新手能夠破解蛋白質的奧秘,而那么多專家卻苦苦掙扎了幾十年?
不可否認的是,谷歌DeepMind的計算機和蛋白質科學團隊為解決這個問題提供了新的視角。同時,蛋白質科學已有無數(shù)先驅為其打下了堅實的基礎,做好了迎接深度學習革命的準備。AlQuraishi說:“這些突破不是憑空出現(xiàn)的。”
到2020年CASP啟動時,許多研究人員預計結構預測的突破將通過人工智能實現(xiàn)。“一切都朝著這個方向發(fā)展,”Townshend 說。但他們沒有想到會來自一家市值數(shù)十億美元的科技公司,也沒有想到會這么快。有些人認為AlphaFold2并不是全新的科學成就,而是精妙的工程技術;有些人對David Baker的算法沒有獲獎感到驚訝;還有些人則認為谷歌DeepMind坐擁其他公司和團隊無法匹敵的資源,因此不足為奇。
每年大約有100個實驗室參加CASP,盡管他們已經開始采用AI技術,但他們“可能沒有DeepMind的專業(yè)人才儲備,也沒有同等的算力,”Thornton這樣認為。DeepMind“可以使用的算力幾乎是無限的”。
她還推測,谷歌雖然在蛋白質科學方面缺乏專業(yè)知識,但這反而可能釋放了他們的創(chuàng)造力。“他們專注于建立一個強大的神經網絡,”Thornton說。蛋白質生物學家包袱更重。當他們開發(fā)AI工具時,他們希望捕捉蛋白質折疊過程中涉及的原子級分子物理和化學原理。DeepMind的想法不一樣:我們只需序列數(shù)據轉化為3D結構,至于如何實現(xiàn),那無所謂。
Walden說:“他們沒有像此前很多預測模型那樣,試圖解決蛋白質折疊的問題本身,而是單純用‘蠻力’”去繪制原子在空間中的最終位置。有趣的是,他們反而因此解決了這個問題。”
普林斯頓大學計算機科學家Ellen Zhu于2021年在谷歌DeepMind的AlphaFold2團隊實習,率先使用深度學習與冷凍電鏡相結合來研究蛋白質動力學。圖源:Tori Repp/Fotobuddy for Princeton University
對一些生物學家來說,這種方法并沒有完全解決蛋白質折疊問題。結構生物學創(chuàng)立的初心是希望了解氨基酸鏈是如何折疊成蛋白質的。大多數(shù)生物學家認為AlphaFold2確實解決了結構預測問題,但卻沒有解決蛋白質折疊問題。Ellen Zhong表示:“現(xiàn)在,我們只是擁有了一個黑匣子,它可以某種方式告訴你最終的折疊狀態(tài),但實際上你卻不知道是如何實現(xiàn)的。”
“這不是科學家解決問題的方式,”布朗大學計算機科學家Littman表示。
但約翰霍普金斯大學生物物理學榮譽教授George Rose表示,這聽起來可能像是在‘找茬’,但顯然不是。”AlphaFold2可以根據對數(shù)十萬蛋白質結構的分析,識別出給定氨基酸序列潛在折疊模式。但它無法告訴科學家蛋白質折疊過程的任何信息。
“對于許多人來說,你不需要知道。他們不在乎,”Rose說。“但科學,至少從過去500年以來……一直致力于理解事物發(fā)生的過程。”為了理解以蛋白質為基礎的生命的動態(tài)變化、機制、功能和本質,Rose認為,你需要具備對過程的全面了解而深度學習算法無法做到這一點。
對Moult來說,重要的并不是機器在做的事情他無法理解。“我們都習慣了機器做我們無法做到的事情。比如,我跑得不如我的車快,”他說。對于想要研究蛋白質的分子生物學家來說,只需要大致知道它的結構即可,至于蛋白質是如何折疊形成這樣的結構并不重要。
但“在我們真正知道它是如何運作之前,我們永遠不會有一個100%可靠的預測器,”Porter說。“我們必須理解基本的物理學,才能做出最有根據的預測。”
AlQuraishi 表示:“我們的目標在不斷變化。我確實認為核心問題已經解決,現(xiàn)在更加關心接下來會發(fā)生什么。”
即使生物學家之間還存在不少爭辯,其他人已將目光投向了一個毫無疑問已經改變的領域,并開始回顧起近期的發(fā)展。
有時Perrakis會懷念以前的工作方式。2022年,他的團隊通過X射線晶體學解析了一種參與修飾微管的酶的結構(微管microtubules)是形成細胞結構的巨大棒狀分子)。他說:“我意識到我再也不會(這樣做)了,也無法再次感受到在數(shù)月的工作之后首次確定結構帶來的特殊滿足感。”
AlphaFold2并沒有淘汰這些實驗。相反,它揭示了它們的必要性。它將兩個歷史上截然不同的學科聯(lián)系在一起,觸發(fā)了一場酣暢淋漓的對話。
(6)新世界
七十年前,人們認為蛋白質是一種膠狀物質,Porter說。“而現(xiàn)在我們能看到的”:一個由各種結構構成的巨大的蛋白質世界,無論它們是自然界中存在的還是設計出來的。
蛋白質生物學領域“在AlphaFold出現(xiàn)之后更令人興奮了”,Perrakis說。這種興奮來自于基于蛋白質結構促進藥物發(fā)現(xiàn)的可能,來自各種假說的層出不窮,來自理解細胞內復雜相互作用的希望。
“這感覺就像基因組學革命一樣,”AlQuraishi說。面對海量數(shù)據,無論是在濕實驗室還是在計算機前的生物學家都在學習如何處理這些數(shù)據。
但就像在全球范圍內激發(fā)的其他人工智能突破一樣,這可能也有一個天花板。
AlphaFold2的成功建立在大量可用的高質量訓練數(shù)據上,也就是勤勤懇懇的實驗人員通過一絲不茍的工作解析的數(shù)十萬種蛋白質結構。雖然AlphaFold3和相關算法在確定分子化合物結構方面取得了一些成功,但其準確性仍不及對單蛋白質的預測。有部分原因就是因為可用的訓練數(shù)據少了很多。
Thornton 表示,蛋白質折疊問題“幾乎是一個AI解決方案的完美例證”,因為相關算法的訓練數(shù)據來自以統(tǒng)一形式收集的數(shù)十萬種蛋白質結構。然而,蛋白質數(shù)據庫可能是生物學領域有組織的數(shù)據共享的特殊案例。沒有高質量的數(shù)據來訓練算法,AI模型將無法做出準確的預測。
“我們很幸運,”Jumper說。“我們遇到問題的時候恰逢解決問題的時機成熟。”
沒有人知道深度學習在解決蛋白質折疊問題上的成功是否會延續(xù)到其他科學領域,甚至是生物學的其他領域。但有些人,比如AlQuraishi,持樂觀態(tài)度。“蛋白質折疊只是冰山一角,”他說。例如,化學家需要進行的計算成本高昂。通過深度學習,這些計算已經比以前快了一百多萬倍,AlQuraishi說。
人工智能顯然可以推進特定類型的科學問題的解決。但它可能只能增進科學家對結果的了解,而AlQuraishi表示:“從歷史的角度出發(fā),科學的本質在于理解原理,”也就是生命和宇宙演化的基本過程。如果科學通過給出解決方案而不是揭示過程的深度學習工具向前發(fā)展,它還能稱得上是科學嗎?
“如果你能治愈癌癥,你真的在乎它是如何被治愈的嗎?”AlQuraishi說。“這是一個我們將在接下來數(shù)年里反復爭論的問題。”
如果許多研究人員決定放棄理解自然的過程,那么人工智能不僅會改變科學它還會改變科學家。
與此同時,CASP的組織者正在處理另一個問題:如何繼續(xù)他們的競賽和會議。AlphaFold2是CASP催生的產物,它解決了會議旨在解決的主要問題。“對我們來說,這在某種程度上是一個巨大的沖擊:CASP現(xiàn)在要何去何從?”Moult說。
2022 年,CASP會議在土耳其安塔利亞舉行。谷歌DeepMind團隊沒有參賽,但存在感依然強烈。“幾乎是AlphaFold使用者之間的比賽,”Jones說。從這個意義上說,最大贏家還是谷歌。
現(xiàn)在一些研究人員對參加會議的興趣減少了。“看到那個結果后,我改變了我的研究方向,”許錦波說。其他人則繼續(xù)完善他們的算法。Jones仍然繼續(xù)結構預測研究,但這對他來說現(xiàn)在更像是一種愛好。還有一些人,比如AlQuraishi和Baker,繼續(xù)開發(fā)新的結構預測和設計算法,即便是與一家市值數(shù)十億美元的公司競爭也絲毫不怵。
Moult和會議組織者正在嘗試與時俱進。下一輪CASP于五月開始接受報名。他希望深度學習能征服結構生物學的更多領域,比如RNA或生物分子復合物。“這種方法解決了一個問題,”Moult說。“但在結構生物學中還有許多其他相關問題。”
下一次會議將于2024年12月在加勒比海舉行。藍天碧海,風和日麗,相信大家的交流也會在友好的氛圍中進行。至少現(xiàn)在,沒有人會再公開跺腳以示反對了。誰也猜不到今年的比賽會是什么樣子。但基于往屆CASP的經驗來看,Moult知道有一件事是大家可以期待的“驚喜”。