蛋白質(zhì)對于生命至關(guān)重要,幾乎所有疾病,包括癌癥、癡呆癥都與蛋白質(zhì)的結(jié)構(gòu)和功能息息相關(guān)。數(shù)以億計(jì)的蛋白質(zhì)結(jié)構(gòu)含有豐富的生物信息,既可以用于生物過程推理,也可以用于藥物開發(fā)或藥物干預(yù)。然而,經(jīng)過幾十年的努力,科學(xué)家們只預(yù)測了人類蛋白質(zhì)序列中 17% 的氨基酸殘基。
《Nature》雜志發(fā)表的一篇題為“Highly accurate protein structure prediction for the human proteome”的研究論文引爆各大社交網(wǎng)絡(luò)。
這篇論文出自人工智能明星公司DeepMind,當(dāng)天其創(chuàng)始人 Demis Hassabis 在推特上興奮的表示,“這是我夢寐以求的一天,DeepMind 的創(chuàng)辦初衷就是用人工智能推動科學(xué)發(fā)展,造福于人類,我為我們的研發(fā)團(tuán)隊(duì)感到無比驕傲。”
據(jù)悉,這項(xiàng)研究成果將人類蛋白質(zhì)組預(yù)測范圍覆蓋到了 98.5%,其中 58% 的氨基酸的結(jié)構(gòu)位置做出可信預(yù)測(confident prediction),對 36% 的氨基酸的結(jié)構(gòu)預(yù)測達(dá)到很高的置信度(very high confidence)。
DeepMind 在官方博客中表示,作為蛋白結(jié)構(gòu)預(yù)測的強(qiáng)大的工具,AlphaFold 將被廣泛應(yīng)用于生命科學(xué)以及藥物研發(fā)等領(lǐng)域。“我們相信,這是迄今為止人工智能為推進(jìn)科學(xué)發(fā)展做出的最重要的貢獻(xiàn),也是人工智能造福人類最有價(jià)值的示例”。
這篇博客的標(biāo)題為《把 AlphaFold 的力量交到全世界的手中》,可見 DeepMind 對 AlphaFold 改變生命科學(xué)研究的信心。
為了支持生物學(xué)和醫(yī)學(xué)研究,DeepMind 與 歐洲生物信息學(xué)研究所 (EMBL-EBI) 合作創(chuàng)建了第一個(gè) AlphaFold DB,并免費(fèi)向?qū)W術(shù)界開放。這是迄今為止人類蛋白質(zhì)組最完整、最準(zhǔn)確的高質(zhì)量數(shù)據(jù)集,它比人類通過生物實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)的數(shù)量還多兩倍。
數(shù)據(jù)庫涵蓋了人類蛋白質(zhì)組和其他 21 種關(guān)鍵生物的全蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果,包括大腸桿菌、果蠅、斑馬魚等,蛋白質(zhì)種類達(dá)到了35 萬種。
DeepMind 表示,在接下來的數(shù)月,他們計(jì)劃將數(shù)據(jù)庫的范圍擴(kuò)大到1.3 億個(gè)蛋白結(jié)構(gòu),目標(biāo)是為所有具有已知序列的蛋白提供預(yù)測結(jié)構(gòu)。
這項(xiàng)研究公布后,2009 諾貝爾生理學(xué)和醫(yī)學(xué)獎得主 Paul Nurse、馬克斯。普朗克生物物理化學(xué)研究所負(fù)責(zé)人 Patrick Cramer、樸茨茅斯大學(xué)結(jié)構(gòu)生物學(xué)教授兼酶創(chuàng)新中心 (CEI) 中心主任 John McGeehan、Google 創(chuàng)始人兼首席執(zhí)行官 Sundar Pichai 等眾多科學(xué)家對此表達(dá)了高度贊譽(yù),John McGeehan 表示:“我們花費(fèi)數(shù)月,甚至數(shù)年才完成的事情,AlphaFold 現(xiàn)在可能只需要一個(gè)周末。”
而 Sundar Pichai 在推特中寫道:
AlphaFold 數(shù)據(jù)庫顯示了人工智能深刻加速科學(xué)進(jìn)步的潛力。DeepMind 的機(jī)器學(xué)習(xí)系統(tǒng)不僅在一夜之間極大地?cái)U(kuò)展了我們對蛋白質(zhì)結(jié)構(gòu)和人類蛋白質(zhì)組所積累的知識,而且它對生命組成部分的深刻見解為科學(xué)發(fā)現(xiàn)的未來帶來了非凡的希望。
AlphaFold 預(yù)測結(jié)構(gòu)并非沒有局限性,如尚且不能預(yù)測復(fù)雜復(fù)合體的 3D 結(jié)構(gòu);在動態(tài)過程中,通常只能預(yù)測一個(gè)蛋白構(gòu)象;對于不產(chǎn)生特定結(jié)構(gòu)的氨基酸序列,無法做出可信的結(jié)構(gòu)預(yù)測。
然而,在五位行業(yè)專家的眼中,當(dāng) DeepMind 開始關(guān)注開源開放,并公開 AlphaFold2 源代碼和更多細(xì)節(jié)后,科學(xué)界將在此基礎(chǔ)上加速開發(fā)出更好的解決方法,這是人工智能預(yù)測蛋白質(zhì),以及生物計(jì)算領(lǐng)域又一次飛躍的機(jī)會。(以下排序不分先后)
許東,密蘇里大學(xué)教授,AAAS、AIMBE Fellow
從應(yīng)用層面來講,這項(xiàng)研究所帶來的行業(yè)影響力是巨大的。DeepMind 在論文中提到的高置信度蛋白質(zhì)結(jié)構(gòu)預(yù)測,基本可以達(dá)到準(zhǔn)實(shí)驗(yàn)精度,而這極大地?cái)U(kuò)展了它的應(yīng)用范圍。在以往的研究中,受限于預(yù)測的精度和可信度,諸如小分子藥物設(shè)計(jì)等方面的研究受到了很大的阻礙,而現(xiàn)在能夠在高置信度蛋白質(zhì)結(jié)構(gòu)上做分子對接預(yù)測。
當(dāng)然,AlphaFold2 目前也存在一定的局限性,比如很多蛋白和區(qū)間并不能達(dá)到高置信度,AlphaFold2 評估的一些高置信度,本質(zhì)上更像是一種高可信性的假設(shè),它與實(shí)驗(yàn)的第一手的觀察仍有差距。其主要原因在于蛋白質(zhì)結(jié)構(gòu)具有的很強(qiáng)的多變性,個(gè)別情況下,幾個(gè)氨基酸可能就會完全改變其結(jié)構(gòu)和功能,而人工智能系統(tǒng)基于統(tǒng)一性,很難發(fā)現(xiàn)這種變化和差異。換言之,預(yù)測結(jié)構(gòu)與實(shí)驗(yàn)室結(jié)構(gòu)仍不能完全劃等號。不過我相信,隨著算法的提升和 AI 的數(shù)據(jù)邊際效應(yīng),AlphaFold2 仍有很大的提升空間。
值得一提的是,國內(nèi)近年來在 AI 預(yù)測蛋白質(zhì)結(jié)構(gòu)方面的研究也取得了長足的進(jìn)步。比如中科院卜東波教授主持的 FALCON 預(yù)測系統(tǒng),其預(yù)測精度有了大幅度提升,雖然仍未達(dá)到 AlphaFold2 的預(yù)測水平,但整體趨勢是快速向前發(fā)展的,這是人工智能技術(shù)日漸成熟的一種必然結(jié)果。
人工智能預(yù)測在本質(zhì)上是基于大數(shù)據(jù)的統(tǒng)計(jì),而非物理學(xué)過程。蛋白質(zhì)折疊結(jié)構(gòu)中的一些物理屬性,比如不同的酸堿度、溫度造成的結(jié)構(gòu)變化,AI 是無法預(yù)測和分析的,這意味它不能完全取代傳統(tǒng)以物理為基礎(chǔ)的模擬、預(yù)測方法。不過,AI 善于從海量數(shù)據(jù)中挖掘深度信息、發(fā)現(xiàn)規(guī)律,這種模式與蛋白質(zhì)結(jié)構(gòu)預(yù)測等生物學(xué)研究需求非常契合,相信它未來會為生物學(xué)界和科學(xué)界帶來更大突破性的成果。
張陽,密歇根大學(xué)教授,I-TASSER 算法發(fā)明人
我有幸參加了 DeepMind 兩篇研究論文的評審工作。總體來看,所有審稿人都對第一篇 AlphaFold2 關(guān)于算法的文章評價(jià)很高,而對本次關(guān)于人類基因組的應(yīng)用的論文有所保留,具體包括以下幾個(gè)方面:
第一是論文缺乏新意。自從蛋白質(zhì)結(jié)構(gòu)預(yù)測問題被提出后,特別是人體基因組計(jì)劃后,如何用計(jì)算機(jī)算法對整體基因組進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測,便成為了科學(xué)家努力的目標(biāo)。在過去二十年,關(guān)于基因組蛋白質(zhì)結(jié)構(gòu)預(yù)測的論文發(fā)表已發(fā)表很多,這遠(yuǎn)不是第一篇。
第二,從方法學(xué)來講,蛋白質(zhì)預(yù)測關(guān)鍵在于算法開發(fā),應(yīng)用層面是很直接的事情,只要有足夠的計(jì)算機(jī)資源就可以實(shí)現(xiàn)。
第三,這篇文章注重強(qiáng)調(diào)如何利用預(yù)測結(jié)構(gòu)對蛋白質(zhì)功能進(jìn)行分析,特別展示了三個(gè)蛋白例子。雖然這些努力很可貴,但是沒有一個(gè)例子是經(jīng)過雙盲實(shí)驗(yàn)驗(yàn)證,而這在蛋白質(zhì)功能預(yù)測方面是非常必要的。
這篇工作之所以備受關(guān)注,是因?yàn)?AlpahFold2 算法(即第一篇論文)達(dá)到了目前為止計(jì)算機(jī)能夠預(yù)測的最高精度。從 CASP14 的結(jié)果來看,AlphaFold2 有 2/3 的目標(biāo)蛋白達(dá)到了實(shí)驗(yàn)精度,在難度較高的非同源序列預(yù)測上,有 1/3 的目標(biāo)蛋白達(dá)到這個(gè)精度,而人體基因庫中尚未解開的蛋白大部分為非同源蛋白。另外一方面,因?yàn)闅v史的原因,CASP14 的測評是基于單結(jié)構(gòu)域的小蛋白質(zhì)結(jié)構(gòu)。對多結(jié)構(gòu)域的大蛋白質(zhì)或者多鏈蛋白質(zhì)復(fù)合體結(jié)構(gòu)的預(yù)測,AlphaFold2 的模擬精度還是一個(gè)未知數(shù)。
許錦波,芝加哥豐田計(jì)算技術(shù)研究所教授,斯隆獎得主
DeepMind 向外界公開源代碼和數(shù)據(jù)庫,將對學(xué)術(shù)界和工業(yè)界的研究發(fā)展產(chǎn)生重大影響,尤其是生物制藥等工業(yè)界。目前國內(nèi)的研究成果可能略顯滯后,但隨著人工智能算法的提升,加上更多高質(zhì)量數(shù)據(jù)庫的開源,相信在未來的 2-3 年內(nèi)相關(guān)研究會有一個(gè)質(zhì)的飛躍,或者達(dá)到與 DeepMind 比肩的水平。
作為最高等的生物,人類蛋白質(zhì)組的預(yù)測難度比較高,AlphaFold 雖然預(yù)測人類蛋白的覆蓋率達(dá)到了 98.5%,但其在氨基酸層面的結(jié)構(gòu)預(yù)測上仍有一定的提升空間。
蛋白質(zhì)高精度預(yù)測不能完全依賴于人工智能技術(shù),它應(yīng)作為生物實(shí)驗(yàn)方法的最佳補(bǔ)充技術(shù),二者的關(guān)系是相輔相成的。數(shù)十年來,實(shí)驗(yàn)方法尚未解開的人類蛋白結(jié)構(gòu),仍需要基于大數(shù)據(jù)和算力的 AI 提供更多思路和可能,同時(shí),加速現(xiàn)有生物結(jié)構(gòu)研究的 AI,其預(yù)測結(jié)果仍需要得到實(shí)驗(yàn)的驗(yàn)證。
知名專家,人工智能與蛋白質(zhì)結(jié)構(gòu)預(yù)測資深從業(yè)者
在方法創(chuàng)新上,AlphaFold 提出了一套全新的模型架構(gòu)與訓(xùn)練策略;在應(yīng)用價(jià)值上,AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,將為更好地理解蛋白質(zhì)在生物體內(nèi)的功能與作用提供見解和參考。對于行業(yè)而言,AlphaFold 為蛋白質(zhì)單鏈結(jié)構(gòu)、蛋白質(zhì)復(fù)合體以及蛋白質(zhì)小分子等結(jié)構(gòu)預(yù)測任務(wù)指明了思路,對基于結(jié)構(gòu)的藥物設(shè)計(jì)等領(lǐng)域可能會有較大的推動作用。
目前,AlphaFold 對于模型輸入側(cè)的同源序列信息仍然存在一定的依賴,可能會出現(xiàn)預(yù)測不夠精確的問題;同時(shí),對于三維結(jié)構(gòu)更多依賴于異構(gòu)接觸(heterotypic contacts)而非鏈內(nèi)接觸或同構(gòu)接觸的蛋白質(zhì),也可能出現(xiàn)精度問題,這也是作者在論文中所提到的未來改進(jìn)方向之一。
在 AlphaFold(以及 David Baker 組的 RoseTTAFold)發(fā)布之前,國內(nèi)已有一些將端到端學(xué)習(xí)引入到蛋白質(zhì)結(jié)構(gòu)預(yù)測中的初步嘗試(包括我們 tFold),在預(yù)測精度方面,基本可以達(dá)到與 CASP14 中排名第二的 Baker 組相仿的水平,但與 AlphaFold 仍存在一定差距。在 AlphaFold 論文及代碼公開后,相信國內(nèi)這方面的研究將在短期內(nèi)迎來較大的提升幅度。
在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域,AlphaFold 的出現(xiàn),在一定程度上降低了基于實(shí)驗(yàn)數(shù)據(jù)的蛋白質(zhì)結(jié)構(gòu)測定的工作量;同時(shí),通過結(jié)合真實(shí)實(shí)驗(yàn)數(shù)據(jù)和 AlphaFold 預(yù)測出的結(jié)構(gòu)預(yù)測結(jié)果,可以解析出具有更高分辨率的蛋白質(zhì)結(jié)構(gòu),為下游任務(wù)提供指導(dǎo)。此類技術(shù)可以僅基于序列數(shù)據(jù),是基于實(shí)驗(yàn)數(shù)據(jù)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的某種程度上的有效補(bǔ)充。另一方面,現(xiàn)有方法的可解釋性以及與物理先驗(yàn)知識的結(jié)合尚顯不足,如何為結(jié)構(gòu)預(yù)測結(jié)果提供令人信服的置信度衡量和微觀層面上的理論支持,還有待進(jìn)一步探索。
郭天南,西湖大學(xué)教授,蛋白質(zhì)組大數(shù)據(jù)實(shí)驗(yàn)室負(fù)責(zé)人
這項(xiàng)成果意味 AI 已進(jìn)入生命科學(xué)的微觀分子領(lǐng)域,并且向生命科學(xué)研究人員開放,其意義類似于 AlphaGo 進(jìn)入人們生活(圍棋領(lǐng)域),它的廣泛使用可能對結(jié)構(gòu)生物學(xué)產(chǎn)生重大影響。
正如 DeepMind 在論文中所說,Alphafold2 雖然發(fā)現(xiàn)了很多新的蛋白質(zhì)結(jié)構(gòu),但是這些結(jié)構(gòu)是否完全正確,尚需要傳統(tǒng)生物實(shí)驗(yàn)的驗(yàn)證。在生命活動中,蛋白質(zhì)的結(jié)構(gòu)和功能具有高度的復(fù)雜性和動態(tài)性,在不同的功能狀態(tài)下,結(jié)構(gòu)可能也會發(fā)生改變。如某一個(gè)氨基酸的翻譯后修飾可能完全改變蛋白質(zhì)的結(jié)構(gòu)和功能,而目前,AlphaFold2 是否具有氨基酸水平和翻譯后修飾的準(zhǔn)確度,尚有待進(jìn)一步研究和驗(yàn)證。
蛋白質(zhì)是生命活動的重要元件。蛋白質(zhì)結(jié)構(gòu)的解析是理解蛋白質(zhì)的基石。AI 用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測,是非常好的趨勢,象征著蓬勃發(fā)展的 AI 精英們進(jìn)入生命科學(xué)的微觀世界。其成果有可能在藥物研發(fā)中發(fā)揮重要作用。
當(dāng)然,具有革命性的新技術(shù)的出現(xiàn),也必然會受到該領(lǐng)域的嚴(yán)格審核。AlphaFold2 的廣泛應(yīng)用可能會受到一些阻力,但是這些阻力也正是科學(xué)技術(shù)不斷發(fā)展的動力。我相信 AI 應(yīng)用于生命科學(xué)和醫(yī)療會越來越廣泛深入。
AI 預(yù)測蛋白質(zhì),已成競賽之勢
通過實(shí)驗(yàn)方法確定蛋白質(zhì)結(jié)構(gòu)是一項(xiàng)耗時(shí)且艱苦的工作,而 AlphaFold 證明了人工智能可以在短短幾分鐘內(nèi)準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu),并且精確到原子級。
諾貝爾化學(xué)獎得主克里斯蒂安?安芬森(Christian Anfinsen)在 1972 年曾提出,基于蛋白質(zhì)的 1D 氨基酸序列可計(jì)算并預(yù)測蛋白質(zhì)的 3D 結(jié)構(gòu)。然而,3D 結(jié)構(gòu)在形成之前會有數(shù)以億計(jì)的折疊方式。有數(shù)據(jù)顯示,一個(gè)典型的蛋白質(zhì)大約有 10∧300 種可能的構(gòu)型,如果用蠻力來計(jì)算所有可能的構(gòu)型可能花費(fèi)的時(shí)間比宇宙都要長。
去年,DeepMind 推出的人工智能預(yù)測系統(tǒng)全新版本 AlphaFold 2,攻克了這項(xiàng)長達(dá) 50 年多年的重大挑戰(zhàn),并獲得了權(quán)威蛋白質(zhì)結(jié)構(gòu)預(yù)測評估機(jī)構(gòu)(CASP)的認(rèn)可 ——AlphaFold 2 通過氨基酸序列預(yù)測蛋白質(zhì)折疊結(jié)構(gòu),在 CASP14 評估中的總體中位數(shù)達(dá)到了 92.4 GDT。
這意味著,AlphaFold 2 的結(jié)構(gòu)預(yù)測達(dá)到了與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學(xué)等實(shí)驗(yàn)技術(shù)解析 3D 結(jié)構(gòu)幾乎相當(dāng)?shù)木取?/p>
其他同類 AI 相比,當(dāng)時(shí) AlphaFold2 的預(yù)測精度遙遙領(lǐng)先。
然而一周前,一支來自西雅圖華盛頓大學(xué)醫(yī)學(xué)院蛋白質(zhì)設(shè)計(jì)研究所的研究團(tuán)隊(duì)發(fā)表論文“Accurate prediction of protein structures and interactions using a three -track neural network”提出,其研發(fā)的蛋白質(zhì)預(yù)測系統(tǒng) RoseTTAFold,已達(dá)到與 AlphaFold2 幾乎相當(dāng)?shù)乃?,甚至在預(yù)測蛋白質(zhì) 3D 結(jié)構(gòu)方面速度更快、所需計(jì)算機(jī)處理能力更低。
這項(xiàng)最新研究成果發(fā)布后立即登上了《 Science 》雜志。有趣的是,同一天,DeepMind 在《Nature》也發(fā)表了兩篇論文,公開了 AlphaFold 人工智能系統(tǒng)的源代碼,并詳細(xì)描述了它的設(shè)計(jì)框架和訓(xùn)練方法。
目前,RoseTTAFold 的預(yù)測精度在 CASP14 評估系統(tǒng)中排名第二,僅次于 AlphaFold 剛剛發(fā)布的最新成果。此外,RoseTTAFold 也選擇了開放源代碼和服務(wù)器免費(fèi)提供給科學(xué)界。
可以預(yù)見,隨著 RoseTTAFold 和 AlphaFold2 源代碼的公布,研究人員在兩者的基礎(chǔ)上繼續(xù)前進(jìn),將有望對人工智能系統(tǒng)做出進(jìn)一步改進(jìn),如攻克目前尚且無法確定構(gòu)象的蛋白,以及設(shè)計(jì)全新的蛋白,相信更多科研機(jī)構(gòu)將在短期內(nèi)將迎來爆發(fā)式的提升。
關(guān)鍵詞: DeepMind 蛋白質(zhì) 預(yù)測結(jié)構(gòu) 預(yù)測范圍