喜大普奔!今天一波 Nature、Science 齊發(fā)文,可把學術(shù)圈的嗑鹽人們高興壞了。
一邊是“AI 界年度十大突破”AlphaFold2 終于終于開源,登上 Nature。
另一邊 Science 又出報道:華盛頓大學竟然還搞出了一個比 AlphaFold2 更快更輕便的算法,只需要一個英偉達 RTX2080 GPU,10 分鐘就能算出蛋白質(zhì)結(jié)構(gòu)!
要知道,當年 AlphaFold2 橫空出世,那是真?沸騰了學術(shù)圈。
不僅谷歌 CEO 皮猜、馬斯克、李飛飛等大 V 紛紛點贊,連馬普所的演化生物研究所所長 Andrei Lupas 都直言:它會改變一切。
結(jié)構(gòu)生物學家 Petr Leiman 感嘆,我用價值一千萬美元的電鏡努力地解了好幾年,Alphafold2 竟然一下就算出來了。
更是有生物學網(wǎng)友表示絕望,感覺專業(yè)“前途渺茫”:
而今天這一波 Nature、Science 神仙打架,再次點燃話題度。
讓學界狂熱的 Alphafold2
先說被頂刊爭相報道的 Alphafold2,它作為一個 AI 模型,為何引起各界狂熱?
因為它一出來,就解決了生物學界最棘手的問題之一。這個問題于 1972 年被克里斯蒂安?安芬森提出,它的驗證曾經(jīng)困擾科學家 50 年:
給定一個氨基酸序列,理論上就能預(yù)測出蛋白質(zhì)的 3D 結(jié)構(gòu)。
蛋白質(zhì)由氨基酸序列組成,但真正決定蛋白質(zhì)作用的,是它的 3D 結(jié)構(gòu),也就是氨基酸序列的折疊方式。
為了驗證這個理論,科學家們嘗試了各種手段,但在 CASP14(蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽)中,準確性也只達到 40 分左右(滿分 100)。
直到去年 12 月,Alphafold2 出現(xiàn),將這一準確性直接拔高到了 92.4/100,和蛋白質(zhì)真實結(jié)構(gòu)之間只差一個原子的寬度,真正解決了蛋白質(zhì)折疊的問題。
Alphafold2 于當年入選 Science 年度十大突破,被稱作結(jié)構(gòu)生物學“革命性”的突破、蛋白質(zhì)研究領(lǐng)域的里程碑。
它的出現(xiàn),能更好地預(yù)判蛋白質(zhì)與分子結(jié)合的概率,從而極大地加速新藥研發(fā)的效率。
今天,Alphafold2 的開源,又進一步在 AI 和生物學界激起了一大波浪。
谷歌 CEO 皮猜很高興:
亦有生物學博士表示:未來已來!
來自 UC 伯克利 AI 實驗室的博士 Roshan Rao 在看過后表示,這份代碼看起來不僅容易使用,而且文檔也非常完善。
現(xiàn)在,是時候借著這份開源算法,弄清 Alphafold2 的魔術(shù)是怎么變的了。
AlphaFold2 詳細信息公開
研究人員強調(diào),這是一個完全不同于 AlphaFold 的新模型。
2018 年的 AlphaFold 使用的神經(jīng)網(wǎng)絡(luò)是類似 ResNet 的殘差卷積網(wǎng)絡(luò),到了 AlphaFold2 則借鑒了 AI 研究中最近新興起的 Transformer 架構(gòu)。
Transformer 使用注意力機制興起于 NLP 領(lǐng)域,用于處理一連串的文本序列。
而氨基酸序列正是和文本類似的數(shù)據(jù)結(jié)構(gòu),AlphaFold2 利用多序列比對,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學習算法中。
AlphaFold2 用初始氨基酸序列與同源序列進行比對,直接預(yù)測蛋白質(zhì)所有重原子的三維坐標。
從模型圖中可以看到,輸入初始氨基酸序列后,蛋白質(zhì)的基因信息和結(jié)構(gòu)信息會在數(shù)據(jù)庫中進行比對。
多序列比對的目標是使參與比對的序列中有盡可能多的序列具有相同的堿基,這樣可以推斷出它們在結(jié)構(gòu)和功能上的相似關(guān)系。
比對后的兩組信息會組成一個 48block 的 Evoformer 塊,然后得到較為相似的比對序列。
比對序列進一步組合 8 blocks 的結(jié)構(gòu)模型,從而直接構(gòu)建出蛋白質(zhì)的 3D 結(jié)構(gòu)。
最后兩步過程還會進行 3 次循環(huán),可以使預(yù)測更加準確。
還有更快、成本更低的算法?
AlphaFold2 首次公布的時候并沒有透露太多技術(shù)細節(jié)。
在華盛頓大學,同樣致力于蛋白質(zhì)領(lǐng)域的 David Baker 一度陷入失落:
如果有人已經(jīng)解決了你正在研究的問題,但沒有透露他們是如何解決的,你該如何繼續(xù)研究?
不過他馬上重整旗鼓,帶領(lǐng)團隊嘗試能不能復(fù)現(xiàn) AlphaFold2 的成功。
幾個月后,Baker 團隊的成果不僅在準確度上和 AlphaFold2 不相上下,還在計算速度和算力需求上實現(xiàn)了超越。
就在 AlphaFold2 開源論文登上 Nature 的同一天,Baker 團隊的 RoseTTAFold 也登上 Science。
RoseTTAFold 只需要一塊 RTX2080 顯卡,就能在 10 分鐘左右計算出 400 個氨基酸殘基以內(nèi)的蛋白質(zhì)結(jié)構(gòu)。
這樣的速度,意味著什么?
那就是研究蛋白質(zhì)的科學家不用再排隊申請超算資源了,小型團隊和個人研究者只需要一臺普通的個人電腦就能輕松展開研究。
RoseTTAFold 的秘訣在于采用了 3 軌注意力機制,分別關(guān)注蛋白質(zhì)的一級結(jié)構(gòu)、二級結(jié)構(gòu)和三級結(jié)構(gòu)。
再通過在三者之間加上多處連接,使整個神經(jīng)網(wǎng)絡(luò)能夠同時學習 3 個維度層次的信息。
考慮到現(xiàn)在市場上顯卡不太好買,Baker 團隊還貼心的搭建了公共服務(wù)器,任何人都可以提交蛋白質(zhì)序列并預(yù)測結(jié)構(gòu)。
自服務(wù)器建立以來,已經(jīng)處理了來自全世界研究者提交的幾千個蛋白質(zhì)序列。
這還沒完,團隊發(fā)現(xiàn)如果同時輸入多個氨基酸序列,RoseTTAFold 還可以預(yù)測出蛋白質(zhì)復(fù)合體的結(jié)構(gòu)模型。
對于多個蛋白質(zhì)組成的復(fù)合體,RoseTTAFold 的實驗結(jié)果是在 24GB 顯存的英偉達 Titan RTX 上計算 30 分鐘左右。
現(xiàn)在整個網(wǎng)絡(luò)是用單個氨基酸序列訓練的,團隊下一步計劃用多序列重新訓練,在蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測上還可能有提升空間。
正如 Baker 所說:
我們的成果可以幫助整個科學界,為生物學研究加速。
關(guān)鍵詞: 華盛頓大學 算法 AlphaFold2 蛋白質(zhì)結(jié)構(gòu)