發表日期 5/2/2022, 8:06:41 AM
��藥明康德內容團隊編輯
去年7月,DeepMind公司在《自然》雜誌上發錶瞭人工智能(AI)係統AlphaFold根據氨基酸序列預測蛋白質三維結構的研究。研究人員同時發布瞭AI係統的源代碼,讓這一技術能夠為廣大科學傢和研究人員使用。自從文章發錶以來, AlphaFold在生命科學領域掀起瞭前所未有的熱潮。很多人將它稱為改變遊戲規則的科學突破。 近日,《自然》雜誌的一篇深度文章對AlphaFold對生命科學領域的變革性影響和未來進行瞭闡述。在今天這篇文章裏,藥明康德內容團隊將與讀者分享文章的精彩內容。點擊文末“閱讀全文/Read more”,即可訪問《自然》官網,閱讀全文。
驚艷的成功
在2020年,AlphaFold人工智能係統在國際蛋白質結構預測競賽(CASP)上擊敗其餘的參會選手,精確地基於氨基酸序列,預測蛋白質的3D結構。其準確性可與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射綫晶體學等實驗技術解析的3D結構相媲美。當時,這一突破被多傢媒體稱為“變革生物科學和生物醫學”的突破。前基因泰剋(Genentech)首席執行官Arthur D. Levinson博士稱這一成就為“劃時代的進步”(once in a generation advance)。
在2021年7月,描述AlphaFold和RoseTTAFold人工智能係統的論文在《科學》和《自然》上發錶,並且提供瞭開源的源代碼和相關信息,讓科學傢們能夠使用這些工具。一周後,DeepMind宣布,AlphaFold預測齣98.5%的人類蛋白結構,以及20種模式生物(比如小鼠、果蠅和大腸杆菌)的蛋白結構,將超過36.5萬個蛋白結構存放到與歐洲生物信息研究所(EMBL-EBI)閤作構建的公開數據庫中。 這一數據庫目前儲存的蛋白結構已經達到瞭接近100萬個。
而今年, DeepMind計劃發布超過1億種結構預測,這接近所有已知的蛋白數目的一半,比已經通過實驗手段確定的蛋白結構數目多齣幾百倍!
根據DeepMind的統計,如今已經有超過40萬人使用瞭EMBL-EBI的AlphaFold數據庫。它對生命科學的哪些領域産生瞭重大影響?
圖片來源:123RF
解析蛋白結構
AlphaFold解析蛋白結構的能力已經讓很多生物學傢們信服。 隻要蛋白會摺疊成單一的固定三維構象,AlphaFold的預測很難被超越。 斯德哥爾摩大學(Stockholm University)的蛋白生物信息學傢Arne Elofsson博士錶示,“這是一個一鍵式的解決方案,可能提供你想要的最佳模型。”
即使在AlphaFold不太確信的地方,“它也非常善於告訴你它什麼時候不起作用”,Elofsson博士說。在這種情況下,預測的結構有些像浮動的麵條。這通常對應於缺乏確定構象的蛋白區域。這種內在無序的區域約占人類蛋白質組的三分之一,隻有當另一種分子(如信號夥伴)存在時纔可能被明確定義。
▲AlphaFold準確預測的蛋白結構(a)和不能準確預測的蛋白結構(b和c)(圖片來源:參考資料[5])
AlphaFold存儲到EMBL-EBI數據庫中的蛋白結構也已經立刻得到瞭應用。倫敦大學學院的Christine Orengo博士團隊正在對其進行搜索, 在未通過實驗驗證的情況下,發現新的蛋白類型。他們已經發現瞭成百上韆個潛在的新蛋白傢族,擴展瞭科學傢們對蛋白形態和功能的瞭解 。該研究團隊的另一個項目是挖掘從海洋和廢水中收獲的DNA序列數據庫,試圖發現新的降解塑料的蛋白酶。利用AlphaFold快速預測成韆上萬蛋白的結構,研究人員希望更好地理解酶如何通過進化分解塑料,並潛在對其進行改進。
哈佛大學進化生物學傢Sergey Ovchinnikov博士說, 將任何編碼蛋白的基因序列轉變為可靠結構的能力為進化研究提供瞭強大的工具。 研究人員通常通過比較基因序列,確定物種之間的相關性。對於親緣關係較遠的基因,DNA序列比較可能無法找到進化上的親緣關係,因為序列已經發生很大的變化。但是 蛋白結構與基因序列相比變化較慢,通過比較蛋白結構,研究人員可能發現被忽視的古老關聯。 “這為研究蛋白的進化和生命起源開闢瞭一個驚人的機會。”瑞士聯邦理工學院(Swiss Federal Institute of Technology)計算生物學傢Pedro Beltrao博士說。
賦能科學實驗
對於要確定特定蛋白詳細結構的科學傢來說,AlphaFold的預測不一定馬上提供解決方案。然而,它提供瞭一個可以通過實驗驗證或改進的初始模型,它本身有助於理解實驗數據。 例如,X射綫晶體學的原始數據是X射綫的衍射圖案。通常情況下,科學傢需要對蛋白的結構進行初步猜測來解釋這些圖案。英國劍橋大學的結構生物學傢Randy Read博士錶示,以前他們需要通過拼湊公開蛋白數據庫中相關蛋白的信息或使用實驗方法來確定最初的蛋白模型。現在,AlphaFold的預測使科學傢無需這一策略就可以解析大多數X射綫衍射圖案。
Read博士和其他研究人員已經利用AlphaFold從X射綫數據中確定瞭晶體結構,這些晶體結構在沒有足夠的起始模型的情況下無法解析。“ 人們正在解析多年來一直未能解析的結構。 ”Read實驗室的前博士後Claudia Millán Nebot博士說,她預計將會看到大量新蛋白質結構提交到公開數據庫,很大程度上是由於AlphaFold。
圖片來源:123RF
專攻利用冷凍電鏡捕獲快速冷凍蛋白圖片的實驗室也能從中獲益。 北卡羅來納大學教堂山分校結構生物學傢和藥理學傢Bryan Roth博士錶示,有些情況下AlphaFold的模型準確地預測瞭G蛋白偶聯受體(GPCRs)的獨特特徵。它們是重要的藥物靶標。他說:“AlphaFold在生成第一個模型方麵錶現很好,然後我們用實驗數據對其進行瞭完善,這為我們節省瞭時間。”
但Roth博士補充道,AlphaFold並不總是那麼準確。在某些情況下,AlphaFold以很高的置信度標記瞭結構預測,但實驗數據顯示它是錯誤的。即使軟件得到瞭正確的結果,它也無法模擬蛋白質與藥物或其他小分子(配體)結閤時的樣子,這些小分子可以實質性地改變蛋白結構。
在藥物發現工作中,研究人員越來越常見地使用計算對接軟件來篩選數十億個小分子,以找到可能與靶點蛋白結閤的分子,這錶明它們可能成為有用的藥物。Roth博士現在正與加州大學舊金山分校的藥物化學傢Brian Shoichet博士閤作,比較AlphaFold的預測與實驗確定的結構。
Shoichet博士說,他們將工作限製在AlphaFold的預測與實驗確認的結構相吻閤的蛋白質上。然而即使在這些情況下,已有的對接軟件和AlphaFold也會找齣不同的化閤物。他的團隊現在正在閤成利用AlphaFold預測的結構發現的潛在藥物,並在實驗室中檢驗它們的活性。
幫助藥物發現
Shoichet博士說,生物醫藥和生物技術公司的研究人員對AlphaFold幫助藥物發現的潛力感到興奮。2021年11月,DeepMind推齣瞭IsoMorphic Labs,旨在將AlphaFold和其他AI工具應用於藥物發現。
Schr dinger公司療法開發負責人Karen Akinsanya博士錶示,她的團隊已經 在利用AlphaFold結構進行虛擬篩選和候選藥物的設計方麵取得瞭一些成功。在有些情況下,AlphaFold提供的結構已經可以指導藥物發現。 不過,“很難說它是一種靈丹妙藥,因為在一種結構上你可能做得非常好,但是這不意味著它可以類推到所有結構。“Akinsanya博士說。在藥物發現方麵,AlphaFold提供的結構永遠不會完全取代實驗獲得的結構,但它們可能與實驗手段相輔相成,加快藥物開發的過程。
圖片來源:123RF
AlphaFold的局限
雖然AlphaFold取得瞭飛速進展,但是科學傢們錶示,清楚它的局限性非常重要,尤其是現在並不專攻蛋白結構預測的研究人員也在使用它。
科學傢們曾嘗試使用AlphaFold推測錯義突變(包括與早期乳腺癌相關的基因突變)對蛋白結構的影響,結果顯示該軟件尚沒有預測新突變對蛋白影響的能力。
AlphaFold的團隊現在正在思考如何設計一個神經網絡來處理新突變。DeepMind的科學傢John Jumper博士預計這需要該網絡更好地預測一個蛋白如何從未摺疊狀態轉變為摺疊狀態。哥倫比亞大學計算生物學傢Mohammed AlQuraishi博士錶示,這可能需要僅依靠在蛋白物理學方麵學到的知識來預測結構的軟件。他說:“我們感興趣的一件事是,如何在不使用進化信息的情況下,從單一序列做齣預測。這是一個仍然懸而未決的關鍵問題。”
AlphaFold的設計是用來預測單一結構,但許多蛋白具有多種構象,這對它們的功能可能很重要,而且AlphaFold預測的是孤立的蛋白結構,很多蛋白與包括DNA、RNA、脂肪分子和礦物質在內的配體結閤在一起行使功能。
AlphaFold的未來
雖然AlphaFold的設計是用來預測單一結構,但是當DeepMind公布其源代碼之後,科學傢們很快發現瞭讓它預測蛋白之間相互作用的方法。在AlphaFold代碼公布後幾天,東京大學的蛋白生物信息學傢Yoshitaka Moriwaki博士就發現, 如果用一個長連接序列將兩個蛋白序列拼接在一起,AlphaFold可以準確預測它們的相互作用。
在2021年10月,DeepMind發布瞭一項名為AlphaFold-Multimer的更新,這一係統經過特彆訓練用於識彆蛋白復閤體。 DeepMind的團隊用它來識彆公開蛋白數據庫中的上韆種復閤體,發現它能夠預測大約70%的已知蛋白間相互作用。
這些工具已經在幫助研究人員發現新的結閤蛋白。斯德哥爾摩大學Arne Elofsson博士的團隊近日在Nature Communications上發錶的論文中,利用AlphaFold與實驗數據相結閤,預測瞭 65000 種可能相互作用的蛋白對(protein pairs)的結構。
這些虛擬篩選為進一步實驗提供瞭良好的起點。“看起來好看並不意味著它是對的,” Elofsson博士說,“你需要實驗數據來錶明你是對的。”
華盛頓大學David Baker教授的團隊利用AlphaFold和RoseTTAFold對酵母錶達的所有蛋白對之間的相互作用進行瞭模擬,發現瞭超過100種此前不知道的相互作用。
近日,Baker教授團隊在《自然》雜誌上發錶的論文再進一步,利用預測蛋白結構的算法, 研究團隊隻需要知道靶點蛋白的結構信息,就能夠發現與它們以高親和力結閤的迷你蛋白(miniproteins) 。Baker教授錶示,這一發現有望帶來藥物發現和分子生物學的範式改變。
AI工具不僅改變瞭科學傢如何確定蛋白是什麼樣子,一些研究人員正在利用它們製造全新的蛋白。 David Baker教授說:“深度學習正在完全改變我的課題組進行蛋白設計的方式。”在去年12月《自然》上發錶的論文中, 研究人員成功讓 AI想象和構建齣前所未有的蛋白結構 。
在這項研究中,研究者不再給AI係統一些已知蛋白結構的氨基酸序列進行預測,而是嚮它們提供一些隨機的序列,並且會嚮其中引入一些突變,直到AI的神經網絡確定能夠將這些序列摺疊成穩定的結構為止。
研究人員在細菌中錶達瞭129種AI係統想象齣的蛋白,並且發現大約五分之一的蛋白會摺疊成AI預測的結構。 “這首次證明瞭使用這些神經網絡可以用來設計蛋白。”Baker博士說。現在,他的團隊正在使用這一策略設計有用的蛋白,比如能夠催化特定化學反應的蛋白催化劑。科學傢們隻需要給齣負責特定催化功能的氨基酸,然後讓AI想象齣其它部分。
AlphaFold革命將走嚮何方,即便是這一領域的專傢也覺得難以預測。Baker教授錶示,領域的變化如此之快,預計不到一年的時間,我們就會看到使用這些工具獲得的新重大突破。”
EMBL-EBI的計算生物學傢Janet Thornton博士則認為 AlphaFold最大的影響之一是說服生物學傢對計算和理論方法提供的洞見更加開放。“對我來說,革命就是心態的改變。”
參考資料:
[2] Bryant et al., (2022). Improved prediction of protein-protein interactions
免責聲明:藥明康德內容團隊專注介紹全球生物醫藥健康研究進展。本文僅作信息交流之目的,文中觀點不代錶藥明康德立場,亦不代錶藥明康德支持或反對文中觀點。本文也不是治療方案推薦。如需獲得治療方案指導,請前往正規醫院就診。
版權說明:本文來自藥明康德內容團隊,歡迎個人轉發至朋友圈,謝絕媒體或機構未經授權以任何形式轉載至其他平台。轉載授權請在「藥明康德」微信公眾號迴復“轉載”,獲取轉載須知。
分享 , 點 贊 , 在看 ,聚焦全球生物醫藥健康創新