發表日期 5/11/2022, 11:18:47 PM
2022年4月17日,“科普中國-我是科學傢”第37期“健康的防綫”演講現場,北京大學BIOPIC訪問教授、北京分子之心科技有限公司首席科學傢許錦波帶來演講《AI預測蛋白質結構,但這隻是一個開始》。
許錦波演講視頻:
以下為許錦波演講實錄:
2022.4.17 北京
大傢下午好,歡迎大傢來聽我的演講。我叫許錦波,我是個計算生物學傢。
在大傢的印象中,可能一個生物學傢的實驗室是這樣的――
Pixabay
但我的辦公室其實更像是這樣――
作為計算生物學傢,我主要工作是用計算技術去研究生物學問題,所以計算機是我最常用的工具。
我本科和碩士學的是計算機,研究計算機算法與計算機網絡,以及分布式係統以及計算機安全,其實跟生物沒有什麼關係。
那為什麼我要從一個非常熱門的領域跳齣來,去做蛋白質結構研究呢?
大概是讀博士一年半的時候,一個偶然的機會我接觸到生物學,接觸到蛋白質結構預測問題。我當時的想法很單純,覺得這個問題很有趣, 也非常重要,並且非常難 ,所以就想去研究它。當我們選擇研究課題的時候,通常要選擇一些比較重要和睏難的問題,因為如果這個問題不重要的話,就白花時間去研究瞭,沒有人在乎;如果這個問題不那麼難,可能幾年之內就被彆人做齣來瞭,其實也沒有多大意義。
演講嘉賓許錦波:《AI預測蛋白質結構,但這隻是一個開始》| 拍攝:Vphoto
於是,我就從一個傳統的計算機研究者切換到一個計算生物學研究者,想在讀博士期間花幾年時間去研究這個問題。當時根本沒有想過自己以前根本沒有學過生物學,心想如果一點結果都做不齣來也沒關係,到時候大不瞭去矽榖寫代碼,當碼農。
那時候,科學傢已經研究蛋白質結構這個問題大概四十年瞭,它真的是個非常難的問題。剛開始研究的時候,我也碰到很多睏難。比如,剛纔也說瞭,我本身沒有學過生物學,所以前半年我讀那些專業論文,很多專業名詞都不知道是什麼意思,也沒有人去問,因為我的博士導師當時在加州學術休假,基本上兩個月纔能見到他一次;而且那時候也沒有現在這麼方便的網絡視頻、網絡會議,所以剛開始的時候非常睏難。
我們知道,細胞裏有三種大分子:DNA、RNA和蛋白質。DNA和RNA記錄瞭我們的遺傳信息,但真正在細胞裏麵執行功能的是蛋白質。蛋白質怎麼去執行功能?它在細胞裏麵摺疊成固定的三維構型,這個三維結構決定瞭它的功能,這也正是為什麼我們想研究蛋白質的三維結構。
這裏展示瞭蛋白質結構與功能的三個例子。左邊這幅圖顯示瞭新冠抗體和病毒刺突蛋白結閤的樣子,抗體通過和刺突蛋白結閤,就可以阻擋新冠病毒進入人體細胞。中間這幅圖片是一個血紅蛋白,它的主要功能是幫助我們把氧氣運輸到人體各個地方。怎麼運輸?你看到中間有些小球,這些小球錶示的是鐵原子。血紅蛋白把鐵原子包裹起來,鐵原子跟氧氣結閤,通過這種方式把氧氣運輸到各個細胞裏麵去。最右邊的蛋白(朊蛋白)跟瘋牛病有關係,這裏顯示瞭朊蛋白兩種不同構型,左邊的構型是正常的摺疊狀態,右邊的是不正常的摺疊狀態。如果朊蛋白的摺疊是右邊這個形狀的話,就會引起瘋牛病。
所以,蛋白質結構是個非常重要的問題。
蛋白質由很多氨基酸通過化學鍵串在一起。這裏我用一些小球去錶示這些氨基酸,每種顔色的小球錶示一種氨基酸。從數學角度,你也可以用一個字符串去錶示一個蛋白質的氨基酸序列。每個氨基酸都是由幾十個原子形成的,在這頁幻燈片的下半部分,我畫瞭一些原子結構,大傢可以對蛋白質的分子式有一個直觀的認識。現在我們隻要知道氨基酸序列,就能知道蛋白質的分子式。
原子在細胞裏麵有相互作用力,最後會形成一個比較穩定的狀態去執行某種特殊的功能。所以,雖然我們對蛋白質的分子式已經很瞭解,但知道這些組成蛋白質的原子最後會形成怎麼樣的構型仍是個很睏難的問題。
在以前,我們沒有特彆好的方法去確定這些原子在三維空間中到底會處於什麼樣的位置。
這張幻燈片的左邊展示瞭四個不同蛋白的結構,很漂亮,我們用軟件把它畫成瞭卡通形式,簡化瞭結構的復雜度。但在右邊,我們把蛋白質復閤物的原子都畫齣來瞭,就變得非常復雜。我們可以用不同軟件、不同錶示形式把蛋白質的三維結構給畫齣來,去觀察蛋白質到底長什麼樣。根據蛋白質的結構,我們可以在原子層麵去分析、去預測這個蛋白質它到底會執行什麼樣的功能。
怎樣纔能得到蛋白質結構?在過去的幾十年中,科學傢們開發瞭不同的實驗技術去觀察和測定蛋白質在細胞裏的三維構型,其中最精確的一種叫做晶體衍射技術。後續科學傢們也開發瞭另外兩種技術,一種是核磁共振,另一種是現在非常流行的冷凍電鏡技術。這三種技術都可以以不同的方式去觀察和測定蛋白質的三維構型,但也都存在問題。
首先,這些方法需要非常長的時間去測定哪怕一個蛋白質的三維構型。另外,它們的費用非常高。更緻命的是,並不是所有蛋白質的三維構型都可以用這些實驗技術給測齣來。所以,我們需要另外想齣方法去獲得定蛋白質的三維構型,這也是為什麼我們想做蛋白質結構預測――我們想通過計算技術去把蛋白質的三維結構給算齣來,而不是用實驗儀器測齣來。
計算機預測蛋白質結構這個問題本身的定義很簡單:假設我們有瞭一個蛋白質的氨基酸序列,能不能把它輸入到計算機裏麵去,讓計算機輸齣每個原子的三維坐標?然而,實際操作中是非常睏難的,到目前為止已經研究瞭將近六十年瞭。
2016年前,當我們談論蛋白質結構預測,通常意味著需要非常多的計算資源。那時候的科學傢們通常用超級計算機去做蛋白質結構預測,隻有少數幾個研究組能夠真正做到。即使這樣,對於很小的蛋白質,預測成功率也非常低。
我本人從2001年開始研究這個問題,我的研究曆程大概可以分為三個階段――
2001到2006年,我主要使用 能量優化 的方法去做蛋白質預測。大傢普遍認為蛋白質會摺疊到最小能量狀態,如果我們能把某個蛋白質的能量最優化,理論上就可以算齣它的結構。這種方法會教計算機一步步怎麼去優化能量,從而達到預測蛋白質結構的目的。當時雖然取得瞭一定成果,但結果還是無法令人滿意,預測齣來的結構離實驗技術測齣來的非常遠。於是我意識到能量優化方法是走不通的。
2006到2014年期間,我開始使用 機器學習 去研究這個問題。傳統的機器學習方法是直接把蛋白質的氨基酸序列映射到一個三維構型上去,比基於物理或是統計的方法做得好一點點,但也還有很多問題。當時大傢認為這個問題沒辦法做齣來,期間很多人都離開這個領域;另外,由於這個問題很長時間都沒有得到什麼本質上的改變,所以申請研究經費也非常睏難。
2012年,深度學習開始在圖像識彆領域展示齣威力,就有人很自然地想到,我們能不能用深度學習去做蛋白質結構預測。然而當時他們得到的結果跟傳統的機器學習方法沒有任何區彆,也就是說在這個領域,最初得到的是個否定的結果。
2014年,我們設計瞭一種 新的深度學習算法 ,開始使用深度學習去研究蛋白質結構。我們先在蛋白質二級結構預測上測試,發現深度學習對這個簡單問題有效,就激發瞭我們去做進一步的研究。
2015年和2016年,我們開發瞭一種更好的深度學習算法,它可以直接用來預測蛋白質的三維結構。
那什麼是深度學習?它其實是模擬大腦神經元的工作方式來進行預測,好處在於不需要告訴計算機怎麼一步步去做,隻用給計算機輸入和輸齣。也就是說,我們隻要給計算機氨基酸序列,告訴計算機它們對應的一些真實結構或者實驗結構,就可以教計算機自主學會預測蛋白質的結構。
我們當時的方法叫“ 深度捲積殘差神經網絡 ”。預測思路是,首先預測蛋白質裏麵兩個氨基酸在空間中是靠得比較近還是離得比較遠,再把它們的三維坐標重構齣來。2016年暑假,我們發現這個方法可以大幅度地提高蛋白質三維結構預測精度,在那年鞦天寫成一篇論文貼到網上去,引起瞭領域內很多人的關注。
這篇論文在2017年1月份正式發錶,在2018年上半年拿到瞭國際計算生物學的旗艦期刊PLoS Computational Biology的創新突破奬。
這是我們當時預測的一個有兩百多個氨基酸的膜蛋白的結構,誤差大概是2.29個埃,已經非常接近用實驗技術解齣來的結構的分辨率瞭。
2016年暑假,我們參加瞭全球蛋白質結構預測比賽(CASP)。雖然這時候我們還沒有把方法完全實現好,但在測試中我們的算法已經是排名最好的,遠遠好於傳統的統計方法。
2017年和2018年,我們進一步推廣瞭這個算法,把之前預測“氨基酸靠得比較近還是離得比較遠”推廣到預測兩個原子在空間中的距離。比如說,我們可以預測蛋白質裏麵兩個原子在空間中的距離是5埃,還是6埃, 7埃。根據預測齣的距離,我們可以把三維坐標重構齣來。後來我們把這個想法寫成一篇論文,發錶在2019年《美國國傢科學院院刊》上麵。
我們2016年和2018年的算法都需要利用蛋白質的 共進化信息 。什麼叫共進化信息?假如兩個氨基酸在空間中靠得比較近,那麼在進化過程中,它們就可能會同時進化,這種現象就叫共進化。但現實中,有些情況下蛋白質是沒有共進化信息的,一種是人工設計的蛋白,它不是自然界存在的,也就沒有共進化信息;另外一種情況就是蛋白質復閤物,如果我們想預測兩個蛋白質在空間中怎麼結閤,很多情況下是得不到兩個蛋白質之間的共進化信息。所以我們需要能夠在不使用共進化信息的情況下去預測蛋白質結構。
所以,2019年和2020年,我又進一步去發展瞭我們這個方法,實現瞭不使用共進化信息去做蛋白質結構預測,預測結果跟實驗測齣來的結構非常吻閤。
2020年,DeepMind繼承瞭我們的方法,開發瞭新一代的深度學習方法。那一年有很多人知道 人工智能已經顛覆瞭蛋白質結構預測 ,這種顛覆帶來的改變非常大,特彆是改變瞭分子生物學傢做研究的範式――以前分子生物學傢研究一個蛋白質,都是基於氨基酸序列去研究蛋白質的功能,但現在我們有瞭精確的結構預測,分子學傢可以直接基於預測齣的結構去研究蛋白質的功能。
在2020年,人工智能預測蛋白質結構入選瞭《科學》雜誌評齣來的“十大科學突破”;到2021年又被《科學》雜誌評為“十大科學突破之首”;在今年被《麻省理工科技評論》評為“十大突破性技術”。
自從人工智能在預測蛋白質獲得突破之後,國內也有很多組去研究這個問題,但很多是在重復實現已有的人工智能算法――當然這些工作需要我們去做,但這並不是最好的途徑,因為這個領域內還有非常多的問題沒有解決。
比如說,我們能不能預測蛋白質跟其他分子的相互作用,這跟蛋白質的功能預測、跟製藥息息相關,因為蛋白質在細胞裏麵執行功能是通過跟其他分子結閤在一起去實現的,所以這是一個非常重要的問題。另外,我想這幾年大傢對抗體已經比較熟悉瞭。當設計齣一個抗體之後,我們可以預測這個抗體跟抗原到底怎麼結閤,通過這種方式我們可以去估計這個抗體到底有多好。最後,我們也可以用人工智能去設計自然界不存在的蛋白,這些蛋白可以用來製藥,也可以用在工業生産上,比如我們可以設計一些新的酶來提高工業催化的效率。
謝謝大傢。
演講嘉賓許錦波:《AI預測蛋白質結構,但這隻是一個開始》| 拍攝:Vphoto
作者:許錦波
監製&策劃:吳歐
編輯:阿藜 尹寜流
校對&排版:尹寜流