發表日期 3/17/2022, 12:59:14 PM
新智元報道
編輯:好睏 拉燕
【新智元導讀】 一個模型即可破譯非編碼DNA的進化曆史和未來?
今天,機器學習再次登上Nature的封麵!
這次,來自麻省理工學院和英屬哥倫比亞大學等機構的研究人員構建瞭一個深度學習神經網絡模型――「神諭」。
利用數億次實驗觀測結果進行訓練之後,「神諭」可以預測酵母中的非編碼DNA序列的突變會如何影響基因錶達。
此外,研究人員還提齣瞭一種獨特的方法,可以在兩個維度錶示適應度地形,從而讓理解酵母之外的生物體更加輕鬆。甚至還能設計齣一種通用的基因錶達模式,用於推進基因治療和工業化應用。
非編碼DNA是什麼?
雖然我們每個人體細胞都包含大量基因,但是所謂的「編碼DNA」僅僅占我們所有基因的1%。而剩下的99%,都不是具備編碼能力的DNA,不能通過這些DNA生成蛋白質。
這種非編碼DNA(戲稱垃圾DNA),有一個重要功能。即,控製基因的「開或關」,以及生成的蛋白質的數量。
隨著時間的推移,細胞會復製DNA以生長和分裂。在這些非編碼區,突變時常會發生,包括功能上的微調,或是改變控製基因錶達的方式。
很多突變都是不值一提的,甚至還有一些突變是有好處的。然而,這些突變偶爾也會增加一些常見疾病(比如2型糖尿病)的患病幾率,或者更嚴重的一些疾病(比如癌癥)的患病幾率。
基因錶達在進化中的可塑性
為更好的瞭解這種突變帶來的影響,研究人員一直在進行對數學圖譜的研究,從而觀察生物體的基因組,預測哪些基因會被錶達,並確定該種錶達會如何影響生物體可觀察的特徵。
這些圖譜被稱作「適應度地形」,大約一個世紀以前,「適應度地形」被提齣,目的是理解基因組成如何影響生物體的適應型,尤其是繁殖成功率。早期的圖譜比較簡單,隻關注少量的突變。
適應度地形
如今,研究人員擁有更為豐富的數據庫,但他們仍然需要額外的工具來描述這些復雜的數據,並實現數據的可視化。
這種能力一方麵可以讓研究人員更好地理解一個單獨的基因是如何隨著時間的推移進化,另一方麵還可以幫助預測未來可能齣現的基因序列和基因錶達的變化。
AI在生物學領域的又一次突破
麻省理工學院的研究生Eeshit Dhaval Vaishnav、共同一作Carl de Boer,還有他們的同事們,為瞭實現這一目標,構建瞭一個神經網絡模型來預測基因錶達。
他們通過在酵母中輸入上百萬個完全隨機的非編碼DNA序列組成的數據集訓練模型,來觀察每一個隨機序列是如何影響基因錶達的。
首先,研究人員在一大群酵母細胞中測量瞭編碼黃色熒光蛋白(YFP)基因的錶達情況。
其中,不同的細胞會攜帶不同的啓動子。這些啓動子位於一小塊環狀DNA上靠近YFP基因的地方,作為蛋白質的結閤位點,啓動子可以控製附近基因的錶達。
具體來說,研究人員使用瞭3000多萬個不同的啓動子,每個啓動子的長度是80個堿基對,並對每個含有這些啓動子之一的細胞産生的YFP進行量化。
基因調控DNA的進化、可進化性和工程化
隨後,研究人員將得到的錶達數據輸入到捲積神經網絡之中,並訓練該網絡從數據中預測基因錶達。
為瞭驗證其有效性,研究人員閤成瞭數韆個未用於訓練的啓動子序列,並測量瞭它們驅動基因錶達的能力。
結果錶明,神經網絡非常準確地預測瞭每個啓動子序列驅動基因錶達的程度。
此外,研究人員還嚮該網絡提供瞭隨機的起始序列,結果同樣證明瞭,AI從序列中預測基因錶達的能力可以用於將這些起始序列轉化為極端YFP錶達的啓動子序列。
最後,研究人員又閤成瞭500個這些序列,並測量瞭它們驅動YFP錶達的能力。結果錶明計算機模擬的序列確實可以驅動非常高和非常低的錶達。
為瞭搞清楚最基礎的進化問題,Vaishnav和他的同事們查閱瞭各類論文,甚至還把一個現有的研究中所有的數據集全放到瞭模型裏進行嘗試。
而想構建一個強大到可以探測任何基因的工具,還需要找到一種辦法來預測非編碼序列的進化模式,哪怕沒有完整的數據集。
為瞭實現這個目標,他們設計齣瞭一種計算技巧,可以把預測從框架裏插到二維圖像上。
如此一來便可以使用簡單的方式,瞭解任何一個非編碼的DNA蓄力瞭是如何影響基因錶達和基因的適應性的,且無需在實驗室耗時耗力的做任何實驗。
有什麼意義?
50多年來,生物學傢們都在試圖通過非編碼DNA序列來準確預測基因錶達的強度。然而基因錶達的生化機製是非常復雜的,即便是學界盡瞭最大的努力也沒有實現這一目標。
在這項研究發錶以前,研究人員大多隻能使用已知的突變來訓練模型(充其量有些微小的變化)。
然而,Regev的小組邁齣瞭更大的一步。他們構建的無偏模型,能夠預測生物體的適應性和基因錶達,這基於任何可能的DNA序列,哪怕有些基因序列從來沒有見到過。
實驗證明,對於大多數起始序列,3、4個突變足以使序列演化齣非常高或非常低的錶達。而大約70%的酵母基因在其錶達上為穩定選擇(有利於不會導緻錶達發生巨大變化的突變的選擇)。
此外,受穩定選擇影響的基因對非編碼DNA突變的抵抗力更強。也就是說,其啓動子的突變在較小程度上改變瞭基因的錶達。
「神諭」的齣現和其他諸如預測蛋白質摺疊的深度學習應用一樣,為科學傢們探索和解釋更加廣泛的領域來帶瞭一種新的方法。
此外,「神諭」也能讓研究人員齣於製藥目的控製細胞,這包括最新的治療癌癥和自身免疫失調的疾病。
麻省理工學院的生物學博士,同時也是哈佛大學和麻省理工學院博德研究所的核心成員的Aviv Regev說:「現在,我們有一個『神諭』,我們可以嚮它請教很多問題,比如,如果我們把序列裏所有的突變全部嘗試一遍會怎樣、或是我們應該設計齣什麼樣的新序列纔能得到我們想要的基因錶達。」
她錶示,科學傢們現在可以使用模型來解決各自的生物進化課題,和為瞭預期的基因錶達設計基因序列的相關問題等等。
愛丁堡大學醫學研究委員會人類遺傳學部門的教授Martin Taylor錶示,該研究充分說明瞭,人工智能不僅可以預測非編碼DNA的變化,還能揭示數百萬年生物進化的底層邏輯。
研究的局限性
盡管如此,在蘇黎世大學從事進化生物學和環境研究的Andreas Wagner錶示,「神諭」也有其明顯的局限性。
其一,研究人員隻改變瞭啓動子--隻是可能影響基因錶達的幾種類型的序列中的一種。它沒有考慮到周圍DNA變化的影響,包括可能影響基因錶達的蛋白質編碼區的變化。
其二,它是為酵母而開發的,在酵母中,基因調控的復雜性遠低於人類。例如,酵母的調控DNA通常位於被調控基因的幾百個堿基對內,而動物的調控DNA可能位於數百萬個堿基對之外。因此,目前還不清楚這個方法是否能擴展到更復雜的基因調控。
最後,就像神話中的神諭一樣,這個模型可以進行預測但無法解釋。
它沒有告訴我們為什麼一個啓動子有高錶達或低錶達,哪些轉錄因子在啓動子上結閤,或者它們如何相互作用。
換句話說,它在闡明基因錶達的調控邏輯方麵作用不是很大。
不過,我們依然可以保持謹慎的樂觀。
盡管用於訓練的3000萬個序列隻是DNA的4個核苷酸可能形成的所有4^80種序列的一小部分(約2×10^-41),但該方法還是非常成功的。
由此也可以推斷齣,即便是在序列空間進行稀疏采樣,也大概率不會成為模型的障礙。
作者介紹
麻省理工學院的博士生Eeshit Dhaval Vaishnav是這項研究的第一作者。
他共發錶過8篇頂刊論文。分彆是「Nature」3篇,子刊「Nature Medicine」、「Nature Biotechnology」、「Nature Communications」各1篇,以及「Cell」1篇。
此前在印度理工學院獲得計算機科學與工程和生物科學與生物工程雙學位。
英屬哥倫比亞大學生物醫學工程學院助理教授Carl de Boer博士是共同一作。
他於2008獲得滑鐵盧大學計算機科學和生物信息學學士學位,並於2014年獲得多倫多大學分子遺傳學博士學位,此後便一直從事博士後研究。2020年進入英屬哥倫比亞大學成為助理教授。
麻省理工學院的生物學教授Aviv Regev博士是這項研究的資深研究員。
她分彆於1997年和2003年在特拉維夫大學獲得碩士和博士學位,是麻省理工學院和哈佛大學Broad研究所的核心成員以及麻省理工學院生物係的教授,也是Genentech Research和Early Development的負責人。曾與Sarah Teichmann一起創立並領導瞭人類細胞圖譜項目。
她的研究方嚮是生物網絡、基因調控和進化。工作重點是剖析復雜的分子網絡,以確定它們在麵對遺傳和環境變化時,以及在分化、進化和疾病期間是如何運作和演變的。
參考資料:
https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311