發表日期 3/13/2022, 6:08:04 PM
從基因編輯到蛋白質結構測定,再到量子計算,以下七項技術可能會在未來一年對科學産生影響。
01
完整版基因組
當加利福尼亞大學的基因組學研究者Karen Miga和美國國傢人類基因組研究所的Adam Phillippy在2019成立端粒到端粒(Telomere-to-Telomere, T2T)聯盟時,大約1/10的人類基因組仍然未知。現在,這個數字降到瞭零。在2021年5月齣版的一份預印本中,該聯盟報告瞭人類基因組的第一個端粒到端粒序列,為廣泛使用的人類參考基因組序列GRCh38增加瞭近2億個堿基對,並撰寫瞭人類基因組計劃(Human Genome Project)的最後一章。
GRCh38於2013年首次發布,是一個很有價值的工具,也是繪製測序序列的支架。但它充滿瞭漏洞。這在很大程度上是因為Illumina開發的廣泛使用的測序技術可以産生準確但短的讀數。它們的長度不足以清晰地繪製高度重復的基因組序列,包括染色體末端的端粒和在細胞分裂期間協調新復製DNA分配的著絲粒。
事實證明,長讀測序技術是遊戲規則的改變者。這些技術由太平洋生物科學公司和牛津納米孔公司(Oxford Nanopore Technologies, ONT)開發,可以在一次讀取中對數十個甚至數十萬個堿基進行測序。然而,到2020年T2T團隊首次重組單獨的染色體――X染色體和8號染色體時,太平洋生物科學公司的測序已經發展到瞭這樣的程度,T2T科學傢可以在長重復序列中檢測到微小的變異。這些細微的“指紋”使得長重復的染色體片段易於處理,基因組的其餘部分很快就排列成一條直綫。ONT平台還捕獲瞭許多調節基因錶達的DNA修飾,T2T也能夠在全基因組範圍內繪製這些“錶觀遺傳標簽”。
T2T基因組來自一個細胞係,該細胞係包含兩組完全相同的染色體。正常的二倍體人類基因組包含每個染色體的兩個版本,研究人員正在研究“階段化”策略,可以將每個序列分配給適當的染色體拷貝。
這項二倍體組裝工作正在與T2T的閤作夥伴――人類泛基因組參考聯盟(Human Pangenome Reference Consortium)閤作進行,該組織希望根據來自世界各地的數百名捐贈者繪製齣更具代錶性的基因組圖譜。“我們的目標是平均捕獲97%的人類等位基因多樣性。”該聯盟的首席研究員之一、洛剋菲勒大學的遺傳學傢Erich Jarvis說。作為脊椎動物基因組項目(Vertebrate Genomes Project)的主席,Jarvis還希望利用這些完整的基因組組裝能力,為地球上的每一個脊椎動物物種生成完整的序列。
02
蛋白質結構解析
結構決定功能。但這可能很難衡量。在過去兩年裏,重大的實驗和計算進展為研究人員提供瞭補充工具,以前所未有的速度和分辨率確定蛋白質結構。
Alphabet子公司DeepMind開發瞭AlphaFold2結構預測算法,該算法依靠“深度學習”策略從氨基酸序列推斷摺疊蛋白質的形狀。在2020年蛋白質結構預測關鍵評估(Critical Assessment of protein Structure Prediction)競賽中取得決定性勝利後,AlphaFold2的聲譽和采用率飆升。在這場競賽中,計算生物學傢對其結構預測算法進行瞭正麵(head-to-head)測試。資深科學傢、歐洲生物信息學研究所前所長Janet Thornton說:“對於其中一些結構,預測幾乎齣奇地好。”自2021年7月公開發布以來,AlphaFold2已應用於蛋白質組,以確定人類和20種模式生物中錶達的所有蛋白質的結構,以及Swiss-Prot數據庫中近44萬種蛋白質的結構。AlphaFold算法也證明瞭其處理多鏈蛋白質復閤物的能力。
與此同時,冷凍電鏡(cryogenic-electron microscopy, cryo-EM)的改進使研究人員能夠用實驗方法處理最具挑戰性的蛋白質和復閤物。2020年,cryo-EM硬件和軟件的改進使兩個團隊能夠生成分辨率小於1.5 埃的結構,從而捕獲單個原子的位置。紐約結構生物學中心西濛斯電子顯微鏡中心的聯閤主任Bridget Carragher說:“在此之前,我們肆無忌憚地談論‘原子分辨率’這個詞,但它隻是接近原子。”“這確實是原子級的。”Carragher說,盡管兩個研究團隊都使用瞭一種被稱為脫鐵鐵蛋白的模型蛋白質,但這些研究錶明,對於其他更睏難的目標,近原子分辨率也是可行的。
還有一種相關的方法,即冷凍電子斷層攝影術(cryo-electron tomography, cryo-ET),它可以捕捉冷凍細胞薄片中的自然發生的蛋白質行為,這也讓人相當興奮。但是,對這些擁擠、復雜的圖像進行解讀是一項挑戰,Carragher認為機器學習領域的計算技術進步將是至關重要的。
03
量子模擬
原子在適當的條件下可以被誘導進入一個高度激發、超大尺寸的狀態,直徑在一微米(μm)或更大的數量級。通過以受控的方式對數百個原子仔細定位的陣列進行激發,物理學傢已經證明他們可以解決將傳統計算機推嚮極限的具有挑戰性的物理問題。
量子計算機以量子比特的形式處理數據。通過量子物理中的糾纏現象,量子比特可以在一定距離內相互影響。這些量子比特可以極大地提高計算能力,而在經典計算機中,通過給定的量子比特分配(相對於等效的比特數)可以實現這一點。
有幾個小組已經成功地將單個離子用作量子比特,但它們的電荷使它們難以在高密度下組裝。包括法國國傢研究中心的Antoine Browaeys和美國哈佛大學的Mikhail Lukin在內的物理學傢正在探索另一種方法。研究小組使用光鑷在緊密排列的2D和3D陣列中精確定位不帶電的原子,然後應用激光將這些粒子激發成大直徑的“裏德堡原子”,並與它們的鄰居糾纏在一起。“裏德堡原子係統是單獨可控的,它們的相互作用可以打開和關閉。”韓國高級科學技術研究所的物理學傢Jaewook Ahn解釋道。這反過來又賦予瞭可編程性。
這種方法在短短幾年的時間裏獲得瞭相當大的發展勢頭,技術進步提高瞭裏德堡原子陣列的穩定性和性能,並從幾十個量子比特快速擴展到幾百個量子比特。Browaeys估計,這種量子模擬器在一兩年內就可能商用。這項工作可能為量子計算機的更廣泛應用鋪平道路,包括在經濟、物流和加密領域。
04
精準基因組操作
盡管CRISPR-Cas9技術擁有強大的基因組編輯能力,但它更適閤於基因失活而非修復。這是因為,盡管將Cas9酶靶嚮於基因組序列相對精確,但細胞修復由此産生的雙鏈切割並不精確。通過一種稱為非同源末端連接的過程介導,CRISPR-Cas9修復常常因小的插入或刪除而變得混亂。
哈佛大學化學生物學傢David Liu指齣,大多數基因疾病都需要基因修復而不是破壞。Liu與他的團隊已經開發瞭兩種很有希望的方法來實現這一點。兩者都利用瞭CRISPR的精準定位,同時也限製瞭Cas9在該位點切割DNA的能力。第一種被稱為堿基編輯,它將一種催化受損的Cas9與一種酶結閤,這種酶有助於一種核苷酸轉化為另一種核苷酸,例如胞嘧啶轉化為胸腺嘧啶或腺嘌呤轉化為鳥嘌呤。但目前這種方法隻能實現特定的堿基轉化。另一種稱為引導編輯,將Cas9與逆轉錄酶聯係起來,並使用一種經過修改的嚮導RNA,將所需要的編輯整閤到基因組序列中。通過多階段的生化過程,這些成分將嚮導RNA復製到DNA中,最終取代目標基因組序列。重要的是,兩種方法都隻切割一條DNA鏈,這對細胞來說是一個更安全、破壞性更小的過程。
05
靶嚮基因療法
基於核酸的藥物可能會在臨床上産生影響,但它們在組織中的應用仍然受到很大限製。大多數治療需要局部給藥,或從患者體內獲取細胞進行體外操作,然後再將其移植迴患者體內。肝髒是例外,它能夠過濾血液,被證明是選擇性藥物輸送的一個強有力的靶點。在這種情況下,靜脈注射甚至皮下注射都可以完成這項工作。
腺相關病毒是許多基因療法的首選載體,動物研究錶明,仔細選擇閤適的病毒並結閤組織特異性基因啓動子,可以實現局限於特定器官的高效藥物遞送。然而,病毒有時難以大規模生産,並可能引發免疫反應,從而破壞療效或産生不良事件。
脂質納米粒提供瞭一種非病毒替代品,過去幾年發錶的幾項研究強調瞭調節其特異性的潛力。例如,由生物化學傢Daniel Siegwart與他的同事在德剋薩斯大學西南醫學中心開發的選擇性器官靶嚮(selective organ targeting, SORT)方法,能夠快速生成和篩選脂質納米粒,找齣能有效靶嚮組織(如肺和脾髒)細胞的納米粒。
06
空間多組學
單細胞組學發展的激增意味著研究人員現在可以常規地從單個細胞中獲得遺傳學、轉錄組學、錶觀遺傳學和蛋白質組學方麵的見解。但單細胞技術將這些細胞從其原生環境中剝離齣來會丟失關鍵信息。
2016年,瑞典皇傢理工學院的Joakim Lundeberg團隊提齣瞭解決這一問題的策略。該團隊用條形碼寡核苷酸(RNA或DNA短鏈)製備瞭載玻片,這些寡核苷酸可以從完整的組織切片中捕獲信使RNA,這樣每個轉錄本都可以根據其條形碼分配到樣本中的特定位置。
此後,空間轉錄組學領域齣現瞭爆炸性的發展。現在有多種商業係統可用,包括10x Genomics的Visium空間基因錶達平台。研究團隊也在繼續研發新方法,以更好的深度和空間分辨率繪製基因錶達圖譜。例如,耶魯大學的生物醫學工程師Rong Fan開發瞭一個名為DBiT-seq的平台,該平台使用瞭一個微流控係統,可以同時為數韆個mRNA轉錄本和數百個用寡核苷酸標記抗體標記的蛋白質生成條形碼。與僅從轉錄組數據獲得的結果相比,它可以更準確地評估細胞基因錶達如何影響蛋白質的産生和活性。
07
基於CRISPR的診斷
CRISPR-Cas係統精確切割特定核酸序列的能力,源於其作為細菌“免疫係統”抵禦病毒感染的作用。這一聯係啓發瞭該技術的早期使用者考慮該係統對病毒診斷的適用性。
Cas9是基於CRISPR的基因組操作的首選酶,但基於CRISPR的診斷中的許多工作都使用瞭被稱為Cas13的靶嚮RNA分子傢族,該傢族於2016年由分子生物學傢張鋒及其團隊首次發現。“Cas13使用其RNA嚮導通過堿基配對來識彆RNA靶點,並激活核糖核酸酶活性,核糖核酸酶可以通過利用報告RNA作為診斷工具。”2020年諾貝爾化學奬獲得者、加利福尼亞大學的Jennifer Doudna解釋說。這是因為Cas13不僅能切割嚮導RNA所靶嚮的RNA,還能對附近的其他RNA分子進行“旁係切割”。許多基於Cas13的診斷都使用報告RNA,將熒光標記與抑製熒光的猝滅分子相連。當Cas13在識彆病毒RNA後被激活時,它會切斷報告基因並從猝滅劑中釋放熒光標記,産生可檢測的信號。有些病毒會釋放很強的信號,可以在不擴增的情況下檢測到,從而大大簡化瞭即時診斷流程。
參考文獻:Michael Eisenstein. Seven technologies to watch in 2022[J]. Nature,2022,601:658-661.