發表日期 4/1/2022, 11:36:31 AM
研究完整人類基因組的DNA堿基,以字母A、T、C和G為代錶(來源:NHGRI)
曆時22年,研究人員終於從頭到尾破譯瞭完整的人類基因組序列。
鈦媒體App 4月1日消息, 據科技日報,全球頂級期刊《Science》(科學)雜誌今天淩晨連發6篇論文報告,公布瞭人類基因組測序的最新進展:國傢人類基因組研究中心(NHGRI)組成的端粒到端粒 (T2T) 聯盟科學團隊,通過新的技術研究齣全球第一個完整的、無間隙的人類基因組序列,首次揭示瞭高度相同的節段重復基因組區域及其在人類基因組中的變異。
這是對標準人類參考基因組,即2013年發布的參考基因組序列(GRCh38)的 “重大升級”,增加瞭之前整條染色體上隱藏的DNA片段,破譯瞭缺失的大約2億個DNA堿基 對以及2000多個新基因 ――占人類基因組的8%。
這篇研究成果意義重大。科研人員揭示的完整人類基因組序列,是世界上最復雜的謎題之一,這一研究使得人類第一次看到最完整的、無間隙的DNA堿基基因序列,對於人類瞭解基因組變異的全譜,以及某些疾病的遺傳貢獻至關重要,將會推動與癌癥、齣生缺陷和衰老相關的研究與科學發展。
同時,這也是《Science》創刊141年來,首次在同一期雜誌中連發6篇論文揭示人類基因組研究。
本論文作者,聖路易斯華盛頓大學醫學院遺傳學傢Ting Wang(音譯:王庭)錶示,此次擁有完整的基因組,一定會改善生物醫學研究。“毫無疑問,這是一項重要的成就。”
“我們看到瞭以前從未閱讀過的章節,”本論文通訊作者,華盛頓大學霍華德-休斯醫學研究所(HHMI)研究員Evan Eichler(艾希勒)錶示,這是全行業的一件大事。
Science論文封麵圖
研究人員到底破譯瞭什麼?
人類基因組由超過60億個獨立的DNA堿基、大約2-3萬個蛋白質編碼基因(整個基因仍未有統一答案)組成,與黑猩猩等其他靈長類動物的數量差不多,分布在23對染色體上。為瞭讀取數以萬計的基因組,科學傢們首先將所有的DNA鏈切成幾百到幾韆個單位長度的DNA片段。然後用測序機器讀取每個片段中的各個堿基,科學傢們試圖按照正確的順序組裝這些片段,就像拼湊一個復雜的拼圖。
2001年2月12日,由6國科學傢共同參與的國際人類基因組計劃首次公布人類基因組圖譜及初步分析結果;2003年4月15日,公布瞭人類基因組序列草圖。
然而,由於技術限製,當初的人類基因組計劃留下瞭大約8%的“空白”間隙。這部分很難被測序,由高度重復、復雜的DNA塊組成,其中包含功能基因以及位於染色體中間和末端的著絲粒和端粒。
實際上,核心的挑戰在於,基因組的某些區域反復重復相同的堿基。重復的區域包括著絲粒和核糖體DNA等,過去無法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學傢們不知道哪塊碎片在哪裏,因此基因組圖中留下瞭很大的空白。
而且大多數細胞包含兩個基因組--一個來自父親,一個來自母親。當研究人員試圖組裝所有的片段時,來自父母雙方的序列可能混閤在一起,掩蓋瞭個體基因組內的實際變異。
如今,研究人員通過新的納米機器設備與核心技術,實現瞭新的無間隙版本T2T-CHM13,由30.55億個堿基對和19969個蛋白質編碼基因組成。增加瞭近2億個堿基對的新DNA序列,包括99個可能編碼蛋白質的基因和其中近2000個需要進一步研究的候選基因。
這些候選基因大多數是失活的,但其中115個仍然可能錶達。團隊還在人類基因組中發現瞭大約200萬個額外的變異,其中622個齣現在與醫學相關的基因中。此外,新序列還糾正瞭GRCh38中的數韆個結構錯誤。
近端著絲粒染色體的顯示圖樣(來源:論文)
具體而言,新序列填補的空白包括人類5條染色體的整個短臂,並覆蓋瞭基因組中一些最復雜的區域。其中包括在重要的染色體結構中及其周圍發現的高度重復的DNA序列,如染色體末端的端粒和在細胞分裂過程中協調復製染色體分離的著絲粒。
此外,新序列還揭示瞭以前未被發現的節段重復,即在基因組中復製的長DNA片段,並揭示瞭關於著絲粒周圍區域的前所未見的細節。這一區域內的變異性可能為人類祖先如何進化提供新證據。
值得一提的是,本研究成果的關鍵進展,其實是利用瞭新的技術設備――英國牛津納米孔技術公司和太平洋生物科學公司製造的快速迭代的基因測序機器。
早在2017年,國傢人類基因組研究中心(NHGRI)負責人Adam Phillippy(亞當・菲利皮),以及加州大學聖剋魯茲分校(UCSC)的凱倫・米加意識到,新的納米孔機器實現瞭一次準確讀取100萬個DNA堿基的能力,可以為最終解決基因組難點打開瞭大門。
大約在同一時間,華盛頓大學霍華德-休斯醫學研究所(HHMI)Evan Eichler(艾希勒)領導的科研團隊已經證明,使用太平洋生物科學公司的設備技術,可以解決更復雜形式的遺傳變異技術。
因此,三人一起創辦瞭端粒到端粒(T2T)聯盟,利用全球約100名科學傢團隊資源,使其加快瞭研究佳偶。
隨後,該團隊連續六個月不間斷地利用快速迭代的納米孔基因測序機器,並請來幾十位科學傢來組裝這些基因片段並分析結果。最終利用設備、技術等,實現瞭長讀數測序讀數,並將長讀測序與牛津納米孔的數據相結閤,準確率超過瞭99%,填補瞭全球基因學研究的空白。
一直到2020年夏天,該團隊已經拼上瞭兩條染色體。在新冠疫情爆發的期間,團隊通過Slack等通訊工具進行遠程工作,獲得瞭另外21條染色體,將每個染色體從一端或端粒排序到另一端。而且,科研人員人員還試圖組裝基因組中最難的區域,即著絲粒中高度重復的DNA序列。
最終,通過長時間的研究與團隊閤作,該團隊成功實現瞭對每個染色體進行瞭測序,包含瞭編碼用於製造核糖體的RNA的基因的多個拷貝,總共400個。
2021年6月,這份研究成果首次發錶在預印版平台bioRxiv上。經過同行評議等,如今一係列論文登上瞭《Science》(科學)雜誌。
研究人員在會後采訪中錶示,下一階段的研究將對不同人的基因組進行測序,以充分掌握人類基因的多樣性、作用以及人類與近親、其它靈長類動物的關係。
年增速超20%,中國百億基因市場前景廣闊
隨著生物學技術的不斷發展,新的行業層齣不窮,本次研究成果所屬的中國基因測序行業是一個百億級市場,擁有廣闊的發展前景。
根據韆際投行的研究統計數據顯示,早在2019年,基因測序所在的全球生物製品行業市場規模就達到瞭3172億元,未來五年有望達到萬億級彆。其中,2019年中國基因測序行業市場規模約為149億元,年增速超20%。
近年來,基因測序行業得到迅速發展,吸引瞭大量資本和企業的進入。從産業上下遊來看,基因測序産業鏈主要包括瞭上遊儀器、中遊服務提供商以及下遊終端應用三個環節。涉及到的公司包括華大基因、達安基因、藥明康德,以及互聯網巨頭蘋果公司、亞馬遜、榖歌、微軟等。
整個産業看似簡單,但上遊的基因測序儀及配套試劑是整個産業鏈壁壘最高的部分,下遊終端應用還涉及領域覆蓋麵非常廣,既包括醫療領域的人體基因組、人體微生物基因組以及基礎研究領域,還包括非醫療領域的環境治理、石油存儲探測、農牧業配種等。
實際上,早在幾十年前,醫學界就對此有過嘗試,將狒狒的心髒移植給瞭一個罹患先天性心髒病的孩子。如今,通過嵌閤的方式,通過基因編輯的方式,甚至是通過閤成生物學的方式,實現瞭豬心髒在人類身上的移植。
華大集團CEO尹燁曾錶示,其實,今天人類進入瞭生命時代,我們關心的則是自身的基因和健康,以此就將去整閤物理世界、信息世界和生命世界。
在應用場景不斷拓寬,測序能力進一步加強的共同促進作用下,全球基因測序行業市場規模將不斷增長,中國基因行業市場規模雖然與全球頭部企業差距較大,但是在國內市場中仍然占據較大的優勢,未來要想提高國際市場份額,還需進一步加強技術研發,未來發展具有巨大的想象空間。
今天,新的基因組序列研究成果,是科研人員必不可少的第一步,也是實現商業化的重要一步。
Evan Eichler(艾希勒)錶示,“現在我們有瞭一塊羅塞塔石碑(注:一塊製作於公元前196年的花崗閃長岩石碑,解讀齣已經失傳韆餘年的埃及象形文之意義與結構),可以在未來研究數十萬個其他基因組的完整編譯。”
(本文首發鈦媒體App,作者|李佳能,編輯|林誌佳)