發表日期 5/13/2022, 8:39:10 PM
眾所周知,癌細胞中會積纍大量在正常細胞中沒有的體細胞變異,正是這些變異導緻瞭癌癥的發生,但其中隻有少部分屬於緻癌的驅動變異[1]。
一直以來,科學傢們對癌基因組中的驅動體細胞變異的解讀都集中於編碼區,發現瞭許多可成藥靶點[2],但 很少有研究關注占據瞭基因組98%的非編碼區中的體細胞變異,限製因素一方麵是大量的腫瘤測序數據都是全外顯子測序,另一方麵則是沒有閤適的統計學算法來檢測非編碼區體細胞變異 [3]。
近日,來自哈佛醫學院的Eliezer M. Van Allen團隊在《科學》期刊上發錶重要研究成果。 他們開發瞭一套可以在全基因組範圍檢測體細胞變異的方法,並且將其應用於包含19種癌型3949例患者隊列的全基因組測序數據中,建立瞭一個泛癌體細胞全基因組突變譜 [4]。
對於編碼區的體細胞變異一般通過相應蛋白質氨基酸序列的變化就可以初步得到其對於基因錶達的影響,但非編碼區變異的解讀則要復雜的多,因為基因組非編碼區包括瞭從活性調控元件到封閉的異染色質等多種具有不同功能的區域[5]。而且已有研究證明非編碼區不同元件上的突變能影響不同的生物學過程[6]。
並且在非編碼區定義突變事件 (在突變率、突變位點明顯不同於其他突變的變異集閤) 也比編碼區睏難 ,以往應用於編碼區的方法可以通過將同義變異作為背景參考,從而得齣哪些變異是與疾病有顯著關聯的,而非編碼區沒有所謂的同義變異[7]。
為此,Eliezer M. Van Allen團隊設計瞭一套統計檢驗方法用於癌細胞全基因組體細胞變異的發現和分類。他們首先將基因組以三種不同區間長度分成瞭三組片段集閤,分彆是1kb、10kb以及100kb。隨後在每一個集閤中都應用瞭三個有著不同目的的統計學檢驗,分彆是:
1) 比較每一個片段上一個特定基因組區域內觀察到的體細胞突變數量與基於錶觀組學得到的理論突變數量,以此確定哪些基因組區域突變率明顯升高,這裏研究人員還考慮瞭異染色質和常染色質之間本身突變率的差異。
2) 比較不同癌型之間在同一個基因組區域上突變數量的差異,從而得到不同癌型在體細胞突變率上的異質性。
3) 檢查在一些特定位點上是否更容易發生突變,即突變位點是否有聚類傾嚮,這可以幫助對體細胞變異進行分類。
然後研究人員對上述統計檢驗的顯著結果進行校正閤並,即得到瞭關於所有基因組區域的突變率、癌型之間突變率異質性以及變異富集位點的綜閤性數據。
最後他們還根據有顯著性結果的變異所處的基因組位置將它們分成瞭四大類:編碼區變異、調控區變異、組織特異性基因相關變異 (下文稱為組織特異性變異) 以及不符閤質控和前麵三種類型條件的其他變異 。
研究設計的統計學檢驗方法以及後續整閤方法
再來說說Eliezer M. Van Allen團隊用到的數據,所有的癌癥患者全基因組測序數據來源於PCAWG(Pan-Cancer Analysis of Whole Genomes)[6]和HMF(Hartwig Medical Foundation)[8], 一共包含19種癌型3949例患者,同時他們通過將腫瘤樣本與正常樣本的測序數據進行比較一共發現瞭約6120000個體細胞變異。
隨後研究人員應用前麵提到的那套方法對6120000個體細胞變異進行瞭分析,將這些變異根據統計檢驗結果分成瞭許多的突變事件,每一個突變事件是由多個在突變模式有彆於其他變異的變異組成。
接著依據前述的四大類分類方式,研究人員一共發現每個大類中突變事件的數量分彆為: 編碼區142個(平均每種癌癥7.5個)、調控區73個(平均每種癌癥3.8個)、組織特異性70個(平均每種癌癥3.7個)、其他87個(平均每種癌癥4.6個) 。
所有突變事件在基因組以及不同癌型中的分布,其中突變事件以靠最近的基因錶示
在編碼區中,93%(132/142)的突變事件是與經典癌癥基因有關的 ,並且有96.5%(137/142)的突變事件能與兩種在癌癥驅動基因識彆中應用廣泛的方法(MutSigCV和dNdScv)得齣的結果相匹配,這錶明Eliezer M. Van Allen團隊設計的統計學方法是比較可靠的。
並且由於編碼區和非編碼區用的是同一種方法,因此研究人員認為非編碼區的結果也是可靠的。他們發現 調控區突變事件富集於經典癌癥基因(p
考慮到調控區變異對基因錶達的調控作用,因此這其中很可能存在著驅動突變,例如在膀胱癌、腦癌、頭頸癌、腎癌、肝癌、以及甲狀腺癌中發現的位於TERT啓動子上的突變被認為是驅動突變,因為TERT參與端粒調控。
然而與編碼區和調控區不同的是,組織特異性突變事件則基本上與癌癥基因無關 ,研究人員發現這些突變事件相關的基因大部分是起到維持正常組織特定生理功能的基因, 例如KLK3,這是一個前列腺特異錶達的基因,稱為前列腺特異性抗原,是前列腺癌變的標誌物。
至於屬於其他這一類的突變事件,其中許多都是功能尚不明確的。例如研究人員在乳腺癌、膀胱癌、食管癌、腎癌以及肝癌中的NEAT1和NEAT2附近發現的突變事件,他們覺得可能具有調控這兩個基因的功能,但是PCAWG中認為這些變異可能隻是轉錄相關突變過程産生的,甚至有其他的研究認為這些變異是與腫瘤信號通路有關。
四類突變事件在癌癥基因上的富集情況
為瞭進一步證明所識彆的突變事件的可信度,研究人員又接著做瞭關於所有突變事件的係統性分析。
他們結閤染色質三維結構以及錶觀組學數據,發現突變事件富集於(i)存在於腫瘤組織但在正常組織中不存在的ATAC-seq信號峰;(ii)與最近基因錶達有關的ATAC-seq信號峰;(iii)與基因錶達成負相關的甲基化標記;(iv)GWAS信號。
但是如果將突變事件的探查區域限定在這些信號附近,那麼便會丟失掉許多原本可以被檢測到的突變事件,甚至包括一些和癌癥基因相關的突變事件也會丟失。這在一定程度上證明 全基因組範圍的檢測方法是可以探查到更多可靠的突變事件的 。
證明可靠性的另一種更直接的辦法就是和前人的研究結果對比,研究人員發現他們檢測到的位於調控區和組織特異性基因附近的突變事件和已有研究結果是重閤的(p
但值得一提的是,這項研究的方法在不同癌型之間的錶現有著較大的差異,這取決於樣本量和癌癥本身的背景突變率,這些因素會影響統計學方法的統計力。同時研究人員認為最主要的因素仍然是WGS數據量明顯不足(與癌癥WES數據相比),因此可能還有一些非編碼區突變事件沒有被發現。
然後研究人員開始對兩種非編碼區突變事件――調控區突變事件和組織特異性突變事件進行深入的特徵分析。
首先是組織特異性突變事件,研究人員發現這些突變事件中插入和刪除變異(indel)的比例更高,並且這些indel變異比基因組其他區域的indel更長,還傾嚮於齣現在富含A/T的序列環境中,同時它們的突變率與相關基因的錶達量成正相關,而在基因組的其他區域是負相關。
與基因組其他區域的突變事件相比,組織特異性基因附近的突變事件indel變異比例更高(左);其中的indel變異長度更長(右)
組織特異性突變事件也並不會齣現在所有組織特異性基因附近,大部分癌癥的發病組織都有超過100個組織特異性基因,但卻隻有5個甚至更少的組織特異性突變事 件,而且不同癌型之間也有著很大的差異。
前文提到齣現組織特異性突變事件的基因大都不是癌癥相關基因,而是一些與特定組織生理功能有關的基因,通過結閤其他研究的單細胞錶達數據,研究人員發現 這些組織特異性基因在同一組織內部不同類型細胞之間存在差異錶達,利用這一點可以對腫瘤細胞的來源進行溯源。
利用單細胞錶達數據可以發現肝髒中組織特異性基因在肝細胞和內皮細胞中存在差異錶達
比如研究人員發現在腎髒中,所有組織特異性突變事件相關的基因都在腎小管細胞中錶達,而帶有這些基因的組織特異性突變事件的透明細胞乳頭狀腎細胞癌就是來源於腎小管細胞,這可能有助於癌癥診斷。
接下來研究人員分析瞭調控區突變事件對轉錄因子結閤、基因錶達、基因互作、患者預後的影響。
他們結閤JASPAR數據庫發現 有15.1%(11/73)的調控區突變事件造成瞭轉錄因子結閤motif的改變 ,其中81.8%(9/11)的突變事件位於TERT啓動子區域的ELK4結閤motif(造成結閤位點多齣一個)以及BTG3和STAG1(兩個基因都具有抑製惡性增殖功能)啓動子區域的EGR1結閤motif(移除瞭結閤位點)。
由於分析調控區變異對基因錶達的影響需要一個腫瘤樣本同時有RNA和DNA的數據,因此研究人員隻評估瞭12種癌型中調控區變異對基因錶達的影響。鑒於拷貝數變異、甲基化等也會影響基因錶達,在去除這些因素的乾擾之後,研究人員一共發現7個調控區突變事件會使得攜帶和不攜帶的患者的基因錶達量存在差異。
許多調控區突變事件所關聯的基因是和癌癥驅動基因有直接直接物理互作關係的,錶明它們可能涉及相同的生物學通路。這在患者的生存分析中也有所體現, 研究人員比較瞭攜帶和不攜帶調控區突變事件的患者的生存期差異,發現瞭許多的差異信號 ,例如甲狀腺癌和腦癌中TERT相關的調控區變異(p=0.00003)、腎癌中ARRDC3相關的調控區變異(p=0.04)。
最後,由於許多的調控區變異並不位於像啓動子這樣的經典調控區,於是研究人員便想知道這些變異是否會對離它們最近的基因的錶達量造成影響,但由於缺乏相匹配的錶達數據,他們設計瞭兩個實驗來驗證。
他們選定XBP1作為例子,這是一個和乳腺癌有關的基因,有研究報道XBP1參與雌激素受體信號轉導[10,11],而研究人員在他們的數據中發現XBP1附近的變異並不位於啓動子上。並且與雌激素受體陰性的乳腺癌樣本相比,陽性樣本中XBP1附近的ATAC-seq信號更多,這錶明在雌激素受體陽性乳腺癌中,XBP1附近的調控區有較強活性。
因此,研究人員利用CRISPR和流式細胞以及熒光雜交技術,設計瞭2923條sgRNA,在乳腺癌細胞中發現瞭5個XBP1附近的調控區,其中4個位於XBP1上遊,1個位於XBP1下遊,這錶明 一些具有調控作用的變異是有可能齣現在經典調控區之外的。
利用CRISPR發現瞭XBP1附近有5個調控區
接著他們將XBP1附近10個變異周圍193bp的序列剋隆轉導進質粒中,然後在乳腺癌細胞中利用熒光素酶報告實驗檢測這些變異對基因錶達的影響。與轉導瞭不攜帶突變序列的細胞相比,有5個變異顯著增加瞭熒光素酶的活性(p
這個結果與PCAWG和CCLE兩個研究中的結果是一緻的,錶明XBP1附近的調控區變異能增加XBP1的錶達量。
這項研究設計瞭一套可用於全基因組範圍突變事件檢測的統計學方法,實現瞭在非編碼區定義突變事件,剋服瞭以往由於非編碼區復雜的元件組成的睏難,並且利用包括19種癌型3949例患者的WGS數據建立瞭一個泛癌全基因組體細胞突變事件目錄。
參考資料:
[1] Stratton MR, Campbell PJ, Futreal PA. The cancer genome. Nature. 2009;458(7239):719-724. doi:10.1038/nature07943
[2] Bailey MH, Tokheim C, Porta-Pardo E, et al. Comprehensive Characterization of Cancer Driver Genes and Mutations [published correction appears in Cell. 2018 Aug 9;174(4):1034-1035]. Cell. 2018;173(2):371-385.e18. doi:10.1016/j.cell.2018.02.060
[4] Dietlein F, Wang AB, Fagre C, et al. Genome-wide analysis of somatic noncoding mutation patterns in cancer. Science. 2022;376(6589):eabg5601. doi:10.1126/science.abg5601
[5] Bernstein BE, Stamatoyannopoulos JA, Costello JF, et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat Biotechnol. 2010;28(10):1045-1048. doi:10.1038/nbt1010-1045
[7] Lawrence MS, Stojanov P, Polak P, et al. Mutational heterogeneity in cancer and the search for new cancer-associated genes. Nature. 2013;499(7457):214-218. doi:10.1038/nature12213
[9] Imielinski M, Guo G, Meyerson M. Insertions and Deletions Target Lineage-Defining Genes in Human Cancers. Cell. 2017;168(3):460-472.e14. doi:10.1016/j.cell.2016.12.025
[10] Chen S, Chen J, Hua X, et al. The emerging role of XBP1 in cancer. Biomed Pharmacother. 2020;127:110069. doi:10.1016/j.biopha.2020.110069
[11] Sengupta S, Sharma CG, Jordan VC. Estrogen regulation of X-box binding protein-1 and its role in estrogen induced growth of breast and endometrial cancer cells. Horm Mol Biol Clin Investig. 2010;2(2):235-243. doi:10.1515/HMBCI.2010.025
責任編輯丨代絲雨