從人類基因組草圖到完全圖譜——論基因組重復(fù)片段研究
作者:李東衛(wèi),張玉波
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)基因組研究所,“嶺南現(xiàn)代農(nóng)業(yè)”廣東省實(shí)驗(yàn)室,深圳 518120)
2001年發(fā)表的人類基因組草圖并沒有包含全部的基因組序列,直到二十年后,科學(xué)家們才正式宣布完成了人類全序列基因組圖譜,這其中主要的技術(shù)障礙就是重復(fù)片段的測(cè)序工作。
重復(fù)片段(segmental duplications,SDs)是指廣泛存在于基因組中的大于1 kb且序列相似性超過90%以上的大片段。它們可以通過基因組重排及拷貝數(shù)變異產(chǎn)生新基因和驅(qū)動(dòng)進(jìn)化,其大量存在于子端粒中,并與哺乳動(dòng)物細(xì)胞復(fù)制性衰老以及癌癥等重要生物學(xué)過程密切相關(guān),一直以來備受科學(xué)家關(guān)注。但是其序列特點(diǎn)使得常規(guī)的測(cè)序技術(shù)難以完全準(zhǔn)確測(cè)出全部序列,是基因組組裝工作的一個(gè)難點(diǎn)。
人類基因組全圖譜的完成將重復(fù)片段在生物體進(jìn)化、延緩衰老、疾病治療等方面的研究提供基礎(chǔ)。本文將就重復(fù)片段的重要性,研究的技術(shù)難點(diǎn),研究現(xiàn)狀以及未來展望等方面展開論述。
重復(fù)片段的重要性
重復(fù)片段是基因組中序列高度相同的大片段,具有廣泛的結(jié)構(gòu)多樣性。它們占人類參考基因組(T2T-CHM13)中的7.0%,長度為218 Mbp[2 ],在中心體及子端粒區(qū)域富集高達(dá)10倍。
中心體所包含的5個(gè)典型重復(fù)為:α衛(wèi)星,β衛(wèi)星,CER衛(wèi)星,γ衛(wèi)星,CAGGG重復(fù),以及重復(fù)子4。子端粒所包含的典型重復(fù)為:端粒相關(guān)重復(fù)(TAR)以及傳統(tǒng)的(TTAGGG)n重復(fù)[4 ]。
重復(fù)片段可以介導(dǎo)染色體重排,使常染色體和異染色體之間通過同源重組產(chǎn)生鑲嵌類型的重復(fù)的染色質(zhì)[5 ]。在最近新鑒定的人類重復(fù)片段中,Mitchell R等預(yù)測(cè)了182個(gè)新的候選蛋白編碼基因,并使用T2T-CHM13基因組重構(gòu)了重復(fù)基因(TBC1D3,SRGAP2C,ARHGAP11B),這些基因在人額皮質(zhì)增生中具有重要作用,揭示了重復(fù)片段結(jié)構(gòu)在人和他們近親物種之間的巨大進(jìn)化差異[6 ]。大量的染色體子端粒區(qū)含有重復(fù)片段[8 ]。復(fù)制性衰老被認(rèn)為是一種抗癌機(jī)制,限制細(xì)胞增殖。長壽的有機(jī)體經(jīng)歷更多的細(xì)胞分裂,因此具有更高的產(chǎn)生腫瘤的風(fēng)險(xiǎn)。端粒酶能夠增加端粒的長度,促進(jìn)癌細(xì)胞不斷增殖,因此長壽動(dòng)物體細(xì)胞傾向于抑制端粒酶的活性,從而抑制腫瘤發(fā)生的風(fēng)險(xiǎn)[10 ]
研究難點(diǎn):大片段長度、多拷貝數(shù)、序列高度相似 ?
重復(fù)片段的大的片段長度,多拷貝數(shù)以及序列的高度相似是長期以來其研究的難點(diǎn)。各種測(cè)序技術(shù)的發(fā)展致力于解決這個(gè)問題。
重復(fù)片段長度范圍是1到400 kb [12 ]。而且,標(biāo)準(zhǔn)的長讀段校正工具,例如MUMmer 或Minimap2不能夠有效的捕捉低相似的重復(fù)片段,也經(jīng)常將重復(fù)片段與其它調(diào)控元件混淆[14 ],為重復(fù)片段的研究帶來機(jī)遇。尤其是PacBio的HiFi讀段,具有長讀段的同時(shí)還具有較高的準(zhǔn)確度。但是,很多重復(fù)片段的長度要比HiFi讀段的平均長度要長,因此很難完全準(zhǔn)確的進(jìn)行組裝[3 ]。染色體重排,尤其是染色質(zhì)斷裂常發(fā)生在高GC區(qū)域[16 ]。同時(shí),在T2T-CHM13基因組基礎(chǔ)上,Mitchell R等首次進(jìn)行了全基因組重復(fù)片段的研究。與當(dāng)前人類參考基因組(GRCh38)鑒定的167 Mbp復(fù)制片段相比,鑒定了更多的(218 Mbp)非冗余重復(fù)片段(圖2 a, b)。新發(fā)現(xiàn)91%的重復(fù)片段能更好地代表人的拷貝數(shù),通過與非人靈長類基因組相比,前所未有的揭示了人類和其它近親在重復(fù)片段結(jié)構(gòu)中的雜合性以及廣泛的進(jìn)化差異[17 ]。
圖2 T2T-CHM13中新鑒定的染色體內(nèi)(a)與染色間(b)的重復(fù)片段[1 ]。
利用重復(fù)片段解析衰老機(jī)制未來可期
新組裝的T2T-CHM13的拷貝數(shù)比GRCh38高9倍,因此它能更好的呈現(xiàn)人類拷貝數(shù)變異。通過鑒定新基因的拷貝數(shù)變異,可篩選相應(yīng)的藥物治療靶點(diǎn)。
例如,CHM13鑒定到LPA、MUC3A、FCGR2基因的拷貝數(shù)變異與疾病相關(guān)[1]。此外,對(duì)于尚具爭議的疾病標(biāo)志基因,例如乳腺癌中ESR1 基因[18],可以通過CHM13對(duì)其進(jìn)行分子進(jìn)化分析,進(jìn)而鑒定其突變和擴(kuò)增,確定其在乳腺癌中的作用。
盡管端粒作為抗衰老靶標(biāo)已研究多年,但是端粒長短變化與復(fù)制性衰老的關(guān)系仍不清楚。細(xì)胞減數(shù)分裂過程中端粒變短的機(jī)制是什么?重復(fù)片段拷貝數(shù)變異與端粒變短有無相關(guān)性?很多研究已證明端粒酶具有延長端粒長度的作用,具體的機(jī)制是什么?這些問題因此前端粒不能被準(zhǔn)確測(cè)序而長期未解決。
現(xiàn)在,人類基因組完全圖譜已基本實(shí)現(xiàn),相信這些謎團(tuán)會(huì)很快解開。未來可以根據(jù)人類年齡增長過程中端粒重復(fù)片段的拷貝數(shù)變異,解析其抗衰老的機(jī)制。通過人為干預(yù)其拷貝數(shù),可能用于探索生命的極限。
1.????Vollger MR, Guitart X, Dishuck PC, Mercuri L, Harvey WT, Gershman A, Diekhans M, Sulovari A, Munson KM, Lewis AM et al.Segmental duplications and their variation in a complete human genome. bioRxiv.2021:2021.2005.2026.445678.
2.????Prodanov T, Bansal V.Sensitive alignment using paralogous sequence variants improves long-read mapping and variant calling in segmental duplications. Nucleic Acids Research.2020; 48(19).
3.????Bailey JA, Yavor AM, Massa HF, Trask BJ, Eichler EE.Segmental duplications: Organization and impact within the current Human Genome Project assembly. Genome research.2001; 11(6):1005-1017.
4.????Courseaux A, Richard F, Grosgeorge J, Ortola C, Viale A, Turc-Carel C, Dutrillaux B, Gaudray P, Nahon JL.Segmental duplications in euchromatic regions of human chromosome 5: a source of evolutionary instability and transcriptional innovation. Genome research.2003; 13(3):369-381.
5.????Giannuzzi G, Pazienza M, Huddleston J, Antonacci F, Malig M, Vives L, Eichler EE, Ventura M.Hominoid fission of chromosome 14/15 and the role of segmental duplications. Genome research.2013; 23(11):1763-1773.
6.????Young E, Abid HZ, Kwok PY, Riethman H, Xiao M.Comprehensive Analysis of Human Subtelomeres by Whole Genome Mapping. PLoS genetics.2020; 16(1):e1008347.
7.????Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W et al.Initial sequencing and analysis of the human genome. Nature.2001; 409(6822):860-921.
8.????Seluanov A, Chen ZX, Hine C, Sasahara THC, Ribeiro AACM, Catania KC, Presgraves DC, Gorbunova V.Telomerase activity coevolves with body mass not lifespan. Aging Cell.2007; 6(1):45-52.
9.????Bromham L.The genome as a life-history character: why rate of molecular evolution varies between mammal species. Philos T R Soc B.2011; 366(1577):2503-2513.
10.????Shay JW.Role of Telomeres and Telomerase in Aging and Cancer. Cancer discovery.2016; 6(6):584-593.
11.????Sharp AJ, Locke DP, McGrath SD, Cheng Z, Bailey JA, Vallente RU, Pertz LM, Clark RA, Schwartz S, Segraves R et al.Segmental duplications and copy-number variation in the human genome. American journal of human genetics.2005; 77(1):78-88.
12.????Hartasanchez DA, Braso-Vives M, Heredia-Genestar JM, Pybus M, Navarro A.Effect of Collapsed Duplications on Diversity Estimates: What to Expect. Genome Biol Evol.2018; 10(11):2899-2905.
13.????Numanagic I, Gokkaya AS, Zhang L, Berger B, Alkan C, Hach F.Fast characterization of segmental duplications in genome assemblies. Bioinformatics.2018; 34(17):i706-i714.
14.????Vollger MR, Dishuck PC, Sorensen M, Welch AE, Dang V, Dougherty ML, Graves-Lindsay TA, Wilson RK, Chaisson MJP, Eichler EE.Long-read sequence and assembly of segmental duplications. Nature methods.2019; 16(1):88-94.
15.????Rhie A, McCarthy SA, Fedrigo O, Damas J, Formenti G, Koren S, Uliano-Silva M, Chow W, Fungtammasan A, Kim J et al.Towards complete and error-free genome assemblies of all vertebrate species. Nature.2021; 592(7856):737-+.
16.????Nurk S, Koren S, Rhie A, Rautiainen M, Bzikadze AV, Mikheenko A, Vollger MR, Altemose N, Uralsky L, Gershman A et al.The complete sequence of a human genome. bioRxiv.2021:2021.2005.2026.445798.
17.????Zhu Y, Liu X, Ding X, Wang F, Geng X.Telomere and its role in the aging pathways: telomere shortening, cell senescence and mitochondria dysfunction. Biogerontology.2019; 20(1):1-16.
18.????Tabarestani S, Motallebi M, Akbari ME.Are Estrogen Receptor Genomic Aberrations Predictive of Hormone Therapy Response in Breast Cancer? Iranian journal of cancer prevention.2016; 9(4):e6565.