Science | 重组装拟南芥高质量基因组序列,解析着丝粒的组成和进化机制

2021-11-28 23:25:53 BioArt植物

撰文 | LX

责编 | 王一

虽然模式植物拟南芥在2000年已完成基因组测序,但着丝粒 (centromere) ,端粒 (telomere) 以及核糖体DNA等区域的序列一直没有组装完成,因为这些区域存在大量多拷贝,高度相似的重复序列,给序列拼接带来极大的困难 【1】 。拟南芥着丝粒存在数百万个碱基组成的卫星重复序列,其中单个卫星重复序列包含180个左右的碱基,因此这些重复序列被称为CEN180【2】 。CEN180可招募着丝粒特异的组蛋白H3变体CENH3,包含CEN180和CENH3的核小体可在其他蛋白的辅助下组装成动粒 【3】 。细胞分裂时,动粒与纺锤丝微管相互结合,在纺锤丝的牵引下,实现染色体的分离。由于高度重复序列拼接的挑战,人们对于着丝粒区域具体序列特征,以及表观修饰特点知之甚少,对于不同物种间着丝粒结构演化的内在机制更是一片空白。

近年来随着Oxford Nanopore Technologies (ONT) ,PacBio high-fidelity (HiFi) 等读长增加,准确度提升的测序技术的发展,再加上最先进的计算机算法,促进了高重复序列的拼接,并成功组装了人的着丝粒序列 【4】 。近期,英国剑桥大学Ian R. Henderson团队重新组装了Columbia生态型拟南芥的基因组序列,该基因组成功地解析了拟南芥五个着丝粒的DNA序列,拓宽了人们对于着丝粒的组成和进化机制的理解。相关结果以The genetic and epigenetic landscape of the Arabidopsis centromeres为题发表于SCIENCE杂志。

利用ONT及HiFi技术,研究者重新组装了拟南芥Col-0的基因组,命名为Col-CEN v1.2。相比于TAIR10基因组,Col-CEN中五条染色体的着丝粒序列被完整的组装 (图1) ,其中1号、3号和5号染色体被从端粒到端粒完整的拼接,2号和4号染色体基本也拼接完整,除了短臂上富含45S核糖体DNA和邻近的端粒区域。利用Col-CEN基因组,研究者重头检索了着丝粒CEN180序列,共鉴定到了66,131个 CEN180卫星序列,单条染色体上的CEN180数目从11,848到15,613个不等。不同染色体上的CEN180序列存在明显的特异性,不同染色体间仅有0.3%的CEN180序列上是完全相同的,而同一染色体内57.1% 到69.0%的CEN180都具有多个拷贝,说明染色体内的CEN180序列存在均质化的趋势。从全基因组水平来看,序列变异幅度越小的CEN180上CENH3越富集,CENH3的富集程度与CEN180序列变异幅度之间呈现明显的负相关性。同时拷贝数越多的CEN180对于CENH3的富集也越明显,但5号染色体的着丝粒有些特殊,其显著富集CENH3的CEN180序列的重复数目,只有其他着丝粒的12%-22%。

图1:着丝粒序列的组装

除了CEN180拷贝数目的降低,5号染色体着丝粒的CEN180序列的间隔区域还存在许多ATHILA逆转录转座子。相比于CEN180,ATHILA序列上CENH3的富集程度较低,但H3K9me2修饰以及DNA的CHG甲基化程度较高。并且越靠近ATHILA,CEN180序列的变异程度越高,表明着丝粒区域ATHILA的入侵促进了CEN180序列的变异,影响了染色体内CEN180序列的均质化过程。

不同于染色体臂上AT含量较高,着丝粒区域的CG含量偏高。基因密度越靠近着丝粒越低,转座子密度则是先升高,然后伴随着CEN180的增加,在着丝粒中心有一个降低的趋势。H3K4me3修饰在着丝粒区域含量降低,H3K9me2则相反。但随着CENH3含量的升高,相比于近着丝粒区域,着丝粒的H3K9me2水平会有轻微下降,H3K4me3则会轻微升高 (图2) 。着丝粒区域DNA被高度甲基化,与CG甲基化不同,non-CG甲基化在着丝粒中心有轻微的降低,与H3K9me2变化类似 (图2) ,说明在着丝粒区域CENH3对H3的替换导致了non-CG甲基化修饰水平的降低。通过遗传分析,研究者意外的发现着丝粒区域的non-CG甲基化依赖于CG甲基化。相比于着丝粒邻近区域,着丝粒上常染色质修饰增加,异染色质修饰相对降低。说明着丝粒与邻近区域共同组成了一个混合的染色质状态。

图2:拟南芥着丝粒的表观修饰特征

减数分裂重组导致的染色体交换或者基因转换被认为可以促进着丝粒的进化,虽然在着丝粒区域同源染色体交换被抑制,但研究者在着丝粒区域检测到了减数分裂DNA双链断裂的产生,说明该区域减数分裂重组可以起始,提供了重组促进着丝粒进化的证据。

综上所述,利用拟南芥Col-CEN基因组,研究者发现同一染色体着丝粒上的CEN180序列存在均质化的趋势,而ATHILA逆转录转座子的入侵则破坏了CEN180序列的遗传学和表观遗传学结构,促进CEN180序列的多样化,均质化和多样化两股力量共同推动了拟南芥着丝粒的进化。

参考文献:

[1] Arabidopsis Genome Initiative, Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 408, 796–815 (2000)

[2] G. P. Copenhaver et al., Genetic definition and sequence analysis of Arabidopsis centromeres. Science 286, 2468–2474 (1999)

[3] K. L. McKinley, I. M. Cheeseman, The molecular basis for centromere identity and function. Nat. Rev. Mol. Cell Biol. 17, 16–29 (2016)

[4] K. H. Miga et al., Telomere-to-telomere assembly of a complete human X chromosome. Nature 585, 79–84 (2020).

论文链接:

https://www.science.org/doi/10.1126/science.abi7489

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐