Science：揭示完整人类基因组中的片段重复及其变异

基因组, 片段重复, 着丝粒

来源：生物谷原创 2022-04-04 16:14

2022年4月4日讯/生物谷BIOON/---较大的、高同一性的重复序列---被称为片段重复（segmental duplication, SD）---通常是基因组中最后被测序和组装的区域。虽然人类参

2022年4月4日讯/生物谷BIOON/---较大的、高同一性的重复序列---被称为片段重复（segmental duplication, SD）---通常是基因组中最后被测序和组装的区域。虽然人类参考基因组为构建SD景观提供了路线图，但是这种基因组中剩余的50%以上的空白对应于复杂的SD区域。

SD是进化基因创新的主要来源，对类人猿物种内部和之间的遗传变异起着不成比例的作用。有了完整的人类基因组：T2T-CHM13，科学家们就有可能识别基因并发现人类的遗传变异模式。

在一项新的研究中，来自端粒到端粒（Telomere-to-Telomere, T2T）联盟的研究人员在T2T-CHM13中发现了51 Mbp（million base pair，百万个碱基对）的额外人类SD，如今估计人类基因组的7%由SD组成，即在总共31亿个碱基对的人类基因组中，SD共有218 Mbp。SD占近端着丝的短臂的三分之二（68.1Mbp中的45.1Mbp），这些SD是人类基因组中最大的（见图中的A部分）。此外，54%的近端着丝SD的拷贝数是可变的，或者在被研究的六个人中映射到不同的染色体上。相关研究结果发表在2022年4月1日的Science期刊上，论文标题为“Segmental duplications and their variation in a complete human genome”。

对目前参考基因组（GRCh38）和T2T-CHM13的SD含量进行详细比较，发现有81Mbp的以前未解决的或结构可变的SD。来自一个由268个人组成的多样性小组的短读全基因组序列数据显示，人类拷贝数与T2T-CHM13相匹配的可能性为与GRCh38匹配的9倍（前者为59.26 Mbp，后者为6.55Mbp），包括119个蛋白编码基因（见图中的B部分）。

利用来自25个人类单倍型的长读测序数据，这些作者调查了人类遗传变异的模式，发现结构和单核苷酸多样性的显著增加。他们确定了基因丰富的区域（比如TBC1D3），这些区域在个体之间的差异达数十万个碱基对和基因拷贝数，显示了一些最高的全基因组结构杂合度（85%至90%）。

更完整的片段重复改善了基因分型。图片来自Science, 2022, doi:10.1126/science.abj6965。

他们的分析确定了182个候选蛋白编码基因以及以前未解决的结构可变基因模型的完整序列。其中包括脂蛋白A（LPA）的完整基因结构，包括扩大的kringle IV重复序列结构域。这个结构域的拷贝数减少是与心血管疾病最强的遗传关联之一，特别是在非洲裔美国人中，对多各人类单倍型的测序不仅发现了拷贝数变异，而且还发现了与疾病风险潜在相关的其他形式的罕见编码变异。

最后，这些作者比较了重复基因（duplicated gene）和独特基因之间的全局甲基化和表达模式。转录不活跃的重复基因更有可能映射到低甲基化的基因组区域；然而，具体到转录起始位点上，他们观察到甲基化的增加，这表明多达三分之二的重复基因是表观遗传沉默的。此外，片段重复的基因在甲基化谱和转录水平之间显示出高度的一致性，使得他们能确定高一致性的基因家族中活跃转录的成员，这些成员根据编码序列是无法识别出来的。

综上所述，完整的人类基因组提供了对重复基因的分布、表达和调节的更全面的理解。这些作者的分析揭示了之前尚未被认识的人类遗传多样性模式，并提出了甲基化和基因调控的特征。这一资源将作为改进基因注释、基因分型和人类基因组中一些最活跃区域的先前未知关联的重要基线。（生物谷 Bioon.com）

参考资料：

Mitchell R. Vollger et al. Segmental duplications and their variation in a complete human genome. Science, 2022, doi:10.1126/science.abj6965.

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->