打开APP

中山眼科中心肖传乐和刘奕志团队开发Nanopore测序数据新校正组装算法,并组装视网膜母细胞瘤的高完整度基因组

  1. 基因组

来源:中山眼科中心 2021-01-15 17:44

   三代测序技术(PacBio和Oxford Nanopore)可解决基因组重复区域的组装难题,提高基因组完整性,已成为发育、再生、肿瘤和其它疾病过程中细胞基因组组装的主流技术。其中,纳米孔(Nanopore)测序技术的迅速发展更使得测序成本显着降低,并且由于其可实现超长读长(高达1Mbp),在复杂基因组组装中具有天然优势。然

 

 

 

三代测序技术(PacBio和Oxford Nanopore)可解决基因组重复区域的组装难题,提高基因组完整性,已成为发育、再生、肿瘤和其它疾病过程中细胞基因组组装的主流技术。其中,纳米孔(Nanopore)测序技术的迅速发展更使得测序成本显着降低,并且由于其可实现超长读长(高达1Mbp),在复杂基因组组装中具有天然优势。然而,目前Nanopore的测序错误分布广泛(10-30%,图1A),存在高错误局部区域(1000bp中存在50%测序错误,图1B),并且高错误局部区域的发生随着测序读长增加而显着增加(图1C),从而导致超长文库数据中20-30%的序列存在高错误区域。现有的错误校正软件只能通过裁剪的方式剔除高错误局部区域,显着降低了Nanopore序列完整性和组装完整性。

我校中山眼科中心肖传乐/刘奕志团队和中南大学王建新团队于2021年1月4日在Nature Communications杂志上联合发表题为“Efficient assembly of Nanopore reads via highly accurate and intact error correction”的研究论文,提出了Nanopore渐进式校正组装模型,开发了相应软件NECAT,应用于组装高完整度的视网膜母细胞瘤基因组,并发现了多个结构变异位点。

研究者提出了渐进式序列校正策略,首先选择高精度的序列校正错误率的区域(图2B),之后优选校正后高精度序列校正高错误局部区域,从而保证了序列校正速度和完整性(图2C);另外,研究者还提出渐进式组装策略,通过校正后高精度的序列组装基因组骨架(图2D),之后通过原始序列提升基因组完整度(图2E),从而保证基因组组装结果的正确性和完整性。研究者将上述模型开发了NECAT软件,开放给国内外其它科研人员,进行长达1年的体验提升。

随后,研究者收集了多种模式生物Nanopore数据集进行性能测试,结果表明:NECAT校正后序列平均精度可达95-98%,可恢复原始数据中99%的高错误局部区域(HERS),从而保留了序列长度完整性(表1);NECAT组装完整性明显高于同类校正组装软件,且组装错误量显着低于同类软件。另外,研究者将NECAT校正结果与多个组装软件结合使用发现:NECAT校正结果显着提高其它Nanopore组装软件的组装质量。

最后,研究者完成了视网膜母细胞瘤Nanopore测序,并应用NECAT组装出了完整度较高母细胞瘤癌症基因组,通过组装结果发现了很多高精度结构变异(SV)位点,其很多位点都与目前实验报道和功能预测相符(图3)。与原始数据SV检测方法相比,NECAT组装结果检测SV精度显着高于目前SV检测方法。上述结果表明,通过NECAT序列校正,显着降低高错误区域所造成的SV假阳性结果。

综上所述,本研究提出的渐进式校正组装方法可以有效解决了Nanopore复杂测序错误问题,显着提高了Nanopore数据组装完整性、正确性和数据利用率。另外,通过NECAT序列校正,可以有效降低高错误区域SV的假阳性。(生物谷Bioon.com)

 

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->