打开APP

科研人员开发表观转录组数据聚类框架iMVP

来源:中山大学 2023-10-13 10:23

iMVP的开发为RNA编辑修饰研究带来了新的可能性,为科研人员提供了一个更全面、更有效的工具,有望有助于更深入地理解RNA编辑修饰的复杂性和功能。

近年来,在转录组中发现的各种RNA编辑修饰促进了表观转录组学领域的迅速发展。这些RNA编辑修饰位点在调控RNA代谢的各个层面发挥着关键作用,并广泛涉及到多种生物过程,具备重要的功能。例如,m5C修饰在胚胎发育、肿瘤发展和病毒调控中扮演着重要角色,而m6A修饰和A-to-I编辑酶在多种癌症中异常调节,被认为是有潜力的癌症治疗靶点。

与此同时,单碱基分辨率的测序技术在飞速发展。针对不同的RNA编辑修饰,研究人员发明了若干基于化学方法的检测手段,比如:Bisulfite sequencing (5-甲基胞嘧啶修饰, m5C) ;CMC-seq, BID-seq(假尿嘧啶修饰,ψ);GLORI,eTAM-seq (6-甲基腺嘌呤修饰, m6A)。除了化学方法,使用纳米孔(Nanopore)直接进行RNA 编辑修饰测序的技术也方兴未艾。但是,这些检测手段往往伴随着假阳性信号,而往往没有很好的先验知识去评估信号的真实性。比如,在Bisulfite sequencing中,由于RNA二级结构会妨碍脱氨基反应的进行,Bisulfite sequencing中往往存在大量的位于高GC含量区域的假阳性信号;这些假阳性信号和真实的具有特定基序(motif)的m5C位点混合在一起而难以分辨。同时,针对不同的测序方法,除了使用统计学参数外,也很难直接对它们进行比较。因而,当前需要一个技术手段进行RNA编辑修饰序列特征的比较和分类。

传统的序列分析工具通常基于序列出现的频率进行统计,从而获得高频出现的序列特征(即motif)。这些分析工具(如MEME,HOMER)为发现转录因子结合位点(TFBS)而设计——对于RNA修饰的motif发现并没有进行优化。与TFBS的motif发现的情境不同,RNA修饰位点的序列是高度对齐的,且motif的长度往往很短。实际上,RNA编辑修饰motif的发现与单细胞测序中的可视化流程十分相似:RNA编辑修饰motif可以通过One Hot encoding转化成高维向量,而这些高维向量可以通过Manifold法进行分解,(如UMAP,t-SNE)投影在二维平面上——与motif这一概念一致,如存在反复出现的相似的序列,它们将在二维投影的某个区域形成富集(高密度区域)。若能使用某种手段对投影进行聚类,并提取这些富集区域,就能够以可视化的形式对给定序列进行分类以及motif的发掘。

基于以上原理,中山大学生命科学学院张锐课题组开发了一个基于非线性降维技术和密度聚类,称为交互式RNA修饰motif可视化和亚型分类(iMVP,interactive epitranscriptomic Motif Visualization and Subtype Partition)的计算框架。该开源框架iMVP(https://github.com/SYSU-zhanglab/iMVP)能够用于RNA修饰motif的去噪、亚型分类和可视化。与传统方法相比,它在各种高通量数据、人工模拟高噪声数据、超大数据集上都有出色表现。

图1. iMVP框架

研究团队运用iMVP工具对不同物种和发育时期的mRNA m5C图谱进行了全面分析。他们不仅确认了已知的m5C motif,更意外地发现了两种与酵母25S rRNA C2278和C2870 m5C位点相似的motif。这两个位点在酵母中分别由Rcm1(NSUN5)和Nop2酶甲基化,因此作者合理地推测这两种酶可能是m5C修饰的新writer。通过在HeLa 细胞中进行敲低实验,作者成功验证了这一假设,确定了NSUN5与Nop2是mRNA m5C修饰的两个新writer。这一新发现,凸显了 iMVP作为一种有效的工具,用于发现新的RNA修饰模式和识别新的修饰酶。这将有助于更深入地理解RNA修饰的复杂性和功能。

目前已经开发了多种生化方法,可以在单碱基分辨率绘制m6A/m6Am修饰在转录组中的分布。然而,不同方法之间的位点识别存在差异,因此需要对这些方法进行系统评估和比较。iMVP的出现填补了这一知识空白。研究团队汇总了来自CIMS,CITS,m6ACE-seq, m6A-label-seq, MAZTER-seq, m6A-REF-seq,xPore和DART-seq,总共8种不同m6A/m6Am测序方法的数据,发现尽管这些方法都使用相同的细胞类型,但只有少数m6A和m6Am位点在不同方法之间重叠。这表明每种方法可能只捕获了甲基化位点的部分子集。除外,该研究还评估了非抗体方法在m6A/m6Am测序中的可靠性。结果表明,m6A-label-seq和MAZTER-seq是目前最可靠的方法,为研究人员选择合适的非抗体方法提供了重要的参考。

Nanopore测序数据存在修饰信号相位错配的问题,限制了其在RNA编辑修饰位点的准确识别。为应对这一挑战,研究团队提出了相位匹配策略,成功解决了这一问题,使iMVP工具能够更精确地识别RNA修饰位点。此外,研究人员还分析了ModTect数据集,其中包含了从RNA-seq数据中推测的大量RNA修饰位点。鉴于这些位点的复杂性和噪声,需要一种可靠的筛选方法来鉴定真正的RNA修饰候选位点。为此,作者引入了"spiked iMVP"策略,通过将已知修饰信号的k-mers加入变异数据中,标记已知RNA修饰的模体偏好,并成功识别了高置信度的m1A、m1acp3Ψ和m22G位点。这些策略成功的扩展了iMVP工具的应用范围

传统的motifs 搜索工具通常仅适用于小规模数据集,而iMVP通过引入UMAP和HDBSCAN技术,并且通过使用GPU加速,成功应对了处理极大RNA修饰位点数据集的挑战。研究团队使用iMVP工具进行了对包含1500万个A-to-I RNA编辑位点进行分析。他们观察到不同类型的A-to- I RNA编辑位点在Alu、非Alu重复和非重复区域中呈现出截然不同的模式。进一步应用iMVP工具,他们获得了高分辨率的数据结果,成功识别出各类编辑位点的簇群。

图2. A-to- I RNA编辑位点在Alu、非Alu重复和非重复区域中呈现出截然不同的模体模式

总之,iMVP的开发为RNA编辑修饰研究带来了新的可能性,为科研人员提供了一个更全面、更有效的工具,有望有助于更深入地理解RNA编辑修饰的复杂性和功能。

该成果于近期以“Epitranscriptomic subtyping, visualization, and denoising by global motif visualization”为题发表在Nature Communications。中山大学生命科学学院张锐教授,博士生刘健恒(现为康奈尔大学博士后)为本文的共同通讯作者,刘健恒、黄涛、姚静为本文的并列第一作者,赵天璇、张钰森也对本工作做出重要贡献。中山大学生命科学学院为第一作者单位。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->