打开APP

Nature Biotechnology:AI算法让RNA调控研究“坐上高铁”,一举揭秘4亿年进化路标

来源:生物探索 2025-07-30 09:36

这项研究的意义是深远且多方面的。它不仅仅是发表了一篇论文,或发布了一个数据库,它更像是为整个生命科学领域提供了一台功能强大的“解码器”。

生命,这部由DNA谱写的宏伟天书,其最经典的篇章莫过于“中心法则”——DNA转录为RNA,RNA翻译为蛋白质。然而,当我们沉醉于这简洁而优雅的线性叙事时,却常常忽略了幕后一个更为庞大、喧嚣且至关重要的世界——转录后调控 (post-transcriptional regulation)。在这个世界里,信使RNA (mRNA) 不再是任人摆布的傀儡信使,它更像是一张携带着宝贵信息的蓝图,而一群被称为RNA结合蛋白 (RNA-binding proteins, RBPs) 的“工匠”则围着它忙碌不休。

它们有的像精明的剪辑师,对RNA进行剪接 (splicing);有的像严格的交警,决定RNA的去向 (localization);有的像高效的翻译官,控制其何时被翻译成蛋白质 (translation);还有的像冷酷的清道夫,负责将其降解 (degradation)。这数千种RBP构成了细胞内一张错综复杂、动态变化的调控网络,精确地控制着基因表达的每一个细节。然而,要理解这张网络,我们必须先回答一个根本问题:这些“工匠”是如何识别它们各自负责的“蓝图”的?答案在于“基序”(motif)——一段特定的RNA序列,就像一把独特的钥匙,只有特定的RBP这把锁才能识别。

遗憾的是,我们对这套“钥匙-锁”系统的了解,长期以来都如雾里看花。在已知的数百万种真核生物RBP中,有实验数据支撑其结合基序的,不足0.1%。我们的知识库严重偏向于人类、小鼠和果蝇等少数模式生物,对于广阔的生命之树上的其他分支,几乎一无所知。

现在,这一局面迎来了颠覆性的突破。7月25日,一项发表在《Nature Biotechnology》上的重磅研究“A resource of RNA-binding protein motifs across eukaryotes reveals evolutionary dynamics and gene-regulatory function”,为我们呈上了一份前所未有的生命“密码本”。研究人员不仅通过大规模实验填补了数据空白,更开发出一种名为JPLE的巧妙算法,利用人工智能的力量,成功预测了来自690种真核生物的34,746个RBP的结合基序。这本全新的“密码本”不仅让我们得以一窥RNA调控世界的全貌,更揭示了其在长达数亿年进化历程中的壮丽史诗。

图片

RNA世界的“守门人”:为何我们知之甚少?

在细胞的生命交响乐中,如果说基因是乐谱,那么RBP就是指挥家和乐手。它们通过与RNA分子上的特定序列基序结合,决定了这首乐曲的节奏、强弱和最终呈现。一个基序通常很短,由4到10个核苷酸组成,但正是这些简单的组合,构成了RBP进行精确识别的“分子语言”。

要破译这种语言,研究人员通常采用高通量的体外筛选技术,如RNA Bind-n-Seq或RNAcompete。这些方法的核心思想很简单:将一个纯化的RBP与一个包含所有可能RNA序列的巨大“文库”混合,然后“钓”出那些被RBP结合的RNA序列,通过深度测序分析,就能找出其中富集的、RBP偏爱的序列基序。

然而,实验是昂贵且耗时的。因此,一种更便捷的方法是“同源推断”(homology inference)。生物学中有一条经验法则:如果两个RBP的RNA结合域 (RNA-binding domains, RBDs) 的氨基酸序列相似度 (amino acid sequence identity, AA SID) 超过70%,那么它们几乎总是有着相同的结合偏好。这条“70%法则”在过去帮助我们扩展了基序知识库,但它的局限性也显而易见。在广袤的蛋白质世界里,绝大多数未经表征的RBP,与任何已知基序的RBP的序列相似度都低于70%。

当序列相似度落入30%至70%这个“灰色地带”时,情况就变得极为棘手。这项新研究首先用他们收集的数据证实了这一困境。他们分析了大量RBP配对,发现在这个相似度区间内,RBP的结合基序相似性(用RNA结合谱的皮尔逊相关系数PCC来衡量)呈现出一种近乎随机的混乱状态。有些RBP尽管序列差异巨大,却奇迹般地共享相似的基序;而另一些序列上看起来更近的“亲戚”,其结合偏好却南辕北辙。这清楚地表明,单靠氨基酸序列的整体相似度来预测功能,就像只看一个人的身高体重来判断其职业一样,极其不可靠。我们需要一种更深刻、更能洞察本质的工具。

大海捞针:构建前所未有的RBP“图谱”

面对挑战,研究团队采取了双管齐下的策略。首先是“广积粮”——大力扩充实验数据,为后续的算法开发提供坚实的“训练集”。他们没有盲目地选择RBP,而是制定了一套巧妙的筛选策略。

1. 覆盖进化多样性:他们精心挑选了来自45种具有代表性的真核生物的RBP,这些物种横跨了动物、真菌、植物以及其他各种单细胞原生生物,旨在捕捉生命之树各个主要分支的调控特征。
2. 填补“欠发达地区”空白:他们特意关注了那些在以往研究中被忽视的物种,比如植物。最终,他们成功测定了41种植物RBP的结合基序,极大地丰富了我们对植物王国转录后调控的理解。
3. 着眼于“大家族”:他们优先选择那些在进化上拥有众多同源蛋白的RBP家族。测定一个这样的RBP,其信息就有可能通过同源推断辐射到它的众多“亲戚”,实现数据价值的最大化。

通过这一系列策略,他们新收集了174个RBP的RNAcompete数据。当把这些新数据与之前已有的205个RBP数据整合时,一个包含379个RBP(来自381个不同的蛋白构建体)的、前所未有的大规模、高多样性的RNA结合特异性图谱诞生了。

这份图谱的价值是巨大的。通过对这379个RBP进行聚类分析,研究人员鉴定出了157个不同的基序类别。其中,近一半(74个)的类别仅包含一个RBP,这意味着它们具有独一无二的结合偏好,极大地拓宽了我们对RNA基序多样性的认知。特别是在RNA识别基序 (RNA recognition motif, RRM) 这个最常见、也最具可塑性的RBD家族中,这些新数据揭示了惊人的多样性。在所有RRM蛋白中,它们识别的7个核苷酸长度的短序列 (7-mer) 几乎覆盖了所有可能组合的一半。这说明RRM结构域在进化中展现出了非凡的创造力,能够演化出识别各种RNA靶点的能力。

当“相似”不再可靠:JPLE算法的诞生

传统的同源推断方法之所以在低序列相似度时失效,是因为它将蛋白质序列视为一个整体,而忽略了决定其功能的关键“特征”。

JPLE (Joint Protein-Ligand Embedding,联合蛋白-配体嵌入) 算法的核心思想正是如此。它不再纠结于完整的氨基酸序列,而是将蛋白质分解为一系列短小的“肽段特征”(peptide profiles),即包含通配符的5个氨基酸长度的短序列。这就像把厨师的形象分解为“帽子”、“围裙”、“刀”等基本元素。

接下来是JPLE最巧妙的一步,也是其名称“联合嵌入”的由来。它将一个RBP的“肽段特征谱”(蛋白质信息,记为p)和它已知的“RNA结合谱”(RNA基序信息,记为r)拼接成一个长长的“联合向量”(joint vector)。然后,它运用一种经过改良的“主成分分析”(Principal Component Analysis, PCA) 技术,对这个高维度的信息进行降维。

经典PCA的目标是找到数据中方差最大的方向,从而尽可能保留原始信息。但JPLE的目标更为明确:它只寻找那些能够最大程度解释RNA结合谱(r)中方差的方向。这意味着,所有与RNA结合无关的蛋白质肽段“噪音”信息,都会在降维过程中被无情地过滤掉,只留下那些真正决定结合特异性的“精华”特征。

数据的支撑强有力地证明了这一点:这个降维后的“嵌入空间”仅需122个维度,就能完美地解释原始RNA结合谱中96%的变异信息!然而,对于蛋白质肽段谱,它只保留了44%的变异。这种“偏心”恰恰是JPLE成功的关键。它创造了一个全新的、高度浓缩的信息空间。在这个空间里,蛋白质之间的距离——研究人员称之为“e-dist”——直接反映了它们RNA结合功能的相似性,远比原始的氨基酸序列相似度要准确得多。

那么,JPLE的威力究竟有多大?研究人员通过交叉验证给出了答案。使用传统的“70%法则”,我们能以较高的置信度(平均PCC > 0.745)推断出大约27.6%的RBP基序。而JPLE在达到同样置信度的前提下,其“召回率”(recall) 飙升至67.6%,足足提升了2.4倍!这相当于,我们现在能够自信地预测那些与已知蛋白序列相似度低至40%的RBP的结合基序。这无疑是一次巨大的飞跃,意味着成千上万个曾经被认为“遥不可及”的RBP,现在终于可以被纳入我们的认知版图。

从序列到功能:JPLE的“X射线视觉”

JPLE的强大之处不止于预测。它还拥有一种堪比“X射线”的洞察力,能够精确指出蛋白质上哪些具体的氨基酸残基是决定其结合特异性的“关键残基”。

这是通过一种“反向查询”实现的。研究人员可以向训练好的JPLE模型输入一个已知的RNA基序,然后提问:“什么样的蛋白质特征会与这个基序结合?”模型会利用其学到的知识,重建出一个理想的“肽段特征谱”。在这个重建的谱中,得分最高的那些肽段,就指向了蛋白质上最可能参与RNA识别的关键区域。研究人员将这些分数整合,为蛋白质的每一个氨基酸都计算出一个“残基重要性分数”(Residue Importance Score, RIS)。

研究人员将26个已知三维结构的RBP-RNA复合物作为“考题”。结果令人振奋:

对于人类蛋白ELAVL1,JPLE计算出的高RIS分数区域,完美地对应着其RRM1和RRM2结构域中负责接触RNA碱基的β折叠片和柔性连接区,与已知的结构生物学分析结果完全吻合。

对于线虫的ASD-1蛋白,其结合UGCAUG基序。进化保守性分析指向了一些氨基酸,但JPLE给出了更精确的答案,它将最高分给予了两个柔性环(loop)上的残基,而正是这两个环“钳”住了基序的前四个核苷酸。

更令人叫绝的是,对于那些同时识别RNA序列和结构的蛋白,如SNRPA,它能巧妙地区分二者。SNRPA结合一个茎环结构,JPLE准确地为那些接触单链环区(决定序列特异性)的残基打出高分,而对那些虽然保守但只接触双链茎区(负责结构识别)的残基给予低分。

为了量化这种“X射线视觉”的准确性,研究人员将其与传统的进化保守性分析进行了正面交锋。在26个测试蛋白中,有16个蛋白,JPLE的RIS在识别RNA接触界面方面的表现显著优于保守性分析(DeLong检验, P < 0.05)。这表明JPLE学到的不仅仅是“哪些氨基酸在进化中不能变”,而是更深层次的、关于“哪些氨基酸的身份决定了RNA结合偏好”的物理化学规则。

一本全新的生命“密码本”:EuPRI资源库的震撼登场

手握实验数据和JPLE这一利器,研究人员开始了他们最宏伟的目标——为整个真核生物世界绘制一幅尽可能完整的RBP结合基序图谱。他们将JPLE应用于690个已测序的真核生物基因组中所有包含RRM和KH结构域的蛋白质。

他们设定了一个严格的“e-dist”阈值(0.127),只有当一个未知蛋白在JPLE嵌入空间中与某个已知蛋白的距离小于这个值时,它的基序才被认为是“可信预测”。这个阈值保证了预测的平均准确率(PCC)高达0.75。

最终的成果是惊人的。他们将所有高可信度的预测结果,与已有的实验数据和其他来源的推断数据整合,构建了一个名为EuPRI (Eukaryotic Protein-RNA Interactions)的庞大资源库( https://cisbp.org/rna )。

规模空前:EuPRI包含了来自690种真核生物的34,746个RBP的结合基序。这使得已知的RBP基序数量直接翻了两番,是一次数量级的跨越。

覆盖广泛:该资源库极大地扩展了我们对非模式生物的了解。在绝对数量上,植物是最大的受益者,平均每个植物物种新增了111个RBP基序。对于一些重要的人类寄生虫,如利什曼原虫和布氏锥虫,EuPRI的覆盖率也达到了30%,为开发新的治疗策略提供了潜在靶点。

深度解析:对于人类,EuPRI提供了196个含有RRM或KH结构域的RBP的基序,覆盖了这类蛋白总数的近70%。这意味着,对于大部分参与核心生命活动的RBP,我们现在都有了关于它们“读什么”的清晰线索。

这个完全开放的资源库,就像是为全球生命科学研究者提供了一部崭新的、注释详尽的“罗塞塔石碑”。有了它,研究人员可以更准确地解释体内结合数据,理解非编码区突变的致病机理,并为成千上万个功能未知的RBP指派可能的生物学角色。

跨越4亿年的对话:RNA调控网络的进化史诗

有了EuPRI这本“密码本”,研究人员终于可以开始阅读生命进化这部长篇史诗,探索RNA调控网络是如何在数亿年的时间尺度上形成和演变的。他们利用JPLE的e-dist和传统的直系同源分析,将来自53个代表性物种的近9000个RBP划分为一个个“保守RNA基序群组”(Conserved RNA Motif Groups, CRMGs)。一个CRMG代表了一组在进化上相关、且共享同一个结合基序的RBP。

通过追溯这些CRMG的起源和在不同物种间的分布,一幅壮丽的进化图景徐徐展开:

1. 古老的基石:研究发现,有17个CRMGs可以追溯到所有真核生物的最后一个共同祖先 (last eukaryotic common ancestor, LECA)。另有19个CRMGs同时存在于植物和动物中。这些“活化石”级的基序群组,大多是负责最核心生命过程的蛋白,如剪接因子(SRSF1, SNRPA)和多聚A尾结合蛋白(PABP)。它们是整个转录后调控大厦的古老基石,在超过15亿年的进化中保持着惊人的稳定。

2. 脊椎动物的“寒武纪大爆发”:在后生动物 (Metazoa) 与其共同祖先分道扬镳后,通往脊椎动物的这条进化路径上,发生了一场调控网络的“大爆炸”。研究人员发现,在后生动物祖先和脊椎动物祖先之间的时间段内(大约4-6亿年前),诞生了73个全新的CRMGs。这一创新事件的时间点,恰好与著名的两次全基因组复制 (whole-genome duplication, WGDs) 事件相吻合。基因组的加倍,为新功能的演化提供了丰富的“原材料”,催生了大量新的RBP及其靶点,构建了脊椎动物复杂生理功能(如精细的神经系统和适应性免疫)所需的、更为复杂的调控网络。而在这场大爆发之后,脊椎动物的基序库反而进入了一个相对稳定的时期。

3. 蠕虫与植物的“快速迭代”:与脊椎动物的“稳定期”形成鲜明对比的是,线虫和开花植物 (Angiosperms) 的调控网络展现出了惊人的“活力”。分析显示,在这两个类群中,现存的超过一半的CRMGs,都是在最近的2亿年内才出现的!这表明它们的RNA调控网络正在经历着快速的“重写”和“扩张”。

以秀丽隐杆线虫 (C. elegans) 中的QKI同源蛋白为例,人类的QKI蛋白有一个清晰的结合基序。在线虫中,有两个同源蛋白(GLD-1, ASD-2)保留了与人类QKI相似的古老基序,但另外四个同源蛋白,则各自演化出了与原始基序略有不同但功能迥异的新基序。这正是基因复制后“新功能化”(neofunctionalization) 的典型案例,展示了调控网络如何通过“修修补补”快速适应新的进化压力。这种快速迭代,或许是这些生物适应多变环境、演化出多样形态和生存策略的关键。

从预测到验证:解开植物“信使”的生死符

一个强大的理论或模型,最终要回到实验中接受检验。EuPRI资源库的预测能力究竟如何?研究人员选择在模式植物拟南芥 (Arabidopsis thaliana) 中,进行了一场从预测到功能验证的完美演示。

之前的研究表明,拟南芥中mRNA的寿命(半衰期)与其3'非翻译区 (3' UTR) 的特定k-mer序列有关。研究人员利用EuPRI中为拟南芥预测的101个RBP基序,去寻找哪些RBP可能识别这些与mRNA稳定性相关的序列。

一个清晰的假设浮出水面:他们发现,一个名为AAUAAG的6-mer序列,与mRNA的长寿命(即高稳定性)显著相关。而在EuPRI中,有6个同源的CID蛋白(CID8-13)被高度预测为会结合这个AAUAAG基序。更有趣的是,这些CID蛋白含有一个已知可以与多聚A尾结合蛋白PABPC1相互作用的结构域。PABPC1本身就能保护mRNA的poly(A)尾巴不被降解。因此,研究人员提出了一个精巧的分子机制模型:CID蛋白通过识别mRNA上的AAUAAG基序,将PABPC1更稳定地“锚定”在poly(A)尾上,从而协同保护这条mRNA免于被降解。

验证实验:为了验证这个假设,他们设计了一场体外去腺苷酸化 (deadenylation) 实验。他们合成了两条荧光标记的RNA探针:一条含有AAUAAG基序(野生型,WT),另一条是突变的富含C的序列(突变型,MUT)。将这些探针与PABPC1和纯化的CID8蛋白一起孵育,然后加入负责降解poly(A)尾的“死神”——CCR4-NOT脱腺苷酶复合物。通过凝胶电泳实时监测RNA探针被降解(即poly(A)尾被缩短)的进程。

结果令人信服:正如预期的那样,PABPC1和CID8蛋白各自都能对RNA降解起到一定的延缓作用。关键在于,当PABPC1和CID8同时存在时,奇迹发生了。对于含有AAUAAG基序的WT探针,其降解速度被显著减慢,凝胶上清晰地显示出一条代表着被保护的、具有较长poly(A)尾的中间产物条带。而对于MUT探针,这种协同保护效应则大打折扣。定量分析显示,CID8对WT探针的稳定作用显著强于对MUT探针的作用(双边t检验, p = 0.004)。

这场实验,从一个基于AI模型的宏大预测开始,通过一个清晰的分子生物学假设,最终在一个干净利落的体外生化实验中得到了证实。这不仅验证了CID8蛋白的功能,更证明了EuPRI资源库的预测能力是真实可靠的,它是一座能够直接指导功能研究的巨大宝库。

一部开启新时代的“解码器”

这项研究的意义是深远且多方面的。它不仅仅是发表了一篇论文,或发布了一个数据库,它更像是为整个生命科学领域提供了一台功能强大的“解码器”。

对于基础研究而言,EuPRI和JPLE算法将研究人员从低序列相似度的“泥潭”中解放出来,让我们能够系统性地研究RBP的功能和进化,理解物种多样性和复杂性背后的调控逻辑。对于医学和农业领域,这个资源库为我们理解疾病相关的非编码突变、寻找新的药物靶点(尤其是在寄生虫和病原体中),以及改良作物的抗逆性等,提供了海量的候选基因和分子机制线索。

从一个充满未知和偏见的领域,到一个拥有包含三万多个条目的详尽“密码本”的新大陆;从一个简单的“70%法则”,到一个能洞察分子识别本质的AI算法;从一个宏大的进化叙事,到一个精准的生化实验验证。它告诉我们,在海量数据和巧妙算法的结合下,我们正以前所未有的速度,破译着生命这部最古老、也最深奥的天书。而EuPRI,正是这部天书最新、也是最激动人心的一页注释。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->