打开APP

Science:使用AI模型预测哪些启动子突变会改变基因表达

来源:生物世界 2025-08-12 09:40

PromoterAI 通过精准检测影响基因表达的启动子突变,填补了基因组解读领域的关键空白。

在人类基因组中,基因的转录始于启动子(Promoter),这一核心序列元件整合来自基因组近端和远端区域的信息,以精确调控基因表达。启动子中的破坏性突变会导致基因表达发生重大改变,但由于难以区分有害突变和良性突变,其对人类健康和疾病的影响,我们目前仍知之甚少。

在大规模功能基因组学数据集上训练的人工智能(AI)模型有可能学习转录和表观遗传程序背后的调控“语法”。将遗传突变与功能后果相联系的适当训练数据集对于实现准确的突变效应预测至关重要。

近日,因美纳(Illumina)公司的研究人员在国际顶尖学术期刊 Science 上发表了题为:Predicting expression-altering promoter mutations with deep learning 的研究论文。

该研究开发了一款名为 PromoterAI 的人工智能(AI)模型,其能够准确识别会扰乱基因表达的非编码的启动子突变,结果显示,那些预测会改变基因表达的启动子突变在数千名个体的 RNA 和蛋白质水平上产生了异常表达,并且这些突变在人类群体中经历了强烈的负选择。研究团队观察到,罕见病患者的临床相关基因中此类突变显著富集,并通过报告基因实验验证了其功能影响。研究团队进一步估计,启动子突变占罕见病相关遗传负担的 6%。

实际上,目前仅有少数罕见遗传病患者通过外显子测序得到确诊,这表明其他未被识别的致病突变可能存在于非编码序列(包括启动子)中。

PromoterAI 是一种通过评估启动子区域基因组序列来预测启动子突变对基因表达影响的深度神经网络。研究团队首先以单核苷酸分辨率训练该模型,使其能够预测转录起始位点周围的组蛋白修饰、DNA 可及性、转录因子结合和链特异性基因表达。随后,研究团队基于携带配对基因组与 RNA 测序数据的群体样本,构建了包含数千个与跨组织异常基因表达相关的罕见启动子突变的训练数据集,同时控制了顺式(cis)与反式(trans)混杂变量的影响。利用这些异常突变,研究团队通过旨在实现跨未知基因及数据集的泛化能力的框架对 PromoterAI 进行了微调。

研究团队通过基因表达、蛋白质丰度、数量性状位点和报告基因实验等多维度基准测试对 PromoterAI 的预测效果进行了全面验证。群体等位基因频率谱分析显示,预测具有表达调控作用的启动子突变在高等位基因频率区域呈现显著缺失,这反映了自然选择对有害突变的清除作用。基于英国生物样本库(UK biobank)数万个体数据分析,研究团队发现,预测的突变效应与蛋白质丰度及数量性状测量值存在强烈关联。最后,研究团队将该模型应用于 Genomics England 队列中未确诊的罕见病患者,发现 PromoterAI 预测的会导致表达不足的启动子突变在患者表型相关孟德尔疾病基因(尤其是单倍体不足对应的显性功能缺失基因)的启动子区域呈现特异性富集。

PromoterAI 可捕捉启动子突变的功能影响。(左图)该模型最初通过预测转录起始位点附近的组蛋白修饰、染色质可及性、转录因子结合及基因表达进行训练,最终通过筛选与异常基因表达相关的罕见启动子突变进行微调。(右图)预测的突变效应与群体队列数量性状具有显著相关性,在罕见遗传病队列中贡献了 6% 的病例诊断率。SpliceAI(剪接预测模型)和PrimateAI-3D(进化保守性分析模型)是另两种预测变异效应的深度学习方法。

PromoterAI 通过精准检测影响基因表达的启动子突变,填补了基因组解读领域的关键空白。该模型有效性的核心在于采用具有已知表达效应的遗传突变进行微调的优化过程。在当前临床基因组分析主要聚焦编码区基因突变的背景下,将启动子突变纳入解读体系,可显著提升个性化基因组测序的临床诊断效果。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->