Science:科学家开发出能帮助理解人类基因组中转录起始的特殊机器学习模型
来源:生物谷原创 2024-05-27 13:09
研究人员开发了一种名为Puffin的机器学习程序,当分析了数以万计已知的人类启动子数据后,这种新型程序就能确定其由三种类型的序列模式所组成,即基序、启动子和三核苷酸(trinucleotides)。
启动子负责开启转录过程,其也是任何基因的必要组成部分,然而,当前对于启动子序列驱动转录起始的机制仍然并不完整,且并不能解释大多数人类机体中的启动子。近日,一篇发表在国际杂志Science上题为“Sequence basis of transcription initiation in the human genome”的研究报告中,来自德克萨斯大学西南医学中心等机构的科学家们通过研究开发了一种深度学习模型,其或能帮助识别出控制启动子活性的一套简单规则;启动子是能启动基因表达产生蛋白这一过程的特殊DNA区域;相关研究结果或能帮助研究人员更好地理解启动子在健康和疾病状态下促进基因调节的分子机制。
研究者Jian Zhou说道,启动子对于每个基因的功能都非常重要,尽管科学家们进行了几十年的研究定义了关于它们的很多特征,但我们对这些遗传元件的具体作用机制的理解仍然并不完全;本文研究中,我们揭示了在人类和其它哺乳动物机体中这些序列是如何发挥作用的。细胞用来发挥作用的蛋白质的产生开始于转录过程,当RNA聚合酶蛋白附着在DNA链上,并将编码的信息复制或转录到RNA分子中时就会发生这种情况,RNA聚合酶附着并开始转录的区域称之为启动子区域。
科学家开发出能帮助理解人类基因组中转录起始的特殊机器学习模型
图片来源:Science (2024). DOI:10.1126/science.adj0116
在人类中,启动子通常由数百个碱基对组成,这些碱基对是组成DNA的基本单元;尽管研究人员已经识别出了一些DNA启动子区域所共享的共同碱基对序列,但这些序列在人类启动子中通常并不存在,这或许就使得研究人员并不清楚DNA序列是如何指导转录过程的。为了更好地定义人类机体中的启动子以及其作用方式,研究人员开发了一种名为Puffin的机器学习程序,当分析了数以万计已知的人类启动子数据后,这种新型程序就能确定其由三种类型的序列模式所组成,即基序、启动子和三核苷酸(trinucleotides)。
基于Puffin的分析,研究者发现,根据这些元件的排列方式,其或许就能激活或抑制基因的转录,同时Puffin还能帮助预测这些元件的排列如何知道RNA聚合酶优先转录单链DNA或同时转录两条相反方向的DNA,这种双向转录在人类基因中非常常见。进一步研究后,研究者发现,小鼠和其它哺乳动物在管理启动子发挥作用方面具有类似的规则,此外,Puffin还能允许研究人员预测如果启动子发生突变,转录是否以及如何发生,而这一研究结果与其它实验结果非常吻合。
研究者认为,Puffin或能帮助他们理解启动子如何在健康细胞中发挥作用,以及启动子所发生的疾病相关改变如何引起基因转录的变化。目前这种新开发的程序能在免费的web服务器上获取(tss.zhoulab.io),以便其他研究人员能测试其所感兴趣的任何启动子序列;最后研究人员补充道,使用类似的机器血虚方法或能帮助深入理解目前尚未得到更好理解地基因组的其它方面。(生物谷Bioon.com)
参考文献:
KSENIIA DUDNYK,DONGHONG CAI,CHENLAI SHI, et al. Sequence basis of transcription initiation in the human genome, Science (2024). DOI:10.1126/science.adj0116
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。