Science:利用新型机器学习技术准确预测蛋白和RNA的三维结构
来源:本站原创 2021-08-28 06:22
美国斯坦福大学博士生Stephan Eismann和Raphael Townshend在该大学计算机科学副教授Ron Dror的指导下,利用巧妙的新型机器学习技术,开发出一种通过计算预测准确结构来克服这一问题的人工智能算法。最值得注意的是,即使只从少数已知结构中学习,他们的方法仍然成功,这使得它适用于那些结构最难通过实验确定的分子类型。
2021年8月28日讯/生物谷BIOON/---确定生物分子的三维形状是现代生物学和医学发现中最难的问题之一。公司和研究机构经常花费数百万美元来确定一个分子结构,即使采取这样大规模的努力也经常不成功。
美国斯坦福大学博士生Stephan Eismann和Raphael Townshend在该大学计算机科学副教授Ron Dror的指导下,利用巧妙的新型机器学习技术,开发出一种通过计算预测准确结构来克服这一问题的人工智能算法。最值得注意的是,即使只从少数已知结构中学习,他们的方法仍然成功,这使得它适用于那些结构最难通过实验确定的分子类型。
他们的研究成果分别发表在2021年8月27日的Science期刊和2020年12月的Proteins期刊上,详细介绍了他们的方法在RNA分子和多蛋白复合物上的应用。发表在Science期刊上的这篇标题为“Geometric Deep Learning of RNA Structure”的论文是与斯坦福大学生物化学副教授Rhiju Das实验室合作完成的。
Townshend说,“结构生物学是对分子形状的研究,它有这样的口号:结构决定功能。”
这些作者设计的人工智能算法可以预测准确的分子结构,这样做可以让科学家们解释不同的分子是如何发挥作用的,其应用范围包括从基础生物研究到药物设计实践。
Eismann说,“蛋白质是执行各种功能的分子机器。为了执行它们的功能,蛋白质经常与其他蛋白质结合在一起。如果你知道一对蛋白质与某种疾病有关,并且你知道它们在三维中是如何相互作用的,你可以尝试用一种药物非常特异性地靶向这种相互作用。”
设计算法
这些作者没有详细说明是什么使结构预测更加准确,而是让算法自己发现这些分子特征。他们这样做是因为他们发现提供这种知识的传统技术会使算法偏向于某些特征,从而阻止它找到其他有信息的特征。Eismann说,“算法中这些人为确定的特征的问题是,算法变得偏向于挑选这些特征的人认为重要的东西,而这可能会错过一些实际上表现得更好的信息。”
Townshend说,“我们设计的算法学会了寻找对分子结构形成很关键的基本概念,但我们对这种形成没有给出明确的指示。令人兴奋的方面是,该算法显然已经获得了我们知道的重要的东西,但它也获得了我们以前不知道的特征。”
一种新型的人工智能算法可以从错误的形状中识别出RNA分子的三维形状。对RNA折叠结构的计算预测尤其重要,也特别困难,因为已知的结构如此之少。图片来自Camille L.L. Townshend。
在显示出在蛋白中取得成功之后,这些作者接下来将他们的算法应用于另一类重要的生物分子:RNA。他们在一系列“RNA谜题(RNA Puzzles)”中测试了他们的算法,这些谜题来自于他们领域的一个长期竞赛,在每种谜题下,该工具都比其他所有谜题的参与者表现得更好,而且是在没有专门为RNA结构设计的情况下做到的。
更广泛的应用
这些作者已经在蛋白质复合物和RNA分子上取得了成功,他们很高兴看到他们的方法还可以应用在其他领域。
Dror说,“最近机器学习方面的大多数重大进展都需要大量的数据进行训练。这种方法在存在很少的训练数据下取得成功的事实表明,相关方法可能解决许多数据匮乏的领域中未解决的问题。”
特别是在结构生物学方面,这些作者表示就取得的科学进展而言,他们只是触及了皮毛。Townshend说,“一旦你拥有了这种基础技术,那么你的理解水平又提高了一步,可以开始提出下一组问题。例如,你可以利用这种信息开始设计新的分子和药物,这是一个人们非常兴奋的领域。”(生物谷 Bioon.com)
参考资料:
Raphael J. L. Townshend et al. Geometric Deep Learning of RNA Structure. Science, 2021, doi:10.1126/science.abe5650.
Kevin M. Weeks. Piercing the fog of the RNA structure-ome. Science, 2021, doi:10.1126/science.abk1971.
Stephan Eismann et al. Hierarchical, rotation-equivariant neural networks to select structural models of protein complexes. Proteins, 2020, doi:10.1002/prot.26033.
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。