Nature:利用新开发的 Foldseek Cluster算法一次性分析大量的蛋白结构
来源:生物谷原创 2023-09-27 13:34
在一项新的研究中,来自瑞士苏黎世联邦理工学院、瑞士生物信息学研究所和韩国首尔国立大学等研究机构的研究人员通过开发一种有效的方法来比较 AlphaFold 数据库中的所有预测蛋白结构,揭示了不同物种蛋白
在一项新的研究中,来自瑞士苏黎世联邦理工学院、瑞士生物信息学研究所和韩国首尔国立大学等研究机构的研究人员通过开发一种有效的方法来比较 AlphaFold 数据库中的所有预测蛋白结构,揭示了不同物种蛋白之间的相似性。这一发现有助于我们了解蛋白进化,并揭示了关于人类免疫蛋白起源的新见解。相关研究结果于2023年9月13日在线发表在Nature期刊上,论文标题为“Clustering predicted structures at the scale of the known protein universe”。
AlphaFold 数据库是蛋白研究领域的变革性资源,是所有已知蛋白的人工智能预测三维结构的综合资料库。该数据库通过提供高质量的结构预测,填补了了解蛋白功能和进化的关键空白。虽然人工智能预测不能替代实验确定的结构,但它们确实为科学界提供了宝贵的见解。
在这项新的研究中,这些作者开发了一种名为 Foldseek Cluster 的新算法,可用于一次性分析大量的蛋白结构。他们将 Foldseek Cluster 应用于 AlphaFold 数据库中的 2 亿个预测蛋白结构,识别出了 200 多万个独特的结构簇(structural cluster)---一群在三维形状上彼此相似的蛋白结构。这些结构簇中有三分之一以前没有任何注释,这意味着它们以前没有被描述或分类过。
缩小蛋白科学中的差距
蛋白对细胞中的各种过程至关重要。了解蛋白结构对于研究它们的功能和进化至关重要。尽管在基于序列预测蛋白结构方面取得了重大进展,但由于计算方面的限制,很难对这些结构进行大规模研究。如今,Foldseek Cluster 能够以前所未有的规模进行结构比较和聚类,将此类任务的时间缩短了几个数量级。
论文共同通讯作者、首尔国立大学生物科学学院助理教授Martin Steinegger说,“我们已经进入了结构生物学的新时代,计算方法为探索蛋白世界提供了前所未有的途径。我们估计,用现有方法对所有结构进行聚类需要十年时间,而使用我们的新方法 Foldseek Cluster 只需五天。我们的算法可以筛选 AlphaFold 数据库中数以百万计的预测蛋白结构,并根据它们的三维形状进行聚类。这种计算能力的加速不仅让事情变得更快,而且它让一切成为可能。”
AlphaFold数据库,结构聚类工作流程和结构簇。图片来自Nature, 2023, doi:10.1038/s41586-023-06510-w。
蛋白进化与免疫
这项新的研究还深入探讨了这些结构簇的进化意义。虽然大多数结构簇起源古老,但约有 4% 的结构簇似乎具有物种特异性。这为一些进化现象提供了新的见解,比如新基因产生---当新的基因从基因组的非编码区域产生时。它还展示了几个进化关系的例子,可以丰富我们对不同物种蛋白功能的理解,包括它们在人类免疫中的作用。
论文共同通讯作者、苏黎世联邦理工学院分子系统生物学研究所副教授Pedro Beltrao说,“这项新的研究不仅仅是为了更有效地进行比较,更是为了获得对蛋白进化史的新认识。这项研究最有趣的发现之一是,我们发现人类免疫系统蛋白与细菌中的蛋白在结构上有相似之处。这表明,参与免疫系统的蛋白可能与细菌物种有着古老的进化起源。如果属实,这将重塑我们对免疫的认识。我们的研究不仅推动了现有知识的发展,还为未来研究蛋白功能和进化的奥秘绘制了路线图。”
改进AlphaFold数据库功能
随着AlphaFold数据库和其他生命科学数据库的不断发展,亟需帮助用户筛选海量数据,同时降低分析和管理这些数据的计算成本。像Foldseek Cluster算法这样可扩展到数十亿个结构的方法,对于帮助科学家们浏览这些丰富的信息将是非常有价值的。
EMBL-EBI团队负责人Sameer Velankar说,“Foldseek Cluster不仅仅是一项技术进步,它还提升了全球科学家们对整个AlphaFold数据库的体验。随着AlphaFold蛋白结构数据库中预测蛋白结构的激增,高效管理和浏览这些数据一直是一个重大挑战。Foldseek Cluster彻底改变了这一过程。我们正在努力将FoldSeek蛋白结构簇成到AlphaFold蛋白结构数据库中,以简化对大量蛋白结构的分析,以简化对大量蛋白结构的分析,并使我们的用户群体更容易找到他们正在寻找的东西。”(生物谷 Bioon.com)
参考资料:
1. Inigo Barrio-Hernandez et al. Clustering-predicted structures at the scale of the known protein universe. Nature, 2023, doi:10.1038/s41586-023-06510-w.
2. Revealing the secrets of protein evolution using the AlphaFold database
https://www.embl.org/news/science/revealing-the-secrets-of-protein-evolution-using-the-alphafold-database/
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。