打开APP

AI再登顶刊!模拟5亿年进化,从头创造出全新荧光蛋白,重新点亮生物学

  1. 深度学习模型

来源:生物世界 2025-03-28 10:25

ESM3 是一款向生命科学领域的前沿人工智能语言模型,也是第一个同时对蛋白质的序列、结构和功能进行推理的生成式人工智能模型,它提升了我们利用生命密码进行编程和创造的能力。

近日,AI 初创公司 EvolutionaryScale 的研究团队在国际顶尖学术期刊 Science 上发表了题为:Simulating 500 million years of evolution with a language model 的研究论文。论文标题非常简单直接,甚至是夸张——用语言模型模拟 5 亿年的进化。

该研究开发了一种人工智能语言模型——ESM3,ESM3 在思维链(Chain of Thought)的提示下生成了一种全新的绿色荧光蛋白——esmGFP,其在进化上与天然的绿色荧光蛋白(GFP)差异巨大,与已知的最接近的荧光蛋白只有 58% 的序列同源性,大自然需要 5 亿年时间才能进化出这种新型绿色荧光蛋白,也就是说,ESM3 模拟了 5 亿年进化,创造了一种新型绿色荧光蛋白。

图片

研究团队表示,ESM3 是一款向生命科学领域的前沿人工智能语言模型,也是第一个同时对蛋白质的序列、结构和功能进行推理的生成式人工智能模型,它提升了我们利用生命密码进行编程和创造的能力,让我们能够像设计建筑、制造机器和微芯片以及编写计算机程序一样,从底层原理出发来改造生物学。

四大序列模型大比拼

1. ProteinMPNN是基于信息传递神经网络(MPNN)开发的,能够通过给定的蛋质骨架结构找到正确折叠的氨基酸序列。它的功能是通过蛋白质骨架特征如Cα-Cα原子间距离、二面角等信息,生成预测的氨基酸序列。与传统的Rosetta(Rosetta的原理为基于物理的方法将序列设计视为能量优化问题,在给定的输入结构中寻找具有最低能量的氨基酸身份和构象的组合)相比,ProteinMPNN在序列恢复、计算效率和适用范围上具有显著优势。该方法广泛应用于单体、环低聚物、蛋白质纳米颗粒和蛋白质-蛋白质界面的设计

2. ABACUS-R是一个深度学习模型,在给定主链的情况下可以设计序列。方法使用一个具有编码器和解码器的网络模型,使用多任务方法训练。环境的特征使用氨基酸类型,但是没有显式描述氨基酸的侧链构象(Rotamer-Free)。通过X-ray的实验验证,ABACUS-R超过了目前最优秀的序列从头设计算法,可以作为非常有效的蛋白质设计工具

3. CarbonDesign 是蛋白质序列设计版的 AlphaFold,它从用于蛋白质结构预测的 AlphaFold 模型中汲取灵感,并专门针对蛋白质序列设计进行了算法改进。该工具能够准确且稳健的设计蛋白质序列,可以被广泛应用于不同蛋白质设计场景,并且可以预测蛋白质突变的功能影响。

4. CARBonAra模型。该模型基于几何变换器架构,可以同时处理蛋白质骨架和周围的任何类型分子,包括其他蛋白质、核酸、配体、离子等,从而实现更加精确和灵活的蛋白质序列设计

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->