AlphaFold迎来对手？Meta AI 预测超6亿个蛋白结构，仅用2周时间

来源：生物世界 2022-11-04 17:45

但首尔国立大学的计算生物学家 Martin Steinegger 表示，他和合作者已经使用 AlphaFold 来预测大约3000万个宏基因组蛋白质的结构。

今年7月，开发 AlphaFold 的 DeepMind 公司宣布，将预测的蛋白质结构数据量从100万个提升到了2.2亿个，而且不再仅仅着眼于人类蛋白质，还包括了植物、细菌、动物和其他生物体在内的各种物种的蛋白质结构。这几乎还改了DNA数据库中所有已知的蛋白质。

蛋白质结构的数量（紫色小圆表示实验所得的蛋白质结构数据量，浅蓝色中圆表示早期AlphaFold数据库中的数据量，蓝色大圆表示现在AlphaFold数据库中的数据量）图片来源：deepmind.com

而现在，另一个科技巨头 Meta（也就是之前的Facebook）正在填补蛋白质宇宙中的暗物质。

Meta 的研究人员使用人工智能（AI）预测了超过6亿种蛋白质的结构，这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。

ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测

Meta AI 蛋白质团队使用“大型语言模型”生成了这些结构预测，并于11月1日在预印本发表论文【1】，描述了这一成果。

Meta AI蛋白质团队的研究负责人 Alexander Rives 表示，这些来自土壤、海洋和人体的微生物中的蛋白是我们所知最少的结构，这些蛋白质非常神秘，能够为我们深入了解生物学提供潜力。

“大型语言模型”一种人工智能（AI）模型，可以从几个字母或单词预测文本，通常语言模型是在大量文本的基础上进行训练的。为了将其应用到蛋白质结构预测上，研究团队用已知的蛋白质序列进行序列，这些蛋白质由20个不同的氨基酸组成表示，每个氨基酸用一个字母表示。然后，该模型学会了在模糊氨基酸比例的情况下“自动补全”蛋白质序列。

蛋白质序列“自动补全”

Alexander Rives 表示，这种训练使模型对蛋白质序列有了直观的理解，而蛋白质序列包含了蛋白质结构形状的信息。受到 DeepMind 开创性的蛋白质结构工具 AlphaFold的启发，将这种洞察力与已知蛋白质结构和序列之间关系的信息结合起来，从蛋白质序列生成预测结构。然后，该模型学会了在模糊氨基酸比例的情况下“自动补全”蛋白质。

Meta 的研究团队在今年夏天发布的一项报告中表示，其开发的蛋白质结构预测工具 ESMFold 的准确性不如 AlphaFold，但在速度方面要快60倍左右，这意味着可以将结构预测扩展到更大的数据库中。

作为一个测试案例，他们决定将这一预测模型应用于一个大序列DNA数据库“宏基因组”，这些DNA数据来自环境之中，包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA序列来自从未被培养过的生物，也不为科学所知。

Meta 的团队总共预测了超过6.17亿个蛋白质的结构。这项工作只花了两周时间。

Alexander Rives 表示，这一预测模型是免费的，任何人都可以使用，就像模型的底层代码一样。

在这6.17亿个预测的蛋白质结构中，该模型认为超过三分之一的预测是高质量的，因此研究人员可以确信蛋白质的整体结构是正确的，在某些情况下，还可以识别更精细的原子级的细节。其中数大量结构都是全新的，与实验确定的蛋白质结构数据库或从已知生物中预测的 AlphaFold 数据库中的任何东西都不同。

首尔国立大学的计算生物学家 Martin Steinegger 表示，AlphaFold 数据库的很大一部分是由彼此几乎相同的结构组成的，而“宏基因组”数据库应该涵盖以前从未见过的蛋白质宇宙的很大一部分，这是一个很大的机会来揭开更多的黑暗中的蛋白质。

但哈佛大学进化生物学家 Sergey Ovchinnikov 对 ESMFold 的数亿个预测结果表示怀疑，其中有些预测可能缺乏确定的结构，而另一些可能是非编码DNA，却被误认为编码蛋白质，似乎还有一半以上的蛋白质空间是我们所不知道的。

德国慕尼黑工业大学的计算生物学家 Burkhard Rost 对 ESMFold 预测的速度和准确性印象深刻。但他也怀疑从宏基因组数据库中预测蛋白质时，它是否真的比 AlphaFold 的精确度更有优势。基于语言模型的预测方法，更适合快速确定突变如何改变蛋白质结构，这是 AlphaFold 无法做到的。他表示，我们将看到结构预测变得更精简、更简单、更便宜，这将为新事物打开大门。

DeepMind 的一位代表说，该公司目前没有计划在其数据库中包含宏基因组的结构预测，但不排除在未来这样做的可能性。

但首尔国立大学的计算生物学家 Martin Steinegger 表示，他和合作者已经使用 AlphaFold 来预测大约3000万个宏基因组蛋白质的结构。他们希望从中发现新的RNA病毒种类。他认为，这类预测工具的下一步显然是研究生物学中的暗物质。预计我们将很快会在这些宏基因组结构的分析方面出现爆炸式增长。

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->