MIT团队提出蛋白生成新模型,无需预训练,可从头生成新蛋白质,主链长度可达500个氨基酸序列
来源:生辉 2023-07-24 10:28
近日,麻省理工学院的研究人员开发出了一种扩散模型 FrameDiff,这是一种生成式深度学习工具,能够生成自然界中不存在的新型蛋白质结构。在研究中,研究团队将 FrameDiff 应用于蛋白质主链生成
生成式 AI 被视为人工智能皇冠上一颗璀璨的“明珠”,已经在多个领域表现出独特的价值,从编程再到视频、艺术、写作、游戏、数学计算到生物医药等等。
Nature Biotechnology 上的一篇社论文章指出,生成式 AI 正在生物医学领域全速前进。其中,以几何深度学习和扩散模型为基础的生成式AI模型在生物制药中已经开始走向成熟,相关模型在蛋白质和抗体设计方向也取得了一些重要的进展。
近日,麻省理工学院的研究人员开发出了一种扩散模型 FrameDiff,这是一种生成式深度学习工具,能够生成自然界中不存在的新型蛋白质结构。在研究中,研究团队将 FrameDiff 应用于蛋白质主链生成,该模型可以生成多达 500 个氨基酸序列的蛋白质主链,且无需依赖于预训练蛋白质结构预测网络。相关研究已经上传到预印本平台 ArXiv 上。
(来源:ArXiv)
官方新闻稿指出,FrameDiff 能够提高蛋白质工程能力,有助于加快疫苗和药物的研发进程,改善基因治疗水平等。
本文的第一作者是 Jason Yim,电子工程与计算机科学系和数据、系统与社会研究所的 Thomas Siebel 教授 Tommi Jaakkola 为这项研究提供了建议。Jason Yim 目前是 MIT 计算机科学与人工智能实验室(CSAIL)博士二年级的学生,他曾在约翰霍普金斯大学获得计算机科学和应用数学学士学位,还曾担任 DeepMind 的研究工程师。他的研究方向是开发生物学和化学等科学领域的机器学习方法,将几何深度学习、生成模型(扩散和基于评分的模型)、离散优化、黎曼流形等方法应用于医学成像、蛋白质结构建模、蛋白质适应性优化以及从头蛋白质设计等。
Jason Yim 表示,在自然界中,蛋白质设计是一个缓慢进化的过程,需要数百万年的时间。我们的技术旨在为制造蛋白质提供解决方案,其蛋白质设计速度远快于自然界蛋白质设计的速度。
参数少 4 倍,无需预训练,生成蛋白主链长度可达 500 个氨基酸
蛋白质具有复杂的结构,其由许多通过化学键连接的原子组成。其中决定蛋白质三维结构的最重要原子称为“主链”,这类似于蛋白质的“脊柱”。主链上,每个原子的三联体都有相同的化学键和原子类型模型。
新闻稿中指出,这些模型可以利用微分几何和概率的思想来构建机器学习算法,这也是框架(frames)的用武之地。从数学上讲,这些三联体可以建模为刚体,称之为“框架”,他们在 3D 结构中相应的有位置和旋转。
这些框架可以为每个三联体提供足够的信息,并描述其空间环境。然后,机器学习算法的任务是学习如何移动每个框架来构建蛋白质主干,通过学习构建现有蛋白质,有望泛化并构建新型蛋白质。
训练构建蛋白质的扩散模型会涉及到注入噪声(injecting noise),随机移动所有的框架,模糊原始蛋白质的外观。这种算法的工作是移动和旋转每一个框架,直到看起来像原始蛋白质。虽然很简单,但框架上进行扩散需要黎曼流形上的随机微积分技术。
RF 扩散(RoseTTAFold Diffusion,RFdiffusion)是一种具有代表性的扩散模型,这是结合结果预测网络和生成扩散模型的蛋白质设计方法,由David Baker 团队开发。这一模型将 RosettaFold2 与 SE(3)扩散相结合,基于 AlphaFold2 和 RoseTTAFold 等结构预测方法对蛋白质结果进行深入理解,并优化改进蛋白质设计扩散模型,最终开发出了一种生成全新蛋白质的引导扩散模型(guided diffusion model)。这种 RF 扩散方法能够预测蛋白质结构,并提供蛋白质各部分如何组合在一起的信息,然后使用这些信息指导整个蛋白质生成过程。
受此启发,SE(3)扩散通过将框架整合到扩散模型中,以进一步采用框架的概念。并利用 SE(3)扩散学习概率分布,概率分布会将每个框架的平移和旋转分量连接起来。SE(3)扩散已被用于生成和验证新型蛋白质。
研究团队以 SE(3)不变扩散模型的理论基础建立了一个新框架 FrameDiff,这是一个基于中心 Se (3) N 随机过程建模框架采样蛋白质主链的扩散模型,也是一个用于学习多框架的 SE(3)等变分数。论文中这样描述道,研究人员以去噪分数匹配(DSM)训练的形式描述了李群尤其是 S O(3)上布朗运动的分布,并定义了 S E (3) N 上允许分离平移和旋转的前向过程。
研究人员指出,该模型遵循了正确的 DSM 训练,使用的参数比 RFdiffusion 少了 4 倍,并且无需进行预训练。
接下来,该研究团队进行了蛋白质单体试验,结果显示 FrameDiff 可以设计和生成多种蛋白质主链,长度可达 500 个氨基酸序列,且可以生成新型蛋白质。
研究人员进一步指出,FrameDiff 模型设计蛋白质主链的成功率仅次于 RFdiffusion。该研究将推动 SE(3)扩散方法的进一步发展,SE(3)是用于蛋白质和其他领域 RFdiffusion 和 FrameDiff 的基础。
计划提高模型通用性
上文提到的 RFdiffusion 模型通过结合扩散模型和蛋白结构预测工具,解决了蛋白质设计中的关键技术问题,包括开发用于加速疫苗设计的高度特异性蛋白质结合剂、用于基因递送的蛋白质工程以及用于精确设计酶的基序支架。
作为“升级版”RFdiffusion,FrameDiff 在一定程度上达到甚至超越了 RFdiffusion 的功能。据研究人员透露,该模型未来的一个努力方向是提高通用性,另一个方面是将模型推广到多种药物分子形式中,包括 DNA 和小分子。
研究团队认为,如果通过使用更多数据量训练 FrameDiff 并增强其优化过程,FrameDiff 可以具有与 RFdiffusion 同等的设计能力,生成蛋白质基础结构。同时也会保留 FrameDiff 操作的简单性。
对此,哈佛大学计算生物学家 Sergey Ovchinnikov 表示,放弃 FrameDiff 中的预训练结构预测模型,为快速生成较长结构提供了更多可能性。论文中的创新方法为克服当前结构预测模型的局限性迈出了重要一步。
“就生成蛋白质结构的能力而言,深度学习模型的主要目的是开发出更多增强功能的能力,例如设计出更好的结合剂。这意味着工程蛋白质可以更特异性、有效附着到其他分子上,有望为靶向药物递送和相关生物技术带来广泛影响,可能促进开发出更高效的生物传感器;另一方面也会为生物医药开发带来影响,促进领域内开发出更有效的抗体、用于基因治疗的纳米颗粒。”Jason Yim 说。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。