打开APP

​Cell Res:我国学者开发零样本突变效应预测模型,高效指导蛋白质设计改造

来源:生物世界 2024-07-12 16:25

该工作创新性的开发了一种基于多模态大模型的突变效应预测方法——ProMEP

军事医学研究院生物信息中心王升启、舒文杰研究员团队联合南京医科大学生殖医学与子代健康全国重点实验室张军研究员团队和之江实验室朱世强教授团队,在 Cell Research 期刊发表了题为:Zero-shot prediction of mutation effects with multimodal deep representation learning guides protein engineering 的研究论文。

该研究首次同时以亿级蛋白质序列和结构数据为学习对象,构建了一个多模态蛋白质深度表征学习模型,系统挖掘了蛋白质序列分布知识和空间折叠规律。在此基础上,研究团队开发了一种不依赖多序列比对(MSA-free)和现有实验数据(零样本)的突变效应预测方法——ProMEP(Protein Mutational Effect Predictor),同时利用蛋白质序列和结构上下文精确预测氨基酸突变效应,预测速度比现有最优方法AlphaMissense快2-3个数量级,并在实际指导蛋白质设计改造方面展现了巨大的应用潜力!

图片

相比于氨基酸序列,蛋白质三维结构在进化上更为保守,且包含长范围的空间接触信息,对深入理解蛋白质功能尤为关键。为了同时利用蛋白质序列上下文和结构上下文破译氨基酸突变效应,研究团队构建了一个参数量约6.95亿的多模态蛋白质深度表征学习模型。该模型以AlphaFold蛋白质结构数据库中约1.6亿蛋白质为学习对象,系统学习蛋白质序列分布知识和空间折叠规律。此外,为了捕捉原子精度的蛋白质结构信息,研究团队还提出了蛋白质点云作为蛋白质结构的表示方法,并使用旋转平移等变的结构嵌入模块挖掘蛋白质结构的旋转平移不变性特征。在GO注释、EC注释、蛋白质相互作用预测等15个下游功能测试数据集的系统性评估表明,研究团队所开发模型在所有15个数据集上性能均达到最高水准。

在多模态深度表征学习模型基础上,研究团队进一步开发了ProMEP突变效应预测模型。ProMEP以野生型蛋白质为输入,同时提取蛋白质序列和蛋白质结构上下文,通过预训练的多模态表征模块计算氨基酸序列每个位置下,20种常见氨基酸的出现概率,并将突变型氨基酸和野生型氨基酸概率差作为突变适应度打分。获取突变适应度打分后,ProMEP可绘制目标蛋白质的适应度景观,并给出适应度打分高的突变体作为候选改造对象。

图片

图片

为了验证ProMEP的零样本突变效应预测能力,研究团队使用ProteinGym测试基准中涵盖人类、其他真核生物和原核生物共53个蛋白的160万突变体及功能数据进行测试。现有的其他突变效应预测方法作为对比基准,包括MSA依赖的方法(如AlphaMissense和EVE),MSA-free的方法(如ESM2_3B,ESM2_650M, ESM1v 和Tranception)。

测试结果表明,ProMEP性能与AlphaMissense相当,并显著优于其他方法。由于ProMEP的MSA-free特性,对1000个氨基酸长度的蛋白进行推理速度分析发现,ProMEP仅需0.3秒即可完成预测,是AlphaMissense的~296倍。在100个氨基酸长度的蛋白质上,这一速度优势甚至扩大至上千倍。

最后,研究团队以TnpB核酸酶和TadA脱氨酶为改造对象,实际验证ProMEP能否准确识别潜在有利突变,并以此指导蛋白质设计改造。实验结果表明:

1)针对所验证的Top 10的有利突变和不利突变,ProMEP有利突变预测准确率达50%-70%,不利突变预测准确率100%。

2)以ProMEP设计的TnpB五点突变体构建的ABE/CBE碱基编辑器,相比野生型TnpB构建的ABE/CBE编辑器分别实现1.91-26.9、2.17-16.54倍编辑效率提升。

3)以ProMEP设计的TadA十五点突变体构建的ABE碱基编辑器在A5/A6位置上的A-to-G编辑效率和旁编辑效应与经典的ABE9相当,且脱靶率优于ABE8e。

综上所述,该工作创新性的开发了一种基于多模态大模型的突变效应预测方法——ProMEP。该方法在模型架构、训练数据类型及规模、模型性能和下游应用上均有突破,为破译蛋白质结构与功能密码、探索庞大蛋白质突变空间、预测突变效应并指导蛋白质设计改造提供了全新策略。随着各类蛋白质多样化改造需求不断增加,ProMEP零样本且MSA-free的特性尤为重要,有望显著降低蛋白质设计改造难度和实验成本,为生物学家快速研制高性能酶分子提供有利手段。

军事医学研究院生物信息中心程鹏助理研究员、南京医科大学毛聪博士、之江实验室唐进、军事医学研究院生物信息中心杨森助理研究员为该论文共同第一作者。军事医学研究院生物信息中心王升启和舒文杰研究员、南京医科大学生殖医学与子代健康全国重点实验室张军研究员和之江实验室朱世强教授为该论文的共同通讯作者。同时,该论文还受到之江实验室黄行许教授,上海科技大学赵素文教授等的支持和帮助。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->