打开APP

上海交大洪亮团队开发扩散概率模型——CPDiffusion,设计生成高活性的人工内切核酸酶

  1. 蛋白质序列设计工具

来源:生物世界 2024-09-14 10:36

CPDiffusion作为一种强大的全新蛋白质序列设计工具,为生物学家和蛋白质工程设计者提供了全新的可能性,用于设计功能更强大的蛋白质、研究蛋白质功能的逐渐演化过程、丰富现有蛋白质的数据库等。

上海交通大学自然科学研究院洪亮团队等在 Cell Discovery 期刊发表了题为:A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity 的研究论文。

研究设计了一种扩散概率模型框架——CPDiffusion,成功设计并生成了具有增强活性的人工程序化内切核酸酶序列。

这项突破性研究展示了深度学习在蛋白质工程领域的强大潜力,为蛋白质工程、生物技术、分子诊断等领域带来了新的应用前景。和现有的序列设计方法相比,该方法以极低的模型训练和数据成本学习蛋白质序列、结构和功能之间的隐含映射规则,生成多样化的蛋白质序列,并以极高的成功率通过湿实验验证,最终在两款超长的多结构域复杂功能蛋白(KmAgo和PfAgo)得到超过10倍的DNA剪切活性提升,显著高于现有任何已发现的常温野生型蛋白活性。此外,该方法和传统定向进化方法不同,能够一次性改变数百个氨基酸,从而为蛋白质工程选择全新进化起点、生物研究探索蛋白质进化路径、生物科技突破专利封锁等成为可能。

据悉,这是迄今为止全球范围内公开文献报道的AI生成的结构最复杂,体积最大的单个蛋白,并被湿实验验证有优异活性。

图片

该研究设计了一种全新的蛋白质序列设计和筛选流程——CPDiffusion,结合骨架结构、活性位点等多种生成条件,为特定功能的蛋白质生成多样化的全新序列(图1)。初始化的模型在两万条野生型蛋白质结构和序列上进行训练,用于学习蛋白质序列-结构-功能之间的映射关系。同时,为了强化模型对于待生成蛋白质特征的理解,在训练集中还加入了几百条来自于同家族的其他蛋白质序列和结构,一起进行训练。

在生成过程中,首先把原始的蛋白质序列和信息处理为具有分子生化和拓扑特性的氨基酸级别的图表示。在前向扩散过程中,输入蛋白中的每种氨基酸类型都通过遵循某个替换概率矩阵,在T个步骤中被逐步破坏,以达到均匀分布;逆向扩散过程从随机抽样开始,每个氨基酸节点的类型在20种氨基酸类型中均匀分布,随后进行逐步去噪过程。去噪过程受到条件的指引,如待生成序列的野生型骨架结构和二级结构,以及基于野生型蛋白质的氨基酸替换矩阵(BLOSUM62)。为了确保模型学习到蛋白质三维结构中隐含的等变性,传播函数由一个等变图卷积层拟合。

这一扩散概率模型最终生成骨架上每个氨基酸的联合概率分布,通过对学习到的分布进行采样,可以得到相应的蛋白质序列。之后使用AlphaFold2对生成序列进行结构预测,并根据RMSD,pLDDT等进行筛选后得到一批序列,集合湿实验合成、表征和评估确认其表达性、活性、热稳定性等表现。

图片

图1:CPDiffusion框架示意图

为了验证CPDiffusion的生成效果,研究团队特别考虑生物技术中的一个重要问题,即生成具有高DNA剪切活性和稳定性的常温原核内切核酸酶(原核Argonaute,简称pAgo蛋白)。

pAgo蛋白是一类在原核生物DNA干扰中发挥关键作用的内切核酸酶,具有靶向并切割特定单链DNA/RNA序列的显著能力,在诊断学中具有重要应用,如检测和定量与病原体或癌症相关突变相关的核酸序列,从而提供疾病早期检测和精确治疗。此外,pAgo蛋白对底物具有高亲和力和对目标序列的特异性识别,使它们成为成像和基因编辑的重要工具。在等温核酸基检测和基因编辑技术中,通常考虑嗜温pAgo蛋白(如KmAgo)作为候选蛋白。然而这类蛋白的DNA切割活性相对较低,因此受到潜在应用性的限制。另一方面,嗜热pAgo蛋白(如PfAgo)DNA剪切活性显著更高,但通常只在高温下发挥作用,随着温度降低会丧失活性,因此难以应用到常温下的检测和编辑任务中。

以上两种蛋白分别作为中温和超高温下高活性的代表性野生型蛋白质,都由近800个氨基酸,组成六个结构域。利用该研究设计的CPDiffusion生成和筛选框架,研究团队产生了27个新的人工KmAgos(Km-APs)和15个人工PfAgos(Pf-APs)。与模板WT相比,它们在序列同一性上共享50%至70%的相似性。与NCBI的其他WT蛋白(除模板外)相比,APs的序列同一性不到40%。与经典的合理设计方法不同,模型训练和推理的整个过程几乎不需要任何专家指导,即可自动识别高度保守的区域,从而在保证功能的基础上更多改变非保守区域,提高生成序列的多样性(图2)。

图片

图2:CPDiffusion成功学习蛋白质序列的保守特征、表面带点性等重要性质

通过多种实验验证,研究团队发现,为KmAgo和PfAgo生成的两组新序列中,超过90%的新序列具有DNA切割活性,其中超过70%的活性比它们野生型基线有所增强(图3)。值得注意的是,表现最好的新KmAgo的活性比野生型KmAgo高出九倍,而最好的新PfAgo将野生型PfAgo的熔解温度从大约100°C降低到50°C,其在45°C时的单链DNA切割活性是95°C时野生型PfAgo的两倍,是温和温度下的野生型KmAgo的11倍。这些显著的结果证明了CPDiffusion在自动从野生型功能蛋白中学习,并设计具有高度复杂生物功能的蛋白质序列以增强功能方面的强潜力。

图片

图3:KmAgo工作原理图和Km-APs表达、活性、热稳定性实验结果

总的来说,CPDiffusion作为一种强大的全新蛋白质序列设计工具,为生物学家和蛋白质工程设计者提供了全新的可能性,用于设计功能更强大的蛋白质、研究蛋白质功能的逐渐演化过程、丰富现有蛋白质的数据库等。

上海交通大学自然科学研究院/上海国家应用数学中心(上海交通大学分中心)助理研究员周冰心博士,密歇根大学神经科学研究所/细胞与发育生物学研究所博士后郑力荣博士,上海交通大学生命科学技术学院博士研究生吴邦昊为论文共同第一作者。上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮教授、剑桥大学Pietro Liò、密歇根大学郑力荣博士为论文共同通讯作者。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->