Nature子刊:上海药物所郑明月团队提出基于序列的药物设计新方法
来源:生物世界 2023-07-19 15:23
通过逆向应用 Transformer CPI 2.0 对已上市药物进行蛋白质组范围的靶标筛选,成功发现雷贝拉唑抗肿瘤作用的潜在靶标ADP-核糖基化因子ARF1。这些新发现的活性分子和靶标蛋白都是模型训
自上世纪90年代以来,基于蛋白质结构的药物设计(SBDD)一直是创新药物发现的主流方法,在针对具有明确靶标的疾病治疗方面取得了重大进步。这种方法一般涉及多个步骤的复杂流程,包括建立蛋白质的三维(3D)结构,识别潜在的配体结合位点,并通过虚拟筛选或全新设计发现活性化合物等等。SBDD流程中的每个步骤都有其局限性,例如许多蛋白质并没有高分辨率的结构。
虽然近年来的蛋白质结构预测技术如AlphaFold和RoseTTAFold有所突破,但并非所有预测的结构都适合进行基于结构的药物设计。精确预测配体结合口袋是一个挑战,因为这些局部结构往往违反“蛋白质折叠规则”,配体的结合也会诱导氨基酸构象发生变化。此外,由于变构效应的机制多样性,对具有多个结构域的新靶标如何确定配体结合位点也存在困难。最后,虚拟筛选可能会产生假阳性,误差和错误的不断累积会导致最后的严重的假阳性问题。
中国科学院上海药物研究所郑明月团队在 Nature 子刊 Nature Communications 期刊发表了题为:Sequence-based drug design as a concept in computational drug design 的研究论文。
图1. 基于序列的药物设计方法TransformerCPI2.0。a,基于结构药物设计与基于序列药物设计的流程对比。b,“从序列到药物”概念验证的三个阶段,包括:①评价跨蛋白质和化学空间的泛化能力(计算验证);②通过耐药性突变和取代基活性悬崖效应的预测检验模型是否学习到蛋白质-配体相互作用知识(可解释性分析);③开展具有挑战性的虚拟筛选和药物重定向预测(实验验证)。c,TransformerCPI2.0的架构。
尽管已经有深度学习研究报道可以基于蛋白质序列信息预测与化合物的相互作用,但是还没有一种模型完全验证了“从序列到药物”的药物设计概念。在这项工作中,研究团队设计了 Transformer CPI 2.0 作为概念验证的基础模型。该模型利用Transformer神经网络架构和预训练蛋白质语言模型,在蛋白质和化学多样性空间中都展示出了泛化能力。对 Transformer CPI 2.0 进行可解释分析,结果表明模型可以通过注意力机制从序列信息中有效学习蛋白质与配体分子间相互作用的抽象知识,而不仅是简单的记忆训练数据中的分布偏差。
图2. 利用TransformerCPI2.0基于蛋白质序列发现新骨架SPOP抑制剂
此外,通过逆向应用 Transformer CPI 2.0 对已上市药物进行蛋白质组范围的靶标筛选,成功发现雷贝拉唑抗肿瘤作用的潜在靶标ADP-核糖基化因子ARF1。这些新发现的活性分子和靶标蛋白都是模型训练过程未见的,表明 Transformer CPI 2.0 可以推广到新的蛋白质和化学空间,显示了良好的泛化能力。计算分析和实验结果支持基于序列药物设计的可行性,基于这一概念的新方法有望成为未来理性药物设计流程的重要组成部分。
这一工作通过计算机、信息学、化学和生物学等多学科融合交叉,为创新药物发现提供了新的视角。基于序列的方法可以作为基于结构药物设计的替代方法,在无法获得高质量蛋白质3D结构的场景中发挥作用,也可与其他虚拟筛选和高通量体外筛选技术结合,加速药物发现进程。
最近,超大规模按需定制化合物库(make-on-demand library)技术快速发展,已覆盖了数亿到数十亿种化学物质的多样性空间,如何开发计算效率更高的虚拟筛选方法成为领域的研究热点。“从序列到药物”的端到端学习策略可以有效的简化建模和筛选流程,可以更加高效的探索未知化学和生物学空间,为原创药物的发现提供新的出发点和切入点。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。