Nature Biotechnology:命中率飙升90倍!GNEprop模型如何破解超大规模虚拟筛选的效率密码?
来源:生物探索 2025-11-02 15:15
研究人员将大规模的实验筛选与前沿的深度学习技术巧妙结合,开发出一种强大的新策略,仿佛为我们在茫茫的分子宇宙中导航,提供了一个前所未有的精准“罗盘”。
在与微生物漫长的战争史中,抗生素的发现无疑是一座丰碑,它将无数人从死亡的边缘拉回。然而,我们正面临一个严峻的现实:细菌的进化速度远超我们新药研发的脚步。多重耐药菌(multidrug-resistant bacteria),也就是我们常说的“超级细菌”,正在成为一个悄然而至的全球性健康危机。据统计,每年有超过1.27亿人的死亡与抗生素耐药性直接相关。这场无声的“瘟疫”威胁着现代医学的根基。
寻找新型抗生素的道路为何如此艰难?答案藏在一个惊人的数字里:理论上,具有潜在成药性的小分子化合物的数量,估计高达10的60次方。我们传统的药物筛选方法,即高通量筛选(High-Throughput Screening, HTS),就像是想用一个普通的渔网,在这片浩瀚无垠的分子海洋中捕捞到一条特定的鱼,其难度可想而知。
10月24日,《Nature Biotechnology》的研究报道“Deep-learning-based virtual screening of antibacterial compounds”,为我们展示了一幅全新的图景。研究人员将大规模的实验筛选与前沿的深度学习技术巧妙结合,开发出一种强大的新策略,仿佛为我们在茫茫的分子宇宙中导航,提供了一个前所未有的精准“罗盘”。

大海捞针的困境:分子海洋与漏水的渔网
在探讨这项突破性研究之前,我们必须首先理解传统新药发现面临的核心瓶颈。想象一下,制药公司的化合物库里储存着数百万种化合物,研究人员利用自动化设备,将它们逐一测试,看是否对目标细菌有抑制作用。这就是高通量筛选(HTS)。它在过去几十年中功不可没,但如今正显得力不从心。
首先,效率极低。正如这项研究的初步工作所展示的,研究人员动用了一个包含近200万(1,981,993)个小分子的化合物库,进行了一次大规模的体外筛选。如此庞大的筛选规模,最终发现了多少个具有抗菌活性的化合物呢?答案是5,161个。这听起来似乎不少,但计算一下命中率(hit rate),仅为0.26%。这意味着每筛选一万个化合物,大约只有26个能展现出初步的活性。这背后是巨大的时间、资源和金钱成本。
更重要的问题在于“多样性”。现有的化合物库,很多都偏向于已知的药物结构或天然产物。这意味着,我们很可能只是在已知的化学空间里“兜圈子”,反复发现与现有抗生素结构类似的分子,而这些分子往往也容易陷入同样的耐药机制。要真正战胜超级细菌,我们迫切需要找到结构全新的、具有新颖作用机制(Mechanism of Action, MoA)的“先锋”分子。
这正是该研究的巧妙起点。他们没有回避HTS的低效,反而将这次大规模筛选的“低效”结果,转化为了最有价值的“燃料”——一个规模庞大、化学多样性丰富的高质量数据集。这近200万个化合物的测试结果,包含了5,161个“有效”的阳性样本和近200万个“无效”的阴性样本,共同构成了一部关于“分子结构与抗菌活性关系”的详尽教科书,为即将登场的主角,人工智能模型,提供了绝佳的学习材料。
训练一位“数字化学家”:GNEprop模型的诞生
如果说高通量筛选是在用“蛮力”解决问题,那么深度学习则试图用“智慧”来破局。研究人员基于前期的筛选数据,构建并训练了一个名为GNEprop的深度学习模型。我们可以将其想象成一位不知疲倦、过目不忘的“数字化学家”。
GNEprop的核心是一种被称为图神经网络(Graph Neural Network, GNN)的算法。这种网络的巧妙之处在于,它能够以一种非常自然的方式“理解”化学分子的语言。在GNN的眼中,一个分子就是一个由节点(原子)和边(化学键)构成的图。通过学习海量分子图的结构信息,GNEprop能够精准捕捉到决定一个分子是否具有抗菌活性的那些微妙的结构特征和化学规律。
然而,要训练出一位顶尖的“数字化学家”,光有数据还不够,还需要巧妙的“教学策略”。研究人员在这里做出了一个至关重要的决定:他们在初始的高通量筛选中,使用的并非野生的、防御力全开的大肠杆菌(Escherichia coli),而是一个经过基因改造的“敏感”菌株——ΔtolC突变株。
这个ΔtolC突变株缺少一个关键的外排泵(efflux pump)蛋白TolC。外排泵就像是细菌细胞的“污水处理系统”,能主动将进入细胞内的有毒物质(包括很多抗生素)排出。敲除了这个系统,细菌就变得异常脆弱,对许多原本无法进入或被轻易排出的化合物都变得敏感。
这步棋妙在何处?它极大地丰富了模型的训练数据。在一个防御力正常的野生菌株面前,许多有潜在活性的化合物可能因为无法穿透细胞壁或被迅速排出而表现为“无效”。但在敏感菌株这里,它们得以“显露原形”。这使得研究人员能够从200万个化合物中捕获到更多的阳性信号(5,161个),从而让GNEprop模型学习到更广泛、更多样化的抗菌分子结构模式。这无疑是一次巧妙的数据增强策略。当然,这也留下了一个悬念:一个在“靶场”上训练出来的神枪手,能否在“真实战场”上对抗全副武装的敌人?这个问题,我们稍后揭晓。
经过在数百万分子数据上的深度学习,GNEprop这位“数字化学家”正式“毕业”。它不仅学会了判断一个分子是否有活性,还具备了处理海量未知分子的能力,为接下来的惊人飞跃奠定了基础。
从两百万到十四亿:虚拟筛选的“跃迁”时刻
当GNEprop模型准备就绪后,研究人员为它设置了一项几乎不可能完成的任务:挑战一个名为Enamine REAL的超大型虚拟化合物数据库。这个数据库包含了超过14亿个在理论上“可合成”的化合物分子。所谓“可合成”,意味着这些分子结构并非天马行空,而是可以通过已知的化学反应路线被制造出来,只是尚未被实际合成和测试。
这正是AI大显身手的舞台。让实验设备去测试14亿个化合物是天方夜谭,但对于GNEprop来说,这只是一次庞大的计算任务。研究人员动用了64块顶级的A100 GPU进行并行计算,在不到48小时的时间里,完成了对全部14亿个分子的抗菌活性预测。
GNEprop从这片广阔的虚拟分子海洋中,筛选出了大约44,000个它认为最有可能具有抗菌活性的“高分考生”。接下来的一步同样关键,体现了药物研发的严谨思维。研究人员并没有简单地挑选得分最高的分子,而是综合考虑了结构多样性、与已知抗生素的差异性以及合成的可行性等因素,最终精心挑选了345个代表性分子,进行真实的化学合成和生物学测试。
激动人心的时刻到来了。这345个从虚拟世界走向现实的分子,在实验室中接受了与初始筛选相同的考验。结果如何?其中有82个化合物表现出了明确的抗菌活性,命中率高达23.8%!
让我们将这个数字与之前的实验进行对比。传统的高通量筛选,命中率是0.26%。而经过AI模型的虚拟筛选,命中率提升到了23.8%。这意味着,筛选效率实现了惊人的90倍提升。这不再是量变,而是质变。它证明了AI模型不仅学到了知识,更具备了强大的“泛化”能力,能从已知数据中洞察规律,并精准地应用于广阔的未知领域。AI不再是一个简单的过滤器,而是一个高效的、能从沙砾中发现金子的“探矿仪”。
命中率之外的深思:新分子真的“新”吗?
一个高达90倍的效率提升固然令人振奋,但对于抗生素研发领域的资深人士而言,一个更深刻的问题是:这些新发现的分子,真的“新”吗?它们是否只是现有抗生素的微小变体,还是真正开辟了新的化学疆域?
这正是该研究最具价值的部分之一。研究人员利用计算化学工具,对这82个新发现的活性分子的结构进行了深入分析。他们使用了一种名为“塔尼莫托相似性”(Tanimoto similarity)的指标来衡量分子间的结构相似度,数值越接近1,表示结构越相似。
分析结果给出了强有力的证据:首先,这些新分子与用于训练模型的原始阳性化合物库存在显著差异。其中,大约三分之一的新分子与训练集中的任何活性分子的相似度都非常低(塔尼莫托相似性低于0.4)。这说明模型并非简单地“复刻”或“模仿”它学过的东西,而是真正实现了“举一反三”的创造性预测。
其次,也是最关键的一点,这些新分子与人类已知的数千种抗生素相比,展现出了极高的“新颖性”。数据显示,高达98.8%的新分子与已知抗生素的结构相似度很低(低于0.4),其中更有39%的分子达到了“极低”的相似度(低于0.2)。
为了更直观地展示这一点,研究人员使用了UMAP的降维可视化,将高维的化学空间“绘制”成一张二维地图。在这张地图上,每一个点代表一个分子。我们可以清晰地看到,已知抗生素和原始筛选出的活性分子各自聚集在地图的不同区域,而通过虚拟筛选发现的新活性分子,则在地图上开辟出了一片全新的、此前未被探索过的“大陆”。这直观地证明,AI引导他们进入了全新的化学空间,发现了前所未见的抗菌药物“骨架”(scaffolds)。这对于打破耐药性僵局,寻找新作用机制的药物来说,意义非凡。
从虚拟命中到真实靶点:破译分子的“作案手法”
找到了结构新颖的活性分子,只是万里长征的第一步。一个合格的候选药物,不仅要能杀菌,我们还必须知道它是如何杀菌的,也就是它的作用靶点(target)是什么。同时,我们也要回答之前留下的那个悬念:这些在“敏感菌”上有效的分子,能否对付得了“野生”的超级细菌?
研究团队进行了一系列严谨的生物学验证。他们挑选了一部分活性分子,在野生的、具有完整防御系统的大肠杆杆菌和另一种重要的革兰氏阳性菌——金黄色葡萄球菌(S. aureus)上进行了测试。结果发现,部分化合物依然保持活性,这表明模型筛选出的分子中,确实存在能够穿透并抵抗细菌天然防御机制的“精英”。
更精彩的是他们锁定靶点的过程,堪称一出现代版的微生物“侦探剧”。他们挑选了两个仅对革兰氏阴性菌表现出高活性的“专一杀手”——化合物N9777和N9786。随后,他们将大肠杆菌暴露在这两种化合物中,并筛选那些能够存活下来的“幸存者”,也就是耐药突变株。
这些突变株之所以能够耐药,很可能是因为它们编码药物作用靶点的基因发生了变异。通过对这些耐药菌株进行全基因组测序,研究人员精确地找到了发生突变的基因。对于N9777,突变无一例外地指向了lpxH基因,该基因编码的酶是细菌外膜重要组分——脂多糖(LPS)合成通路中的关键一环。而对于N9786,突变则集中在fabZ基因上,它在细菌的脂肪酸合成中扮演着至关重要的角色。
这一发现极为重要。它不仅揭示了这两个全新分子的精确“作案手法”,更从生物学层面证明,AI发现的分子是真正的“靶向药物”,而非无差别攻击的广谱毒素。这为后续的药物优化(比如提高活性、降低毒性)指明了清晰的方向,也再次印证了整个发现策略的强大与可靠。
授人以渔:用新发现照亮更广阔的未知领域
这项研究最令人赞叹的,可能并非仅仅是那90倍的效率提升,或是发现了几个新靶点,而在于它展示了一种可持续、可迭代的发现新范式。它不是一次性的“捕鱼”,而是教会我们如何制造更智能的“渔具”。
研究的最后一部分,就完美诠释了“授人以渔”的思想。研究人员将新发现的82个活性分子视为散落在未知化学空间中的“新灯塔”。他们提出一个问题:我们能否利用这些灯塔的光芒,去照亮它们周围更广阔的未知领域?
于是,他们进行了一轮“最近邻”(nearest-neighbor)探索。他们以几个活性和成药性俱佳的分子作为“锚点”,回到那44,000个虚拟命中分子库中,专门搜索与这些“锚点”结构最相似的分子。这就像是在新发现的金矿周围,进行更精细的勘探。
结果再次带来了惊喜。这种聚焦式的局部搜索,发现了一批比原始“锚点”分子活性更强的“升级版”化合物。一个极具说服力的例子是,有的“锚点”分子虽然对敏感菌有效,但对野生型大肠杆菌的最低抑菌浓度(MIC)大于40 µM,基本无效。然而,在它的“最近邻”分子中,研究人员却找到了MIC值为10 µM和20 µM的化合物,实现了从无效到有效的关键突破。
这个策略的意义在于,它构建了一个强大的正反馈循环。每一次的发现,都为下一次更精准的探索提供了起点。AI模型和实验验证不再是线性的单向流程,而是成为一个动态的、不断自我优化的发现引擎。今天发现的命中分子,将成为明天训练更强模型的宝贵数据;今天验证的靶点,将指导明天进行更具针对性的虚拟筛选。
开启药物发现的新罗盘:在迷宫中重新思考
回顾这项研究,它为我们描绘的抗生素发现未来蓝图,充满了智慧与希望。其核心贡献,并非简单地宣告“AI可以发现新药”,而是展示了一套完整且高效的协同作战体系:
它始于一个巧妙的实验设计,利用敏感菌株进行大规模筛选,以获取足够丰富和高质量的训练数据。
它依赖于一个强大的学习工具,GNEprop模型,它能从数据中学习化学的深层规律,并以前所未有的规模和速度探索未知的化学空间。
它最终回归于严谨的科学验证,通过化学合成、生物测试、靶点确证和迭代优化,将虚拟的预测转化为真实的、有潜力的候选药物。
这不再是盲人摸象式的“暴力”筛选,而是由数据驱动的、有明确目标的智能探索。研究人员不再是面对分子海洋束手无策的渔夫,而是手持AI罗盘、能够规划航线的领航员。
当然,我们必须清醒地认识到,从发现一个有活性的化合物到它最终成为临床可用的药物,仍然有漫长而充满挑战的道路要走。但这项工作无疑已经为我们大大缩短了这条路最开始、也最迷茫的一段。它所建立的“大规模实验数据 + AI虚拟筛选 + 实验验证”的闭环策略,不仅为抗生素研发,也为抗癌药、抗病毒药乃至更多疾病的药物发现,提供了一个极具潜力的通用范本。
在这场与超级细菌的赛跑中,我们或许终于找到了一个能与细菌进化速度相抗衡的强大“加速器”。未来的药物发现,将不再仅仅是化学家和生物学家的领域,更是数据科学家和人工智能算法工程师共同驰骋的疆场。这场革命,已经拉开序幕。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。