Nature:生物催化发现的范式革命——“实验-数据-AI”闭环,高效链接分子与功能
来源:生物探索 2025-10-08 15:16
研究人员巧妙地将大规模的“蛮力”实验筛选与“智慧”机器学习相结合,成功开发出一个名为CATNIP的预测工具。
在分子世界中,化学家们扮演着“建筑师”的角色,他们设计蓝图,搭建复杂的分子结构,从而创造出药物、新材料和各种改善我们生活的化合物。然而,在他们的工具箱中,有一类工具既强大又神秘,那就是“酶(enzyme)”。这些来自大自然的微型催化机器,以其无与伦比的效率和精准度,在温和的条件下执行着令人惊叹的化学转化,这是传统化学方法梦寐以求的境界。利用酶来进行化学合成,即所谓的“生物催化(biocatalysis)”,被誉为通往绿色、可持续化学未来的康庄大道。
然而,这条大道上却布满了迷雾。想象一下,你手中有一把独特的“分子钥匙”(底物,substrate),想要为它找到一把能完美开启一扇化学反应之门的“锁”(酶)。问题是,自然界存在着数以亿计的“锁”,它们绝大多数都未经标记,功能未知。寻找这把完美匹配的锁,就像是在一个无边无际的仓库里大海捞针,充满了不确定性,既耗时又昂贵。这种巨大的不确定性,使得生物催化在很多时候成了一种高风险的策略,阻碍了其在药物研发和工业生产中的广泛应用。
10月1日,《Nature》的研究报道“Connecting chemical and protein sequence space to predict biocatalytic reactions”,为我们带来了振奋人心的答案。研究人员巧妙地将大规模的“蛮力”实验筛选与“智慧”机器学习相结合,成功开发出一个名为CATNIP的预测工具。它如同一部功能强大的GPS,能够导航于两个曾经看似平行的宏大世界:化学空间(chemical space) 和蛋白质序列空间(protein sequence space) 之间,以前所未有的清晰度预测“谁”能与“谁”发生反应。这项工作不仅发现了一系列全新的生化反应,更重要的是,它开创了一种全新的研究范式,有望彻底改变我们发现和应用生物催化剂的方式,为化学合成的未来点亮了一盏明灯。

两个“平行世界”的对话:化学空间与蛋白质序列空间
我们先来走进这两个既宏大又抽象的世界。
第一个是化学空间(chemical space)。这并非一个物理空间,而是理论上所有可能存在的小分子的集合。从最简单的甲烷,到结构最复杂的天然产物,再到尚未被合成出来的药物分子,它们都在这个概念性的宇宙中拥有自己独一无二的坐标。这个空间是如此浩瀚,以至于我们已经探索过的区域,相比于其整体,不过是沧海一粟。在化学合成中,我们的目标就是在这个空间中,找到一条从简单、易得的起始物通往目标分子的有效路径。
第二个是蛋白质序列空间(protein sequence space)。同样,这是由氨基酸排列组合所构成的所有可能的蛋白质序列的集合。仅仅是一条包含100个氨基酸的短肽链,其理论上的序列可能性就已超过了宇宙中原子的总数。酶,作为蛋白质大家族的一员,占据了这个空间的广阔疆域。每一种独特的序列都可能折叠成一个独特的三维结构,拥有其独特的催化功能。
长期以来,这两个“世界”的联系是微弱且零散的。我们对生物催化的认知,大多建立在少数已知的“连接点”上,即被实验验证过的酶-底物反应对。当化学家们希望利用生物催化时,他们通常采用一种被称为“局部探索(local exploration)”的策略。例如,他们会从一个已知的反应出发,尝试让同一个酶催化与原底物结构相似的分子(在化学空间中进行局部探索),或者通过蛋白质工程(protein engineering)的手段,对已知的酶进行微小的改造,以期提升其对特定底物的催化活性(在蛋白质序列空间中进行局部探索)。一个经典的例子是,为了合成一种名为西他沙星(sitagliptin)的降糖药,研究人员对一种转氨酶(transaminase)进行了多达26个氨基酸位点的突变,最终使其活性提升了惊人的50万倍。
这种“局部探索”的策略无疑是有效的,但它有一个根本性的局限:我们始终在已知的“连接点”附近徘徊,就像是只敢在熟悉的岛屿周围进行浅滩航行,而不敢驶向广阔而未知的深海。问题的关键在于,根据基因组测序数据,超过99.7%的酶,其确切的催化功能至今仍是一个谜。它们是蛋白质序列空间中沉睡的巨人,蕴藏着无法估量的催化潜力,却因为我们不知道它们对应的“化学钥匙”是什么,而无法被唤醒。这种巨大的知识鸿沟,正是阻碍生物催化发挥其全部潜力的核心症结。
绘制未知大陆:一场构建生化反应地图的“蛮力”远征
任何宏伟的理论或模型,都必须建立在坚实的数据基础之上。为了给后续的机器学习模型提供充足的“燃料”,研究人员发起了一场规模浩大的实验行动,其目标简单而明确:系统性地探索一个特定酶家族的催化能力,尽可能多地发现新的酶-底物反应对。
他们选择的“主角”是一个名为 α-酮戊二酸(α-ketoglutarate, α-KG)/Fe(II)依赖性非血红素铁酶(non-heme iron(II)-dependent enzymes, NHI) 的大家族。这个选择非常巧妙。首先,这类酶的化学能力极为多样,它们是自然界的“瑞士军刀”,能够催化一系列高价值的化学反应,如C-H键的羟基化(hydroxylation)、去饱和(desaturation)、卤化(halogenation)乃至复杂的骨架重排(skeletal rearrangements)。其次,它们具有实际应用上的便利性,相比于需要复杂辅助因子再生系统的细胞色素P450酶(cytochrome P450 enzymes)等,这类酶的反应条件更为统一和温和。
接下来是构建一个能够代表该酶家族多样性的“勘探队”,一个精心设计的酶库(enzyme library),研究人员将其命名为 aKGLib1。他们首先从公共数据库中收集了所有带有该家族保守特征的酶序列,总数高达惊人的265,632条。为此,他们运用了一种强大的生物信息学工具,序列相似性网络(Sequence Similarity Network, SSN)。通过这种方式,他们最终精心挑选出 314种酶 作为aKGLib1的成员。
这个酶库的设计非常巧妙。它策略性地覆盖了整个序列网络的不同区域,确保了极高的多样性。数据显示,库中酶序列之间的平均一致性仅为 13.7%,这意味着它们在进化上相距遥远。更令人兴奋的是,这314种酶中,有多达 70% 是从未被研究过的“未知酶(uncharacterized enzymes)”。在后续的实验中,这个酶库的成员有高达 78% 成功地在大肠杆菌(E. coli)中得到了过量表达,为后续的活性筛选奠定了坚实的基础。
“勘探队”组建完毕,接下来就是为它们提供足够多样化的“勘探目标”,底物库(substrate library)。研究人员准备了超过100种不同的化合物,其成员既包括了简单的化学砌块(chemical building blocks),也涵盖了结构复杂的天然产物、药物分子。
万事俱备,一场高通量的生化反应“大阅兵”正式拉开帷幕。在一个个96孔板(96-well plates)中,314种酶与111种底物被两两配对,进行了数万次的微型反应。这场规模宏大的实验筛选,结果斐然。在测试的111种底物中,有 35种(占比32%)被至少一种酶成功转化。而在314种酶中,有 119种(占比38%)表现出了催化活性。最核心的成果是,这次筛选总共发现了 215个全新的生物催化反应!这些新发现的反应,构成了一个前所未有的高质量数据集,研究人员将其命名为 BioCatSet1。
AI导航员CATNIP的诞生
拥有了BioCatSet1这份宝贵的数据集,就如同拥有了一本记载着众多成功“配对”案例的“婚姻登记册”。然而,我们真正需要的是一位能够从这些案例中学习、总结规律,并能预测新的“潜在情侣”的“媒婆”。这,正是机器学习(machine learning)的用武之地。
第一步,也是至关重要的一步,是如何将分子和蛋白质“翻译”成机器能够理解的语言。对于小分子底物,通过一个名为MORFEUS的计算化学软件,为每个分子计算出一套包含21个参数的“数字指纹”。对于酶,研究人员则利用它们在序列相似性网络(SSN)中的“关系远近”来量化。
数据准备就绪后,研究团队设计并训练了一个名为CATNIP(Catalytic Activity NItrogenase Predictor)的机器学习模型。这个模型的核心是一种被称为梯度提升决策树(Gradient Boosted Decision Tree, GBM)的强大算法。您可以将其想象成一个由许多“决策专家”(决策树)组成的“专家委员会”,通过集思广益、不断迭代优化的方式,能够学习到化学空间和蛋白质序列空间之间极其复杂、非线性的内在联系。
CATNIP被设计为具备两种核心的预测功能:
1. 底物导向(Substrate-to-Enzyme) 预测:用户输入一个感兴趣的分子结构。CATNIP会分析其化学特征,最终通过GBM模型,输出一个经过排序的酶列表。列表顶端的酶,就是AI认为最有可能催化该输入分子的“候选者”。
2. 酶导向(Enzyme-to-Substrate) 预测:用户输入一条酶的氨基酸序列。CATNIP会分析其序列特征,最终输出一个排序后的底物列表,预测该输入酶可能具有的“口味偏好”。
一个模型的好坏,必须用数据来验证。结果显示,以底物导向预测为例,在模型给出的排名前10的酶预测中,找到一个真正有效的酶的概率,比随机从酶库中挑选10个酶高出7倍以上。这意味着CATNIP能够极大地缩小实验筛选的范围,将化学家从“大海捞针”的困境中解放出来,让他们能够有的放矢地进行实验验证。AI导航员已经诞生,现在,是时候让它在真实世界的“战场”上证明自己的价值了。
见证奇迹的时刻:CATNIP在真实世界中的“实战”考验
理论和模型的优越性,最终要通过实验的“硬碰硬”来检验。研究团队设计了一系列严谨的实验,来验证CATNIP的预测能力是否名副其实。
实战案例一:为新“钥匙”寻找匹配的“锁”(底物导向验证)
研究人员首先向CATNIP提出了一个挑战:找到能够转化(-)-鹰爪豆碱(sparteine)的酶。CATNIP迅速响应,给出了一个包含10个候选酶的预测列表。实验团队按照这份“藏宝图”进行验证,结果令人振奋:预测列表中的10个酶,竟然有7个都成功地催化了该反应!研究人员选择了其中活性最好的一个酶,进行了克级的制备规模反应,最终以 35% 的分离收率得到了新的羟基化产物。
为了进一步测试模型的极限,他们又输入了另外两种更为复杂的分子。一种是天然产物苦参碱(matridine),CATNIP预测的10个候选酶中同样有7个显现活性,最佳的酶以高达 50% 的收率得到了产物。另一个是类固醇衍生物,CATNIP的预测再次引领实验人员发现了多个活性酶,并且催化了一种罕见的氧化性烯烃裂解(oxidative alkene cleavage)反应,以12%的收率分离得到产物。CATNIP不仅找到了针,甚至还发现了一根前所未见的“金针”。
实战案例二:为新“锁”描绘其功能画像(酶导向验证)
接下来,挑战升级。研究人员将一个在测试集中的酶 NHI123 的序列输入CATNIP。CATNIP通过分析其序列特征,预测出它可能偏好于催化一类单环或双环的含氧小分子。模型给出的排名第一的候选底物,在实验中被完美验证,证明了CATNIP不仅能为“钥匙”找“锁”,还能为“锁”画像,揭示其潜在的功能。
实战案例三:终极考验——预测“编外”成员的能力
最严苛的考验,是预测一个完全在原始数据集之外的酶。研究人员选择了一个来自紫色链霉菌的酶 TqaL,这个酶的序列从未被CATNIP“见过”。他们将TqaL的序列输入CATNIP,模型依然给出了一个它可能偏好的底物预测列表。研究人员测试了排名前12的候选底物,结果发现其中有4个能够被TqaL成功氧化。特别是排名第二的预测底物,其转化率高达 42%!
这个结果具有里程碑式的意义。它证明了CATNIP的预测能力是可泛化的,它不仅仅是其内部训练数据的“复读机”,而是真正掌握了化学空间与蛋白质序列空间之间深层联系的“逻辑”,能够将其知识外推到全新的、未知的酶和底物上。
开启化学合成的新范式
CATNIP的成功,远不止是开发了一个好用的在线工具。它的深远意义在于,为整个生物催化领域,乃至化学合成领域,开创了一种全新的研究范式。
这项工作的核心,是一种“数据驱动(data-driven)”的闭环策略:首先,通过高通量、多样性导向的实验,大规模地生成原始数据;然后,利用先进的机器学习模型对这些数据进行深度挖掘,构建出具有强大预测能力的工具;最后,利用这个工具指导新的、高度聚焦的实验,从而高效地发现新的化学反应和催化剂。这个循环一旦启动,每一次新的发现都会反哺数据集,使模型变得更加精准和强大。
这种新范式有效地“去风险化(derisk)”了生物催化的应用。过去,化学家在合成路线中引入一个酶催化步骤,就像是一场赌博。而现在,借助CATNIP,他们可以在实验开始前就获得一份高置信度的候选酶列表,将“广撒网”式的筛选变成了“精确制导”的验证,极大地节约了时间和资源成本,使得生物催化成为一个更加可靠和吸引人的选项。
当然,这项工作只是一个开始。目前CATNIP聚焦于一个酶家族,但其背后的方法论是普适的。我们可以预见,这一策略将被迅速推广到其他更广阔、更重要的酶家族。每一个新家族的“地图”被绘制出来,都将为化学合成解锁一片全新的天地,带来前所未有的创造可能。
从“炼金术”的古老幻想,到现代化学的精准控制,我们对物质转化的追求从未停止。今天,人工智能与高通量生物学的巧妙结合,为我们提供了一把前所未有的钥匙,去开启自然界亿万年进化所铸就的催化宝库。我们正站在一个新时代的入口,一个由数据和智能驱动的化学合成时代的入口。CATNIP和它所代表的范式,正是这新时代的第一缕曙光。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。