打开APP

Nature Biotechnology:微生物世界的“隐形”居民普查——SingleM与Sandpiper揭开的未知之谜

来源:生物探索 2025-07-24 11:00

SingleM和Sandpiper的问世,标志着微生物生态学研究进入了一个新时代。它从根本上解决了宏基因组学领域一个长期存在的“阿喀琉斯之踵”——对未知物种的系统性忽视。

想象一下,你走进一座无比繁华、人口亿万的超级都市,但你的眼睛有一种奇特的“脸盲症”,只能认出那些频繁出现在电视上的明星。街头巷尾,无数的工程师、教师、艺术家、外卖员……这些构成城市活力的普通人,在你眼中全都模糊不清,仿佛“隐形”。这听起来很荒谬,但这恰恰是过去几十年里,微生物学家们探索地球微生物世界时面临的真实窘境。

我们脚下的土壤、深邃的海洋、甚至我们自己的肠道,都栖息着数以万亿计的微生物。为了看清这个微小而庞大的世界,研究人员开发了“宏基因组学 (metagenomics)”技术。它就像把这座城市里所有的书籍、报纸、信件全部打碎,然后通过分析这些纸片,来推断城市里到底有哪些信息、哪些故事。然而,传统的方法就像那个只能识别明星的“脸盲症”患者,它们严重依赖已知的微生物基因组“名人录”。如果一个微生物的基因组从未被测序过,它就像一个没有档案的“隐形人”,在数据分析中被轻易地忽略了。这意味着,我们对微生物世界的认知,存在着巨大的、系统性的盲区。

近日,一项发表在《Nature Biotechnology》上的研究“Comprehensive taxonomic identification of microbial species in metagenomic data using SingleM and Sandpiper”,为我们摘掉了这副“脸盲”的眼镜。研究人员开发了一套全新的工具,它不仅能认出“明星”,更能精准地描绘出那些前所未见的“普通人”的面貌,带领我们进行了一场前所未有的微生物世界“隐形居民”大普查。

旧时代的困境:为何寻找新微生物如此之难?

在深入了解这场变革之前,我们要先理解“旧侦探们”的困境。传统的宏基因组分析工具,在鉴定样本中的微生物“居民”时,通常采用一种“通缉令”式的比对方法。研究人员手握一本厚厚的“已知罪犯档案”(即公共基因组数据库),将从环境中收集到的基因序列碎片(即现场找到的“蛛丝马迹”)与档案进行比对。对上了,就能确定“罪犯”身份;对不上,就只能无奈地将其归为“无法识别的线索”。

这种方法的弊端显而易见。地球上的微生物绝大多数都是“良民”,它们从未被单独分离、培养和测序,自然也就不在那本“罪犯档案”里。因此,当研究人员分析一个来自原始森林土壤的样本时,可能会发现高达90%的基因序列都无法匹配到任何已知微生物。这些序列并非没有价值,它们恰恰代表了这片土地上最真实、最独特的微生物群落,但在传统工具的视野里,它们成了被丢弃的“废料”。

这种“认知偏见”不仅让我们低估了地球的微生物多样性,更阻碍了我们理解生态系统的运作方式。那些未知的微生物可能正在默默地分解污染物、调节气候、或者生产着有待我们发现的天然药物。找不到它们,就如同一个侦探无视了案发现场90%的线索,破案的希望自然渺茫。

新时代的工具箱:SingleM的巧妙破案三部曲

为了打破这一困局,研究人员开发了一款名为“SingleM”的软件。它不像旧时代的侦探那样死板地依赖“通缉令”,而是采用了一套更聪明、更灵活的破案逻辑。我们可以将其巧妙的设计拆解为“破案三部曲”。

第一步:不看全脸,只看“通用特征”
SingleM的第一个高明之处,在于它放弃了对整个基因组进行大海捞针式的比对。相反,它选择了一套“通用身份证”,即59个在细菌和古菌中普遍存在的“单拷贝标记基因 (single-copy marker genes)”。这些基因就像所有人都拥有的鼻子、眼睛一样,是生命的基础构件,虽然在不同物种间形态各异,但其基本功能和结构是高度保守的。通过聚焦于这些标记基因,SingleM极大地提高了搜索效率。

第二步:从“语言”而非“文字”层面进行比对
这是SingleM最核心的创新之一。传统的工具通常在DNA(核苷酸)层面进行序列比对,而SingleM则更进一步,它将DNA序列翻译成蛋白质(氨基酸)序列再进行比对。在漫长的进化过程中,即使DNA的“拼写”因为突变而改变,但为了维持关键功能,蛋白质的“语义”往往被保守下来。SingleM通过在氨基酸层面进行比对,能够识别出那些在DNA层面看似“远亲”,但在功能和进化关系上实则“近邻”的物种。

第三步:先聚类,后定罪——无偏见的“嫌疑人”分组
在找到所有包含“通用特征”的基因片段后,SingleM并不会立刻去查“通缉令”。它做了一件非常巧妙的事:它将样本中所有这些片段进行“从头聚类 (de novo clustering)”。这意味着它会根据这些片段自身的相似性,将它们分成不同的小组,每一组代表一个“操作分类单元 (Operational Taxonomic Unit, OTU)”,可以理解为一个待定的物种。这个“先聚类、后鉴定”的策略,从根本上避免了参考数据库的偏见。

SingleM与旧时代侦探的实力较量

一个新工具好不好,不能只靠理论说,必须拉到“演武场”上比一比。研究人员设计了一系列严苛的基准测试,让SingleM与MetaPhlAn、Kraken2等主流的传统工具同台竞技。

首先,在模拟的、仅包含已知物种的群落中,SingleM的表现与最优秀的传统工具不相上下。但更亮眼的是它的效率。在处理相同的数据时,SingleM的运行时间仅为MetaPhlAn的12%,而所需的内存(RAM)更是只有2GB,远低于Kraken2+Bracken工作流程惊人的295GB。

真正的考验在于识别未知物种的能力。结果令人震撼。在衡量群落整体组成差异的“布雷-柯蒂斯相异度 (Bray-Curtis dissimilarity)”指标上(0代表完全一致,1代表完全不同),SingleM的表现遥遥领先。当群落中包含从新的门到新的科等不同级别的未知谱系时,SingleM的平均相异度得分仅为0.13,而其他工具的平均分则高达0.46。

在更极端的测试中,当一个群落100%由新物种构成时,SingleM的优势被进一步放大。它的F₁分数(一个综合了准确率和召回率的指标)比表现次之的工具高出了整整0.45。这充分证明,SingleM拥有在“一片黑暗”中独立描绘出微生物群落轮廓的非凡能力。

宏伟的普查:Sandpiper揭示地球微生物组的真实面貌

拥有了SingleM这把“神兵利器”,研究人员做了一件更大胆、也更有意义的事:他们发起了一场有史以来最大规模的全球微生物普查。他们创建了一个名为“Sandpiper”的网站( https://sandpiper.qut.edu.au ),并利用云计算的强大算力,用SingleM分析了来自全球公共数据库中的248,559份宏基因组样本,总数据量高达1.3 Pbp(130亿亿个碱基对)。

惊人发现:我们身边的“陌生人”远比想象中多
普查最惊人的发现是,地球上的微生物世界,绝大部分都是由我们不认识的“陌生人”主导的。在人类肠道样本中,平均约有78%的微生物群落可以被鉴定到已知物种。然而,一旦将目光投向外部环境,景象就完全不同了。在土壤样本中,平均只有14%的微生物群落属于已知物种,中位数更是低至8%。这意味着,你随手抓起一把泥土,里面90%以上的微生物物种,在现有的基因组“名人录”上都找不到档案。

近年来,通过大规模的基因组挖掘工作,研究人员为参考数据库增加了超过82,000个新的物种谱系,几乎将数据库的规模翻了一番。然而,如此巨大的努力,仅仅将环境样本中已知物种比例的中位数提高了5.1%。

这个数字说明,我们已知的微生物世界,与那片广阔的未知海洋相比,不过是沧海一粟。我们对多样性的探索,才刚刚开始。

时间的维度:我们追赶未知的速度有多快?
Sandpiper的数据还让我们能够从时间的维度,审视我们对微生物世界的探索进程。结果显示,对于人类肠道等宿主相关环境,自2012年以来,每年新测序样本中超过50%的微生物都已经是“老熟人”了。然而,对于土壤、海洋等“生态环境”的样本,虽然已知物种的比例也在缓慢爬升,但其增长速度远远落后。

从地图到藏宝图:将新知识转化为新发现

Sandpiper不仅是一份静态的微生物世界地图,它更是一张动态的、可以指导未来探索的“藏宝图”。为了证明这一点,研究人员将目标锁定在细菌界中几个非常古老且罕见的谱系上,例如Muirbacteria和Wallbacteria。

传统的做法可能是在成千上万的样本中进行盲目的、昂贵的筛选和测序。但现在,研究人员可以直接在Sandpiper的“地图”上查询:在这24万多个样本中,哪些样本最有可能富含这些稀有谱系?

Sandpiper迅速给出了答案。研究人员根据预测,从63份候选样本中进行了靶向的基因组恢复工作,最终成功地从其中的55份样本(成功率高达87%)中,拼凑出了62个高质量的、全新的微生物基因组。这些新基因组全部属于新的物种,甚至包含了来自这四个稀有门的新属。这个案例完美地展示了SingleM和Sandpiper的强大威力,它将微生物的探索,从“大海捞针”式的机遇战,转变为“按图索骥”式的精准打击。

开启微生物探索的新篇章

SingleM和Sandpiper的问世,标志着微生物生态学研究进入了一个新时代。它从根本上解决了宏基因组学领域一个长期存在的“阿喀琉斯之踵”——对未知物种的系统性忽视。

SingleM以其巧妙的设计,为我们提供了一双能够穿透“未知”迷雾的慧眼。而Sandpiper则将这种能力放大到了全球尺度,它为我们呈现了一幅迄今为止最全面、最无偏见的地球微生物分布图。这张图不仅揭示了未知微生物世界的浩瀚,更指明了未来探索的方向。

这场由SingleM和Sandpiper引领的微生物“隐形居民”大普查,其意义远不止于编撰一份更完整的“生命名录”。那些占主导地位的未知微生物,它们的基因组中蕴藏着无法估量的生物学宝藏——全新的代谢途径、强大的环境适应能力、以及可能用于医药和工业的天然产物。

过去,我们站在宝库门外,却因没有钥匙而不得其门而入。现在,SingleM为我们锻造了钥匙,Sandpiper则绘制了通往宝库的地图。这场激动人心的微生物世界大探索,才刚刚拉开序幕。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->