Nature Methods:谁画出了细胞命运的“航海图”?Carta,破解发育生物学的“隐形”迷局
来源:生物探索 2025-12-17 09:39
这不仅是一次算法的胜利,更让我们在小鼠躯干发育和造血系统分化中,看到了传统方法从未揭示的生物学真相。
如果我们将一个受精卵发育成复杂个体的过程比作一场宏大的探险,那么每一个细胞都是一名探险家。它们从起跑线出发,在发育的时间长河中不断分叉、抉择,最终定居在不同的组织器官,获得特定的身份。长期以来,发育生物学的核心任务之一,就是绘制这张“细胞分化地图”(Cell Differentiation Map)。
然而,这张地图的大部分区域是“隐形”的。我们现有的技术,往往只能在终点或少数几个快照时刻捕捉到细胞的身影。至于它们在中间经历了什么?那些转瞬即逝的祖细胞长什么样?它们是如何做出命运抉择的?这些关键信息如同沉入海底的航海日志,难以寻觅。
12月8日,《Nature Methods》的研究报道Inferring cell differentiation maps from lineage tracing data,研究人员提出了一种名为 Carta 的全新算法框架。不同于以往依赖经验判断的方法,Carta 引入了严格的数学优化和“帕累托前沿”概念,从单细胞谱系示踪数据中重构出最优的细胞分化拓扑结构。这不仅是一次算法的胜利,更让我们在小鼠躯干发育和造血系统分化中,看到了传统方法从未揭示的生物学真相。

这里的“地图”为何难以绘制?
在深入 Carta 的之前,我们先来看看为什么推断细胞分化图谱如此困难。传统的发育生物学依赖显微镜下的肉眼观察。秀丽隐杆线虫(C. elegans)之所以成为经典模式生物,是因为它只有几百个细胞,研究人员可以盯着显微镜,手动记录下每一次细胞分裂,最终画出那张完美的、确定性的分化树。
但在哺乳动物这样复杂的生命体中,细胞数量以万亿计,且在母体子宫内发育,直接观察是不可能的。近年来,单细胞转录组测序(scRNA-seq)和基于 CRISPR 的高通量谱系示踪技术(Lineage Tracing)的出现,为我们提供了海量的数据。
我们可以知道成千上万个细胞现在的基因表达状态,也能通过遗传条形码(Barcodes)知道它们的亲缘关系。但这带来了一个新的错觉:数据多了,地图自然就现形了吗?事实并非如此。
现有的推断方法主要分为两派,且都存在明显的短板。一类是轨迹推断(Trajectory Inference),它们通常假设我们在实验中已经采样到了分化过程中的所有中间状态。但在现实中,许多过渡性的祖细胞存在时间极短,极易被漏掉。另一类是基于距离的启发式算法(如 ICE-FASE 或 EvoC),它们倾向于将细胞分化过程强制拟合为一棵二叉树(Binary Tree)。这就好比强行规定一条河流只能一分为二,而忽略了多条支流汇聚或同时分出多条支流的可能性。更棘手的是,这些方法通常依赖于研究人员的主观假设,缺乏一个定量的标准来评估:这张地图画得到底对不对?
重新定义“祖细胞”:用未来定义现在
Carta 的核心突破在于它看待“身份”的方式。在一个无法直接观测祖细胞的系统中,我们该如何描述一个“祖细胞”?Carta 给出的答案充满哲学意味。
“一个祖细胞的身份,是由它所有后代的潜在命运(Potency)集合来定义的。”
如果一个祖细胞的后代中既有神经细胞,又有肌肉细胞,那么它的身份就是{神经,肌肉}。如果它的后代只有红细胞,那它的身份就是{红细胞}。这种定义方式巧妙地避开了对祖细胞基因表达特征的猜测,而是直接利用了谱系示踪数据中包含的亲缘信息。
基于这个定义,Carta 将地图绘制转化为了一个数学优化问题。它引入了两个相互制衡的指标。首先是复杂性(Complexity),即分化地图中包含的祖细胞类型的数量(记为 k)。其次是差异度(Discrepancy),即这张地图与实际观测到的谱系树之间的不吻合程度。
这就构成了一个典型的权衡困境:如果我们假设只有一种全能祖细胞(k=1),地图最简单,但这显然无法解释细胞的多样性,差异度极高;如果我们允许存在无数种微小的祖细胞状态,差异度可以降到零,但这张地图将变得无比庞大且充满噪声,失去了科学概括的意义。Carta 的高明之处在于,它不直接给出一个答案,而是通过计算得出一个“帕累托前沿”(Pareto Front)。它展示了在每一个可能的祖细胞数量 k 下,所能达到的最小差异度是多少。研究人员可以通过寻找这个曲线上的“肘点”(Elbow point),即增加一点点复杂性就能带来拟合度大幅提升的关键点,来确定生物体内最可能的祖细胞数量。
虚拟演兵场上的碾压式胜利
为了验证 Carta 的实力,研究人员首先在计算机模拟的数据集中进行了测试。这些数据包含了二叉树、多分支树(Polytomies)以及更复杂的有向无环图(DAG)结构,后者允许不同来源的细胞汇聚成同一种类型(即趋同分化)。
结果显示,Carta 展现出了惊人的准确性和稳健性。在二叉树结构的模拟中,Carta 与现有的优秀算法(如 ICE-FASE)表现相当,中位杰卡德距离(Jaccard distance,一种衡量集合相似度的指标,越低越好)接近 0,意味着几乎完美重构了真实结构。
然而,一旦生物学过程变得复杂,差距就拉开了。当分化过程中出现多分支节点时,Carta-Tree 模式的中位杰卡德距离仅为 0.222,优于 Carta-DAG(0.333)、ICE-FASE(0.333)和 EvoC(0.462)。更关键的是,在包含趋同分化的 DAG 结构模拟中,Carta-DAG 模式的中位杰卡德距离为 0.332,而 EvoC 高达 0.615。这意味着在复杂的非树状发育过程中,传统方法几乎失效,而 Carta 依然能保持较高的还原度。这种优势不仅体现在拓扑结构的还原上,在评估与真实祖细胞集合的吻合度时,Carta 同样大幅领先。这说明 Carta 推断出的那些“隐形”祖细胞,不仅位置放对了,其性质也判断得更准确。
解码哺乳动物躯干:看见“趋同”的力量
带着模拟实验的信心,Carta 被应用到了真实的生物学难题中。第一个挑战是体外培养的“躯干样结构”(Trunk-like structures, TLSs)。这是一个模拟小鼠胚胎发育的模型,其中包含了备受关注的神经中胚层祖细胞(NMP)。NMP 是一类神奇的细胞,它们被认为具有双重潜能,既能分化为构成脊髓的神经管,又能分化为形成脊椎和肌肉的体节。
研究人员将 Carta 应用于包含 14 棵细胞谱系树、共 4709 个细胞的 TLS 数据集。通过帕累托前沿分析,Carta 建议最佳的祖细胞数量 k* 为 7。在这个分辨率下,Carta 构建的分化地图(Carta-DAG)揭示了一个令人兴奋的现象:体节细胞(Somite)的趋同分化。
地图显示,一部分体节细胞源自 NMP 与神经管的共同祖先;但令人惊讶的是,还有另一条路径显示,部分体节细胞与内皮细胞(Endothelial)共享一个更早期的祖先,表现为 {内皮, 体节} 这种祖细胞状态。
这一发现与先前体内研究的证据不谋而合,但诸如 ICE-FASE 和 EvoC 这样强制假设树状结构的算法,完全无法识别这种“殊途同归”的现象。此外,Carta 还定量解析了 NMP 的命运偏好。地图显示,存在 {NMP, 神经管} 这种祖细胞状态,却不存在 {NMP, 体节} 这种状态。这暗示了在这个实验系统中,NMP 细胞在自我更新的同时,更倾向于向神经命运承诺,而不是体节命运。
对比来看,另一种名为 PhyloVelo 的方法推断出的地图则显得混乱,甚至出现了神经管细胞分化回 NMP 的逆向过程。在数据的拟合度上,Carta(k=6)的归一化差异度为 0.546,而同等条件下的 PhyloVelo 高达 1.930,EvoC 更是高达 2.580。数据有力地证明,Carta 画出的地图更接近生物学的真实面貌。
重写造血家谱:谁是真正的“多面手”?
Carta 的第二个战场是经典的小鼠造血系统。造血干细胞(HSC)如何一步步分化为各种血细胞,一直是免疫学教科书中的经典内容。研究人员使用了一组包含 49,302 个细胞、5,864 个克隆的高质量谱系示踪数据。面对如此庞大的数据,现有的距离算法(如 Fitch, PhyloVelo, ICE-FASE, EvoC)显得力不从心,它们推断出的地图差异度极高,意味着模型与数据之间存在巨大的裂痕。
例如,对于包含 5 个祖细胞的地图,Carta-DAG 的归一化差异度仅为 0.4,而 PhyloVelo 高达 1.809。当祖细胞数量增加到 9 个时,Carta 的差异度进一步降至 0.039,几乎完美解释了所有数据,而 Fitch 算法仍有 0.186。
Carta 推断出的造血分化图谱(k*=7)不仅在统计学上最优,在生物学上也带来了颠覆性的见解。首先,关于髓系祖细胞。Carta 识别出了一个非经典的“多面手”祖细胞——成髓细胞(Myeloblast),它同时拥有分化为嗜碱性粒细胞、嗜酸性粒细胞、中性粒细胞和单核细胞的潜能。这表明,髓系细胞的命运决定发生得比我们想象的要晚。
其次,关于巨核-红细胞祖细胞(MEP)。经典模型认为 MEP 必须经过通用髓系祖细胞(CMP)阶段。但 Carta 敏锐地捕捉到了一条“捷径”:存在从多能祖细胞(MPP)直接产生 MEP 的路径,而无需经过 CMP。这一发现支持了近年来关于造血系统层级扁平化的假说。此外,Carta 还纠正了前人研究中关于淋巴细胞和树突状细胞分化时序的偏差,展示了纯粹基于谱系数据的逻辑推演力量。
“幽灵”的验证:来自转录组的证据
Carta 最令人震惊的地方在于它预测了大量“隐形”的祖细胞——我们在测序数据的末端并没有直接看到它们,只是根据逻辑推断它们曾经存在。那么,这些推断出来的“幽灵”真的存在吗?
为了验证这一点,研究人员利用了数据中采集于第 2 天的“未分化细胞”。这些细胞在实验中处于早期状态。研究人员做了一个巧妙的实验:首先,利用 Carta 基于完整的谱系树结构,预测这些第 2 天的细胞未来“应该”具有什么潜能;然后,查看这些细胞实际的基因表达谱,看它们在转录组空间上更像谁。
结果令人振奋!那些被 Carta 标记为具有 {中性粒细胞, 单核细胞} 潜能的早期未分化细胞,其基因表达特征确实与成熟的中性粒细胞和单核细胞最为接近。同样,被标记为具有 {巨核细胞, 红细胞} 潜能的细胞,在基因表达空间中也已经悄悄向这两个方向偏移。
这一结果构成了强有力的“正交验证”
要知道,Carta 在构建地图时,完全没有使用基因表达数据,仅凭谱系条形码的拓扑结构进行推演。然而,推演的结果却能精确预测细胞的基因表达特征。这说明,Carta 捕捉到的不仅仅是数学上的最优解,更是生物学上真实的细胞命运轨迹。
从“经验主义”到“计算理性”
Carta 的诞生标志着发育生物学研究范式的一次重要转变。长久以来,我们对细胞分化树的认知往往建立在“所见即所得”的经验主义之上。如果不幸没有采样到某个中间态,我们往往就假设它不存在,或者用简单的二叉树逻辑去强行填补空白。Carta 提示我们,通过严格的定量框架和帕累托最优的逻辑,我们完全有能力穿越数据的迷雾,推断出那些未被观测到的“隐形”现实。
这项研究不仅为我们提供了一个强大的工具(代码已开源),更留下了一系列深刻的启示。第一,生物学结构不等于二叉树。趋同分化、多向分化在发育中广泛存在,强制使用二叉树模型会丢失关键的生物学信息。第二,潜能是定义的关键。不再纠结于细胞此刻长什么样,而是关注它未来能变成什么,这种基于“潜能”的定义方式为解析复杂系统提供了新的维度。第三,数据的缺憾可以用逻辑弥补。即使采样率有限,只要谱系信息足够丰富,数学优化依然能帮我们还原大部分的真相。
对于致力于理解生命发生发展的研究人员来说,Carta 就像是递到手中的一副高倍望远镜。虽然迷雾依然存在,但我们终于看清了航向。
Sashittal P, Zhang RY, Law BK, Schmidt H, Strzalkowski A, Bolondi A, Chan MM, Raphael BJ. Inferring cell differentiation maps from lineage tracing data. Nat Methods. 2025 Dec 8. doi: 10.1038/s41592-025-02903-z. Epub ahead of print. PMID: 41360958.
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。