打开APP

Nature Methods:解码细胞命运——CytoTRACE 2,一眼看穿单细胞的前世今生

来源:生物探索 2025-11-01 15:28

研究团队在前代工具CytoTRACE 1的基础上,开发出了一款名为CytoTRACE 2的全新计算框架。它不仅能精准预测细胞潜能,更重要的是,它建立了一个“绝对”的、可跨数据比较的度量衡。

生命,是一部宏伟的交响乐。从一个受精卵(Zygote)开始,音符(细胞)不断分裂、分化,最终奏响了构成复杂有机体的华美乐章。在这个过程中,一个核心问题始终萦绕在研究人员的心头:细胞是如何知道自己将要成为什么?一个神经元为何没有变成皮肤细胞?一个干细胞又如何保留着变身为多种细胞类型的“选择权”?这背后隐藏的,是细胞的“命运”或更科学地说,是细胞的“潜能”(Potency)。

细胞潜能,即一个细胞分化成其他类型细胞的能力,是生命从简单到复杂的基石。它像一个无形的阶梯,从拥有无限可能性的全能性(Totipotency)和多能性(Pluripotency),逐级下降到只能分化成有限细胞类型的多能性(Multipotency)、寡能性(Oligopotency),直至最终只能“安守本分”的单能性(Unipotency)和完全分化的成熟细胞。理解并精确分析这种潜能,对于发育生物学、再生医学和癌症研究等领域至关重要。

近年来,单细胞RNA测序(scRNA-seq)技术的爆发,让我们得以窥探数以万计单个细胞内部的基因表达图景,为解答这一问题带来了前所未有的机遇。然而,机遇也伴随着挑战。海量的单细胞数据如同一座蕴藏宝藏的巴别塔,每个数据集、每种测序平台都说着自己独特的“语言”,使得跨研究、跨物种地统一衡量细胞潜能变得异常困难。我们迫切需要一种工具,来破解这座塔的语言密码。

10月27日,《Nature Methods》的研究报道“Improved reconstruction of single-cell developmental potential with CytoTRACE 2”,为我们带来了期盼已久的答案。研究团队在前代工具CytoTRACE 1的基础上,开发出了一款名为CytoTRACE 2的全新计算框架。它不仅能精准预测细胞潜能,更重要的是,它建立了一个“绝对”的、可跨数据比较的度量衡,并且其内在的“思考过程”是透明的、可解释的。这不仅是一个工具的升级,更是一次思想的革新,让我们得以更清晰、更深刻地洞察细胞命运的奥秘。

图片

单细胞的“天命”难题:为何我们难以窥探细胞的潜能?

在CytoTRACE 2问世之前,研究人员在评估细胞潜能时面临着两大核心困境。

第一个困境是“相对性”与“绝对性”的矛盾。

想象一下,我们想评估两个班级里学生的学习能力。大多数传统方法,包括第一代CytoTRACE,就像是给每个班级内部的学生进行一次排名。A班的张三是第一名,B班的李四也是第一名。我们能说张三和李四的学习能力一样强吗?显然不能。因为两个班级的整体水平、考试难度(相当于不同的实验数据集、测序平台和物种)可能完全不同。这种“相对潜能”的评估,只能告诉我们一个细胞在它“所在的班级”(特定数据集)里是更“幼稚”还是更“成熟”,却无法将它与另一个“班级”里的细胞进行公平比较。

这在实际应用中造成了巨大的障碍。比如,我们想比较正常组织干细胞和癌组织中“癌干细胞”的潜能高低,或者想整合来自不同实验室、不同发育时期的小鼠和人类数据,共同绘制一幅完整的生命发育蓝图,这种“相对排名”的局限性就暴露无遗。我们需要的是一个像“高考”一样的标准化评估体系,无论学生来自哪个学校,都能得到一个“绝对分数”,从而实现跨群体的直接比较。这就是所谓的“绝对潜能”(Absolute potential)预测,一个长期以来悬而未决的难题。

第二个困境是“黑箱”模型与“生物学洞见”的冲突。

近年来,深度学习(Deep learning)以其强大的模式识别能力,在生物信息学领域大放异彩。然而,许多深度学习模型如同一个神秘的“炼金术黑箱”:你把原始数据(比如单细胞基因表达谱)“投入”黑箱,它能“炼”出精准的预测结果,但你却不知道这炉“仙丹”是如何炼成的。模型究竟是基于哪些基因、哪些生物学通路做出的判断?这个过程往往是模糊不清的。

这种“不可解释性”对于追求机理探索的生命科学研究而言,是一个巨大的缺憾。我们不仅想知道“是什么”(这个细胞潜能高),更想知道“为什么”(哪些分子特征决定了它的高潜能)。一个无法提供生物学洞见的预测工具,其价值终究是有限的。

正是为了攻克这两大难题,CytoTRACE 2应运而生。它巧妙地将一个宏大的数据库、一个可解释的深度学习架构和严谨的生物学验证结合在一起,试图为我们描绘出一幅前所未有的清晰、普适且深刻的细胞潜能图谱。

铸造命运罗盘:史上最全的“细胞潜能地图集”

要建立一个标准化的“高考”体系,首先需要一本权威的“考试大纲”和海量的“标准题库”。CytoTRACE 2的“考试大纲”就是研究人员精心构建的一个庞大的、跨物种、跨组织的“单细胞潜能地图集”(Single-cell potency atlas)。这本身就是一项令人赞叹的基础性工作。

研究团队汇集了来自33个已发表研究的scRNA-seq数据,涵盖了人类和小鼠两个物种。这些数据并非随意挑选,而是经过严格筛选,确保其中细胞的发育状态都经过了功能性实验(如谱系追踪或移植实验)的“金标准”验证。最终,这个地图集包含了惊人的406,058个细胞,跨越了9种不同测序平台和16个组织系统。

接下来是最关键的一步:标注。研究人员基于经典的细胞生物学知识,将这数十万个细胞的表型,系统性地归类到我们前文提到的六个广义潜能层级中:全能性、多能性、多能性、寡能性、单能性,以及最终分化。为了追求更高的精度,他们进一步将这六个大类细分成了24个颗粒度更精细的潜能等级。

这个过程好比是生物学领域的“人工标注”,研究人员像一位经验丰富的鉴定师,为每一个细胞表型贴上了一个基于确凿实验证据的“潜能标签”。例如,来自早期胚胎的细胞被标记为全能性或多能性,而造血干细胞(Hematopoietic stem cell, HSC)则被标记为多能性,其下游的各种祖细胞则被依次标记为寡能性或单能性。

这个前所未有的大规模、高质量标注的地图集,正是CytoTRACE 2的基石。它为深度学习模型的训练提供了“标准答案”,让模型能够从海量的基因表达数据中,学习到不同潜能状态下普适的、共通的分子语言。可以说,没有这个“罗盘”,后续的一切精准导航都无从谈起。

不止于“炼丹”:一个能与你对话的深度学习模型

有了权威的“题库”,接下来就需要一位聪明的“学生”来学习。CytoTRACE 2的核心,是一个巧妙设计的、名为“基因集二元网络”(Gene Set Binary Network, GSBN)的可解释性深度学习架构。

它与传统的“黑箱”模型最大的不同在于其透明度。传统的神经网络中,输入(基因)和输出(潜能预测)之间的连接权重是连续变化的浮点数,错综复杂,难以解读。而GSBN则另辟蹊径,它在学习过程中,会为每个潜能类别识别出多个关键的“基因集合”(Gene sets)。并且,一个基因在这个集合中的权重是“二元”的,即要么是1(被选中,重要),要么是0(未被选中,不重要)。

这种设计带来了两大优势:

首先,极高的可解释性。当模型做出预测后,我们可以直接“打开”模型,查看是哪些基因集合被激活了。我们可以清楚地知道,模型之所以判断一个细胞是多能性,是因为它高表达了与多能性相关的A、B、C基因集,同时低表达了与分化相关的D、E、F基因集。这让模型的决策过程不再神秘,研究人员可以直接提取这些基因集,进行后续的生物学功能分析和验证。模型不再只是一个预测工具,更成了一个能与我们“对话”、启发新思路的合作伙伴。

其次,强大的性能与泛化能力。研究人员将地图集中的数据分为训练集和从未见过的测试集,对CytoTRACE 2进行了严格的考验。结果令人振奋。在预测细胞绝对潜能等级的任务中,其预测结果与实验验证的“金标准”高度一致,加权肯德尔相关系数(τ)在训练集上达到了0.82,在测试集上更是高达0.81。这意味着即使面对全新的组织和细胞类型,CytoTRACE 2依然能做出精准的判断。

更重要的是,在与包括CytoTRACE 1在内的8种当前主流的细胞分化和潜能推断方法的“同台竞技”中,CytoTRACE 2展现出了全面的优势。无论是在跨数据集的绝对潜能排序,还是在单个数据集内的相对潜能排序任务上,它的表现都显著优于其他所有方法。例如,在对57个不同发育系统的相对潜能重建任务中,CytoTRACE 2的平均相关性比其他方法高出超过60%。这充分证明了其架构设计和训练策略的成功。

CytoTRACE 2就像一位博览群书且逻辑清晰的专家,它不仅能给出精准的鉴定结论(这个细胞是多能性),还能条理分明地列出支持其结论的证据(因为它表达了这些关键基因)。这种能力,为我们从海量数据中挖掘新的生物学知识打开了一扇前所未有的大门。

“油腻”的多能性:细胞命运的关键竟与脂肪酸有关?

一个真正强大的工具,不仅要能解决旧问题,更要能启发新发现。CytoTRACE 2的可解释性,很快就引领研究人员走向了一个意想不到的生物学新大陆。

既然模型能够识别出定义不同潜能状态的关键基因,一个自然而然的问题就是:在“多能性”(Multipotency)这个承上启下的关键阶段,最重要的分子程序是什么?当研究人员向CytoTRACE 2“提问”时,答案令人惊讶。在所有与多能性正相关的生物学通路中,一个通路反复出现在最高的位置——胆固醇代谢(Cholesterol metabolism)。

这出乎很多人的意料。传统上,我们更多地将干细胞多能性与特定的转录因子(如Oct4, Sox2)或信号通路(如Wnt, Notch)联系在一起。代谢,特别是脂质代谢,虽然已知对干细胞功能很重要,但很少被认为是定义其核心身份的标志性特征。

深入挖掘这个通路,研究人员发现,其中三个编码不饱和脂肪酸(Unsaturated fatty acid, UFA)合成关键酶的基因,Fads1、Fads2 和 Scd2,在多能性基因重要性排名中位居前列。这表明,不饱和脂肪酸的生物合成,可能是维持或标志细胞多能性的一个核心、且被以往研究忽视的分子特征。

这是一个大胆的计算预测,它必须经受住严格的实验检验。

研究团队首先利用了一个大规模的CRISPR基因敲除筛选数据库。该数据库系统性地敲除了小鼠造血干细胞中的近7000个基因,并观察其对细胞分化的影响。他们分析后发现,敲除那些被CytoTRACE 2识别为“促进多能性”的基因,确实会导致干细胞加速分化;而敲除那些被识别为“抑制多能性”的基因,则会阻碍分化。这一结果有力地证明了CytoTRACE 2学到的基因特征与细胞的真实功能是直接相关的。

随后,他们进行了更为直接的实验验证。

在小鼠造血系统中,他们通过流式细胞术(FACS)分选出了不同潜能的细胞群体,包括多能性的造血干/祖细胞(HSC/MPP)、寡能性的共同髓系祖细胞(CMP)和共同淋巴祖细胞(CLP),以及已分化的T细胞和B细胞。通过定量PCR(qPCR)技术检测基因表达,结果清晰地显示:Fads1、Fads2 和 Scd2 这三个UFA合成基因,在多能性的HSC/MPP群体中表达水平最高,随着细胞分化,它们的表达显著下调。

在另一个完全不同的组织——小鼠小肠中,他们也观察到了同样的模式。小肠上皮的快速更新依赖于隐窝底部的Lgr5+肠道干细胞(一种多能干细胞)。通过先进的原位mRNA成像技术(RNA ISH),研究人员得以在组织切片上直接观察基因的表达位置。他们发现,Fads1、Fads2 和 Scd2 的表达信号,与多能性干细胞标志物Lgr5和Fgfbp1的信号高度重合,都精确地定位在肠道隐窝的干细胞区域。而当细胞向上迁移并分化为成熟的肠上皮细胞时,这些基因的信号便消失了。

从血液到肠道,两个截然不同的组织系统,都指向了同一个结论:不饱和脂肪酸合成通路,是细胞多能性的一个保守的、跨组织的分子标志。这个从数据挖掘开始,到功能基因组学验证,再到多组织实验确认的完整证据链,不仅展示了CytoTRACE 2作为发现工具的强大威力,也为干细胞生物学研究提供了一个全新的、令人兴奋的视角。细胞的“命运”,或许比我们想象的要“油腻”得多。

穿越时空的诊断:从早期胚胎到肿瘤恶化,CytoTRACE 2的火眼金睛

一个卓越的工具,必须能在各种复杂场景下稳定发挥作用。研究人员在多个极具挑战性的生物学问题中,对CytoTRACE 2进行了全方位的“压力测试”,结果进一步凸显了它的强大和可靠。

场景一:重演生命之初的时光之旅。 研究人员汇集了涵盖小鼠从受精卵到出生后整个胚胎发育过程的62个时间点的单细胞数据,让CytoTRACE 2重建这一宏大的生命历程。结果堪称完美。CytoTRACE 2预测的潜能分数,随着胚胎发育时间的推移呈现出平滑而精确的进行性下降,其平均潜能排序与发育时间的肯德尔相关性(τ)高达 -0.95。它准确地捕捉到了细胞从全能性到各种组织器官形成的潜能逐步受限的全过程,其表现远超其他方法。这就像拥有了一台“细胞时光机”,能够精确回溯生命从原点出发的每一步。

场景二:揭示癌症中的“返老还童”。 癌症在某种程度上是一种“发育失控”的疾病。许多肿瘤中存在着一小群被称为“癌干细胞”的细胞,它们具有更高的潜能,能够不断自我更新并产生大量分化的癌细胞,是肿瘤复发和耐药的根源。精准识别这些癌干细胞,对于开发有效的癌症疗法至关重要。

在急性髓系白血病(Acute Myeloid Leukemia, AML)的研究中,CytoTRACE 2成功地在患者肿瘤样本中识别出了具有不同潜能层级的癌细胞群体。更重要的是,它预测的“多能性样”癌细胞群体,与已知的白血病干细胞基因特征高度富集,而“分化样”癌细胞群体则与成熟的单核细胞样白血病细胞特征一致。

在少突胶质细胞瘤(Oligodendroglioma)这种脑瘤中,CytoTRACE 2同样精确地识别出了肿瘤内的发育层级。其预测的潜能分数与作者先前定义的“干性”分数(Stemness score)高度相关,准确地将最具“干性”、最危险的癌细胞群体定位出来。这表明CytoTRACE 2有潜力成为临床上评估肿瘤恶性程度、预测治疗反应的强大工具。

场景三:应对真实世界的“不完美数据”。 在实际研究中,数据往往是嘈杂和不完美的。研究人员模拟了各种真实世界可能遇到的挑战,来测试CytoTRACE 2的“抗压能力”。结果显示,即使训练数据中存在一定比例的标注错误,或者单细胞测序的基因捕获数量很低(即数据稀疏),甚至是当某种细胞类型极其稀有(在数千个细胞中只占几个)时,CytoTRACE 2的预测性能依然保持着高度的稳健性。这种强大的稳健性,保证了它在未来广泛应用中的可靠性。

站在细胞命运的十字路口:我们能看到多远?

CytoTRACE 2的问世,不仅仅是为生命科学界提供了一个更精准、更通用的计算工具,它更深远的意义在于,它改变了我们理解和研究细胞潜能的方式。

它通过建立一个绝对的、可比较的潜能评估框架,打破了长期以来困扰单细胞领域的数据孤岛,为整合全球海量数据、绘制更宏伟的生命发育图谱铺平了道路。

它通过一个可解释的深度学习模型,架起了一座从复杂数据模式到具体生物学机理的桥梁。它向我们证明,人工智能不仅可以成为回答问题的工具,更可以成为提出新问题、启发新发现的伙伴,就像它引导我们发现不饱和脂肪酸与多能性之间那条意想不到的联系一样。

这项工作也为未来的研究打开了更广阔的想象空间。在再生医学领域,我们是否可以利用CytoTRACE 2识别的分子特征,更高效地诱导或维持干细胞的多能性,用于组织修复和器官再生?在癌症研究中,我们是否可以针对UFA合成等新的多能性维持通路,开发出特异性靶向癌干细胞的药物,从根本上铲除肿瘤复发的根源?

生命的发育是一个从潜能无限到命运注定的过程。过去,我们只能在命运的终点观察结果;现在,借助CytoTRACE 2这样的工具,我们正越来越多地获得站在细胞命运的十字路口,洞察其未来方向的能力。这不仅让我们对生命这本厚重的书有了更深的解读,或许在不远的将来,还会赋予我们谨慎而智慧地书写新篇章的可能。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->