打开APP

Cell:拷贝数 ≠ 表达量?wellDR-seq全景式解析ER+乳腺癌的祖先谱系与基因调控新法则

来源:生物探索 2025-09-09 11:55

wellDR-seq不仅能检测到高数量的基因,而且它检测到的是高质量的、具有真正生物学意义的成熟转录本。

我们对癌症的理解,时常陷入一种“盲人摸象”的困境。肿瘤并非一个均质的邪恶肿块,而是一个高度复杂的、动态演化的生态系统。在显微镜下,它如同一个充斥着不同“方言”的巴别塔,由无数基因背景(Genotype)各异的亚克隆(subclones)与各种被裹挟的非癌细胞共同组成。这种“肿瘤内部异质性” (Intra-tumor heterogeneity, ITH) 是癌症治疗失败(如耐药和复发)的根源。要真正理解这座巴别塔是如何拔地而起,又是如何维持运转的,我们必须回答两个终极问题:第一,癌症的“第一颗种子”(细胞起源,cell of origin)究竟是什么细胞?第二,在进化过程中,细胞的“设计蓝图”(DNA基因组)与其“功能状态”(RNA转录组)之间的关系究竟遵循怎样的法则?

几十年来,我们试图通过分别读取这两份“手稿”来拼凑答案。我们有了scDNA-seq来绘制基因组的蓝图(主要是拷贝数变异,Copy-Number Alterations, CNAs),也有了scRNA-seq来解读细胞的功能(基因表达程序)。但问题在于,这两份手稿来自不同的细胞。我们得到的只是群体的平均印象,却丢失了最关键的联系:到底是哪个基因型导致了哪个表型?为了攻克这一难题,研究人员必须开发一种能在同一个细胞内同时读取这两份手稿的“罗塞塔石碑”。

9月4日,《Cell》的研究报道“Coalescing single-cell genomes and transcriptomes to decode breast cancer progression”,研究人员成功开发了一项名为wellDR-seq的新技术,以前所未有的规模和分辨率,实现了单细胞基因组和转录组的联合分析,为我们揭开了乳腺癌起源的神秘面纱,并改写了我们对癌症进化中“基因剂量效应”的传统认知。

工程师的巧思:如何构建“DNA与RNA的双重阅读器”

同时捕获基因组DNA和转录组mRNA,为什么如此困难?这首先是一个物理化学上的挑战。

在单个细胞内,DNA被紧密地包裹在细胞核的染色质(chromatin)结构中,受到组蛋白的严密保护;而我们关心的信使RNA (mRNA) 则主要分布在细胞质中,结构脆弱且易于降解。传统的基因组测序(scDNA-seq)需要严苛的细胞裂解条件来释放并纯化DNA,这个过程足以将RNA彻底摧毁。反之,转录组测序(scRNA-seq)采用温和的裂解方式以保护RNA,但这又远远不足以打开染色质的枷锁,导致绝大多数基因组DNA无法被捕获。

现有的多组学技术往往顾此失彼。例如,一些方法依赖物理分离细胞核和细胞质,操作繁琐且通量极低,仅限于几十个细胞;另一些方法试图在核内同时捕获DNA和RNA(如DEFND-seq),但它们不可避免地丢失了细胞质中占绝大多数的成熟mRNA,导致RNA数据质量严重受损。

我们需要一种巧妙的化学方法,在同一个微小的反应孔中,让DNA和RNA“和平共处”并被分别标记。wellDR-seq(基于纳米孔的单细胞DNA和RNA测序)正是为此而生。

研究人员使用了一个包含5184个纳米反应孔(nanowell)的芯片。当单个细胞被分配到这些微孔中后,真正的“魔法”开始了。

第一步:彻底解放。 研究人员没有使用常规的裂解液,而是加入了一种关键的蛋白酶(protease)。这种酶如同一种万能溶剂,它会消化掉细胞膜、核膜以及所有束缚DNA的组蛋白。其结果是,细胞内的一切蛋白质结构都被清除了,只剩下纯粹的核酸,基因组DNA和细胞内的所有RNA,完全裸露地释放到纳米孔的微小反应体系中。这是实现双重捕获的化学基础。

第二步:分轨标记。 既然DNA和RNA都已可用,研究人员使用了一种“分而治之”的策略同时给它们打上标签。对于DNA,使用Tn5转座酶(Tagmentation)将其切割成片段并连接接头。对于RNA,使用经典的Poly-dT引物特异性抓取mRNA,并通过逆转录(RT)将其转化为cDNA。

第三步:巧妙的“生物素开关”。 在逆转录过程中,研究人员加入了一个巧妙设计的模板转换寡核苷酸(Template Switch Oligonucleotide, TSO)。这个TSO除了完成cDNA的合成外,还携带了一个关键的“货物”——生物素(biotin)标签。这意味着,细胞中所有由mRNA逆转录而来的cDNA分子,都被悄悄地打上了一个生物素标记。而基因组DNA碎片则没有这个标记。

第四步:统一的细胞条码。 接下来,通过几轮精心设计的PCR反应,研究人员为来自同一个纳米孔的所有cDNA和DNA碎片,都连接上独一无二的细胞条码(cell barcodes)。例如,来自A1孔的细胞,其cDNA和gDNA都会被标记上“A1”这个地址。

第五步:捕捞与分离。 当所有反应完成后,研究人员将5184个孔中的所有产物混合在一起,形成了一个包含数千个细胞的DNA和cDNA的“大汤锅”。此时,生物素标签派上了用场。研究人员加入了链霉亲和素磁珠(Streptavidin beads),如同钓鱼一般,所有携带生物素的分子(即全部的cDNA)都被磁珠“钓”了上来。而那些没有被钓上来的、漂浮在“汤”里的,自然就是所有的基因组DNA。

通过这一系列巧妙的步骤,wellDR-seq成功地从同一个细胞群体中获得了两个独立的文库:一个代表功能(转录组),一个代表蓝图(基因组),而它们可以通过细胞条码被完美地一一对应。

严苛的基准测试:新的阅读器超越了“专科医生”吗?

一项多组学技术最大的风险在于“贪多嚼不烂”,试图同时做两件事,结果可能两件都做不好。wellDR-seq是否在捕获RNA的同时牺牲了DNA的质量?或者反之?研究人员使用乳腺癌细胞系MDA-MB-231进行了一场严苛的“性能摸底测试”。

评估DNA:高覆盖率与低噪音

研究人员将wellDR-seq与四种专攻DNA的单细胞测序技术(包括Arc-well, 10X CNV, DLP+, DOP-PCR)以及另一种多组学技术(DEFND-seq)进行了正面比较。评估scDNA-seq质量有两个核心指标:过离散度(Overdispersion),代表技术噪音,越低越好;以及覆盖广度(Breadth of coverage),代表能看到多少基因组区域,越高越好。

数据显示,wellDR-seq在噪音控制上与表现最好的Arc-well技术相当,同时显著优于其他所有方法。更重要的是,在覆盖广度上,wellDR-seq完胜了10x CNV, DLP+, DOP-PCR, 和 DEFND-seq。这证明wellDR-seq的DNA数据质量是顶级的。光有质量还不够,它读得“准”吗?研究人员进一步将其与单细胞数据的“金标准”——来自同种细胞系的克隆群体全基因组测序(bulk WGS)——进行对比。结果令人振奋:wellDR-seq生成的假体细胞(pseudobulk)CNA图谱与WGS数据的相关性达到了惊人的 r = 0.965;而在更精细的单个亚克隆水平上,平均相关性也达到了 r = 0.966。

这表明,wellDR-seq在读取DNA蓝图方面,表现如同一位经验丰富的专科医生。

评估RNA:读到我们真正想要的(外显子)

那么RNA呢?研究人员将wellDR-seq与三种主流scRNA-seq方案在相同的测序深度下(约每细胞26,000条读数)进行了比较。wellDR-seq的表现非常出色,平均检测到约2,650个基因,与专攻转录组的Takara平台旗鼓相当。然而,关键在于读到的序列“是什么”。研究人员分析了这些RNA读数在基因组上的分布。结果显示,wellDR-seq有高达92.0%的读数精确地映射到了外显子(Exons)区域,这正是真正编码蛋白质的功能序列。相比之下,10x Genomics的外显子映射率仅为76.4%,而DEFND-seq更只有9.1%。

结论是明确的:wellDR-seq不仅能检测到高数量的基因,而且它检测到的是高质量的、具有真正生物学意义的成熟转录本。

最后的论证:为什么我们不能“猜”?

此时,一个关键问题浮出水面:我们能否利用计算工具,直接从RNA的表达量“推断”出DNA的拷贝数(CNA)呢?为了回答这个问题,研究人员使用了两种最先进的推断工具(CopyKAT和inferCNV),并将它们应用于wellDR-seq产生的高质量RNA数据上,试图“重建”这些细胞的CNA图谱。然后,他们将“推断”出的CNA图谱与他们手中“实测”到的DNA图谱(来自同一个细胞)进行比较。

结果是毁灭性的。计算推断出的CNA图谱与真实的DNA图谱几乎完全不同,相关性分别仅有 r = 0.52 和 r = 0.49。 这些计算工具不仅完全漏掉了肿瘤中关键的亚克隆结构,还“凭空捏造”了大量根本不存在的CNA事件。

这项对比提供了强有力的证据:推断不能替代检测。 在复杂的癌症生物学中,试图用一份手稿(RNA)去猜测另一份手稿(DNA)的内容,是一种极其不可靠的策略。我们必须,也只能,在同一个细胞中同时阅读这两份手稿。

癌症侦探:揪出乳腺癌的“第一颗种子”

有了这把利器,研究人员立即投身于临床实践,他们分析了来自12名ER+(雌激素受体阳性)乳腺癌患者的样本。他们的第一个目标,就是利用wellDR-seq的双重数据,去追捕那个难以捉摸的癌症“起源细胞”。

P1号患者的离奇案件与“c2”亚克隆

在P1号患者的2,901个单细胞中,一场精彩的侦探故事上演了。通过对DNA蓝图进行聚类,研究人员发现了22个截然不同的基因亚群。其中,c1集群是完全正常的二倍体细胞。而c3到c22集群,则是基因组的“重灾区”,是构成肿瘤主体的“邪恶军团”。

然而,c2集群成了一个异类。它只占细胞总量的一小部分,其基因组上唯一的、清晰的异常是丢失了整条22号染色体(chr22 loss)。

当研究人员构建这些亚克隆的进化树(Phylogenetic tree)时,整个故事线清晰了:正常的c1细胞发生了突变,变成了c2细胞。在某个时间点,c2细胞又经历了一次全基因组加倍(WGD)事件,并以此为起点,最终“进化”并分化出了c3到c22这20个不同的癌症亚克隆。这意味着,c2就是这个肿瘤的“祖先亚克隆”(ancestral subclone),是那颗埋藏在正常组织中的“第一颗种子”。

连接蓝图与身份:“祖先”究竟是谁?

这个祖先细胞,在它癌变之前,究竟是一种什么类型的正常细胞?这是只有wellDR-seq才能回答的问题。研究人员立刻调取了这些DNA集群对应的RNA数据。正常的c1细胞是混合体,晚期的癌症军团(c3-c22)则完全一致地聚集在一个独特的“癌症”RNA集群中。

令人惊讶的是,那颗神秘的种子(c2亚克隆)的RNA身份并不在“癌症”集群里。它隐藏在正常细胞中。数据显示,c2细胞的转录组特征,与正常的管腔激素反应细胞(Luminal Hormone-Responsive, LumHR)完全吻合。在另外三名患者中,研究人员也发现了同样的模式,他们找到的祖先亚克隆,无一例外,全部指向LumHR细胞。

这一系列证据共同构筑了一个清晰的癌症起源模型:至少对于这部分ER+乳腺癌而言,癌症的“第一颗种子”来自一种已经分化的、响应激素的LumHR细胞。这个正常的LumHR细胞首先遭受了第一次基因打击(如chr22 loss),变成了“祖先亚克隆”。这个“受伤”的细胞群体可能潜伏了很长时间,直到某个契机触发了第二次打击,导致其基因组彻底失稳,最终演化为侵袭性癌症。为了给这个结论钉上最后一颗钉子,研究人员甚至在祖先c2细胞中找到了12个在正常细胞中不存在,却在所有癌细胞中100%存在的点突变。证据链形成了完美的闭环。

改写剂量法则:当10份拷贝不等于10倍产出

如果说找到癌症的“种子”是wellDR-seq的第一个重大贡献,那么它接下来的发现,则从根本上挑战了我们对癌症进化驱动力的理解,即经典的“基因剂量效应”(gene-dosage effect)。

这个经典法则非常直观:基因的拷贝数决定了基因的表达水平。更多的DNA拷贝 = 更多的RNA产出。而现在,wellDR-seq可以在同一个细胞里,同时手握“拷贝数”(因)和“表达量”(果)。

宏观尺度(染色体片段):法则成立

首先,研究人员在宏观尺度上检验了这一法则。他们分析了所有发生CNA的染色体大片段。结果呈现出一条近乎完美的线性相关曲线(R = 0.93)。随着DNA拷贝数从1份攀升到惊人的13份,对应片段上的RNA平均表达量也随之线性飙升。在整个研究队列中,高达56%的CNA片段都显示出与其基因表达水平相一致的变化。这证实了我们的传统认知:在宏观平均水平上,基因剂量法则是成立的。

微观尺度(单个基因):法则崩溃

然而,当研究人员将镜头推向单个基因时,这个简单的图景瞬间崩溃了。他们发现,基因对拷贝数变化的反应并非铁板一块,而是呈现出截然不同的两种命运:

1. 剂量敏感型(Dosage-sensitive)基因: 这些基因是“守法公民”,其RNA表达水平与DNA拷贝数严格相关。许多关键的乳腺癌相关基因都属于此类,例如PGR、AURKA和RB1。

2. 剂量不敏感型(Dosage-insensitive)基因: 这些基因则是“规则豁免者”。无论它们所在的DNA片段如何疯狂扩增或丢失,它们自身的RNA表达水平都“岿然不动”。令人震惊的是,这份“豁免名单”上赫然列着几个乳腺癌中“鼎鼎大名”的驱动基因:PIK3CA、BRCA1和TP53。

这是一个极其深刻的发现。它告诉我们,肿瘤的进化远比我们想象的要复杂。对于像PIK3CA这样的超级致癌基因,它的失调依赖于其他更精巧的机制(例如点突变)。这些关键基因,已经进化到可以“无视”基因组剂量效应。

涟漪效应:31%的“本地(Cis)”行动 vs 69%的“跨区(Trans)”混沌

如果说“剂量不敏感”基因揭示了法则的例外,那么wellDR-seq的下一个发现则揭示了CNA驱动癌症的真正威力——跨区域的涟漪效应。传统观点认为“本地效应”应该是主导。但wellDR-seq的数据彻底颠覆了这一点。

研究人员在所有患者的亚克隆进化对中进行了统计,结果令人瞠目:在所有导致功能差异的差异表达基因(DE genes)中,平均只有31%的基因是“本地(in-cis)”的——即它们确实位于那些新发生拷贝数变化的区域。这意味着,平均有高达69%的功能变化,发生于“跨区(in-trans)”!

换言之,当肿瘤获得一个新的CNA时,其最主要的后果,不是让本地基因的产出增加,而是像一块石头砸入平静的湖面,激起的“涟漪”扩散到了整个基因组,导致了其他所有“基因组稳定”的染色体上发生了大规模的功能(表达)海啸。

被解码的双重手稿

这项研究,为我们提供了一块破解癌症复杂性的“罗塞塔石碑”。wellDR-seq这项技术用数据证明(例如r=0.49的推断失败案例),我们不能再满足于猜测一份手稿的内容;我们必须同时、同地、同细胞地阅读这两份手稿。

通过这块石碑,该研究重写了乳腺癌生物学的两个关键篇章:

第一,癌症的起源故事。研究首次将“祖先基因型”(如c2亚克隆的chr22 loss)与其“细胞身份”(LumHR表型)直接锁定在同一个细胞中,为ER+乳腺癌的“管腔细胞起源说”提供了迄今为止最直接的证据。癌症的种子并非凭空产生,而是潜伏在那些看似正常的、响应激素的细胞中。

第二,癌症的进化法则。研究彻底解构了简单粗暴的“基因剂量效应”。癌症进化不是简单的DNA加减法,而是一个交织着“剂量敏感”与“剂量不敏感”基因的复杂系统。肿瘤每一次基因组的变动(CNA),其最主要的驱动力甚至不是本地基因的改变(仅占31%),而是它所激发的覆盖全基因组的“跨区(trans)”功能涟漪(占69%)。

这为我们开辟了全新的视野:未来我们评估一个基因是否为驱动基因,或许不再仅仅看它是否被扩增或删除,而是要看它是否“剂量敏感”;我们理解癌症的进化,也必须从线性的“CNA累积”转向非线性的“跨区网络调控”。这正是解读癌症双重手稿的真正意义所在。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->