打开APP

Nat Biotechnol | 揭开肿瘤亚克隆演化之谜:31种算法在模拟肿瘤中的表现评估

来源:生物探索 2024-06-13 09:35

为了更好地理解肿瘤的演化过程,研究人员开发了许多基于高通量测序技术的亚克隆重建算法。这些算法利用肿瘤DNA测序数据中的突变特征来推断肿瘤亚克隆的组成和演化历史。

近年来,利用高通量测序技术来分析肿瘤的克隆结构和进化历史成为癌症研究的热点。通过重建肿瘤亚克隆(subclonal reconstruction),研究人员可以更好地理解肿瘤如何起源、发展以及对选择性压力(selective pressures)的反应。

ICGC–TCGA(国际癌症基因组联合会-癌症基因组图谱)DREAM体细胞突变检测肿瘤异质性与进化挑战(Somatic Mutation Calling Tumor Heterogeneity and Evolution Challenge)正是在这一背景下发起的,旨在评估现有的亚克隆重建算法。这项为期七年的合作使用云计算对31种亚克隆重建算法在51个模拟肿瘤中的表现进行了基准测试。

肿瘤的演化是一个从正常细胞逐步积累体细胞突变(somatic mutations)的过程。这些突变的产生受细胞染色质结构以及内源性和外源性诱变压力的影响。如果特定突变赋予细胞选择性优势,那么这些细胞的后代就可能在其局部环境中扩展。这一过程可能会持续多年甚至数十年,直到由一个共同祖先衍生出具有多个癌症特征的细胞群体(克隆,clone)。在这个过程中,不同的肿瘤细胞亚群(亚克隆,subclones)可能会因漂变或选择性压力而出现。

亚克隆重建的目的是通过分析肿瘤DNA测序数据中的突变特征来推断肿瘤亚克隆的定量特征。为了实现这一目标,研究人员开发了许多基于体细胞单核苷酸变异(SNVs)和拷贝数异常(CNAs)的算法。这些算法广泛应用贝叶斯推断(Bayesian inference)等方法来识别和量化肿瘤亚克隆的组成和演化。

在该基准测试中,研究人员评估了每种算法在七个独立任务中的表现,累计进行了12,061次运行。结果表明,算法的选择对性能的影响远大于肿瘤特征,而调整纯度的读取深度、拷贝数状态和读取可映射性(read mappability)与大多数任务中大多数算法的性能有关。

该研究强调了现有亚克隆重建方法在准确性方面的差异,并指出了进一步研究和改进的需求。通过提供所有容器化方法、评估代码和数据集,研究人员希望支持未来对亚克隆重建准确性的决定因素的进一步评估,并开发更好的方法来理解肿瘤的演化。

通过对这些算法进行基准测试,研究人员不仅能够确定哪些算法在特定任务中表现最佳,还能揭示影响重建准确性的主要因素。这将有助于优化实验设计(如测序深度)和算法选择,从而提高单样本肿瘤亚克隆重建的准确性和可靠性。(6月11日 Nature Biotechnology 在“Crowd-sourced benchmarking of single-sample tumor subclonal reconstruction”)

图片

肿瘤的演化过程是一个复杂且多步骤的过程,涉及正常细胞通过体细胞突变(somatic mutations)的逐步积累而转变为癌细胞。这些突变受到染色质结构以及内外源性诱变压力的影响。当某些特定的突变赋予细胞选择性优势时,这些突变细胞及其后代在局部环境中不断扩展,最终形成一个共同祖先衍生的细胞群体,称为克隆(clone)。随着时间的推移,不同的肿瘤细胞亚群(亚克隆,subclones)由于漂变或选择性压力不断出现和消失。这些亚克隆的异质性对于理解肿瘤的发生、发展以及对治疗的反应具有重要意义。

为了更好地理解肿瘤的演化过程,研究人员开发了许多基于高通量测序技术的亚克隆重建算法。这些算法利用肿瘤DNA测序数据中的突变特征来推断肿瘤亚克隆的组成和演化历史。然而,不同算法在性能上存在显著差异,且对算法性能的影响因素还未被完全了解。因此,对现有亚克隆重建算法进行系统评估,以确定其准确性和适用性,显得尤为重要。

该研究基于ICGC–TCGA(国际癌症基因组联合会-癌症基因组图谱)DREAM体细胞突变检测肿瘤异质性与进化挑战(Somatic Mutation Calling Tumor Heterogeneity and Evolution Challenge),旨在评估和比较现有的31种亚克隆重建算法。研究团队设计了51个模拟肿瘤,涵盖了广泛的生物学和技术参数。为了确保评估的公正性和科学性,所有算法在一个可重复的云计算架构中执行,并通过七个独立的任务进行评分。

每个模拟肿瘤的设计包括正常和肿瘤的BAM文件,这些文件通过BAMSurgeon工具进行模拟,并使用Genome Analysis Toolkit(GATK)的MuTect工具来识别体细胞单核苷酸变异(SNVs),以及使用Battenberg工具来识别体细胞拷贝数异常(CNAs)并估计肿瘤纯度。这些数据作为输入提供给参与者,参与者通过提交各自的算法进行亚克隆重建,并对重建结果进行评分和排名。

为了更全面地评估亚克隆重建算法的性能,研究团队采用了以下几种方法和策略:

肿瘤模拟:设计了25个基于手工策划的全基因组肿瘤(PCAWG)的模拟肿瘤,这些肿瘤来源于已知的癌症基因组数据库,具有丰富的突变特征和多样的基因组结构。此外,研究团队还设计了16个非PCAWG肿瘤,这些肿瘤代表了不同的癌症类型和不同的基因组复杂性。为了测试亚克隆重建算法在特定情况下的性能,研究团队还设计了10个乳腺肿瘤的特例模拟,这些特例模拟测试了亚克隆重建算法在处理极端情况下的能力。

覆盖度梯度系列:为了评估测序深度对亚克隆重建结果的影响,研究团队设计了5个肿瘤的覆盖度梯度系列。这些系列的覆盖度分别为8×、16×、32×、64×和128×。通过对不同覆盖度的肿瘤样本进行亚克隆重建,研究团队能够评估在不同测序深度下,亚克隆重建算法的性能变化。

算法性能评分:为了对每种亚克隆重建算法在不同任务中的表现进行评分,研究团队使用了一个标准化的评分框架。每种算法在七个子挑战任务中的表现都进行了详细评分,这些评分被标准化为0到1之间的范围。通过这种方法,研究团队能够公平地比较不同算法在相同任务中的表现。

数据处理和分析工具:在模拟肿瘤数据的过程中,研究团队使用了多个先进的工具和软件包。BAMSurgeon工具用于生成模拟的BAM文件,GATK的MuTect工具用于识别体细胞单核苷酸变异(SNVs),Battenberg工具用于识别体细胞拷贝数异常(CNAs)并估计肿瘤纯度。这些工具和软件包的结合使用,确保了模拟数据的高质量和高准确性,为后续的算法评估提供了坚实的基础。

图片

挑战设计的各个方面(Credit: Nature Biotechnology)

挑战的时间线(Timeline):SMC-Het DREAM挑战的设计和实施时间线。从2014年的设计阶段开始,直到2021年的最终报告,整个过程包括了多个关键节点,如团队加入、初始排行榜、最终模拟、设计发布、最终设计、正式启动、训练集、初步排行榜、算法更新、最终评分指标和最终结果等。

模拟参数分布(Simulation parameter distributions):51个模拟肿瘤的参数分布情况,包括亚克隆数量、全基因组倍增状态(whole-genome doubling status)、线性与分支拓扑结构(linear versus branching topologies)、NRPCC(每染色体拷贝的读取数目,number of reads per chromosome copy)、体细胞单核苷酸变异(SNVs)总数和亚克隆SNVs的比例。这些参数的分布反映了模拟肿瘤的多样性和复杂性。

树拓扑结构示例(Examples of tree topologies):三个模拟肿瘤(P3、T12和S2)的树拓扑结构示例。对于每个模拟肿瘤,其真实的树拓扑结构展示在第一列,并且在每个子挑战任务中(行),还展示了两个算法预测的树拓扑结构(列2和列3)。这些树拓扑结构示例显示了不同算法在亚克隆重建任务中的性能差异。

研究结果表明,算法的选择对亚克隆重建的性能影响显著高于肿瘤特征。纯度调整后的读取深度、拷贝数状态和读取可映射性(read mappability)与大多数任务中大多数算法的性能密切相关。没有单一算法在所有七个任务中表现最佳,现有的集成策略也未能超越表现最好的单个方法,强调了进一步研究和改进的必要性。

算法选择的重要性:不同算法在亚克隆重建任务中的表现差异显著,算法选择对结果的影响远大于肿瘤的生物学特征。这意味着在进行肿瘤亚克隆重建时,选择合适的算法比考虑肿瘤特征更加重要。

纯度调整的影响:纯度调整后的读取深度是影响算法性能的关键因素之一。读取深度越高,重建结果越准确,但在达到一定阈值后,性能的提升趋于平缓。

拷贝数状态的影响:拷贝数状态对亚克隆重建结果也有显著影响。拷贝数异常(CNAs)特别是亚克隆拷贝数异常,会显著降低突变克隆性(clonality)估计的准确性。

集成策略的局限性:虽然集成策略在某些情况下能提高重建结果的鲁棒性,但总体上仍无法超越表现最好的单个算法。这表明在亚克隆重建领域,现有的集成策略还有待改进。

通过基准测试,研究人员不仅揭示了不同算法在亚克隆重建中的优势和局限,还确定了影响重建准确性的关键因素。这些结果将有助于优化未来的实验设计和算法选择,从而提高肿瘤亚克隆重建的准确性和可靠性。

此外,该研究提供的所有容器化方法、评估代码和数据集也为未来的研究提供了宝贵的资源。研究人员可以利用这些资源进一步评估亚克隆重建的准确性,并开发更好的方法来理解肿瘤的演化过程。

肿瘤的演化是一个复杂的过程,理解这一过程对于癌症的诊断、治疗和预后具有重要意义。亚克隆重建作为量化肿瘤演化的关键方法,面临许多挑战。该研究通过系统的基准测试,揭示了影响亚克隆重建准确性的主要因素,并为未来的研究指明了方向。通过优化实验设计和算法选择,有望在肿瘤亚克隆重建领域取得更大的进展,为癌症研究和治疗带来新的希望。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->