AJRCCM：敏感性超90%！江苏省肿瘤医院团队发现肺癌早筛新策略

来源：奇点糕 2022-12-26 10:50

该研究建立了一个集成五个cfDNA片段组学特征的堆叠集成机器学习模型，可区分早期NSCLC和非癌症受试者，敏感性高，稳定性和稳健性高，有助于NSCLC的早期检测。

肺癌是全球第二大最常见的癌症，也是癌症相关死亡的主要原因[1]。

虽然低剂量计算机断层扫描（LDCT）等放射学方法，可以将肺癌相关死亡风险降低20%，但有很多因素限制了它的使用[2]。因此，开发一种可靠的非侵入性方法，准确且经济高效地检测出早期肺癌，是亟待解决的问题。

近年来，基于细胞游离DNA（cfDNA）的液体活检在肿瘤早筛中显示出优势，但单一特征的cfDNA预测敏感性低，利用堆叠集成的方法整合来自全基因组测序（WGS）的cfDNA基因组特征，并创建高度敏感的模型已在早期结直肠腺癌检测中初见成效[3]，这种方法是否适用于肺癌早筛，目前鲜为人知。

近日，由江苏省肿瘤医院（南京医科大学附属肿瘤医院）的许林、尹荣领衔的研究团队，通过整合cfDNA片段组学特征，开发了一种准确且经济的早期肺癌检测方法，这项研究成果发表在呼吸科顶级期刊《美国呼吸与危重症医学杂志》上[4]。

研究人员发现，集成了五个cfDNA特征和五个机器学习算法的堆叠集成模型，优于所有基于单个特征-算法组合的模型，该集成模型预测早期非小细胞肺癌（NSCLC）的敏感性和特异性在90%以上。

值得一提的是，即使测序深度降至0.5×时，该模型仍可保持较高的敏感性和特异性。江苏省肿瘤医院王思炜、孟凡尘和李明为该论文的共同第一作者。

论文首页截图

接下来，我们一起来看看这个研究是如何开展的。

研究团队首先将354名受试者随机分配到训练集及验证集I，训练集包括113名未治疗的NSCLC患者（腺癌ADC：96名；鳞癌SCC：17名；I期：66名；肿瘤大小<1cm：15名）和113名非癌症健康志愿者；验证集I包括81名NSCLC患者（ADC：66；SCC：15；I期：46；肿瘤大小<1cm：16）和47名健康者。训练集及验证集I用于构建模型、进行内部验证。

随后，他们将另外188名受试者（70名健康志愿者，118名未治疗ADC）分配到验证集II，进行外部验证。此外，他们还设计了独立验证队列，纳入了240名来自其他回顾性研究的人群，包括120名健康者和120名未治疗的NSCLC患者。

模型的构建与验证

研究人员对所有受试者进行了血浆样本采集、cfDNA提取，然后进行WGS文库构建。他们统一按5×的测序深度进行模型构建和评估，使用原始测序深度（5.28×-27.85×）的WGS数据，或降低测序深度至4×、3×、2×、1×和0.5×的WGS数据，对所选模型进行进一步评估。

他们从WGS数据中提取了五种不同的片段特征，用于特征选择和模型构建。这五种片段特征包括：拷贝数变异（CNV）、片段大小覆盖率（FSC）、片段大小分布（FSD）、末端序列（EDM）和断裂点序列（BPM）。

然后，他们使用每个cfDNA片段组特征来构建其基础模型，并使用了五种基础算法：广义线性模型（GLM）、梯度提升机（GBM）、随机森林、深度学习和XGBoost。

构建堆叠集成模型和确定癌症概率评分的示意图

研究人员测试了上述五种片段特征在五个基础模型中的曲线下面积（AUC），以评估模型的预测性能，结果显示EDM、BPM、FSC、FSD和CNV特征，在堆叠集成模型中的AUC值比在单一算法模型中高。于是，他们建立了一个集成了血浆cfDNA片段组学特征和五种机器学习算法的堆叠集成模型，AUC值达0.985。

本研究中的每个癌症或非癌症样本，均会由算法生成癌症概率评分，范围为0到1，模型输出的分数越高，表示患癌症的概率越高。研究人员发现，癌症患者的癌症概率评分显著高于健康受试者，而且从I期到IV期癌症患者的评分分布呈上升趋势。

为了评估堆叠集成模型的性能，研究人员使用验证集I来确定95%特异性的截断值（验证集I中的健康者46名，因此计算出的特异性为44/46=95.7%，相应的癌症评分截断值为0.66），然后将截断值应用于验证集II和独立验证队列以进行外部评估。

他们发现在验证集I和验证集II中，AUC值都比较高，分别为0.984和0.987。基于验证集I中95.7%的特异性，应用0.66作为癌症评分截断值，验证集II的特异性为98.6%，由此产生的验证集I、验证集II的敏感性分别为91.4%、84.7%。

验证队列中预测模型的开发和评估

为了进一步评估堆叠集成模型的普适性，研究人员在独立验证队列中进行了测试，结果发现，预测模型在独立验证队列中AUC值达0.974，应用0.66作为癌症评分截断值，预测模型能够很好地区分癌症和非癌症样本，敏感性和特异性分别为92.5%、94.2%。而且，独立验证队列中，所有患者的癌症评分也呈现出从I期到IV期的上升趋势。

他们还评估了该模型在不同WGS测序深度下的稳定性和稳健性，发现该模型在使用原始或5×测序深度的WGS数据时保持稳定，即使测序深度降低至4×、3×、2×、1×和0.5×后，它们的AUC值在验证集I（≥0.966）和验证集II（≥0.971）中仍然很高，提示稳健性好。而且，即使具有最低的变异等位基因频率（VAF）（0.05%）和测序深度（0.5×），该模型在识别癌症方面仍有75.0%的敏感性。

最后，他们使用验证集进一步评估了该模型在不同肺癌亚组中的预测性能，结果显示，该模型能可靠地区分SCC和ADC，敏感性分别为93.3%和87.0%，而且可以用于检测I期（敏感性83.2%）或肿瘤＜1cm（敏感性85.0%）等早期病理特征。

预测模型在验证集I、II的不同肺癌患者亚组及其组合中的诊断敏感性

总之，该研究建立了一个集成五个cfDNA片段组学特征的堆叠集成机器学习模型，可区分早期NSCLC和非癌症受试者，敏感性高，稳定性和稳健性高，有助于NSCLC的早期检测。

参考文献：

[1] Siegel RL, Miller KD, Fuchs HE, Jemal A. Cancer Statistics, 2021. CA Cancer J Clin. 2021;71(1):7-33. doi:10.3322/caac.21654

[2]National Lung Screening Trial Research Team, Aberle DR, Adams AM, et al. Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med. 2011;365(5):395-409. doi:10.1056/NEJMoa1102873

[3]Ma X, Chen Y, Tang W, et al. Multi-dimensional fragmentomic assay for ultrasensitive early detection of colorectal advanced adenoma and adenocarcinoma. J Hematol Oncol. 2021;14(1):175. doi:10.1186/s13045-021-01189-w

[4]Wang S, Meng F, Li M, et al. Multi-Dimensional Cell-free DNA Fragmentomic Assay for Detection of Early-Stage Lung Cancer. Am J Respir Crit Care Med. 2022. doi:10.1164/rccm.202109-2019OC

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->