Nature Medicine | 人工智能与传统技术在IVF胚胎选择中的首次对决：效率提升与临床成效的探索

来源：生物探索 2024-08-14 11:01

尽管深度学习在胚胎评估中的应用展示了提高操作效率的潜力，但其在临床妊娠率方面尚未表现出足够的优势，无法取代当前的标准形态学评估方法。

在过去的几十年里，体外受精（In Vitro Fertilization, IVF）技术已经成为解决不孕症问题的重要手段。IVF的成功率在很大程度上取决于胚胎的选择和移植过程，而如何从多个可用胚胎中选择出最有可能成功着床并发育的胚胎，是胚胎学家面临的主要挑战之一。传统上，胚胎选择主要依赖于形态学评估(morphological assessment)，即通过显微镜观察胚胎的外观特征，如细胞数量、对称性、碎片程度等，这种方法尽管广泛应用，但具有一定的主观性，并且不同胚胎学家之间可能存在评估不一致的问题。

近年来，随着人工智能(Artificial Intelligence, AI)的迅速发展，尤其是深度学习(Deep Learning)技术的兴起，IVF领域也开始探索将AI应用于胚胎选择过程。深度学习算法能够分析大量的胚胎图像数据，自动识别出与成功妊娠相关的特征，减少人为因素的干扰，从而提高胚胎选择的客观性和效率。例如，智能数据分析评分(iDAScore)就是一种基于深度学习的评分系统，它不仅考虑了胚胎的空间（形态学）特征，还分析了胚胎在培养过程中的时间序列（形态动力学）信息，以预测胚胎的着床潜力。

然而，尽管深度学习在其他医疗影像分析领域已经展示了强大的潜力，其在IVF中的实际临床效益仍需通过严格的随机对照试验(Randomized Controlled Trial, RCT)来验证。8月9日Nature Medicine的研究报道“Deep learning versus manual morphology-based embryo selection in IVF: a randomized, double-blind noninferiority trial”，正是在这一背景下展开，旨在评估深度学习算法是否能够在胚胎选择过程中达到或超过传统形态学评估的效果，同时探索其在提高操作效率、减少评估时间等方面的潜在优势。

在该研究中，尽管深度学习算法(iDAScore)在评估效率和操作一致性方面表现出显著优势，平均评估时间减少了近10倍，但其在提高临床妊娠率方面未能展示出非劣效性(non-inferiority)的显著优势。具体而言，深度学习组的临床妊娠率为46.5%，而对照组的临床妊娠率为48.2%，两者之间的风险差异为-1.7个百分点，95%CI为-7.7至4.3个百分点，P值为0.62，这表明使用深度学习算法选择胚胎的临床妊娠率与传统形态学评估方法相当，但未能显著优于后者。

此外，研究还发现，深度学习算法虽然在效率上具有优势，但在不同的子群体中，其表现存在差异。例如，在新鲜胚胎移植(fresh embryo transfer)的情况下，深度学习算法的妊娠率略高于对照组，而在冷冻胚胎移植(frozen embryo transfer)中，深度学习算法的效果则相对较差。这提示，深度学习算法在不同临床情境中的适用性可能存在差异，需要进一步研究以优化其算法和应用条件。

总的来说，尽管深度学习在胚胎评估中的应用展示了提高操作效率的潜力，但其在临床妊娠率方面尚未表现出足够的优势，无法取代当前的标准形态学评估方法。这一结果强调了在IVF领域引入新技术时，必须进行严谨的临床验证，以确保其能够在不降低治疗效果的前提下，真正为患者带来益处。未来的研究还需继续探索如何优化AI算法，使其更好地服务于临床实践。

近年来，人工智能(Artificial Intelligence, AI)技术在医学领域的应用呈现出爆炸式增长，尤其是在医学影像分析、诊断辅助系统等方面，AI展现了前所未有的潜力。然而，尽管AI在许多领域已经取得了显著进展，其在体外受精(In Vitro Fertilization, IVF)中的应用仍然面临诸多挑战。该研究探讨一项针对深度学习(Deep Learning)算法在IVF胚胎选择中的研究，并结合实际数据，分析这种新技术在辅助生殖领域的前景和局限。

体外受精技术自20世纪70年代末问世以来，已经帮助数百万家庭实现了生育梦想。然而，IVF的成功率在很大程度上取决于胚胎的选择和移植过程。胚胎选择的核心问题在于如何从多个可用胚胎中筛选出最有可能成功着床并发育的胚胎。传统上，胚胎学家主要通过显微镜下的形态学评估(morphological assessment)来选择胚胎。这种方法虽然已经得到广泛应用，但存在一定的主观性，且不同胚胎学家之间的评估结果可能会有所不同。

随着时间推移，时差培养箱的出现使得胚胎评估变得更加客观，其能够连续拍摄胚胎在培养过程中的图像，使胚胎学家能够全面地观察胚胎的发育过程。然而，即便如此，胚胎选择仍然依赖于人工评估，这不仅耗时费力，而且容易受到人为因素的影响。

深度学习的引入

为了提高胚胎选择的客观性和效率，研究人员开始探索将深度学习(Deep Learning)技术应用于IVF中。深度学习是一种通过模拟人脑神经网络来处理和分析大量数据的AI技术。具体来说，深度学习算法可以自动分析胚胎的图像数据，识别与成功妊娠相关的特征，从而减少人为评估的主观性。

该研究采用了一个名为智能数据分析评分(iDAScore)的深度学习算法，它结合了胚胎的空间(形态学)和时间(形态动力学)特征，以预测胚胎着床成功的概率。研究的目的是验证iDAScore是否能够在IVF胚胎选择过程中达到或超过传统形态学评估的效果，同时探讨其在操作效率和评估一致性方面的潜在优势。

研究采用了随机、双盲、平行组的非劣效性(randomized, double-blind, parallel-group non-inferiority)试验设计，旨在评估深度学习算法(iDAScore)与传统形态学评估方法在IVF胚胎选择中的有效性。研究在澳大利亚和欧洲的14家IVF诊所进行，时间跨度从2020年1月到2022年9月，共纳入了1751名符合条件的女性，其中1066名参与者最终被纳入试验，分别随机分配到实验组和对照组，每组533人。

纳入标准包括年龄在42岁以下、在胚胎培养第5天至少有两个达到早期囊胚(Blastocyst)阶段的女性。研究排除了使用捐卵、计划进行胚胎植入前遗传学检测(Preimplantation Genetic Testing, PGT)、使用其他实验室干预措施（如形态选择的精子注射(ICSI)）或已经参与过该研究的女性。

试验中参与者的分配、干预过程以及最终纳入分析的患者数量（Credit: Nature medicine）

随机分配：共有1066名参与者被随机分配到两组：实验组(iDAScore组)和对照组(形态学评估组)，每组533人。

中断干预：流程图显示了每组中因各种原因导致干预中断的参与者数量。例如，在实验组中有33人因协议违规或其他原因中断了干预，而在对照组中有31人中断了干预。

分析人群：在实验组中，最终有500名参与者被纳入按协议分析(per-protocol analysis)，而对照组中则有502名参与者被纳入分析。这意味着总共有64名参与者因各种原因被排除在最终分析之外。

参与者在胚胎培养的第5天接受随机分组，随后实验组的胚胎通过iDAScore评分，系统根据评分自动选择得分最高的胚胎进行移植。iDAScore算法基于超过115,000个胚胎的数据进行训练，包括14,644个已知结局的移植胚胎。该算法通过分析时差培养箱中的胚胎图像，评估胚胎的形态学和形态动力学特征，最终给出每个胚胎的评分。对照组则按照标准的形态学评估方法，由经验丰富的胚胎学家通过显微镜观察胚胎的外观特征并选择最佳胚胎进行移植。

在评估时间方面，研究还设计了一个子研究，比较两种评估方法在不同实验室中对同一批胚胎的评估所需时间。计时从打开患者文件到选择胚胎的整个过程，分别统计实验组和对照组的时间差异。

主要结果

该研究的主要结果是两组的临床妊娠率(clinical pregnancy rate)。实验组的临床妊娠率为46.5%（533名患者中的248例成功妊娠），而对照组的临床妊娠率为48.2%（533名患者中的257例成功妊娠）。两组之间的风险差异为-1.7个百分点，95%CI为-7.7至4.3个百分点，P值为0.62。这表明，尽管iDAScore算法能够自动选择胚胎并显著减少评估时间，但在临床妊娠率上未能达到非劣效性标准（设定的非劣效性边界为5%）。

非劣效性分析和各中心风险比（Credit: Nature medicine）

非劣效性分析：图a显示了深度学习算法(iDAScore)与传统形态学评估方法在临床妊娠率上的风险差异及其95%CI。这部分图表包括意向治疗分析(intention-to-treat analysis, ITT)和按协议分析(per-protocol analysis, PP)的结果。在图中，红色圆点表示风险差异的平均值，蓝色误差线表示95%CI。风险差异为负值表明深度学习算法的临床妊娠率低于传统方法。图中还标出了非劣效性的预设边界(-5%)，若95%CI的下限超过这一边界，则表示研究未能证明非劣效性。

各中心的风险比：图b展示了参与试验的各个中心的风险比(Risk Ratio, RR)，即各中心深度学习算法与传统评估方法在临床妊娠率上的相对表现。红色圆点表示每个中心的风险比，蓝色误差线表示95%CI。风险比大于1表示深度学习算法在该中心的效果优于传统评估方法，小于1则相反。图中显示了不同中心之间的广泛变化，部分中心的结果显示深度学习算法表现较好，而其他中心则未能显示出明显优势或表现较差。

次要结果

研究还分析了次要结果，包括hCG阳性率、人绒毛膜促性腺激素(hCG)的阳性率、持续妊娠率(ongoing pregnancy rate)和活产率(live birth rate)。这些次要结果在实验组和对照组之间也没有显著差异。例如，实验组的活产率为39.8%（533名患者中的212例活产），对照组为43.5%（533名患者中的232例活产），两者的风险差异为-3.9%，95%CI为-9.9至2.2%，P值为0.24。

时间效率

在胚胎评估时间方面，实验组表现出了明显的效率优势。使用iDAScore算法进行胚胎评估的平均时间为21.3秒，而对照组采用传统形态学评估方法的平均时间为208.3秒。两者之间的时间差异显著(P<0.001)，无论胚胎的数量多少，这一结果在不同的实验室均表现出一致性。

iDAScore组和对照组在第5天评估的时间使用情况（Credit: Nature medicine）

总体评估时间：实验组（iDAScore组）和对照组（传统形态学评估组）在第5天进行胚胎评估时所需的平均时间。整体来看，iDAScore组的评估时间明显短于对照组。iDAScore组的平均评估时间为21.3秒（±18.1秒），对照组的平均评估时间为208.3秒（±144.7秒）。

不同胚胎数量下的评估时间：进一步细分了评估时间，根据参与者在第5天所拥有的胚胎数量进行分类，显示了在不同胚胎数量的情况下两组的评估时间差异：拥有2-5个胚胎的情况下，iDAScore组的平均评估时间仍远低于对照组。拥有6-9个胚胎时，iDAScore组的评估时间同样显著短于对照组。当拥有10个或更多胚胎时，iDAScore组的评估时间也显著少于对照组。

子群体分析

在子群体分析中，研究发现，深度学习算法在新鲜胚胎移植(fresh embryo transfer)的情况下表现较好，实验组的临床妊娠率为48.1%，而对照组为44.5%；但在冷冻胚胎移植(frozen embryo transfer)的情况下，实验组的妊娠率为49.5%，而对照组则高达61.3%。这表明iDAScore算法在不同的临床情境中表现可能存在差异，尤其在冷冻胚胎移植中表现相对较差。

敏感性分析和安全性

研究还进行了预先指定的敏感性分析，考虑了包括女性年龄、以往刺激周期数、卵子数量和受精方式等因素。敏感性分析的结果并未显著改变主要分析的结论。此外，在安全性方面，研究没有记录到任何与医疗设备相关的严重不良事件，这表明iDAScore算法在实际应用中是安全的。

虽然该研究的结果表明，深度学习在提高临床妊娠率方面未能取得预期的突破，但这并不意味着AI在IVF中的应用前景黯淡。相反，随着AI技术的不断进步和算法的不断优化，未来AI在IVF中的应用可能会更加广泛和深入。

首先，AI可以通过结合更多的临床数据，如患者的年龄、激素水平、胚胎的基因信息等，进一步提升胚胎选择的精准性。未来的研究可以尝试将这些多维度的数据整合到AI模型中，以更全面地预测胚胎的发育潜力。

其次，AI技术在提高IVF实验室的工作效率方面仍有巨大潜力。除了胚胎选择，AI还可以应用于胚胎培养、数据管理、实验室操作优化等多个环节。例如，AI可以帮助实验室自动记录胚胎发育的全过程，并生成详尽的报告，供医生参考。这不仅可以减轻实验室人员的工作负担，还可以提高实验室操作的规范性和标准化。

此外，随着AI技术的不断发展，未来AI可能会在IVF之外的其他辅助生殖技术中发挥更大的作用。例如，在卵子和精子的选择、基因筛查、甚至人工子宫的开发等方面，AI都可能带来革命性的改变。

综上，该研究验证了深度学习算法在IVF胚胎选择中的应用效果。虽然研究结果显示，深度学习在提高临床妊娠率方面未能显著优于传统形态学评估方法，但其在操作效率和评估一致性方面展现了巨大潜力。随着AI技术的不断进步，我们有理由相信，未来AI将在IVF及其他辅助生殖技术中发挥越来越重要的作用，为无数家庭带来希望。

未来的研究还需继续探索如何优化AI算法，使其更好地服务于临床实践，同时注重与传统方法的结合，以确保患者能够获得最佳的治疗效果。这不仅是技术进步的需求，也是对广大患者的福祉负责的体现。我们期待在不久的将来，AI能够帮助更多的家庭实现生育梦想，推动辅助生殖技术迈向新的高峰。

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->