打开APP

Nature:CT界的ChatGPT来了!扫一眼肚子,AI就能预测你五年后会不会生病

  1. AI
  2. CT扫描
  3. Merlin
  4. 疾病风险

来源:生物谷原创 2026-04-03 14:48

来自斯坦福大学等机构的科学家们通过研究开发了一款名为Merlin的人工智能模型,其不仅能像资深放射科医生一样看懂腹部CT图像,还能从扫描中读出人类肉眼无法察觉的疾病线索,提前五年预测慢性病的发生风险。

如果你去医院做一次腹部CT检查,放射科医生可能需要一两天才能给出报告;但如果有一台机器,扫完即刻告诉你:现在没问题,但五年后你有较高风险得糖尿病,或者骨骼密度有下降趋势,需要提前干预—你会不会觉得它像个算命的?这不再是科幻情节。近日,发表在国际杂志Nature上题为“Merlin: a computed tomography vision–language foundation model and dataset”的研究报告中,来自斯坦福大学等机构的科学家们通过研究开发了一款名为Merlin的人工智能模型,其不仅能像资深放射科医生一样看懂腹部CT图像,还能从扫描中读出人类肉眼无法察觉的疾病线索,提前五年预测慢性病的发生风险。

这个进展来得正是时候,CT是医学影像中最常见的检查手段之一,仅在美国,每年进行的CT扫描就超过8000万次。在中国,这个数字同样惊人,大型三甲医院的放射科每天要处理上千例扫描。然而,放射科医生的培养周期长达十年以上,而全球范围内都面临医生短缺的困境。海量影像数据堆积成山,医生超负荷工作,患者等待报告的时间越来越长——这正是人工智能大显身手的舞台。

Merlin的特别之处在于其不是那种只会做一件事的“专才”,以往的医学AI模型往往功能单一:有的只能识别肺炎,有的只会分割器官,换个任务就得重新训练。而Merlin属于新一代的“基础模型”,类似于ChatGPT背后的技术理念—先用海量数据教会它通用的“语言”,再根据具体任务稍作调整。只不过,ChatGPT学习的是文字,Merlin学习的则是三维CT图像和放射科报告之间的对应关系。

文章中,研究人员构建了一个前所未有的训练数据集:来自斯坦福大学医学院的15331例腹部CT扫描,每例扫描都配有详细的放射科报告和超过180万个诊断代码。这意味着Merlin有机会“阅读”超过600万张二维断层图像,学习图像中的每一个阴影、每一处密度变化与医生最终给出的诊断结论之间的关联。训练完成后,研究团队对Merlin进行了极其严苛的测试。他们从四个不同医院的5万多例CT扫描中出题,涵盖诊断、预后、质量评估等六大类共计752项具体任务,难度层层递进。

最简单的任务是零样本分类,不给任何额外训练,直接让Merlin判断CT图像中是否存在某些特定征象,比如肝囊肿、肾结石,结果它准确识别了30种常见影像学发现。难度升级,研究人员要求Merlin在692种不同诊断代码中,判断两张CT哪一张更可能对应某个特定疾病。Merlin的整体准确率超过81%,对于其中102种常见诊断,准确率高达90%,这意味着,如果让Merlin协助筛选CT报告,它能迅速标记出最可能需要优先处理的病例。

更令人惊叹的是预测能力,研究人员让Merlin仅凭CT图像,预测健康人群未来五年内罹患六种慢性病的风险,包括糖尿病、骨质疏松心力衰竭等。结果发现,Merlin判断高风险人群的准确率达到75%,远超对比模型的68%。换句话说,当放射科医生还在描述“胰腺形态未见异常”时,Merlin已经看出了未来五年糖尿病风险上升的蛛丝马迹——那些微妙到人类根本无法察觉的图像特征。

为了验证Merlin是否真的学会了通用的“医学语言”,研究人员还给它出了道超纲题:看胸部CT。要知道,Merlin的训练数据全是腹部扫描,从未见过肺和心脏。结果它表现得比那些专门用胸部数据训练的模型还要好。这说明Merlin确实掌握了跨器官、跨部位的通用影像特征,而不是死记硬背腹部的特定模式。

这项研究的亮点在于,Merlin不是要取代放射科医生,而是要成为他们的超级助手。它可以自动完成那些耗时费力的基础工作:从CT图像中预测诊断代码、勾勒20个腹部器官的三维轮廓、甚至草拟放射科报告的初稿。医生只需要核对和修改,工作效率将大幅提升。更重要的是,Merlin可能帮助我们重新认识疾病。那些隐藏在影像中、被人类忽略的细微特征,或许正是疾病最早的预警信号。如果能够通过AI挖掘出这些新型生物标志物,未来的疾病筛查和风险分层将进入一个全新的维度。

当然,研究人员也非常清醒地指出,Merlin目前仍是研究工具,距离临床应用还有距离。但它已经证明了这样一个方向:当AI学会了医学影像的通用语言,它能做的事情远超我们想象。从一张腹部CT出发,它不仅能告诉你今天有什么问题,还能预见你五年后可能面临的健康挑战。(生物谷Bioon.com)

参考文献:

Blankemeier, L., Kumar, A., Cohen, J.P. et al. Merlin: a computed tomography vision–language foundation model and dataset. Nature (2026). doi:10.1038/s41586-026-10181-8

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->