Nature子刊：重新定义病理AI基础模型，王珊珊/张康合作开发了一种视觉语言模型，实现全科系可泛化的病灶定位与描述

来源：iNature 2026-01-10 14:21

AFLoc表现出强大的泛化能力，甚至在定位五种不同类型的病理图像方面超过了人类基准。这些结果强调了AFLoc在减少注释要求方面的潜力及其在复杂临床环境中的适用性。

用于从临床成像数据定义病理学的现有深度学习模型依赖于专家注释，并且在开放的临床环境中缺乏概括能力。

2026年1月6日，中国科学院深圳先进技术研究院王珊珊、澳门科技大学张康共同通讯在Nature Biomedical Engineering在线发表题为“A multimodal vision–language model for generalizable annotation-free pathology localization”的研究论文。该研究提出了一个通用的视觉语言模型，用于无注释病理定位(AFLoc)。

AFLoc的核心优势是广泛的基于多级语义结构的对比学习，它将多粒度医学概念与丰富的图像特征进行全面对齐，以适应病理的多样化表达，而不依赖于专家图像注释。该研究对220，000对影像报告胸部X光影像数据集进行了初步实验，并对包含34种胸部病理类型的8个外部数据集进行了验证。结果表明，在无标注定位和分类任务中，AFLoc都优于最先进的方法。此外，还评估了AFLoc在其他方面的普遍性，包括组织病理学和视网膜眼底图像。研究表明，AFLoc表现出强大的泛化能力，甚至在定位五种不同类型的病理图像方面超过了人类基准。这些结果强调了AFLoc在减少注释要求方面的潜力及其在复杂临床环境中的适用性。

医学图像中的准确诊断和精确病理定位有助于定制治疗方法，从而改善患者疗效并降低诊断错误的可能性。通过精确定位异常的确切位置和程度，临床医生可以做出明智的决定，从而为患者提供更有针对性的治疗并改善预后。

在过去的十年中，有监督的深度学习方法加速了疾病定位的进步。然而，这些方法的有效性严重依赖于大量注释的训练数据集，这需要领域专家投入大量时间。具体而言，临床定位任务通常需要有经验的临床医生细致地注释大量精确的边界框或执行局部病理区域的逐像素描绘。这种注释过程成本很高，尤其是在资源受限的临床环境中，并且算法经常难以推广到不同的数据集。

人们提出了几种方法来减少对大型注释数据集的依赖。最初，这些方法通过从图像数据集中进行自监督学习来获取一般视觉表示，然后对较小的注释数据集进行微调。这种方法使模型能够在特定任务上实现高性能，同时降低数据标记的需求和成本。此外，基于显著性的方法已经被开发出来，通过允许在使用图像级注释训练的模型中对目标类别进行粗定位，来降低病理定位任务中的注释成本。然而，这些方法仍然需要针对特定下游任务的注释。在灵活和动态的临床环境中，这一要求尤其具有挑战性，特别是对于新出现的疾病（例如，COVID-19），部署的模型可能无法有效执行。

AFLoc用于病理定位的免注释流程概述（图源自Nature Biomedical Engineering ）

在这项研究中，研究人员提出了 AFLoc，一种基于对比学习的视觉语言模型，旨在减轻对昂贵的病理定位注释的需求。AFLoc可以利用医学图像自主进行病理定位和临床诊断。与传统的全局语义对齐策略不同，AFLoc引入了具有多级语义对齐组件的对比学习框架，促进了报告中的医学概念与图像特征的全面对齐。具体来说，图像编码器生成三个级别的特征：浅层局部特征、深层局部特征和全局特征，这些特征与文本编码器提取的单词级、句子级和报告级特征对齐。研究人员在三种类型的医学图像数据集上广泛验证了 AFLoc，包括胸部X射线（8个外部数据集）、组织病理学（3个外部数据集）和视网膜眼底图像。结果表明，AFLoc在跨不同模式的定位和临床诊断任务中优于最先进的方法。这项研究能够帮助解决临床环境中注释稀缺和模式多样性带来的挑战，同时为未来临床开放环境方法的设计提供见解。

原文链接：https://www.nature.com/articles/s41551-025-01574-7#Sec33

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->