我国学者开发AI全科医生：超越GPT-4、媲美专业医生，实现精准可靠的医疗诊断，还能生成高质量报告

来源：生物世界 2025-04-08 10:41

MetaGP 的出现，标志着医疗 AI 从单科冠军向全能选手的进化，它不仅可以作为医生的智能助手，更能成为医疗资源分配的均衡器。

人工智能（AI）在专业诊断方面取得了显著进展，但在复杂临床场景中仍面临挑战，例如罕见病诊断和急诊决策。

2025 年 4 月 4 日，澳门科技大学/温州医科大学张康教授联合温州医科大学金胜威教授、黄晓颖教授、瞿佳教授、解放军总医院段炼教授，在 Cell 子刊 Cell Reports Medicine 上发表了题为：MetaGP: A generative foundation model integrating electronic health records and multimodal imaging for addressing unmet clinical needs 的研究论文。

该研究开发了一个拥有 320 亿参数的医疗生成式基础模型——“元全科医生”（MetaGP），通过在超过 800 万份电子健康记录、540 万篇生物医学文献，以及 1.5 万本医学专著等大量数据集上的训练，MetaGP 展示了强大的诊断能力，其准确率可与经验丰富的临床医生相媲美。

在罕见病诊断中，MetaGP 平均诊断得分达到 1.57 分（满分为 2 分），超过了资深全科医生的 1.50 分以及 GPT-4 的 0.93 分。对于急诊诊断，它分别将初级医师和主治医师的诊断准确率提高了 53% 和 46%。此外，MetaGP 还具有出色的生成医学影像报告的能力，能够为胸部 X 光片和计算机断层扫描（CT）生成高质量的报告，其质量往往与医生撰写的报告相当，甚至更优。这些结果突显了 MetaGP 在各种医疗情境中变革临床决策的潜力。

人工智能（AI）的出现开启了医疗保健和医学的新纪元。近期取得的突破使 AI 工具能够成功解读各种类型的医疗数据，例如皮肤镜图像、视网膜图像、电子健康记录（EHR）、心电图以及肿瘤学试验数据。

虽然这些 AI 模型在其专门的任务上表现出色，但在涉及多个学科的诊断任务方面却常常力不从心。例如，专注于心脏病学的 AI 模型可能会忽略神经病学中的神经症状。

当前 AI 模型的这种“管中窥豹”，有可能导致漏诊或对患者整体健康需求的理解不全面。如果没有广阔的视野或知识基础，这些工具可能会损害对患者的全面护理。

此外，这些 AI 模型的开发需要整合大量结构化数据，而将医疗数据结构化的过程通常依赖于丰富的专业知识和定制化的数据处理程序。例如，在将 AI 应用于电子健康记录（EHR）之前，通常需要将异构的原始数据转换为结构良好的输入，这不仅费时费力，而且容易造成信息丢失。此外，随着所需数据量的增加，这种模式可能会限制构建更高级人工智能系统的可扩展性。

应对上述挑战需要一种基础人工智能模型（foundation AI model），它能将专业见解与全面的概览相结合，并且在训练时只需少量的人工结构化数据。

近年来，大语言模型（large language model，LLM）在包括医学在内的多个领域展现出了非凡的能力。这些模型，例如 GPT-4 和 BERT，在诸如医疗问答、报告生成和临床决策支持等任务中展现出了潜力。然而，这些模型中的许多主要是基于通用的互联网知识进行训练的，而这类知识往往缺乏高风险医疗应用所需的专门背景。

为弥补这一不足，近期的研究进展集中在诸如 PMC-LLaMA、BiomedGPT 和 GatorTronGPT 等特定领域的模型上，这些模型利用 PubMed 论文、电子健康记录和教科书等医学数据库来增强其领域知识。

这些模型在将大语言模型（LLM）应用于医学方面迈出了重要的一步，但在罕见病诊断、紧急状况识别以及多模态数据整合等领域仍存在挑战。

在这项最新研究中，研究团队推出了一种医学生成式基础模型——“元全科医生”（Meta General Practitioner，简称为MetaGP），参数量高达 320 亿。其训练数据包括来自不同医疗系统的 830 万份电子健康记录（EHR）、540 万篇生物医学文献，以及 1.5 万本医学专著等大量数据集，相当于熟读全球顶尖医院的 50 年诊疗记录，这确保了 MetaGP 对医学理论和实践有着广泛而深入的理解。

MetaGP 基于开源的通义千问 Qwen-1.5-32B 大模型框架构建，，兼具通用性和灵活性，所需计算资源显著减少。在预训练阶段，使用了 120 块 NVIDIA A100 图形处理单元（GPU），配备 80GB 显存（VRAM），历时四周，随后在每次迭代中使用 48 块 A100 GPU 进行微调，每次迭代耗时五天。

MetaGP 整合了罕见病专业知识库，覆盖了 413 种罕见病诊疗路径，还内置了 2000+ 种急诊鉴别诊疗流程，并通过医生反馈持续优化诊疗逻辑，实现动态学习。因此，其有可能在广泛的诊断场景中提供准确的决策支持，应对医疗领域的各种挑战。

作为概念验证，研究团队验证了 MetaGP 在应对两个未解决的临床挑战方面的能力：1）罕见病诊断；2）紧急状况识别。为了应对评估生成式医疗 AI 模型预测准确性的挑战，研究团队在医疗保健专家的帮助下实施了严格的评估方案，并进行了全面的测试。

评估结果显示，MetaGP 展示了强大的诊断能力，其准确率可与经验丰富的临床医生相媲美。

对于罕见病诊断中，MetaGP 平均诊断得分为 1.57 分（满分为2分），超过了资深全科医生的 1.50 分以及 GPT-4 的 0.93 分。例如，一名反复晕厥的 18 岁患者，传统 AI 模型给出了“心律失常”的诊断，而 MetaGP 通过分析心电图的细微异常，以及家族史和心肌酶谱，准确识别出其患有罕见的“致心律失常性右室心肌病”。

对于急诊诊断，MetaGP 分别将初级医师和主治医师的诊断准确率提高了 53% 和 46%，将危重症漏诊率降低 68%。

此外，MetaGP 在生成医学影像报告方面也表现出色，能够为胸部 X 光片和计算机断层扫描（CT）生成高质量的报告，其质量通常与医生撰写的报告相当，甚至更优。

该研究的亮点：

MetaGP 通过整合海量医疗数据，实现精准可靠的诊断；

MetaGP 在罕见病和紧急护理诊断方面表现出色；

MetaGP 提升了临床医生在关键医疗场景中的准确性；

MetaGP 可为影像数据生成可靠、准确的报告。

这些结果突显了 MetaGP 在各种医疗情境中变革临床决策的潜力。MetaGP 的出现，标志着医疗 AI 从单科冠军向全能选手的进化，它不仅可以作为医生的智能助手，更能成为医疗资源分配的均衡器。研究团队认为，MetaGP 不是为了取代医生，而是帮助放大人类医学智慧，未来，这种人机协作的诊疗模式，或将成为破解看病难、降低误诊率、实现医疗平权的新钥匙。

87%用户都在用生物谷APP 随时阅读、评论、分享交流请扫描二维码下载->