开发出火遍全球的新冠疫情地图的中国留学生,发表最新论文:利用AI大模型预测疫情
来源:生物世界 2025-06-25 09:48
该研究让大语言模型(LLM)化身疫情预报员,成功突破传统模型瓶颈,不仅能看懂政策文本、基因报告,还能提前 3 周预警疫情反扑,这项研究或将重塑公共卫生决策模式。
新冠大流行期间,一份实时更新的“全球新冠疫情数据可视化地图”火遍全球,该疫情地图通过结合自动化数据采集与人工审核机制,成为全球多个国家政府、媒体引用最广泛的疫情追踪系统之一,单日访问量一度高达 20 亿。
这一地图的开发者是约翰·霍普金斯大学的两位中国留学生——董恩盛、杜鸿儒。
近日,杜鸿儒作为第一作者,在 Nature 子刊 Nature Computational Science 上发表了题为:Advancing real-time infectious disease forecasting using large language models 的研究论文。
该研究开发了一款多模态大型语言模型——PandemicLLM,通过融合多模态信息(包括文本形式的公共卫生政策以及基因组监测、空间和流行病学时间序列数据),采用人工智能与人类协作的提示词设计,来实时预测疾病传播。研究团队将该模型应用于美国的 COVID-19 疫情,预测性能显著优于现有模型。
该研究让大语言模型(LLM)化身疫情预报员,成功突破传统模型瓶颈,不仅能看懂政策文本、基因报告,还能提前 3 周预警疫情反扑,这项研究或将重塑公共卫生决策模式。
传统模型的“致命短板”
论文开篇直指现有疫情预测模型的四大痛点:
1、数据盲区:传统模型只能处理数字(例如病例数),对政策文本、病毒基因特征等关键信息“视而不见”;
2、变种响应慢:当奥密克戎新亚型 BQ.1 出现时,传统模型需重新训练,错过黄金预警期;
3、结果难解读:复杂的置信区间让决策者难以快速判断风险等级;
4、转折点误判:三分之二的模型曾在疫情拐点预测中失误。
革命性突破:把疫情预测变成“文本推理题”
该团队开发的 PandemicLLM 框架,创造性地实现三大突破:
1、多模态数据“翻译官”,通过 AI-人类协作提示词,将四类异构数据转化为模型能理解的“语言”:
政策文本 → 提炼防控力度变化(例如“学校从强制关闭转为建议关闭”);
基因监测 → 解析病毒特性(例如“BQ.1 变种传播力比 BA.5 高 40%”);
时空数据 → 转化为排名描述(例如“加州老年人口比例全美前五”);
时间序列 → 用 GRU 神经网络编码关键趋势。
2、首创“五级趋势分类法”,摒弃易受数据干扰的数值预测,采用疾控中心认可的住院趋势五级分类:大幅下降、温和下降、稳定、温和上升、大幅上升,让决策者一眼可知风险等级。
3、“零样本”应对新变种,当 BQ.1 变种出现时,无需重新训练模型,只需在提示词中添加其特性描述:BQ.1 是奥密克戎亚型,对免疫逃逸能力增强,预计两周内成为主流毒株。模型立即响应,预测准确率提升 28.2%。
PandemicLLM 的疫情数据流和处理流程概述
人工智能与人类协作提示词设计概要
实战表现:全美大考
在覆盖全美 50 个州、长达 19 个月的测试中,PandemicLLM 的表现:
1、精度碾压传统模型
1 周预测准确率 56%(比最优传统模型高20%);
3 周预测准确率 46.4%(误差率降低22%);
模型规模越大表现越好:700 亿参数版本准确率达 57.1%。
2、置信度=可信度
当模型对“大幅上升”的判断置信度>85% 时,实际发生概率高达 73%(1周)和 64%(3周)。
3、地域适应性
在疫情趋势一致的西部沿海、五大湖区表现最佳,而在政策多变的怀俄明州等地区仍有优化空间,因此,团队建议开发区域定制模型。
总的来说,这项研究不仅破解了多模态数据融合的难题,更开创了 AI 辅助公共卫生决策的新范式——下次疫情来袭时,决策者或许不再面对冰冷数字,而是获得一份“风险趋势解读报告”。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
