Nat Biomed Eng:当大语言模型“看懂”超声,香港浸会大学研究团队首次实现视觉语言模型提供实时、精准的胎儿超声解读辅助
来源:iNature 2026-01-17 11:16
该研究研究提出了Sonomate,一种为实时胎儿超声视频理解而设计的视觉接地语言模型,旨在缩小这种技能差距。
徒手胎儿超声检查需要相当的临床技能。超声是一种高度依赖于操作者的方式,新获得资格的声谱仪操作者和专业声谱仪操作者之间存在显著的技能差距。
2026年1月15日,香港浸会大学Guo Xiaoqing团队在Nature Biomedical Engineering在线发表题为“A visually grounded language model for fetal ultrasound understanding”的研究论文。该研究研究提出了Sonomate,一种为实时胎儿超声视频理解而设计的视觉接地语言模型,旨在缩小这种技能差距。
该研究通过解决徒手超声的固有挑战,Sonomate在实时扫描过程中充当数字助理,提供交互式指导,如解剖检测、问题回答和即时反馈。Sonomate是第一个集成视频-文本对齐的医学成像语言模型,超越了以前主要关注静态图像或事后报告的工作。Sonomate的核心创新在于所提出的粗粒度和细粒度联合对准策略。

超声成像是一种重要的医学诊断技术,临床上用于可视化,例如,人体内的各种组织、血管、可疑病变和胎儿。超声非常适合作为基于成像的胎儿筛查和检查技术,因为相对于X射线和磁共振成像,超声具有一些有吸引力的特征:无辐射、非侵入性、便携性和相对较低的成本。尽管有其优点,徒手超声检查虽然被广泛采用,但需要高度的技能才能产生高质量的诊断图像。
一个新获得资格的声谱仪操作者可能需要几年时间才能发展成为一个技术高超的声谱仪操作者。特别是,新获得资格的声谱仪操作者和有经验的专业人员之间的区别不仅在于精通解释,还在于掌握复杂的扫描技巧。这种专业知识的障碍是全球高技能超声医师短缺的一个关键因素。

机理模式图(图源自Nature Biomedical Engineering)
在这里,研究人员提出Sonomate(超声医师的伴侣),这是一个在胎儿超声检查期间为用户提供的人工智能助手。Sonomate基于对齐来自转录音频的视频特征和文本特征,以促进超声波机器和用户之间的实时交互。该方法将粗粒度的视频-文本对齐与细粒度的图像-句子对齐相结合,以建立一个健壮的基于视觉的语言模型,能够理解胎儿超声视频。为了解决与真实世界视频-音频对中的异构语言和异步内容相关的挑战,在细粒度对齐中设计了解剖感知对齐和上下文标签校正。
Sonomate在胎儿超声图像的解剖结构检测中是有效的,而不需要对手动注释的数据进行再训练。此外,Sonomate在胎儿超声图像和视频的视觉问答中表现出良好的性能。这一进步为人工智能辅助技术用于支持超声检查训练和增强诊断能力铺平了道路。
参考信息:https://www.nature.com/articles/s41551-025-01578-3
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。