技术论坛

谷歌发布开源 AI 医疗模型 MedGemma 1.5

作者: 发布时间:2026年01月14日 15:32 浏览:

谷歌宣布推出新一代开源医疗 AI 模型 MedGemma 1.5,增强对医学影像的支持。同时发布的还有开源医疗语音转文本模型 MedASR。两款模型旨在提升临床工作流程效率,支持全球开发者和医疗机构免费使用,推动人工智能在医疗领域的应用与发展。

MedGemma 1.5:更强的医疗图像与文本理解能力

更广泛的医疗图像支持

  • MedGemma 1.5 扩展了对高维医学影像的支持,包括 CT、MRI 体积数据和整片组织病理图像;也提升了对胸部 X 光时间序列及解剖标注的理解能力。

  • 这是目前首个公开可用、支持三维体积数据与二维图像同时处理的多模态大型语言模型。

性能显著提升

内部基准显示,与前一代相比:

  • CT 相关病变分类准确率提高~3%;MRI 提升~14%。

  • 在病理图像等多个医学影像任务上表现更稳健。

  • 文本能力也更强,在医学问答(MedQA)和电子病历问答任务上分别提升了约 5% 和 22%。

支持开发更强大应用

  • MedGemma 1.5 提供了更好的 DICOM 支持,便于与临床影像系统无缝对接。

  • 模型保持开源,开发者可在 Hugging Face 与 Google Cloud Vertex AI 上使用与扩展。


MedASR:为医疗场景定制的语音识别模型

谷歌同时发布了 MedASR,一款针对医学口述语音特别训练的 自动语音识别(ASR)模型:

  • 相比通用语音识别模型(如 Whisper large-v3),MedASR 在医疗口述转写上的错误率大幅下降,在胸片报告语音转写上错误率减少约 58%。

  • MedASR 可用于实时医嘱记录、临床对话转写,甚至作为触发 MedGemma 推理的语音接口。

  • 与 MedGemma 配合,构建 “听 — 理解 — 写” 的医疗 AI 工作流更为自然。