斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
斯坦福最新大模型医疗任务全面评测,DeepSeek R1 以 66% 胜率拿下第一!
歪国网友纷纷被惊艳住了,原因在于该评测重点聚焦临床医生的日常工作场景,而非仅局限于传统医疗执照考试题。

要评测就要全 方 位。
团队构建了含 35 个基准测试的综合评估框架,覆盖 22 个子类别医疗任务。
整个评测的分类体系还经过了临床医生验证,由 29 名来自 14 个医学专科的执业医师共同参与开发。
光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心(CRFM)、微软的研究人员均在列。

31 页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet 等在内的 9 个前沿大模型,DeepSeek R1 以 66% 胜率、0.75 宏观平均分领先。
为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。

除 DeepSeek R1 领先外,o3-mini 紧随其后,以 64% 胜率及最高 0.77 宏观平均分紧追;Claude 3.5 和 3.7 Sonnet 则达到了 63%、64% 的胜率。
看了具体研究,网友表示这些评估很有帮助。

下面来看更多细节。
大模型临床医疗任务大考
此综合评估框架名为MedHELM,受到了之前斯坦福 HELM 项目标准化跨领域评估思路的启发。

研究核心贡献之一是构建了一个经过临床医生验证的分类体系。
该体系模拟了临床医生日常工作逻辑,包含三个层级:
类别:医疗活动的广泛领域(如 " 临床决策支持 ");
子类别:类别下的相关任务组(如 " 支持诊断决策 ");
任务:医疗服务中的离散操作(如 " 生成鉴别诊断 ")。
在初步拟定分类体系时,一名临床医生基于《美国医学会杂志》(JAMA)综述中梳理的任务,将这些任务重组为反映真实医疗活动的功能主题,形成了一个含 5 个类别、21 个子类别、98 项任务的框架。
然后团队对这个初始分类体系进行验证。
来自 14 个医学专科的 29 名执业临床医生参与问卷调研,从分类逻辑和覆盖全面性两方面评估体系合理性。
根据反馈,体系最终扩展为5 个类别、22 个子类别、121 项任务,全面覆盖临床决策支持、临床病例生成、患者沟通与教育、医学研究辅助、管理与工作流程等医疗实践的各个方面,且 26 位临床医生对子类别分类达成96.7% 的一致性。

核心贡献二,在分类体系基础上,团队构建了一个含 35 个基准测试的综合评估套件,包括:
17 个现有基准测试
5 个基于现有数据集重新构建的基准测试
13 个全新开发的基准测试
值得一提的是,13 个全新开发的基准测试中有 12 个基于真实的电子健康记录数据,有效弥补了现有评估中真实医疗数据使用不足的问题。
最终这整套基准测试,完全覆盖了分类体系中的所有 22 个子类别,同时根据数据的敏感性和访问限制,这些基准测试被划分为 14 个公开、7 个需要审批和 14 个私有的不同访问级别。

考试题准备就绪后,研究团队对 9 个前沿大语言模型进行了系统性评估。
评测结果如何?
评估显示,模型表现存在显著差异。
DeepSeek R1 表现最佳,在两两对比中以66% 的胜率领先,宏观平均分为 0.75,且胜率标准差较低(0.10)。
其中胜率指模型在全部 35 个基准测试的两两对比中表现更优的比例。胜率标准差(SD)衡量模型获胜的稳定性(值越低 = 稳定性越高)。宏观平均分是所有 35 个基准测试的平均性能得分。标准差(SD)反映模型在不同基准测试中的性能波动(值越低 = 跨基准一致性越高)。
o3-mini 紧随其后,在临床决策支持类别基准中表现较优,以 64% 的胜率和最高宏观平均分 0.77位居第二。
Claude 3.7 Sonnet、3.5 Sonnet 胜率分别为 64%、63%,宏观平均分均为 0.73;GPT-4o 胜率为 57%;Gemini 2.0 Flash 和 GPT-4o mini 胜率较低,分别为 42%、39%。
另外,开源模型 Llama 3.3 Instruct 胜率为 30%;Gemini 1.5 Pro 以 24% 的胜率排名末位,但其胜率标准差最低(0.08),显示出最稳定的竞争表现。

团队还以热图形式展示了每个模型在 35 个基准测试中的标准化得分,深绿色表示性能更高,深红色表示低性能。

结果显示,模型在以下基准测试中表现较差:
MedCalc-Bench(从患者病历中计算医学值)
EHRSQL(根据自然语言指令生成用于临床研究的 SQL 查询——原设计为代码生成数据集)
MIMIC-IV Billing Code(为临床病例分配 ICD-10 代码)
在 NoteExtract 基准测试(从临床病历中提取特定信息)中表现最佳。
更深入的分析显示,不同类别的任务中模型表现呈现明显的层次性差异。
在临床病例生成任务中,大多数模型达到了 0.74-0.85 的高分表现;在患者沟通教育任务中表现同样出色,得分在 0.76-0.89 之间;在医学研究辅助(0.65-0.75)和临床决策支持(0.61-0.76)类别中表现中等,而在管理与工作流程(0.53-0.63)类别中的得分普遍较低。
这种差异反映了自由文本生成任务(如临床病例生成、患者沟通)更适合发挥大语言模型的自然语言优势,而结构化推理任务则需要更强的领域特定知识整合和逻辑推理能力。

对于 13 个开放式基准测试,团队采用了大语言模型评审团(LLM-jury)评估方法。
为评估该方法的有效性,团队收集了临床医生对部分模型输出的独立评分。其中,从 ACI-Bench 中选取了 31 个实例,从 MEDIQA-QA 中选取了 25 个实例,以比较临床医生给出的分数与评审团的综合评分。

结果显示,LLM 陪审团方法与临床医生评分的一致性达到 0.47 的组内相关系数,不仅超过了临床医生之间的平均一致性(ICC=0.43),也明显优于传统的自动化评估指标如 ROUGE-L(0.36)和 BERTScore-F1(0.44)。
团队由此认为,大语言模型评审团比标准词汇指标更能反映临床医生的判断,证明了其作为临床医生评分替代方法的有效性。
成本效益分析是该研究的另一个创新,基于 2025 年 5 月 12 日的公开定价,团队结合基准测试运行和大语言模型评审团评估过程中消耗的输入总 token 数和最大输出 token 数,估算了每个模型所需的成本。

正如预期,非推理模型 GPT-4o mini(805 美元)和 Gemini 2.0 Flash(815 美元)成本更低,胜率分别为 0.39 和 0.42。
推理模型成本较高,DeepSeek R1(1806 美元)和 o3-mini(1722 美元)的胜率分别为 0.66 和 0.64。
综合来看,Claude 3.5 Sonnet(1571 美元)和 Claude 3.7 Sonnet(1537 美元)在性价比上表现良好,以较低成本实现了约 0.63 的胜率。

更多详情感兴趣的童鞋可查看原论文。
论文链接:https://arxiv.org/pdf/2505.23802
Blog 链接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications
排行榜链接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard
参考链接:https://x.com/iScienceLuvr/status/1929388406032810046
— 完 —
量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。
也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!