斯坦福最新评测:DeepSeek R1医疗AI模型超越Google和OpenAI,赢得高分

斯坦福大学发布医疗AI模型评测,DeepSeek R1 以66%胜率和0.75宏观平均分夺冠,超越Google和OpenAI模型。评测采用MedHELM框架,包含35个基准测试,覆盖22个医疗任务子类别,并经执业医生验证。o3-mini 和 Claude3.7Sonnet 分别位列二三。评测采用大语言模型评审团评估,结果与医生评分高度一致。研究还分析了不同模型的成本效益,为医疗AI应用提供参考。

来源:AI怪

关注每日AI行业最新资讯,请前往AI快讯首页