斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

1030

斯坦福大学发布医疗AI模型评测，DeepSeek R1 以66%胜率和0.75宏观平均分夺冠，超越Google和OpenAI模型。评测采用MedHELM框架，包含35个基准测试，覆盖22个医疗任务子类别，并经执业医生验证。o3-mini 和 Claude3.7Sonnet 分别位列二三。评测采用大语言模型评审团评估，结果与医生评分高度一致。研究还分析了不同模型的成本效益，为医疗AI应用提供参考。

来源：AI怪

识别右侧二维码，进入阅读全文

海报生成中...

复制成功

斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

谷歌推出AI Edge Gallery应用，实现离线智能手机AI处理

DeepSeek可能使用了Google Gemini数据训练新 AI 模型

热门AI助手

热门文章

斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

​谷歌推出AI Edge Gallery应用，实现离线智能手机AI处理

DeepSeek可能使用了Google Gemini数据训练新 AI 模型

相关快讯

xAI 推出网页搜索API：Live Search

腾讯顶尖学生招募启动！高中生可直接参与大模型/具身智能前沿研究

英伟达开源 Qwen 2.5 驱动的代码推理模型，Qwen3 横扫多项榜单成中小企业首选

Meta 发布了两个新模型：感知语言模型+定位3D模型

热门AI助手

热门文章

AI助手标签

AI标签云

谷歌推出AI Edge Gallery应用，实现离线智能手机AI处理