新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

　　来源：IT之家　　IT之家 12 月 25 日消息，由哈佛医学院和斯坦福大学组成的科研团队，在医学诊断领域深入评估 OpenAI 的 o1-preview 模型，发现其比人类医生更擅长诊断棘手的医疗案例。　　根据研究报告，o1-preview 正确诊断了 78.3% 的测试案例，在 70 个特定案例的对比测试中，准确率更是高达 88.6%，显著优于其前身 GPT-4 的 72.9%。　　使用医学推理质量评估标准量表 R-IDEA，o1-preview 在 80 个案例中取得了 78 个满分。相比之下，经验丰富的医生仅在 28 个案例中获得满分，住院医生则仅为 16 例。　　在 25 位专家设计的复杂案例中，o1-preview 得分高达 86%，是使用 GPT-4 的医生（41%）和使用传统工具的医生（34%）的两倍多。　　研究人员承认该测试存在局限性，部分测试案例可能包含在 o1-preview 的训练数据中，且测试主要集中于系统单独工作，并未充分考虑其与人类医生协同工作的场景；此外 o1-preview 建议的诊断测试成本高昂，在实际应用中存在局限性。　　IT之家附上参考地址 Superhuman performance of a large language model on the reasoning tasks of a physician OpenAI‘s o1-preview outperforms doctors in diagnosing tricky medical cases， study finds 　　广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

发表评论取消回复

15533人参与，42条评论

延壬戌
2024-12-25 23:26:53回复
个案例中取得了 78 个满分。相比之下，经验丰富的医生仅在 28 个案例中获得满分，住院医生则仅为 16 例。　　在 25 位专家设计的复杂案例中，o1-preview 得分高达 86%，是使用 GPT-4 的医生（41%）和使用传

枚丁酉
2024-12-25 19:38:42回复
存在局限性，部分测试案例可能包含在 o1-preview 的训练数据中，且测试主要集中于系统单独工作，并未充分考虑其与人类医生协同工作的场景；此外 o1-preview 建议的诊断测试成本高昂，在实际应用中存在局限性。　　IT之家附上参考地址Super