#微软让AI诊断成本大降70%##微软AI问诊平均省500刀#
医疗AI大卷特卷,就在昨晚,微软也来凑热闹!
就在昨晚,微软放出全新的SDBench基准测试集和“微软AI诊断协调系统”MAI-DxO。
SDBench基准测试采用了《新英格兰医学杂志》(NEJM)的304份最棘手的开放式病例,重点考察AI的序贯诊断能力。
所谓序贯诊断,就像现实生活中的医生看病,不是总能一下就确诊的。比如,病人咳嗽发烧,医生可能需要先看验血报告和胸片才能确定是肺炎。
在SDBench测试中,AI或人类诊断者一开始只知道病人的基本情况。
如果想了解更多,他们需要主动提出问题或申请检查。这时,一个“守门人”模型就会提供被请求的信息,甚至能生成逼真的合成检查结果,避免不小心透露诊断线索。【图1】
值得一提的是,整个诊断过程中,系统还会实时显示每次检查的预估费用,检查项目越多,费用也越高。
微软的另一项成果MAI-DxO系统。它能协调多个AI模型一起工作,这个系统就像一个虚拟的医生专家组,里面有分工明确的“医生”:【图2】
- “假设医生”:负责列出所有可能的诊断结果。
- “检测选择医生”:挑选最有用的检查项目。
- “质疑医生”:扮演“反对派”,防止出现认知偏差(比如只看自己想看的,忽略其他可能性)。
- “成本管控医生”:全程监督医疗开支。
- “质控医生”:确保诊断质量。
实验结果显示,有了MAI-DxO系统,所有参与测试的AI模型的诊断表现都显著提升。
其中,MAI-DxO与OpenAI的o3模型结合时,在《新英格兰医学杂志》的病例中,诊断正确率高达85.5%。
而且经MAI-DxO系统协调后,在保持精度提升的同时,单病例成本从7850美元骤降近70%,达到2397美元。【图3】
与资深医师团2963美元的单病例平均成本相比,也是怒省500刀啊!
尽管研究成果喜人,但这项研究也存在一些局限性:
- 病例特殊:测试只用了医学期刊中罕见的复杂病例,并没有覆盖日常生活中常见的疾病。
- 成本估算:成本数据只是粗略估算。
- AI优势独特:AI之所以表现出色,是因为它能整合多位专科医生的角色功能,这种多角色协同是任何一个单独的医生都无法实现的。
话又说了回来,这么多医疗AI的进展,如果让他们玩起【图5】的猜病,会是个什么效果呢?
感兴趣的朋友可以可以查看
论文原文:
技术博客:-path-to-medical-superintelligence/



