随着OpenAI、谷歌和Anthropic推出竞争性医疗工具,AI医疗诊断竞赛加剧

AI医疗诊断竞赛白热化?OpenAI、谷歌、Anthropic密集发布工具,但均未获FDA批准!92.3%的准确率背后,责任与监管的争议如何解决?

AI medical diagnostics race intensifies as OpenAI, Google, and Anthropic launch competing healthcare tools

三大AI巨头同步推出医疗AI工具,竞争格局初现

本月,OpenAI、谷歌和Anthropic在几天内相继宣布推出专门的医疗AI能力,这种密集发布态势暗示着竞争压力,而非巧合。尽管营销语言强调“医疗变革”,但所有发布的产品均未获得医疗设备认证、临床使用批准,也不能直接用于患者诊断

【关键动态】
* OpenAI于1月7日推出ChatGPT Health,允许美国用户通过与b.well、Apple Health、Function和MyFitnessPal的合作连接医疗记录。
* 谷歌于1月13日发布MedGemma 1.5,扩展其开源医疗AI模型,使其能够解读三维CT和MRI扫描以及全切片组织病理学图像。
* Anthropic于1月11日跟进,推出Claude for Healthcare,提供符合HIPAA标准的连接器,可接入CMS保险覆盖数据库、ICD-10编码系统和美国国家提供者标识符注册系统。

三家公司瞄准了相同的工作流程痛点——事前授权审查、理赔处理和临床文档记录,技术路径相似,但市场策略不同。

【架构相似,定位有别】
这些系统均采用基于医学文献和临床数据集微调的多模态大语言模型,都强调隐私保护和监管免责声明,并定位为辅助而非替代临床判断

差异体现在部署和访问模式上:
* OpenAI的ChatGPT Health面向消费者服务,对欧洲经济区、瑞士和英国以外的ChatGPT免费版、Plus和Pro用户开放候补名单。
* 谷歌的MedGemma 1.5通过其“健康AI开发者基础计划”作为开源模型发布,可通过Hugging Face下载或通过Google Cloud的Vertex AI部署。
* Anthropic的Claude for Healthcare通过Claude for Enterprise集成到现有企业工作流中,瞄准机构买家而非个人消费者

【监管与性能:谨慎前行】
在监管定位上,三家公司高度一致,均明确其工具不用于直接诊断或治疗

尽管性能基准测试结果均有显著提升,但测试表现与临床部署之间仍有巨大鸿沟。例如,谷歌报告MedGemma 1.5在斯坦福的MedAgentBench基准测试中准确率达92.3%,较前代提升显著。Anthropic的Claude Opus 4.5在启用Python代码执行的MedCalc医疗计算准确性测试中得分为61.3%,在MedAgentBench上达到92.3%。OpenAI未公布具体基准数据,但透露基于去标识化分析,全球每周有超过2.3亿人在ChatGPT上咨询健康相关问题

【核心挑战:监管模糊与责任悬空】
这些医疗AI工具的监管框架仍不明确。在美国,FDA的监管取决于“预期用途”。目前,所有已宣布的工具均未获得FDA批准。责任问题同样悬而未决,现有判例法对责任分配提供的指导有限。

全球监管方式差异显著,许多亚太地区监管机构尚未就生成式AI诊断工具发布具体指南。这种监管模糊性影响了在医疗基础设施缺口可能加速技术落地的市场的采用时间表,在临床需求与监管审慎之间形成了张力

【现实应用:聚焦低风险领域】
实际部署目前仍谨慎限定在特定范围。例如,诺和诺德使用Claude进行“制药开发中的文档和内容自动化”,专注于监管提交文件而非患者诊断。台湾地区“卫生福利部中央健康保险署”应用MedGemma从3万份病理报告中提取数据用于政策分析,而非治疗决策。

这种模式表明,机构采用正集中于错误即时危险性较低的行政工作流程(如计费、文档、方案起草),而非对患者结果影响最直接的临床决策支持领域。

【延伸思考】
1. 当AI医疗工具的推理能力已可通过每月20美元的订阅费获得时,医疗保健服务真正转型的最大障碍是什么?是技术本身,还是监管、责任与工作流整合的复杂性?
2. 在当前监管和责任框架尚未明确的情况下,医疗机构应如何制定AI工具的应用策略与风险管控措施,以平衡创新潜力与患者安全?

总结而言,医疗AI能力的发展速度已超过部署机构应对监管、责任和工作流整合复杂性的能力。技术已然存在,但它能否转化为真正的医疗保健服务变革,取决于这些协同公告中尚未解答的问题。

阅读 ArtificialIntelligence News 的原文,点击链接

Simon