GPT-4 对话式人工智能 (AI) 能够诊断和分类健康状况,与经过委员会认证的医生所提供的诊断和分类能力相当,并且其性能不会因患者种族和民族而异。
虽然 GPT-4 是一种对话式人工智能,可以从互联网上的信息中“学习”,但这种形式的人工智能用于诊断和分类的准确性,以及人工智能的建议是否包括可能从该信息中收集到的种族和民族偏见,尚未得到调查尽管近年来该技术在医疗保健领域的使用有所增加。
研究人员比较了 GPT-4 和三位获得委员会认证的医生如何使用 45 个典型的临床案例来诊断和分类健康状况,以确定每个人如何提供最可能的诊断,并确定哪个分类级别 - 紧急、非紧急或自我护理——最合适了。
这项研究有一些局限性。虽然基于真实案例,但临床插图仅提供用于诊断的摘要信息,这可能无法反映通常为患者提供更详细信息的临床实践。此外,GPT-4 的响应可能取决于查询的措辞方式,并且 GPT-4 可能从本研究使用的临床小插图中学到了知识。此外,这些发现可能不适用于其他对话式人工智能系统。
卫生系统可以利用这些发现引入对话式人工智能,以有效改善患者诊断和分诊。
“我们的研究结果应该让患者放心,因为它们表明像 GPT-4 这样的大型语言模型有望在不引入种族和民族偏见的情况下提供准确的医疗诊断,”资深作者、日本医学副教授 Yusuke Tsukawa 博士说。加州大学洛杉矶分校大卫格芬医学院 普通内科和健康服务研究部门。
“然而,对我们来说,持续监控这些模型的性能和潜在偏差也很重要,因为它们可能会随着时间的推移而变化,具体取决于提供给它们的信息。”