美国医学会儿科杂志:ChatGPT在诊断儿科病例时准确率较低
·三名研究者指出,ChatGPT明显还无法成为合格的诊断工具,但他们也提出,更多的选择性训练或许能够改善测试的结果。他们还认为,即便ChatGPT这样的大语言模型在临床诊断上的能力还有待观察,它们仍旧能成为医生得力的行政助手,在撰写研究报告和生成医学建议上为医生和患者提供帮助。
以ChatGPT(OpenAI研发的一款聊天机器人程序)为代表的大语言模型(Large Language Models,LLM)或许在未来的某一天能够取代医生为病人作出诊断。然而近期的一项研究发现,ChatGPT要成为一名合格的儿科医生可能还有很长的路要走。
2024年1月2日,美国纽约科恩儿童医学中心的Joseph Barile等人所组成的一支三人研究团队在《美国医学会儿科杂志》(JAMA Pediatrics)上发表了题为《一个大语言模型在诊断儿科病例时的准确性》(Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies)的研究报告。通过研究ChatGPT在诊断100个随机儿科病例中的表现,研究者们发现它的诊断正确率仅为17%,因此判断目前ChatGPT缺乏儿科诊断的能力。
儿科诊断的挑战在于,除了症状之外,医生还必须考虑患者的年龄。不同于成人患者,儿童患者的病史一般由家长或者其他看护者提供,因此询问时更加困难。儿童的陈述则容易因为害怕治疗或者表达能力欠缺等而误述,需要医生来辨别真伪。因此儿科诊断对医生的耐心、观察能力和专业能力都有着独特的高要求。
研究者们观察到,近期儿科医学界中的一些人将大语言模型视为很有前途的诊断工具并加以积极推广。以ChatGPT为代表的大语言模型是一种利用机器学习技术来理解人类语言的人工智能模型。使用大量语言数据(训练ChatGPT的数据超过了3000亿个单词)训练拥有大量参数(通常超过数十亿个)的人工智能模型之后,它们产生了联系上下文并预测对话的能力。
与专精某个具体领域的“小模型”不同,大语言模型展现出广泛的理解能力,能够与人类进行更加自然的对话。同时,由于大语言模型所使用的大量数据涉及到各种专业知识,它们在讨论专业话题时也展现出惊人的深度,常常能够提出合理的专业建议。
为了测试大语言模型在儿科领域的诊断能力,该研究随机收集了100个儿科病例,并要求ChatGPT来诊断它们。研究方式很简单,对于每个病例,他们首先将其中的文字描述黏贴给ChatGPT,随后在这些文字之后加上一条命令:“列出一项鉴别诊断以及一项最终诊断。”
鉴别诊断(differential diagnosis)是指利用患者的病史和生理检查来提出一个或数个初步诊断的方法,用来初步确定病因的范围。最终诊断(final diagnosis)则是指医生对病因的最终判断。ChatGPT所给出的回答被交给两名之前不曾参与该研究的医生进行评价。评价包含“正确”“不正确”以及“不完全正确”三种。
最终研究者们发现,ChatGPT的最终诊断仅获得17次“正确”。有11次诊断在临床上与正确诊断相关,但仍是错误的。三名研究者指出,ChatGPT明显还无法成为合格的诊断工具,但他们也提出更多的选择性训练或许能够改善测试的结果。他们还认为,即便ChatGPT这样的大语言模型在临床诊断上的能力还有待观察,它们仍旧能成为医生得力的行政助手,在撰写研究报告和生成医学建议上为医生和患者提供帮助。
之前有研究指出ChatGPT在急诊的鉴别诊断中表现出了很高的水平。Hidde ten Berg等人于2023年9月9日在《急诊医学年鉴》(Annals of Emergency Medicine)发表的论文指出,ChatGPT在急症鉴别诊断中的表现并不比人类医生差。
在这项研究中,研究人员将30名急诊病人的检查结果、症状以及医生笔记输入ChatGPT,要求它鉴别诊断并生成一份可能病因的列表。最终,ChatGPT的诊断列表与医生的列表有60%的重合。医生的鉴别诊断中包含正确最终诊断的案例占全部案例的87%,ChatGPT 4.0版本的表现与之相同,而ChatGPT 3.5版本的表现最好,准确率高达97%。
除了在鉴别诊断中有优异的表现之外,ChatGPT也被报道能够诊断罕见病。2023年9月12日,美国媒体报道了ChatGPT成功诊断一名7岁的“脊髓拴系综合征”(Tethered Cord Syndrome, TCS)患者的故事。
即便ChatGPT在医学诊断方面有巨大潜力,医学界普遍认为它还不是一项医疗工具。2023年5月16日,世界卫生组织(WHO)在一份声明中呼吁公众以及业界谨慎对待大语言模型在医疗方面的使用。“虽然正确使用包括大语言模型在内的新科技来支持医生、患者、研究者以及科学家是一件令人振奋的事,但是大语言模型还需要经过很多伦理与安全性方面的验证。”
WHO指出,大语言模型的意见会显得非常有说服力,但仍有可能是错的。如果发生严重的医疗事故,公众对这项有潜力的技术可能会失去信任。
参考资料:
1.ChatGPT and Generating a Differential Diagnosis Early in an Emergency Department Presentation
https://www.annemergmed.com/article/S0196-0644(23)00642-X/fulltext
2.Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies
https://jamanetwork.com/journals/jamapediatrics/article-abstract/2813283
3.Toddler whose symptoms puzzled 17 doctors for three YEARS is finally diagnosed with rare condition... by ChatGPT
https://www.dailymail.co.uk/health/article-12509111/ChatGPT-diagnosis-rare-condition.html
4.WHO calls for safe and ethical AI for health
https://www.who.int/news/item/16-05-2023-who-calls-for-safe-and-ethical-ai-for-health