投稿问答最小化  关闭

万维书刊APP下载

Nature|医疗资源紧缺无解?AI大语言模型NYUTron助力医生做决策

2023/7/3 17:57:18  阅读:34 发布者:

以下文章来源于北京生物结构前沿研究中心 ,作者刘安吉

“看病难”、“医生忙”已经成为了整个医疗行业,乃至整个社会的共识。医院总是排起长队,主任医师一号难求,病人及家属面临“看病难”问题的同时,医生们也面临着工作压力大,工作时间长的问题。虽然我国有着很多优秀的医院和医术高超的医护人员,但由于人口基数大、医疗资源分布相对密集,我国的医疗资源还是相对紧缺。这就使得医生的职责在比任何时候都更加重要的同时,也具有相当的挑战性。每天,医生都要做许多医疗决策,尤其是在先前的全球新冠疫情下,医生更是面临着前所未有的压力。高质量的医疗决策能够帮助医生更好地管理患者的病情,从而增加患者生存的机会,并且帮助医疗资源的分配变得更有效率。

那么,如何做出高质量的医疗决策呢?这就需要医生依赖科学数据和实践经验,仔细权衡所有可能的治疗方式,最终选择最为有效的一种。而这些数据不仅要来自于药品和手术治疗的研究,也来自于新技术,如人工智能和机器学习的应用。这些技术可以帮助医生更加准确地预测患者的病情和疗效,以及在手术和药品治疗中做出更好的决策。因此,科学技术的发展是医疗行业日益重要的组成部分。

202367日,纽约大学朗格尼医学中心(NYU Langone Health)联合纽约大学数据科学中心和纽约大学电子与计算机工程系的研究团队在Nature杂志上发表了题为《Health system-scale language models are all-purpose prediction engines》的文章。他们在文章中开发了一个名为NYUTronAI大语言模型,可以帮助医疗系统进行决策1。先前用于该任务的AI模型大多需要先把所有的病历和检测信息集合在一起,根据不同的特征,比如血压、心跳、身高、体重等,把特征进行聚合,形成结构化的信息之后,才能使用。然而,这个构建结构化信息的过程耗时又耗力,并且用这些苦苦构建的结构化信息训练得到的AI模型也都没有取得很好的效果2,3。因此,不管之前提出的方法有多新颖,到现在为止,也没有一个方法得到很好的应用4

近年来,人工智能发展势头迅猛,而在人工智能领域,发展势头最迅猛的,是大语言模型(Large Language Model5。相信使用过大语言模型的人,都能很直观的感受到他的强大:不管什么问题,它都能给出对应的回答,而且它给出的回答不仅逻辑通顺,有时甚至还能给我们一些惊喜和灵感。而且更重要的是,我们不需要学会编程才能和计算机对话,现在,有了大语言模型,我们可以用我们的自然语言,和计算机进行简单直接的交流。这一点,也给了这篇文章的研究人员们启发:如果将大语言模型应用于病情决策,可能就不需要使用之前的结构化的信息了。毕竟,大语言模型自己有理解自然信息的能力,它是可以读懂那些杂乱的信息,并给出一个合理的答案。

基于此,研究团队就产生了如下想法:他们使用强大的大语言模型,把病人没整理过的病历、诊断报告等各种原始材料都输入到大语言模型中,测试他们训练得到的大语言模型(NYUTron)能不能给医疗系统从业者提供足够可靠的决策支持。

于是,研究团队在纽约市朗格尼医学中心系统下的四个医院收集了从20111月到20205月的725万份临床报告,涵盖了38万余人,形成了包含41亿个字的语料库。同时,他们还针对特定的下游任务,收集了住院时间在1-10年内的病人的临床报告(55791-413845个病人),构建了一个微调数据集(如图1a所示)。

随后,研究团队分别用BERTBidirectional Encoder Representation with Transformer)和MLM(Masked Language Model)对语言模型进行预训练和微调(图1bc)。在语言模型训练好后,研究人员将模型应用于实际场景,根据拿到的电子报告,对可能产生危险的病人的主治医师进行邮件报警(图1d)。

设计并训练得到模型后,研究人员接着验证了该模型在不同任务上的表现。他们选择了三个临床决策方面的问题和两个医院运行方面的问题,对训练好的语言模型进行验证。

他们在五个任务上取得了相较于原有方法更准确的结果。下图显示了NYUTron在两个医院运行方面的任务上的表现。测试结果表明,NYUTron有能力对多个临床方面或医院运行方面的任务进行相对准确的预测。

以上数据给出了对NYUTron的预测效果的客观描画,但是对于医院这个特殊系统,还是需要把NYUTron的预测结果与医生的诊断结果进行验证。研究团队选择了六个经验水平各不相同的医生,作为NYUTron的对照组,针对出院病人30天内是否会重新住院这个预测任务,进行了比较。比较的结果如下图所示。

在不同数据上训练的模型的准确度随着样本数的变化趋势(右)

结果显示,NYUTron在出院病人30天内再次入院这个任务的预测准确率甚至比六名医生的中位预测水平还要高。另外,在同一任务上,NYUTron也与其他现有模型进行了比较,也取得了目前最准确的预测结果。

随后,为了验证NYUTron具有投入真实应用的能力,研究团队又开展了一次为期三个月的NYUTron试运行测试:从20221月到4月,NYUTron根据患者的临床报告,对出院病人一个月后再次住院进行了实时预测,结果在所有再次住院的出院病人中,NYUTron预测到了其中的82.30%2692/3271),并且AUC78.70%

鉴于医疗体系的特殊性,每一个冷冰冰的数字背后,都是一个个鲜活的生命。为了探究NYUTron是否真的对出院决策有帮助,六个临床医生讨论并且指出,NYUTron的一些预测在临床上有很大的意义,可以防止一些不该出院的病人出院。这不仅可以提高病人的存活率,还能有效的防止有限的医疗资源的浪费。总体来说,被NYUTron预测为出院后会重新入院的病人比其他病人的死亡率高6倍,并且他们住院时间应该长2.93天。并且在NYUTron预测的会重新入院的病例中,医生们讨论认为,其中的50%都是可以避免的。

总体来说,这篇文章实现了辅助医生进行决策的方法。本文提出的AI大语言模型NYUTron,能够帮助医生进行快速决策,成为医生的诊治好帮手。然而,NYUTron也存在着几点缺陷。第一,需要有很高质量的临床报告。和其他现有的方法比起来,本文提出的模型在方法上创新有限,但是因为结合了医院的全面数据,所以取得了很好的结果。然而,如果临床报告不完整或者充满了错误,模型的预测准确度就会下降很多。如果想开发适配中国医疗体系的模型,可能需要在这方面多下功夫。第二,模型的可解释性不强,大语言模型就如同一个“黑箱”,虽然得到了很好的结果,但是不知道“黑箱”里发生了什么。然而医学是需要高可解释性的学科,模型的不可解释性可能会导致出现误判,对于一个生命来说,代价是巨大的。这也就提醒了我们,如果医护人员对这类模型产生了依赖性,可能会有不可预料的后果。

原文链接

https://www.nature.com/articles/s41586-023-06160-y

转自:“水木未来资讯”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com