《自然》：大语言模型构建的AI医生，比人类医生更出色

2023/8/31 15:23:58　阅读：152　发布者：

【导读】

7月13日，Google和DeepMind的科研人员在《自然》杂志上发表了一项研究，提出了MultiMed QA评估基准，用于评估大语言模型在编码临床知识方面的表现。

这个评估基准包括专业医疗、研究和消费者查询等六个方面，力图从多方面把AI培养成一名合格的医生。最终，研究人员发现大语言模型构建的AI医学在很多方面都强于人类医生。

来自Google的Shekoofeh Azizi及其团队建立了一个名为MultiMedQA的测试基准，专门用来评估大语言模型在临床知识方面随机应变的能力。

这个基准综合了六个现有医疗问答数据集，包括专业医疗、研究和消费者查询等多个方面。

此外，研究者还添加了一个全新的数据集Health Search QA，光这一个数据集就包含了3173个在线搜索医学问题。接着，研究人员就对大语言模型PaLM以及其变体Flan-PaLM进行了测试，测试的系统MultiMedQA整合了美国医师执照考试问题。

测试结果令研究人员很满意，在一些数据集中，Flan-PaLM的表现更是一骑绝尘。Flan-PaLM取得的分数比之前最先进的大语言模型还要高17%，在多选题方面表现尤为出色。

但美中不足的是，Flan-PaLM在回答“消费者医疗问题”方面的水平有待提高。于是研究人员采用了一种“设计指令微调”的方法，Med-PaLM也应运而生。

调试之后的Med-PaLM在专业领域中的发挥变得更加出色，在试行评估中的结果也更加突出。比如说在长篇回答方面，Flan-PaLM与医生评分的科学共识一致程度仅为61.9%，而Med-PaLM的回答评分高达92.6%，几乎与医生的回答一致（92.9%）。同样地，Flan-PaLM有29.7%的回答被评为可能导致有害结果，而Med-PaLM仅为5.8%，接近医生回答的水平（6.5%）。

尽管这些结果都在暗示“AI+医疗”未来大有可为，但研究人员还是认为，医疗类的大语言模型需要进一步的评估。

论文信息：

标题：Large language models encode clinical knowledge

出版信息：Nature，12 July 2023 2023

DOI：10.1038/s41586-023-06291-2

转自：“科研之友 ScholarMate”微信公众号

如有侵权，请联系本站删除！

上一篇： 聂双喜教授团队 Adv. Funct. Mater.：摩擦电探针新成果
下一篇： 推荐阅读丨陈彦婷：新时代高校“形势与政策”课程教学改革举措与效果

投稿问答最小化 关闭

《自然》：大语言模型构建的AI医生，比人类医生更出色

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

《自然》：大语言模型构建的AI医生，比人类医生更出色

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭