投稿问答最小化  关闭

万维书刊APP下载

Nature Medicine:黄治等开发基于视觉和语言的医学AI大模型,训练数据来自社交媒体

2023/9/6 16:25:59  阅读:44 发布者:

人工智能(AI)最令人印象深刻的应用依赖于高质量的大数据。例如,ChatGPT等聊天机器人可以从大量文本中学习并模拟人类对话,自动驾驶汽车从大量驾驶中记录的传感器数据来学习驾驶。

人工智能还能执行一些高技术难度的工作,例如对医学图像的理解,但其中的一大挑战在于难以搜集高质量的数据集用于训练。

近日,斯坦福大学医学院 James Zou教授、黄治博士等人在国际顶尖医学期刊 Nature Medicine 上发表了题为:A visuallanguage foundation model for pathology image analysis using medical Twitter 的研究论文,该论文还被选为 Nature Medicine 9月刊封面论文。

研究团队利用来自推特(现在更名为X)的高质量、有注释的病理图像训练了一种基于视觉和语言的人工智能算法——PLIP,该算法通过学习超过20万张病理图像以及推特上的讨论,能够读取各种疾病(例如黑色素瘤、乳腺癌、寄生虫感染等)的图像,然后根据图像或文本检索相似的图像,从而为临床医师和医学生强大的参考工具。

论文通讯作者、斯坦福大学助理教授 James Zou 表示,该算法的主要应用是帮助人类病理学家寻找类似的病例作为参考。

值得一提的是,该论文于今年4月份在预印本平台bioRxiv上线,上线后改工作引起了广泛关注,仅仅几个月时间,模型下载量就超过了25000次。

这可能出乎很多人的意料,很多医学专业人士在社交媒体推特上分享了很多高质量的医学知识。实际上,推特平台已经成为病理学家分享有趣医学图像的热门且活跃的论坛。一个典型的与病理相关的推文可能包含一个隐去了身份信息的患者的医学图像、一个简短的描述和相关标签。

对于研究人员来说,这些医学图像和自然语言的配对(在这种情况下,是临床医师的书面评论)提供了一个宝贵的机会,让算法识别和链接这两种数据。

James Zou 希望训练出一个模型,能够理解视觉图像(病理图像)和文本描述(自然语言),从而这赋予病理图像以意义。

首先,研究团队必须建立一个相当大的训练数据集。为了区分真假,研究团队使用32个话题标签检索了2006-2022年的相关英文推文。他们删除了转发、敏感推文和非病理

。其中包括点赞最多(代表了质量)的评论,排除了那些带有问号的评论。

经过这些筛选过滤过程,再加上来自公共数据集的32000多张添加了注释的病例图像,研究团队得到了20多万张病理

-自然语言文本对,他们将这个数据集称为OpenPath,这也是人类注释病理图像的最大公共数据集之一。

接下来,研究团队使用OpenPath数据集来训练了一个AI模型——病理语言-图像预训练(PLIP)模型,该模型使用语言-图像对比学习技术,该技术识别图像和文本特征,然后将它们相互映射。该模型的强大之处在于无需告诉它具体要寻找什么特征,它会自我学习相关特征。

PLIP模型允许临床医生输入一个新的病理图像或文本描述,从而在数据集中检索类似的经过注释的图像,这就像一个专为病理学家定制的谷歌

搜索。PLIP模型还可以将新图像与所选择的疾病描述进行匹配,例如识别图像显示的是正常组织还是恶性肿瘤。

PLIP模型在新数据集上进行测试时,它轻松战胜现有模型。PLIP模型在对四个外部数据集进行新病理图像分类时表现出色,在零样本分类方面,使F1评分,相比于之前的模型的0.030-0.481分,PLIP模型达到了0.565-0.832分。在PLIP模型嵌入的基础上训练简单的监督分类器,与使用其他监督模型嵌入相比,F1得分还提高了2.5%

James Zou 表示,PLIP模型并不是要和人类病理学家竞争,而是来支持和辅助他们。或许一个病理学家正在研究一些不常见或模凌两可的东西,此时他们可以使用PLIP模型来检索相似的图像,然后参考这些病例来帮助他们做出诊断。

这项新研究的核心创新之处在于利用了来自社交媒体的高质量医学知识,而这还可以扩展到其他专业中,例如同样以来视觉检查的放射科和皮肤科。研究团队也正在不断地从推特等来源搜集新的病理数据,以进一步提高PLIP模型的能力。

这项研究表明,公开共享的医学信息是一个巨大的资源,可以利用它们来开发医疗人工智能,以加强诊断、知识共享和医学教育。

黄治博士

论文第一作者黄治博士,现为斯坦福大学 James Zou 教授和 Thomas Montine 教授实验室博士后。他于2015年从西安交通大学本科毕业,随后在2021年在美国普渡大学获得了电子信息工程的博士学位。在斯坦福的研究期间,他主要专注于运用人工智能(AI)为医学提供更为公平和智能化的解决方案。2022年,他与斯坦福导师共同开发的人工智能数字病理平台被入选斯坦福医学创新催化剂项目,并同时获得斯坦福大学投资。黄治博士曾作为第一作者在 Nature Medicine Nature Communications 等知名期刊上发表学术论文。

论文链接:

https://www.nature.com/articles/s41591-023-02504-3

转自:“生物世界”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com