如何利用PH中的大数据集?
随着高通量技术的进步和PH大数据获取的改善,选择数据分析、可视化和解释方法将至关重要。与简单的基因型-表型关系不同,PH是一种复杂的疾病,包含各种遗传扰动、来自宿主暴露的表观遗传修饰、多种收敛的中间表型(分子/细胞内表型)以及显著的临床表型异质性。传统的还原主义研究方法,侧重于特定生物标志物/途径的研究,或将分析锚定在现有临床分类系统上,无法解开基因型、内表型和临床表型之间微妙的关系。采用ML、基于系统的网络分析和多组学整合的替代策略可以避免还原主义,并解决PH的复杂性。
机器学习
1. 机器学习概述
在更广泛的人工智能计算方法中,模拟人类认知过程,机器学习(ML)指的是用于在复杂数据中进行预测和推断模式的算法家族。机器学习在肺部、危重护理和心血管医学等多种研究应用中越来越常见。与传统统计学基于假设且验证性质不同,机器学习通常更具探索性和假设生成性质。传统统计分析(例如逻辑回归)不如机器学习算法适用于处理高维数据集(其中输入变量的数量超过观测/样本的数量),因为它们需要方法来调整多重测试,这可能产生假阴性并阻碍发现。机器学习算法适用于广泛的输入数据类型,包括连续或离散的临床数据、图像、示踪和多组学特征。几种机器学习方法可以同时考虑变量之间的线性和复杂非线性相互关系,因为它们对底层数据的假设较推论统计模型更少。定位于大数据发现,传统机器学习算法被细分为监督学习、无监督学习和强化学习方法。接下来的章节将总结这些方法,并突出在肺动脉高压领域的应用。
2. 监督式机器学习
监督式机器学习算法依赖于人为提供的基本事实,因为模型的训练(学习)需要所有样本都标记有已知的输出特征(例如,疾病与对照、结果等)。这个经过训练的模型可以应用于未见过标签的数据集,进行输出的预测。大多数算法都能够预测连续或分类特征(回归或分类)。常用的监督式算法包括支持向量机、基于树的模型(例如随机森林、分类和回归树)、朴素贝叶斯模型或树增强的贝叶斯模型、k最近邻算法和高级回归方法(例如最小绝对收缩和选择算子、偏最小二乘法等)。每种算法都具有固有的优缺点,超出了本评述的范围。算法选择通常根据研究目标、特定数据集和研究者的专业知识来定制。构建和解释监督式机器学习模型的研究人员必须了解偏差和方差误差之间微妙的权衡(欠拟合与过拟合)。算法在高维数据中容易过拟合噪声和异常值(维数诅咒)。为了在欠拟合和过拟合之间取得平衡,并训练一个在独立数据集中表现良好的模型,研究人员应该调整用户定义的算法输入参数(超参数)。这种调整可以通过迭代地测试各种超参数组合(例如网格搜索)或更复杂的方法(例如贝叶斯或进化优化)来完成。其他可能最小化欠拟合/过拟合的附加方法包括提升和集成学习。提升涉及到按顺序迭代地训练机器学习模型,每个添加的模型都从前面模型的预测误差中学习(例如梯度提升决策树或自适应提升算法)。在集成学习中,多个机器学习算法并行执行,形成一个具有改进性能的共识模型。
3. 无监督机器学习
无监督学习用于推断未标记数据集中的模式,这是一种不依赖于数据结构的先验知识的方法。无监督机器学习用于处理降维或聚类任务。降维方法(主成分分析、多维缩放、t-分布随机邻居嵌入)将数据转化为较低维度空间,以提供对高维数据的简化表示,允许结构检测,并促进图形可视化。聚类算法旨在将样本分为具有不同输入数据特征的子组。例如,如果有兴趣对某种疾病的新分子表型进行分类,但没有有关表型特征的初始指导,那么无监督聚类可以用于检测具有不同组学特征的患者群体。聚类方法通常旨在最大化簇内相似性和簇间不相似性。有许多聚类方法可供选择,包括分区算法(例如k均值、k中心点和带有噪声的基于密度的空间聚类)、基于连接性的算法(例如分层链接)、概率算法(例如高斯混合/期望最大化、贝叶斯方法)、自组织映射、谱聚类等等。选择聚类算法通常是项目和研究人员特定的。可以考虑使用启发式的数据驱动策略来帮助选择算法和优化内部簇有效性,例如在重新采样的数据子集上进行迭代聚类(例如共识聚类)或使用多个算法的并行实现进行集成聚类(例如COMMUNAL聚类)。需要仔细注意队列选择、数据质量控制和预处理,以减少无监督机器学习分区的簇反映混杂异质性的潜在来源的机会(例如合并症、药物、测量批次效应等等)。
4. 强化学习
强化学习涉及使用算法(例如马尔科夫决策过程和Q学习),通过试错来做出决策,以最大化某种累积奖励度量。强化学习算法是自主的,使用持续的反馈来动态自我调整决策。迄今为止,强化学习主要应用于机器人和游戏领域。虽然已经报道了一些生物医学研究应用,但在涉及人类生命的情况下,存在使用自主试错算法的伦理问题。尽管如此,在先前的一项关于规范化脓毒症护理的研究中,展示了强化学习的潜力,可以整合多方位的时间序列数据,并为顺序治疗干预提供信息。
5. 深度学习
深度学习(DL)是机器学习领域中迅速崭露头角的一个强大子领域,涉及使用人工神经网络来处理数据,模仿人类大脑的连接方式。人工神经网络由排列在互相连接的堆栈中的信息处理单元(神经元)组成。数据在网络层之间以非线性方式转换和映射,以聚合复杂的抽象特征表示(数据模式),这些特征表示捕获了学习任务中最具信息的数据组成部分。DL方法可用于支持有监督或无监督的学习目标。DL的数据流与传统的有监督、无监督和强化学习算法中的基于规则的决策过程有所不同。研究表明,在医学影像和基因组学等高维度和非结构化数据集中,DL方法表现出色。然而,DL有时被视为黑匣子(模型可能难以解释/解读),并且不太用户友好(需要设置几个超参数)。DL算法还需要大量的计算资源,并且在较小的训练数据集上容易过拟合。
6. 肺血压领域的有监督学习
有监督学习在肺血压研究领域的应用正在增加,有着各种机会可以运用有监督和无监督学习方法(图1)。到目前为止,有监督学习方法主要被应用于促进肺血压的诊断和早期检测,包括使用心脏影像、分子数据或电子健康记录数据。
图1. 肺血压(PH)中应用机器学习(ML)的概述。在人工智能(AI)的范畴下,ML描述了一系列用于对复杂数据集进行预测或推断模式的算法。有监督ML算法被训练用于预测已知的样本标签(例如,临床特征或结果),其中多种数据类型可以用作预测连续或分类特征(回归或分类)。无监督ML算法最常用于聚类,其中在未标记的数据集中无偏地推断出模式和结构。深度学习是ML中的一个新兴子领域,其中算法是基于模仿人脑连接的人工神经网络构建的,可以用于有监督或无监督的学习任务。本图总结了在PH中应用有监督和无监督ML方法的潜在高产应用。EHR表示电子健康记录。
在早期的心脏成像研究中,Leha等人使用27个心脏超声图特征对各种有监督ML算法(支持向量机、随机森林、增强决策树)进行了训练,以识别经过成对诊断性心脏导管检查的受试者中的已确认PH病例。更近期的基于ML的研究集中在心脏磁共振成像数据用于PH诊断。ML能够快速吸收大量的3D/4D心脏磁共振成像数据点,并提取出一些无法通过其他方式获取的代表性特征。利用复杂的深度学习方法,有研究提取了信息丰富的心脏磁共振成像特征,准确地区分了患有肺动脉高压(PAH)(AUROC为0.92)和因心力衰竭伴保留射血分数的PH患者(AUROC为0.96)。然而,在上述心脏成像研究中,ML模型性能的评估仅限于在训练数据集中进行基于重新采样的交叉验证,没有进行独立队列评估。
有监督ML还被用于检测PAH的循环分子标志物。例如,Errington等人使用一个集成ML策略(在随机森林、回归分割树、最小绝对收缩选择算子回归和增强决策树算法之间的共识预测)来揭示PAH的miRNA标志物。基于网络的通路分析确定了相应的miRNA基因靶点,在公共转录组数据集中准确地区分了PAH病例。在另一项研究中,Bauer等人针对在Systemic Sclerosis(SSc)中具有风险的PAH患者进行早期检测,分析了313种蛋白质,并建立了一个随机森林模型,根据8种蛋白质来区分PAH病例。这个模型在独立队列中表现出外部有效性(81.1%的准确率,77.3%的敏感性和86.5%的特异性)。
最后,研究人员使用有监督ML从电子健康记录数据中预测PAH。在患者级别资源利用数据上训练了梯度提升决策树算法,开发出了一个能够分类最有可能在以后发展为特发性PAH的个体的模型。这种方法可以促进基于人群的筛查。
有监督ML为PAH风险分层提供了一种吸引人的方法论解决方案。Kanwar等人报告了肺动脉高压结果风险评估模型的开发,这是一个使用树增强的朴素贝叶斯ML算法构建的工具。肺动脉高压结果风险评估在REVEAL队列中进行了训练,使用了REVEAL 2.0风险计算器中包括的相同预测因子。肺动脉高压结果风险评估在1年存活预测方面表现优于REVEAL 2.0(AUROC为0.80对0.76)。与传统的多维PAH风险预测工具不同,肺动脉高压结果风险评估输出了风险的绝对概率。这种在连续性上的准确评估可以帮助指导治疗决策,因为现有工具通常会误分类中等风险层次,而且许多该类患者在治疗后无法达到目标低风险状态。
有监督ML可能有助于识别指导PAH治疗选择的治疗反应预测因子。在一项最近的SSc相关PAH临床试验中,Zamanian等人对探索性分子数据(细胞因子、趋化因子、粘附和生长因子、免疫球蛋白亚类、自身抗体和B细胞亚群)进行了基于ML的分析。在训练集交叉验证中,有监督ML算法(随机森林、梯度提升决策树和支持向量机)被并行训练,以识别与利妥昔单抗临床反应相关的基线分子标志物。这个算法集合识别出了一个反应者标志(类风湿因子、IL-12和IL-17的低水平),在训练集交叉验证中的AUROC为0.95。拥有反应者标志的利妥昔单抗组患者在6分钟步行距离改善方面超过安慰剂组(持有该标志的安慰剂患者)。尽管需要进行前瞻性验证,但这项工作突显了ML如何为精准医学铺平道路。通过对临床试验数据的二次分析发现药物反应配置文件可以用来丰富预测的反应者,并从而提高研究能力。在像PAH这样的罕见疾病中,将基于ML的药物反应预测扩展到主要方案试验可能是可以考虑的。主要方案试验在肿瘤学中已经实施,可以同时研究多种疾病/亚型中的单一治疗方法(篮子型)或在单一疾病中研究多种治疗方法(伞型)。主要方案试验子研究有效地共享相同的安慰剂组。在一个假设的伞型方案中,建立的ML模型可以预测每个药物的反应,并将患者分配到在这个子研究中获益概率最大的位置。有监督ML还可以增强自适应试验设计,其中在研究间隔中对积累的数据进行重新分析以指导协议的更改(例如,重新配置包含标准、分配方式或治疗方案的标准)。理论上,ML可以实现实时检测无效性和安全信号。这些非常规的试验设计可能会提高研究效率,限制资源利用,并减少参与者的风险暴露。
最后,有监督ML可以增强PH流行病学研究的能力。由于PH病例在以诊断代码为基础的数据库中经常被错误标记,所以人群级别的研究往往难以开展。在一项关于电子健康记录-Medicare索赔数据的研究中,Ong等人比较了两种确定PH病例的方法:传统决策规则(已发表的人为指导方法)与有监督ML算法(随机森林、梯度提升决策树和最小绝对收缩选择算子回归)。输入到模型中的索赔数据包括诊断、药物和程序代码。所有三种有监督ML算法比传统的决策规则方法更准确地分类了PH病例。这项研究为通过在大型电子健康记录数据库中实现高保真度的队列确认来加速流行病学PH研究提供了证据。
7. 肺血压领域的无监督学习
在PH研究中一直被较少使用。然而,Sweatt等人提供了一个概念验证研究,显示无监督学习可以发现新的PAH分子表型。他们测量了一个针对48种细胞因子、趋化因子和生长因子的靶向面板,因为炎症是PAH发病机制的一个公认特征,并且有多种免疫调节治疗正在研究中。作者使用一种共识聚类方法,根据患者的血液免疫特征对其进行分类,而无需首先从临床特征获得指导,他们发现了4种具有不同炎症特征的PAH免疫表型。这些免疫表型独立于人口特征、共病、背景治疗以及由潜在原因定义的PAH临床亚型。尽管不是为了预测,但这种亚表型策略将不同临床疾病严重程度和长期预后分层为不同的组。他们的ML分析的并行实施在一个独立队列中验证了这些免疫表型。类似但更大规模的无监督学习工作可能会使疾病分类方案更贴近病理生物学,并识别出可治疗的亚型。
8. 机器学习研究人员的自由度
随着机器学习在我们领域的应用,认真的人类监督将至关重要。为了利用机器学习的优势并最大化产量,PH 研究人员必须了解常见的陷阱以及如何避免它们。
9. 网络医学
前面讨论的基于组学的方法已被有效用于识别与PAH相关的遗传风险标记,并对高风险患者进行预测,以及分析不同疾病相关细胞类型和其他患者来源生物样本的代谢、转录组和蛋白质组模式。这些检测结果的还原主义格式强调了个体基因突变以及mRNA、蛋白质或代谢物表达的定量差异。反过来,网络医学是用于从稳健数据集中解读功能相关的生物通路或表型模式的有用方法。在分子研究中,这种方法使用了来自转录因子调控元件结合伙伴、酵母双杂交高通量数据集的二进制相互作用、激酶底物对以及其他类似数据集的功能生物相互作用的集中信息。在临床研究中,相关网络已被用于描绘精炼患者亚组的生理参数。新兴的综合方法将生物网络与临床特征连接起来,被称为reticulotypes,在有PH风险的患者中也有描述(图2)。
图2. 通过网络破坏肺动脉高压(PAH)中的传统风险分层。传统的风险分层策略依赖于线性回归方法,包括(A)单变量和(B)多变量分析,这些方法根据单个参数与结果之间的关联来估计临床风险。C,然而,这种方法不会根据变量之间的功能关系来确定临床表型,并且还与由改变回归斜率的极端数据点引发的风险高估和低估有关。D,表型网络提供了一种识别患者亚组的替代方法,该方法依赖于临床参数之间的功能关联作为簇识别的起点。E,通过关注一组在功能上重要的临床参数来对患者进行分组,欧几里德方法可用于将患者与先前已确定结果的类似患者在临床点匹配。该方法已被用于预测接受侵入性心肺运动测试的肺动脉高压风险队列。N表示患者数量;V表示变量。
参考文献:
Rhodes CJ, Sweatt AJ, Maron BA. Harnessing Big Data to Advance Treatment and Understanding of Pulmonary Hypertension. Circ Res. 2022 Apr 29;130(9):1423-1444. doi: 10.1161/CIRCRESAHA.121.319969. Epub 2022 Apr 28. PMID: 35482840; PMCID: PMC9070103.
转自:“肺动脉高压研究进展”微信公众号
如有侵权,请联系本站删除!