肺动脉高压是一种复杂的疾病,有多种原因,对应着表型异质性和不同的治疗反应。推动对肺动脉高压发病机制的理解可能会依赖于整合方法,利用健康记录、影像学、新型分子组学分析以及其他模态的数据。在这篇综述中,我们总结了迄今为止在该领域产生的关键数据集,并描述了有望解析支撑肺血管重塑的分子机制的分析方法,包括机器学习、网络医学和功能基因学。我们还详细说明了遗传和亚表型分类方法如何实现更早的诊断、更精确的预后评估和更优化的治疗预测。我们提出了一些策略,通过跨多组学平台的发现,识别功能重要的分子通路,从而在这种高致病率疾病中为药物选择实现个体化,并推动精准医学的发展。
尽管缺乏一个统一的大数据定义,但在所有情况下,大数据都涉及广泛且集中的多样化信息,具有潜在的迭代修改能力,对健康和人类疾病有着巨大的影响。事实上,医学的分子时代部分地由经济多重检测的广泛可用性定义,这些检测提供了快速的吞吐量。这种进展反过来导致了在处理大数据方面出现了意想不到的障碍,包括存储能力、集合间不规则(和异质的)数据结构、识别数据不准确性的挑战,以及国际间数据共享之间的法律障碍(全球化)等等。此外,关于如何解读大数据以找出生物学和临床相关信息的最佳方法仍未完全实现。尽管存在这些挑战,但巨大的机会存在于利用大数据来澄清复杂的病理表型,最终推动精准医学的发展。在肺循环疾病的背景下,已经报道了在利用大数据方面取得的实质性进展,其中包括一系列严重的致病临床表型,通常缺乏明确的治疗机会。在这里,我们将回顾大数据在肺动脉高压(PH)领域的最新进展,特别强调从这些资源中提取关键信息的策略,以改进对肺动脉高压(PAH)发病机制、病理生物学和治疗发现的认识。
什么是肺动脉高压(PH)中的大数据?
基因组学
下一代测序,包括整个基因组和外显子编码区域,产生了医学研究中最丰富的输出之一。这些数据需要分析专业知识和高性能计算能力,以分析数百万个常见DNA变体和数不清的但通常是与患者个体相关的罕见遗传变异,这些变异直接影响了个体发生疾病的概率。多达20%的特发性PAH病例可以通过已知致病基因中的罕见致病性遗传变异来解释。其中五分之四位于骨形态发生蛋白受体II型BMPR2基因中。通过应用于数千名患者的下一代测序取得的显著进展,已经发现SOX17、ATP13A3、GDF2、AQP1、GGCX、KLK1和KDR等基因中的新型致病变异会促进PAH的发生。
对与PAH发展相关的常见变异的分析发现,在SOX17上游的增强子中存在变异,与主要组织相容性复合物分子HLA-DPB1的特定等位基因相关的变异也与铍诱导的肺部疾病有关。HLA-DPB1等位基因还与PAH发病年龄和长期存活结果相关联,这一发现反映出罕见的BMPR2变异与更严重、早期发病的PAH之间的关联。正如本系列中的功能基因学文章中详细介绍的那样,未来在PH基因研究中一个挑战是理解这些PAH基因的病理生物学,以开发新的治疗策略。这需要时间(BMPR2在2000年被发现为主要的PAH基因),但这种方法的重要性强调了与基因疾病关联支持的生物学作为药物靶向开发的成功率的提高。
表观基因组学
除了DNA序列外,DNA-染色质分子中可能存在多种化学修饰,这些修饰可能是遗传的,也可能通过环境干扰在组织和疾病特异性过程中进行动态调节。其中一个研究最深入和最清楚的是DNA甲基化,在CpG(5'-胞嘧啶-磷酸酸脂-鸟嘌呤-3')双核苷酸处发生,当它出现在启动子的CpG丰富区域(岛)时,通常与基因表达的抑制相关。最近观察到BMPR2变异携带者的情况,这与不完全外显有关,因为约20%的突变携带者才出现PAH表型。在一组5个家系中,观察到BMPR2启动子的高甲基化与PAH病人中相对未受影响的亲属的基因表达降低相关。研究还提出了在granulysin启动子上的甲基化可以区分PAH和肺静脉阻塞性疾病。尽管在PH临床样本中生成了少量大规模的表观基因组数据集,但存在大量的证据表明组蛋白修饰和非编码RNA的全局改变,值得进一步研究。
转录组学
来自PH患者全血样本的微阵列基因表达数据是最早生成的大数据集之一,通过基因表达杂质库等仓库的公开可用性,已经促进了更新和更全面的分析。这些数据包括最近的元分析,汇总了7个研究产生的1269个差异表达的独特基因转录本。尽管与系统性硬化(SSc)-PAH更强烈相关的是干扰素相关的信号,但也许更引人注目的发现是不同原因引起的PAH患者之间的相似性。另一项研究利用来自58例PAH和25例对照肺组织的基因表达微阵列数据,再次突出显示了干扰素信号以及开始剖析Wnt信号通路中潜在的性别特异性变化。多重复的高通量RNA测序的已经促进了大量样本的分析,并比较了359名PAH患者与72名健康对照者的全血概况,发现了507个稳定的与PAH相关的基因。其中25个基因被最小绝对收缩和选择操作驱动的逻辑回归模型选择,以构建一个能够以87%的准确率识别PAH病例的模型。该模型还与疾病严重程度和不良预后相关,展示了从PAH中提取的-组学数据集(具有大量变量的数据,例如代表每个样本的1000s个蛋白质或基因转录值的蛋白质组学或转录组学)的潜在临床效用。
在转录组学中的另一个令人兴奋的技术发展是单细胞RNA测序,它同时允许详细描述正在处理的个体细胞并在定义的细胞子集中识别不同表达的基因。这已经应用于实验性PH,从Sugen-5416+缺氧-PAH大鼠中获得的非经典单核细胞和从MCT-PAH大鼠中获得的传统树突状细胞均表现出NF-κB(核因子-κB)途径的激活。在3个人类特发性PAH(IPAH)肺外植体和6个对照肺中,对比转录组分析了肺动脉内皮细胞、肺动脉平滑肌细胞、肺外周细胞、外膜成纤维细胞和巨噬细胞群集,识别了多个感兴趣的基因。特别是SOX18,在功能上与SOX17不同,尽管SOX18本身尚未发现携带致病变异,但在内皮转录组中具有重要意义,这表明这个转录因子家族的更广泛功能紊乱可能与PAH相关。
蛋白质组学
可以通过无靶向(通常是液相色谱-质谱)或有靶向(抗体/寡核苷酸为基础)方法分析蛋白质组,生成关于单个样本中约103个靶标的表达模式的信息。在对来自对照组和PAH外植体的肺切除标本进行串联液相色谱-质谱分析时,强调了氯内质通道蛋白CLIC4(氯内质通道蛋白4)的升高水平以及关键的铁调节蛋白(如血红蛋白)的耗竭。使用SomaScan寡核苷酸平台测量了来自218名英国特发性/遗传性PAH患者的血浆样本中的>1100种蛋白质,发现了20种与生存强烈相关的蛋白质。九种蛋白质组合形成了一个高效的预测模型,能够独立于临床实践中使用的已建立的风险方程,预测预后。这种蛋白质模型在法国的患者中得到了验证,将他们分为低、中、高风险组,并且在德国的患者中显示随着临床结果的变化,个体患者评分的增加与较差的生存率相关。这些方法展示了蛋白质组学分析识别病理途径的潜力,以及为可能需要更激进(例如三联)或特定(例如抗炎)疗法的患者进行临床分层的潜力。
代谢组学
多年来,能量代谢在PAH中一直备受关注,尤其是在详细的机制研究中,展示了从有氧代谢到乳酸酸性表型的转变(例如Warburg效应),正如先前在选定的实体肿瘤恶性肿瘤中所观察到的。最近发现,丙氯酸盐,一种丙酮酸脱氢酶激酶抑制剂,可能对具有代谢失衡遗传易感性的患者具有有益的治疗效果。
代谢组学方法,使用核磁共振(MR)或液相色谱-质谱,扩展了我们对PAH病理学的了解。肺组织分析显示了代谢中间产物的异常氧化,8例PAH肺与8例对照相比,精氨酸减少,鞘磷酸-1-磷酸和血红素代谢物升高,而PH右心室(RV)组织的分析确定了脂肪酰肉碱水平和酯胺累积的改变,表明存在脂肪酸氧化缺陷。与22名健康对照组相比,11名正常肌酐的PAH患者的血液样本中的长链脂肪酰肉碱也升高。另外,单独的血浆代谢组学分析进一步详细说明了与RV功能障碍和肺血流动力学相关的循环代谢产物。这项研究分析了101名个体的105种代谢物,并确定了色氨酸代谢产物、三羧酸循环中间产物和嘌呤代谢产物与临床相关参数之间的新关联,例如运动时的RV射血分数和肺血管阻力(PVR)。
另一项分析在365名特发性/遗传性PAH患者、121名健康对照组和139名疾病对照组(即完全调查的转诊PH诊所症状患者)中测量了686种生物代谢产物。该研究确定了来自转移RNA、能量代谢中间体、多胺和色氨酸代谢产物的修饰核苷酸的循环水平增加,并且脂鞘磷酸鞘磷酸,类固醇和磷脂酰胆碱减少,两者都能够区分PAH患者与对照组(与混杂因素无关),并预测PAH患者的生存率。有趣的是,对钙通道阻滞剂有有利心肺血流动力学反应的患者的定义,与总体临床风险较低相关,其代谢剖面与对照组中的患者相似,而不同于其他PAH患者。这项研究最近扩展到慢性栓塞性PH患者,发现尽管慢性栓塞性PH和PAH的病因不同,但在这两种患者中,代谢紊乱非常相似,并且在根治性肺血栓内切除手术后,患者的代谢剖面显著改善。这项研究和Lewis等人的早期研究在不同的血管组分上进行了取样,从而对可能来源于肺部或心脏组织的代谢产物进行了一定的表征。这些研究说明代谢组学可能有助于监测治疗结果,并为PAH的组织特异性机制基础提供了洞察。
成像数据
高分辨率成像方法(如心脏MR)提供的详细信息使其非常适合机器学习(ML)方法。在心脏MR图像上手动定位6个解剖点后,可以创建PH患者心脏的参考图谱,从进一步的扫描中,可以自动化地生成每个患者的数据点,表示心脏从舒张末期到收缩末期的运动。然后使用监督主成分分析产生了一个三维运动分数,与标准心脏MR测量、血流动力学或运动能力相比,该分数在256名PH患者中提供了更好的预测能力。在此基础上,可以计算RV壁应力,它本身是有预测意义的,也与预测性代谢产物N2,N2-二甲基鸟苷酸的血浆水平相关。这些进展在PAH病理学与表型关系中发现了一个新的联系:在临床风险升高的情况下,RV几何结构的不适应性变化与代谢应激有关。鉴于最近将PH的定义从平均肺动脉压≥25改为>20 mm Hg(加上PVR≥3Woods单位),并且与超声心动图上的等效发现与死亡率有关,因此ML方法的应用范围扩大,有助于增强成像方法在PH筛查和诊断中的效用。
电子健康记录
电子健康记录可以提供大量、复杂性和随访数据。尽管各个医疗保健服务部署的系统差异构成了这个领域中的一个大规模数据协调挑战,但像美国退伍军人事务部或英国国家医疗服务体系这样的集中式服务为整合大量个体数据提供了一些早期的机会。Kiely等人采用了极端梯度提升人工智能(一种基于多个决策树组合的方法)方法,构建了一个模型,可以从多达5年的住院统计数据(国家卫生服务医院入院统计数据)中预测IPAH。在这项研究中,709例IPAH病例的数据在参加与5630例确认的非IPAH患者分开的专科PH服务之前被建模,这些患者在同一时期参加了PH服务,而N=2812458名没有参加PH服务的英国非IPAH患者的数据也被建模。基于多个变量,如访问急诊科、呼吸科、血液科或心脏病诊所的次数,人工智能模型被估计需要筛查500到1000名高风险患者,以识别100名PAH患者,作者指出这与SSc患者中发展PH的比例相似,这些患者进行了常规的PH临床筛查。将患者自动识别为需要更迅速转诊到专科服务的方法非常有吸引力,尤其是因为初始症状出现和最终PAH诊断之间存在显著的(约2.5年)延迟。
可穿戴设备和日常监测
另一个潜在的实时收集大量个体数据的来源是可穿戴设备的采用,这些设备可以捕获心血管健康指标,包括心率、节律、血压、葡萄糖和电解质。大多数设备目前尚未获得临床使用批准,明确的监管和隐私问题是需要考虑的重要障碍。尽管如此,人们对将-组学与深度表型学整合的潜在增值价值持有热情,包括PH中的植入式监测器。分析方法,如ML,与持续监测产生的密集数据的密度自然契合,可以潜在地提高基于自动生物信号检测的设备诊断的准确性和实用性。在这些方法中,进一步重要的考虑将是在数据的控制与专家护理提供者的可访问性之间取得平衡,因为涉及许多患者的大量数据对临床决策制定提出了实际挑战。
登记册和研究网络
与纯粹的临床登记(例如早期和长期PH管理登记[REVEAL]、新引入的肺动脉高压疗法比较登记[COMPERA]等)不同,研究网络已经形成以解决PH的深度表型优先事项。这些多中心网络包括共享的组织生物库,允许分子和临床数据的成对分析。国家组学中心的研究网络示例包括PH突破计划(www.ipahresearch.org/services.html)和PAH生物库(www.pahbiobank.org;美国)、特发性和遗传性PAH国家队列研究(www.ipahcohort.com;英国)和法国PAH网络。PH突破计划独特地从PAH移植受体中获取肺组织,而在其他生物库中,血样作为主要组织来源。国际PAH遗传学协会(www.pahicon.com)是来自10个国家的调查员国际联合体,专注于PAH遗传学。
我们上面强调的许多具有里程碑意义的基因组、转录组、蛋白质组和代谢组PAH研究都是这些研究网络的衍生产物。最近,由国家心脏、肺部和血液学研究所赞助的PVDOMICS(肺血管疾病-组学)计划是一项持续进行的多中心前瞻性研究(7所美国学术机构),旨在通过识别基于综合临床和分子特征的新表型,颠覆现有的PH临床分类。除了这个前瞻性的目标,PVDOMICS由于其高度规范化的数据收集、获取全面的生理和影像数据、包括1-5组所有形式的PH和具有PH风险因素的疾病比较组而与众不同。在所有这些前述的网络计划中,遵循“可发现性、可访问性、可互操作性和可重用性”(FAIR)指导原则将有助于确保数据具有可找到、可访问、可互操作和可重用的特点。为了减少数据生成中的误差,重要的是要考虑在尽可能少的批次中分析样本,每个批次包含代表性的样本子集(例如对照组/患者/性别/年龄范围)。国际组学合作还将取决于努力协调样本采集、样本处理和分子分析方案。
请继续查看:
【Circ Res】利用大数据推进肺动脉高压的治疗和理解(二)(三)(四)
参考文献:
Rhodes CJ, Sweatt AJ, Maron BA. Harnessing Big Data to Advance Treatment and Understanding of Pulmonary Hypertension. Circ Res. 2022 Apr 29;130(9):1423-1444. doi: 10.1161/CIRCRESAHA.121.319969. Epub 2022 Apr 28. PMID: 35482840; PMCID: PMC9070103.
转自:“肺动脉高压研究进展”微信公众号
如有侵权,请联系本站删除!