投稿问答最小化  关闭

万维书刊APP下载

孟德尔随机化模型的局限性及解决方法

2023/9/7 15:44:04  阅读:253 发布者:

应用满足核心假设的工具变量是 MR 模型得到有效估计的必要条件,然而,由 GWAS 中获取的绝大部分与暴露具有显著关联的遗传变异,并未完全掌握其关联的生物学机制,应用这些生物学机制尚不明确的遗传变异作为工具变量增加了其违背核心假设的可能。除工具变量核心假设外,不同类型的 MR 方法还有一些特定的前提假设,当假设违背时,将会得到有偏的、不一致的估计量。以下介绍 MR 模型在实际应用过程中面临的局限性问题,以及如何克服这些局限性,从而得到有效的估计量。

1.弱工具变量问题

应用强度高的工具变量可以有效提高 MR 模型估计因果效应的精度及效能,而当遗传变异与暴露关联性较弱时,会导致 MR 模型的估计量产生偏倚,称之为弱工具变量偏倚。当构建单样本 MR 模型时,估计量将会向受到混杂影响的观察性研究估计量的方向偏倚,且会

造成Ⅰ型错误率( 假阳性率) 膨胀,当构建两样本 MR 模型且两个样本无明显重叠时,估计量将会向效应为零的方向偏倚。

MR 模型中,常用 Cragg-Donald F 统计量来评价工具变量的强度,弱工具变量所导致的偏倚大小和该统计量的期望值是相对应的。一个经验法则是工具变量强度 F 统计量至少为 10,当 F 小于 10 时,因果效应的估计量会出现严重的偏倚。另外,F 统计量与“工具变量—暴露”的关联显著性 P 值是对应的,该 P 值通常作为工具变量的筛选阈值。为了保证模型中工具变量具有足够的强度,现有 MR 模型通常将全基因组显著性水平( P 5 ×10 -8) 作为阈值筛选工具变量,从而避免潜在的弱工具变量偏倚。另外,当 MR 模型中工具变量的平均强度较弱时,还可以应用一些改进的 MR 模型,如基于修正权重的 IVWEgger-SIMEX 等模型来校正潜在的弱工具变量偏倚。

2.多效性问题

多效性是指遗传变异通过多种不同的路径对某一性状产生影响。当利用多效性遗传变异作为工具变量时,相当于构造了“工具变量—暴露—结局”路径之外的其他通路,从而使得工具变量因违背核心假设而失效。应用存在多效性的工具变量会导致所研究的因果通路的效应估计产生偏倚,Ⅰ型错误率增加。遗传变异的多效性效应是普遍存在的,而其对于 MR 模型的影响又是不可忽略的,因此如何排除多效性效应对于估计的影响是 MR 模型在实际应用中不可忽视的问题针对 MR 模型的多效性偏倚问题,目前的校正方法主要分为两类: 第一类方法首先识别并排除存在多效性的工具变量,再利用剩余无多效性的工具变量构建 MR模型进行因果效应估计。可借鉴识别离群点的思想来识别多效性工具变量,其基本思想是: 基于有效工具变量得到的比例估计值应是同质的,比例估计值之间的差异应是随机的。此时多个比例估计值应基本分布在一条直线附近,而这条直线的斜率所代表的就是暴露与结局之间真实的因果效应值。反之,当某一工具变量对应的比例估计值与其他比例估计值之间存在显著的异质性时,则提示该工具变量违背核心假设。比例估计值之间的异质性主要来源于多效性工具变量,由于多效性效应被掺入因果效应通路中,导致对应的比例估计值产生偏倚,从而与其他工具变量所对应的比例估计值相比体现出显著的异质性。

实际研究中,可以通过散点图、漏斗图等可视化方法结合统计检验方法识别多效性工具变量。常用的检验方法包含 Q 统计量检验、MR-PESSO 异质性检验( mendelian randomization pleiotropy residual sum and outlier)HEIDI 检验( heterogeneity in dependent instrument)等。识别并剔除多效性工具变量后,可采用全局 Q 统计量检验、全局 PESSO 检验、MR-Egger

截距项检验等方法来评价剩余工具变量的多效性。若剩余工具变量所对应的比例估计值已不存在异质性,则提示无多效性工具变量,接下来则可应用基于无多效性工具变量假设构造的 MR 模型进行效应估计。

另一类方法为直接采用基于校正多效性偏倚的MR 模型进行因果效应估计,这类模型允许工具变量存在多效性,在此情况下校正工具变量的多效性效应,同时估计暴露对结局的因果效应。基于校正多效性偏倚的 MR 模型中,基于个体数据的方法包含 sisVIVE( some invalid some valid instrumental variable estimator)TSHT ( two-stage hard thresholding )PMR

( pleiotropy-robust mendelian randomization); 基于汇总数据的方法包含 MR-Egger、基于中位数的估计( median-based estimate)、基于众数的估计( modebased estimate)CAUSE( causal analysis using summary effect estimates)模型等。

3.连锁不平衡问题

连锁不平衡( linkage disequilibriumLD) 描述的是遗传变异之间的相关性,这种相关性通常是由遗传变异之间物理位置的临近所导致的。遗传变异之间存在LD 时,每个遗传变异提供的信息不独立,当利用这些不相互独立的遗传变异作为工具变量时,则会导致效应估计产生偏倚。因此在构建 MR 模型时应尽量选择相互独立的遗传变异作为工具变量,而当工具变量间存在 LD 时,可应用纳入工具变量相关性信息的模型,如 GSMR( generalized summary data-based MR),从而避免连锁不平衡问题对于模型的影响。

4.人群分层问题

人群分层是指遗传变异与表型性状的关联性在不同种族或者国家的子群体中的异质性。这种异质性会导致遗传变异作为工具变量无法实现对于混杂因素的随机化过程,从而产生有偏的效应估计。为了避免人群分层问题,在构建 MR 模型时通常选择同种族人群作为研究对象; 在统计分析上,可以针对潜在的异质性因素进行分层分析,或利用主成分分析方法进行校正,从而排除由于人群分层问题导致的虚假关联出现。

5.统计效能问题

MR 模型估计因果效应的统计效能与纳入模型中的工具变量所解释的暴露变异比例相关,在样本含量一定时,工具变量对暴露变异的解释比例越高,模型的统计效能越高。因此,构建 MR 模型时要保证工具变量对于暴露变异的总体解释比例在一个较高的水平,从而保证模型具有充足的统计效能。单个遗传变异对暴露变异的解释作用通常是很小的,因此现有MR 模型通常选定多个遗传变异作为工具变量,从而增加工具变量对于暴露变异的解释比例,提高估计的统计效能。在模型构建上,Radial IVWThree-sample MRMRMix等模型通过放宽工具变量与暴露关联的显著性阈值纳入更多的工具变量,同时校正由于弱工具变量的引入导致的潜在偏倚,从而提高模型的统计效能与估计精度。

样本含量是决定 MR 模型统计效能的另外一个主要因素。遗传变异的个体数据通常是难以获取的,并且由于研究经费限制,单个研究只包含较小的样本含量,因此基于个体数据的 MR 模型统计效能往往较低。相比之下,基于 GWAS 的汇总数据所构建的 MR 模型

在数据获取,成本效率上具有更明显的优势,而数以十万甚至百万计的样本含量同时也保证了估计具有较高的统计效能。因此,目前研究大多利用汇总统计量构建 MR 模型,极大程度上推动了不同性状与疾病之间因果推断的研究。

另外,在选定工具变量构建 MR 模型进行因果效应估计之前,可以根据数据类型、样本含量、工具变量个数等指标选取适当的统计效能先验估计方法来预测模型的统计效能。

6.结论外推问题

在对 MR 模型得到的因果效应估计量进行解释时,需要注意的一点是,遗传变异所解释的暴露变异只是暴露总变异中的一部分,因此利用遗传变异作为暴露的工具变量来估计其对结局的因果效应,所得到的效应值也只是由工具变量所决定的这一部分暴露变异对结局的效应,而由其他非遗传因素所决定的暴露变异对于结局的效应,是无法通过 MR 模型获得的。严

格来说,由 MR 所得到的暴露对结局的效应估计量不能完全等同于真实的因果效应。另外,在设计严谨,工具变量核心假设满足的情况下,MR 模型可以为暴露与结局之间是否具有因果关联提供统计学上的线索,为后续更明确的试验研究及机制探索提供理论依据,但任何单一的研究方法都无法完全明确因果关系。真实的因果关联应结合疾病的生物学机制、完善的试验及临床研究结果等多方面证据综合进行探讨。

转自:“朗盟医学”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com