中华流行病学杂志, 2022,43(11) 石舒原, 刘佐相, 赵厚宇, 等.
摘要
近些年,医疗产品监管机构开始重新审视真实世界证据(RWE)对监管决策的潜在价值。RWE能否代替金标准随机对照试验(RCT)产生的证据尚不确定。哈佛大学研究团队于2018年发起了RCT DUPLICATE项目,旨在利用医疗索赔数据库模拟30个RCT,以探索效力-效果差距的量化方法并解释其潜在来源,增强RWE的可信度。本文回顾了RCT DUPLICATE项目的产生背景,重点介绍RCT DUPLICATE项目的研究目的、研究设计和实施流程,以期帮助国内学者更好地理解RWE的适用范围和应用价值。
01
概述
1. 研究背景:随机对照试验(randomized controlled trial,RCT)一直被视为评估药物疗效的金标准。传统RCT有诸多优点,但需要严格的纳入排除标准、研究样本和随访时间有限,很难用于研究药物相关的罕见不良事件,真实世界证据(real-world evidence,RWE)被逐渐提出用于补充RCT证据,涉及定义和监测疾病状况、卫生技术评估、为临床研究设计提供信息、提高试验效率、临床使用和批准后评估药物效果,以及支持药品全生命周期监管决策等[]。2016年美国《21世纪治愈法案》的公布让各方利益相关者开始关注RWE用于监管决策的潜在用途[]。
真实世界数据(real-world data,RWD)是指从各种来源定期收集的,与患者健康状况或医疗服务提供有关的数据[]。RWE是指基于RWD通过严格的研究设计和统计分析获得医疗产品潜在获益或风险的临床应用证据[]。迄今发表的基于RWD开展的观察性研究大多依赖于医疗数据库,这些数据库可持续收集患者的医疗卫生相关信息,包括医疗保险索赔数据、电子健康记录(electronic health record,EHR)和一些注册登记信息。基于这些数据库开展的回顾性研究通常无法随机化分组,因此,面对根据自我意愿和用药指征接受不同治疗的患者,当对各种干预措施进行比较时,如何控制选择性偏倚和混杂偏倚以提高RWE结果的真实性是主要挑战。
2. RCT DUPLICATE(Randomized,Controlled Trials Duplicated Using Prospective Longitudinal Insurance Claims:Applying Techniques of Epidemiology)项目:该项目是2018年由美国食品药品监督管理局(FDA)、哈佛大学布莱根妇女医院(Brigham and Women's Hospital)以及一家医疗保健技术(Aetion)公司共同牵头发起的全球较早的由监管部门资助的RCT模拟(英文中的“replication、emulation和simulation”,统一用模拟来表示)的项目],旨在利用3个医疗索赔数据模拟30个RCT。团队成员包括FDA、Aetion公司员工,项目的专家顾问委员会核心小组成员来自哈佛大学布莱根妇女医院,包括RCT和RWD研究设计、统计分析等方法学方面的顶级专家,涉及领域主要包括生物统计学、药物流行病学以及计算机应用。
该项目的目的是评估RWE和RCT的疗效评估是否存在差异,如若存在差异,进一步探索差异的大小以及产生的原因,便于充分考虑潜在的相关因素,以帮助决定RWE是否可以用于支持监管决策[]。主要包括3个部分:①确定在新药审批以及药品上市后适应证扩展环节,RWE是否可以补充甚至取代作为金标准的RCT以及如何起到充分补充作用;②初步探讨何种类型的临床问题可以利用RWD进行分析,以及如何利用RWD进行相关研究设计和统计分析,进而协助FDA继续制定在监管决策中使用RWE的标准,即确定RWD在何种使用条件下可为新药安全性和有效性评估提供证据补充;③规范RWE研究流程步骤及相关统计分析策略的建立。
项目组基于医疗索赔数据库设计相应的RWE研究来匹配待模拟的RCT的关键研究特征,并设计了一个实施流程细则,以确保模拟RCT研究的过程具有一致性、透明化和可重复性。这是第一次系统地评估基于RWD使用结构化过程设计RWE研究模拟多个RCT的能力。为了提高RCT的可重复性,项目组选择大样本且治疗方案相对简单的RCT开展相关的RWE研究[]。
RCT DUPLICATE项目的主要研究内容为基于RWD分析,通过标准化、透明化、规范化、合理化的研究设计,产生RWE,并与选取的相应RCT结果进行比较,为RWD的使用建立经验证据基础,具体包括4个子项目:①模拟已经完成Ⅲ/Ⅳ期临床试验的研究;②预测正在进行Ⅳ期临床试验的研究结果;③基于纵向索赔数据库应用流行病学方法设计实施模拟心血管领域的RCT;④其他试验的模拟验证。见表1[]。
该项目的意义在于,如果基于医疗索赔数据库的RWE研究与已经发表的RCT研究结果相一致,同时能够准确地预测正在进行的RCT结果,将有助于增强大众尤其是监管机构对RWE的信任度,在未来缺少RCT证据的情况下,加快新药的上市审批流程,减少新疗法推向市场的时间和成本。进一步也可以基于RWE来拓展药物适应证范围,推动RWE在FDA决策中的应用,使得实时更新捕获风险-获益信息成为可能,实现对医疗产品全生命周期的监管。
02
研究方法
1. RCT筛选过程:并非所有RCT都可利用RWD进行模拟,需要选择合适的RCT并寻找与之相匹配的数据源。RCT DUPLICATE项目组考虑选择与监管决策相关的RCT,包括已发表或已注册正在进行的,而且可获取相匹配的RWD来源以确保这些RCT能被模拟。项目组尝试涵盖尽可能多的治疗领域的RCT,但是发现在某些治疗领域并不适合进行模拟,特别是那些主要依靠症状体征或替代指标作为结局的RCT,其结局指标无法在医疗索赔数据库中获取。此外,项目组选取的RCT多为大规模和高功效的RCT,以保证研究结果的可靠性。
项目组通过两个步骤选出最终合适的RCT:①初筛确定候选RCT;②二次筛选确定最终符合项目要求的RCT。
初筛旨在寻找多样化的RCT,以考察其在RWD中的可重复性。这一阶段主要兼顾了4个方面[]:①对照类型(阳性对照或安慰剂+标准治疗对照);②结局效应(效应大小);③试验目的(优效或非劣效);④临床领域(尽可能多地覆盖不同临床领域)。初筛的RCT来源可分为两类:①从获批上市的新药研究、补充药物适应证的研究和FDA推荐的研究中选择已发表了研究结果的RCT;②从临床试验注册网站(https://www.clinicaltrials.gov/)和FDA建议中选择正在进行且尚未发布结果的RCT。
二次筛选依据项目组事先制定的标准进行,基于现有数据库选择待研究RCT的标准:①RCT关注的结局变量在现有数据库中有诊断或测量;②能保证测量的准确性,如所关注的临床结局事件为心肌梗死、中风、骨折、大出血或死亡等诊断明确的临床事件,在数据库中一般会有清晰的记录且不会掺杂主观因素的干扰,这类RCT在RWD中的模拟将会得到更可靠的结果;③能准确地捕捉到暴露的信息;④对重要的混杂进行了准确测量并可用于调整。不满足上述任一标准的RCT即被排除。
项目组排除:①HIV或癌症治疗相关的RCT,因为这些疾病治疗药物的评估需要更详细的临床数据,而这些数据在医疗索赔数据库中是无法获得的;②疫苗相关的RCT;③完全基于患者自我报告的指标(如疼痛、症状缓解、功能状态改善等)、替代指标(如实验室指标)以及索赔数据中无法获取相关指标的RCT。总的来说,项目组主要依据主要结局的可重复性,排除难以模拟的RCT。
结合上述两个步骤,项目组最终确定了40个RCT,包括33个已完成并发表结果的RCT和7个仍在进行但尚未得到结果的RCT[]。在进行初步的可行性和功效分析后,发现可能会有RCT无法进行模拟,因此项目组共选择了40个RCT,即使项目初期一些RCT由于可行性较差被排除,也能确保项目组完成预设的任务目标,即模拟30个RCT。在这40个RCT中,24个为上市后研究且关注常规临床中患者可用的药物。有25个为优效性试验,其中19个成功显示出了优效性,2个没有发现优效性但满足了预先规定的非劣效界值,4个没有发现优效性,也没有达到预先规定的非劣效界值。在15个非劣效试验中,7个在主要结局指标发现了优效性,其余的8个显示出非劣效结果。尽管项目组优先考虑选择阳性对照试验,但最终纳入的RCT中仅有17个为阳性对照组的试验;其余23个试验均以安慰剂联合标准治疗作为对照。
最终选择的40个RCT涵盖了多个治疗领域,其中包括降糖药(17.5%)、直接口服抗凝剂(15.0%)、抗血小板药物(17.5%)、抗高血压药物(10.0%)、抗骨质疏松药物(10.0%)、抗哮喘药物(10.0%)、慢性阻塞性肺疾病治疗药物(7.5%)、抗心力衰竭药物(7.5%)、降脂药物(2.5%)和抗心律失常药物(2.5%)。所有选定的RCT中,39个(97.5%)的研究对象是成年人群,仅1个(2.5%)关注儿童[]。
2. RWD来源:项目组选择了3个美国医疗索赔数据库用于开展本研究,包括两个商业健康保险索赔数据Optum Clinformatics(2004-2019年)和IBM MarketScan(2003-2017年),以及Medicare的A、B、D 3个子集(2011-2017年),Medicare数据库没有用于抗血小板试验的模拟研究。此外受限于数据可及性的问题,对CAROLINA研究结果的预测参考RCT研究的实施时间,即使用截至2015年9月的数据[]。在整个研究期间,每个数据库都会进行实时更新。
数据来源涵盖了参与医疗保险计划的患者的所有医疗服务相关信息,包括人口统计信息、登记开始和结束日期、配药日期、使用剂量和供应天数等。Medicare数据库涵盖了所有行政记录的死亡,但在商业保险数据库中,无法获取到完整的院外死亡信息,且在所有数据来源中都没有记录死亡原因。
3. RWE研究设计与实施过程:项目组设计了RWE研究的实施流程框架,旨在让RWE研究的设计和分析尽可能的结构化、透明化并具有可重现性[]。研究队列的创建和研究变量的选取是借助Aetion公司数据平台来实现的[],其中包括可行性和功效分析以及评估治疗效果的最终比较分析。该平台纳入了与索赔有关的海量数据,且平台可跟踪记录在线使用者的分析内容和时间。这一框架流程为研究发起者与FDA合作时,在进行正式的比较分析之前,为设计RWE研究提供了一个直观透明化的模式,提高了实施的可行性。
在明确研究方案并进行统计分析之前,项目组首先需评估研究的可行性和有效性,包括研究组之间的协变量平衡性和统计功效的估计,最终确定研究方案,对主要分析策略进行详细说明并在https://www.clinicaltrials.gov/上进行方案的注册登记。在此之前研究不会开展任何关于治疗特异性结果的分析[],如果研究者认为研究的预测功效不够,可以决定终止该项研究,但需要详细记录终止原因。整个流程旨在模拟常规临床试验方案的提交过程,确保特定的研究设计和统计分析方法的选择不会受RWE研究结果的影响[]。
在确定研究可行性之后,需撰写一份在医疗索赔数据库中进行RWE研究的方案,该方案会详细说明RWE研究的设计,包括操作细节、编码定义和判断模拟成功与否的相关标准细则。同时,报告可行性和功效分析的结果。这些结果和研究实施的更新以及最终的模拟研究结果会与Aetion公司数据平台报告一起发布在研究官方网站(www.rctduplicate.org),其中包括所有变量、结局的定义和具体实施细节。项目组也会适时地咨询临床和方法学专家,确保选择的研究设计、测量方法和统计分析方法的科学性。尽管具体的研究设计和分析会有所不同,但项目组优先采用可得到有效估计的研究设计,比如新用药者和阳性对照队列设计[]。尽管项目组尽可能地与待模拟的RCT的纳入排除标准保持一致,但RCT和RWE的研究人群之间仍然会存在一些差异,在进行敏感性分析的时候可以通过加权或其他方法来保证RWE的研究人群的特征尽可能接近RCT人群的特征[]。考虑到未来在没有RCT证据的情况下开展RWE研究时,研究者无法获取到相应的RCT研究对象的基本特征,因此,基于RWD的主分析中不应包含上述敏感性分析所采取的方法以保证RWE研究过程不受已知的RCT研究结果的干扰。
大多数RCT采用意向性治疗(intention-to- treat)原则进行分析,即无论随机分组后的治疗计划是否改变,患者都认为按原随机化分组随访到了研究的预定结束时间。然而,在RWD中通常采用实际治疗分析(as treated analysis,AT)来估计治疗效果,将患者转换治疗计划或停止研究治疗时处理为删失来估计治疗效果。项目组预估RWE研究中患者对药物的依从性相对差于RCT中的患者,故选择AT来评估治疗效果,使其与RCT的结果更加一致。
4. RWE的统计分析过程:在针对上述RCT开展RWE研究中,项目组均采用1∶1的倾向性评分(propensity score,PS)来控制120余个潜在的混杂因素[],在药物暴露前6个月测量混杂因素。虽然RCT通常样本量较小也仅需要展示较少的患者特征,但在RWE研究中,为了平衡尽可能多的潜在混杂因素,并模拟基线随机化,需要更大的样本量和多维度的协变量集。协变量一般包括人口学基本信息、治疗开始时间、共患疾病以及合并使用的药物(如心血管和其他药物的使用)等特定变量。由于Optum和MarketScan数据库中只提供了一部分患者的实验室指标,并没有将其纳入PS分析中,但评估了暴露组之间指标在匹配后的平衡性。在基于年龄、性别和合并症等估计PS并进行1∶1匹配后,会进行功效分析,以确定非随机RWE研究的预期功效[]。项目要求RWE研究至少与相应的RCT具有同等的功效。
研究随访起始时间定义为治疗开始后第二天,随访终止时间可包含以下几种情况:直至治疗停止并设置30 d拓展观察期、转换到对比组、发生结局事件、进入养老院、医疗保险到期或研究期结束。在PS匹配队列中使用Cox回归估计风险比(hazard ratio,HR)及其95%CI,在每个数据源中分别进行分析,然后使用固定效应Meta分析进行汇总。之所以选择Meta分析,是因为汇总的估计数量非常少,而且在3个数据库中使用了统一的研究设计。预先设定的敏感性分析包括“as-started”分析,在该分析中,患者不会因治疗改变而做删失处理,而是在随访的365 d时做删失处理。
所有RWE研究的主要结局均为复合主要不良心血管事件(major adverse cardiovascular events,MACEs),除DECLARE-TIMI研究(由于在开展RWE研究模拟该RCT时没有足够的统计功效进行MACEs的分析)外,MACEs主要包括非致死性心肌梗死、非致死性中风或心血管死亡。此外TECOS研究中对MACEs的定义还包括了因不稳定型心绞痛住院治疗。DECLARE-TIMI研究只分析以住院治疗心力衰竭和心血管死亡的主要复合结局。针对所有RCT,如果排除了患有癌症和其他慢性病的患者,大部分研究对象的死亡可归因于心血管疾病,所以项目组将全因死亡作为心血管疾病死亡的替代结局指标。另外5项抗血小板药物研究根据纳入排除标准保留的合格研究对象数量有限,使得可重复性功效不足,加之这些研究评估的是患者住院期间的治疗,因此项目组考虑无法在RWD中获取相关信息而放弃去模拟这些RCT。
在这一阶段中,将进行最终的可行性分析,以确定在RWE研究中重要的混杂因素能否达到预期的组间平衡。根据临床知识和平衡参数,如匹配后C-统计量和绝对标准差,在不考虑结局数据的情况下,判断预先指定分析的组间平衡是否充分[]。此外,根据最终的协变量向量分布分别计算合并多个数据库的分析和基于每个数据库的单个分析的功效。如果单个数据库研究本身没有足够的功效,但在合并分析中有足够的功效,项目组仅报告合并分析的结果;否则,还将分别报告具有足够功效的单一数据库研究的结果。最后,项目组建议酌情进行敏感性分析,以确定预先指定的主要分析的稳定性和次要分析的真实性,例如评估研究人群一个子集中某些实验室指标的平衡性[]。
5. RCT-RWE研究结果一致性评估方法:项目组的主要目的是评估RCT结果与RWE研究结果之间差异的大小和产生原因[]。预先制定了两个一致性度量指标:①监管一致性(regulatory agreement);②估计值一致性(estimate agreement)。此外,也建议通过计算RCT和RWE研究结果效应估计值之间的标准化差异进行假设检验并评估结果是否存在差异。
(1)监管一致性:定义为RWE研究模拟RCT结果的方向和统计显著性的能力。例如,模拟一个优效性RCT的RWE研究结果也应该是优效的。对于非劣效性RCT,监管一致性要求RWE研究显示的非劣效性应使用与RCT相同的界值。对于结果阴性的RCT,RWE研究结果也应该显示无统计学意义。监管一致性衡量的是RWE在多大程度上可以提供与RCT相同的监管决策证据,这适用于典型的监管决策规则。因为当RCT显示出强有力的证据拒绝零假设时,研究之间的一致性更可信,所以将根据P值的不同分层(<0.01、0.01~和>0.05)来进行敏感性分析以评估监管一致性。一般来说,当RCT没有显示试验组间结局差异有统计学意义时,RWE研究与RCT出现监管一致性的差异由于偶然性导致的可能性最高[]。
(2)估计值一致性:因为RWE研究可能比相应的RCT具有更高的功效,会出现RCT结果无统计学意义而RWE研究结果有统计学意义,在这种情况下,即使RWE研究和RCT的估计值是接近的,也不满足监管一致性。例如,如果RCT报告的HR=0.85(95%CI:0.71~1.02),RWE研究的HR=0.85(95%CI:0.73~0.99);在这种情况下,尽管估计值十分一致,项目组会得出RWE研究没有与RCT达到监管一致性的结论。
出于这个原因,项目组又制定了一个次要指标,即估计值一致性,定义为当RWE研究的治疗效果估计处于RCT治疗效力估计值的95%CI内,即满足估计值的一致性[]。项目组将这个标准建立在RCT的95%CI基础上,是因为这些RCT通常都具有相似的统计功效(80%~90%),因此95%CI的宽度将处于一个适当的范围内。
此外,根据RCT对95%CI标准的解释,研究期望95%实际人群的效应都在95%CI内。因此,估计值一致性的定义要求RWE效应估计值应在基于RCT证据的真实效应的95%CI范围内。假设RWE的估计没有偏倚,估计值一致性的概率仅取决于RCT和RWE研究之间的方差比率。当方差相等时,RWE研究的无偏估计值有83%的概率会达到与RCT估计值的一致性。作为敏感性分析,研究会按照70%CI来确定估计值一致性。
(3)标准化差异:除了上述评价模拟研究的两种一致性度量指标,项目组还利用效应估计值和CI的散点图以及标准化差异来探讨所有RWE模拟结果和相应RCT结果之间差异的大小和方向。计算公式:
03
小结
使用RWD产生RWE来支持药物的监管决策已经受到广泛关注,近几年研究者和政策制定者亦围绕如何更好地评估RWE的可信度和透明度展开了系列讨论并发起相关研究]。由于RCT长期以来一直被视为评估干预措施与疗效之间因果关系的金标准,RCT DUPLICATE项目寻求的解决方法是根据RCT的研究设计,获取潜在的RWD进行研究设计,通过执行与RCT相同的统计分析策略并辅以敏感性分析,探讨该类RWE研究在多大程度上可以模拟RCT的结果。如果研究结果一致,这将增强对潜在RWD的来源、质量及其产生的RWE的可信度,从而为确定真实治疗效果提供监管决策支持。然而,这些模拟RCT的RWE研究的最终目的并非鼓励监管机构用RWE来替代RCT,而是通过开发一个通用的模拟RCT的研究流程,评估RWE研究在提供药物疗效证据方面的潜在作用。通过使用严格设计的RWE研究来模拟RCT的结果,可以更全面地了解在监管决策中使用这些设计的优势和局限性。如果正确使用,未来RWE可以作为传统RCT的补充,以帮助提高医疗保健中的临床决策效率,并改善医疗服务人群覆盖不足的情况。
通过开展RCT和RWE研究结果之间差异比较的研究,可以从RWE模拟RCT研究中获得诸多启示。例如,在RCT DUPLICATE和OPERAND(Observational Patient Evidence for Regulatory Approval and uNderstanding Disease)等更多的团队开展独立的研究,能够总结何种设计和分析可以产生较为一致的结果,从而确定未来研究的最佳实践[]。比如医疗索赔数据可能缺乏临床症状或指标细节,但提供了个体连续的纵向数据;EHR和患者登记信息通常有详细的临床信息,但缺乏个体在该系统外的其他医疗服务信息。这都可能导致不同的研究结果。随着研究者对RWE应用领域的不断深入探索,以RCT DUPLICATE项目为代表的系列研究将进一步探索与提升RWE在证据质量体系和临床决策中的作用。
转自:“医学科研与管理空间”微信公众号
如有侵权,请联系本站删除!