投稿问答最小化  关闭

万维书刊APP下载

从柳叶刀子刊学习生存分析预测模型构建 | 易侕科研

2023/8/14 14:46:34  阅读:43 发布者:

大家好,最近读了一篇预测模型文章,文章是针对既往研究数据的二次挖掘,分析思路也很值得借鉴。今天就一起解读这篇柳叶刀子刊的文章,来学习生存数据的预测模型构建。

这是一篇发表在《The Lancet. Oncology》(IF=51.1)的文章,题目是:Nomograms to predict outcomes after ¹⁷⁷Lu-PSMA therapy in men with metastatic castration-resistant prostate cancer:an international, multicentre, retrospective study.列线图预测转移性去势耐药前列腺癌患者接受PSMA治疗后预后:一项国际、多中心、回顾性研究。从题目中可以知道这是一项回顾性研究,使用了270例患者的数据,建立了预测模型。

▌研究内容

首先还是通过PICOS原则来了解一下这项研究:

Population:研究人群是接受了¹⁷⁷Lu-PSMA治疗的转移性去势抵抗性前列腺癌患者,来自之前的一项二期临床研究,以及在同中心获取增药的患者。

这里给我的启发是,既往研究的患者数据可以重复利用。特别是回顾性研究,只要是符合入排标准,既往参加过其他临床试验的患者数据都可以收集,这样可以在短时间内收集足够的样本量,最大程度的利用病例资源数据。

Outcome:主要研究终点是用列线图预测OSPFS,次要研究终点是PSA(前列腺特异性抗原)下降至少50%

Study design:研究设计是一项多中心回顾性研究。

▌统计分析方法

文章的Statistical analysis部分写的非常之详细,也提供了很多构建预测模型的写作模板,感兴趣的同学可以查看我们之前写的SCI统计描述该怎么写?的推文~总结一下,可以分为3部分:

1.构建预测模型

使用LASSO回归筛选预测因子,再用COX回归来计算HROR值。

2. 模型准确性评价

使两种方法对预测模型进行评价,首先采用指标Harrells concordance index来评价区分度,即一致性指数(C-index),用来评估模型区分发生终点事件和未发生终点事件的能力。当结局指标为二分类变量,C-indexAUC相同,本文的终点事件是事件-时间变量,所以要选取C-index来评估区分度。C-index越接近1表示模型预测效果越好。

然后使用Calibration Plot来评估模型的校准度,即模型预测事件发生概率与观察到事件发生概率的一致程度。

3.模型验证

模型验证分别使用了内部验证和外部验证,内部验证采用Bootstrap法,从开发队列中重复抽样抽取相同数量的样本来验证,在研究样本量不大的情况下,我们也可以学习这样的内部验证方法。外部验证基于验证队列计算C-indicesCalibration Plot.

到这里可能大多数读者认为这篇预测模型的分析已经做完了,文章又进一步的将研究人群划分为高风险和低风险人群,并用log-rank检验比较两组间的生存曲线。

▌研究流程

Study profile可以看出,这项研究一共纳入了270例患者,196例划分到开发队列用于模型构建,74例划分到验证队列。从文中可以知道开发队列和验证队列的患者分别来自不同的中心,因此属于外部验证队列。

▌研究结果

基线比较

在看表1之前,大家可以先思考一下预测模型的表1应该比较的是是否发生结局的两组患者基线数据,还是比较开发集和验证集两组患者的数据呢?

这篇文章的表1给了答案,预测模型一般要求开发集和训练集做到可比性,因此表1应该放开发集和训练集比较的表格。但也不是每一项比较结果都要求p>0.05,否则数据就有造假的嫌疑。本文是这样写的:Baseline characteristicsand outcome data were well balanced between the twocohorts except for Eastern Cooperative Oncology Group(ECOG) performance status and symptomatic status(table 1).

Table1: Participant characteristics and treatment outcomes.

COX回归

使用LASSO回归筛选预测因子,然后构建多因素COX回归模型。

模型验证

2和图3分别绘制了总生存率和无进展率的Calibration Plot,以及两个模型的列线图。在结果部分写了开发队列、内部验证和外部验证的C-index

比较生存曲线

根据开发队列构建的预测模型,分别将开发队列、验证队列和所有患者分为低风险人群和高风险人群,绘制生存曲线,并进行log-rank检验。由分析结果得知两人群的生存曲线之间有显著差异(p<0.05)。

对于次要研究终点PSA50的分析方法也类似,根据开发队列构建预测模型,并计算了验证队列的AUC、灵敏度、特异度、阳性预测值和阴性预测值。

▌总结

最后再来总结一下这篇文章值得大家学习和借鉴的亮点:

1.针对既往研究的数据进行二次挖掘,极大地提高了样本量收集的效率。

2.预测模型表1比较的是开发队列和外部验证队列的基线特征,而非是否发生结局事件的组间对比。

3.在样本量较小的情况下,内部验证可以采用bootstrap法。

4.生存数据的预测模型,可以将患者分为高低风险人群,并比较两组间的生存曲线。

好了,今天的内容就到这里结束了,大家可以点击查看原文阅读这篇文章,我们下期再见。

转自:“易侕科研”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com