从柳叶刀子刊学习生存分析预测模型构建 | 易侕科研

2023/8/14 14:46:34　阅读：246　发布者：

大家好，最近读了一篇预测模型文章，文章是针对既往研究数据的二次挖掘，分析思路也很值得借鉴。今天就一起解读这篇柳叶刀子刊的文章，来学习生存数据的预测模型构建。

这是一篇发表在《The Lancet. Oncology》（IF=51.1）的文章，题目是：Nomograms to predict outcomes after ¹⁷⁷Lu-PSMA therapy in men with metastatic castration-resistant prostate cancer:an international, multicentre, retrospective study.列线图预测转移性去势耐药前列腺癌患者接受PSMA治疗后预后：一项国际、多中心、回顾性研究。从题目中可以知道这是一项回顾性研究，使用了270例患者的数据，建立了预测模型。

▌研究内容

首先还是通过PICOS原则来了解一下这项研究：

Population：研究人群是接受了¹⁷⁷Lu-PSMA治疗的转移性去势抵抗性前列腺癌患者，来自之前的一项二期临床研究，以及在同中心获取增药的患者。

这里给我的启发是，既往研究的患者数据可以重复利用。特别是回顾性研究，只要是符合入排标准，既往参加过其他临床试验的患者数据都可以收集，这样可以在短时间内收集足够的样本量，最大程度的利用病例资源数据。

Outcome：主要研究终点是用列线图预测OS和PFS，次要研究终点是PSA（前列腺特异性抗原）下降至少50%。

Study design：研究设计是一项多中心回顾性研究。

▌统计分析方法

文章的Statistical analysis部分写的非常之详细，也提供了很多构建预测模型的写作模板，感兴趣的同学可以查看我们之前写的SCI统计描述该怎么写？的推文~总结一下，可以分为3部分：

1.构建预测模型

使用LASSO回归筛选预测因子，再用COX回归来计算HR或OR值。

2. 模型准确性评价

使两种方法对预测模型进行评价，首先采用指标Harrell’s concordance index来评价区分度，即一致性指数（C-index），用来评估模型区分发生终点事件和未发生终点事件的能力。当结局指标为二分类变量，C-index与AUC相同，本文的终点事件是事件-时间变量，所以要选取C-index来评估区分度。C-index越接近1表示模型预测效果越好。

然后使用Calibration Plot来评估模型的校准度，即模型预测事件发生概率与观察到事件发生概率的一致程度。

3.模型验证

模型验证分别使用了内部验证和外部验证，内部验证采用Bootstrap法，从开发队列中重复抽样抽取相同数量的样本来验证，在研究样本量不大的情况下，我们也可以学习这样的内部验证方法。外部验证基于验证队列计算C-indices和Calibration Plot.

到这里可能大多数读者认为这篇预测模型的分析已经做完了，文章又进一步的将研究人群划分为高风险和低风险人群，并用log-rank检验比较两组间的生存曲线。

▌研究流程

从Study profile可以看出，这项研究一共纳入了270例患者，196例划分到开发队列用于模型构建，74例划分到验证队列。从文中可以知道开发队列和验证队列的患者分别来自不同的中心，因此属于外部验证队列。

▌研究结果

基线比较

在看表1之前，大家可以先思考一下预测模型的表1应该比较的是是否发生结局的两组患者基线数据，还是比较开发集和验证集两组患者的数据呢？

这篇文章的表1给了答案，预测模型一般要求开发集和训练集做到可比性，因此表1应该放开发集和训练集比较的表格。但也不是每一项比较结果都要求p>0.05，否则数据就有造假的嫌疑。本文是这样写的：Baseline characteristicsand outcome data were well balanced between the twocohorts except for Eastern Cooperative Oncology Group(ECOG) performance status and symptomatic status(table 1).

Table1: Participant characteristics and treatment outcomes.

COX回归

使用LASSO回归筛选预测因子，然后构建多因素COX回归模型。

模型验证

图2和图3分别绘制了总生存率和无进展率的Calibration Plot，以及两个模型的列线图。在结果部分写了开发队列、内部验证和外部验证的C-index。

比较生存曲线

根据开发队列构建的预测模型，分别将开发队列、验证队列和所有患者分为低风险人群和高风险人群，绘制生存曲线，并进行log-rank检验。由分析结果得知两人群的生存曲线之间有显著差异（p<0.05）。

对于次要研究终点PSA50的分析方法也类似，根据开发队列构建预测模型，并计算了验证队列的AUC、灵敏度、特异度、阳性预测值和阴性预测值。

▌总结

最后再来总结一下这篇文章值得大家学习和借鉴的亮点：

1.针对既往研究的数据进行二次挖掘，极大地提高了样本量收集的效率。

2.预测模型表1比较的是开发队列和外部验证队列的基线特征，而非是否发生结局事件的组间对比。

3.在样本量较小的情况下，内部验证可以采用bootstrap法。

4.生存数据的预测模型，可以将患者分为高低风险人群，并比较两组间的生存曲线。

好了，今天的内容就到这里结束了，大家可以点击查看原文阅读这篇文章，我们下期再见。

转自：“易侕科研”微信公众号

如有侵权，请联系本站删除！

投稿问答最小化 关闭

从柳叶刀子刊学习生存分析预测模型构建 | 易侕科研

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

从柳叶刀子刊学习生存分析预测模型构建 | 易侕科研

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭