SEER数据库怎么利用?这篇6分文章告诉你~
2023/2/24 17:26:09 阅读:243 发布者:
以下文章来源于作图丫 ,作者球球
导语
淋巴结转移(LNM)可能与预后不良有关。本文基于机器学习模型来预测肾癌中LNM的发生。
背景介绍
大家是不是经常关注TCGA和GEO数据而忽视了SEER数据库呢?今天小编为大家带来一篇SEER数据库+简单机器学习发表6分期刊的文章,题目为Development and validation of a machine learning model to predict the risk of lymph node metastasis in renal carcinoma。
研究流程
数据介绍
使用SEER * Stat软件(8.3.5)提取2010年1月1日至2017年12月31日期间诊断患有肾癌病例的患者作为训练队列。人口统计学和临床数据,包括人口统计学特征(婚姻、年龄、性别、种族、生存时间、活或死)、肿瘤信息(原发部位、肿瘤大小、偏侧性、TNM分期、肝转移和肺转移)和病理学(组织学类型、病理分级)。
结果解析
01
临床变量与肾癌淋巴结转移的相关性
使用LASSO回归从16个系数为非零的变量中筛选出8个变量(图1)。单因素分析显示,年龄、分级、肝转移、M分期、原发部位、肺转移、T分期、肿瘤大小与LNM相关。多因素logistic回归分析结果显示,分级、肝转移、M分期、原发部位、肿瘤大小和T分期是独立的LNM危险因素。
患者的年龄在LNM和非LNM之间没有显着差异。原发部位在 C64.9 肾的患者患 LNM 的风险高于原发部位在 C65.9 肾盂的患者。当病理水平变坏时,患者将面临更大的LNM发生危险,除了中度分化。肝转移被确定为一个独立的危险因素,但肺转移不能是一个危险因素。此外,M分期(M1)和T分期(T1,T2,T3,T4)较高的患者伴有更多的危险 (表1)。
02
预测模型的开发和验证
多变量分析结果产生了六个独立的风险因素,使用这些因素构建机器学习模型。图2根据训练队列中10折交叉验证的结果,列出了六个基于机器学习模型的平均AUC值。在所有ML-ed模型中,XGB模型表现出最好的预测性能(AUC = 0.916),紧随其后的是RF(AUC = 0.914),GBM(AUC = 0.908)和NBC(AUC = 0.906),而DT的性能(AUC = 0.892)较差。LR也表现良好(AUC = 0.905)(图2)。因此,XGB模型作为最优预测模型。
图3展示了每个预测模型中六个变量的相对重要性以及所有算法之间的共同趋势:M 阶段在所有变量中排名第一。在XGB模型中,M分期、T分期和病理分级是前三大重要变量。作者使用热图评估变量的相关性(图4)。没有显著相关性和共线性,变量彼此独立。
03
最佳阈值概率的选择
选择性能最佳的XGB模型,PDF和CUC结果的阈值和临床性能可能是决定性因素。尽管PDF中的两条曲线之间存在适度重叠,但非LNM患者主要集中在代表0-54.6%LNM风险的部分,而LNM患者分布在剩余部分(图5A)。CUC 显示了在任何概率阈值下 LNM 和非 LNM 的真正阳性百分比(图5B)。在临床实践中,正确检测LNM与诊断无LNM具有同等的重要性。本研究中,54.6%被选为做出临床决策的阈值概率,可以确定约81%的非LNM患者和约89%的LNM患者。
04
肾癌淋巴结转移的风险预测
作者基于XGB模型构建了一个网络计算器,其中包含六个变量,供临床医生通过输入变量来预测患者相应的LNM概率(https://share.streamlit.io/liuwencai4/renal_lnm/main/renal_lnm.py)。如图6所示,作者进行了演示(LNM概率=3.1%)。
小编总结
在本研究中,作者使用了六种机器学习模型来预测肾癌中的淋巴转移。首先,作者鉴定了LNM的6个独立危险因素(病理分级、肝转移、M分期、原发部位、T分期和肿瘤大小)。其次,6个机器学习模型可以预测LNM,大多数模型达到了ROC曲线下高区域(AUCs)>0.9。第三,在比较了6个基于ML的模型的性能后,XGB的预测性能最好。第四,54.6%的临床决策阈值概率由FDP和CUC确定。第五,作者基于XGB模型构建了一个网络计算器。
本文的亮点在于使用了SEER数据库的临床数据进行分析,比TCGA和GEO更加新颖。
转自:“SCI科研力”微信公众号
如有侵权,请联系本站删除!