SEER数据库怎么利用?这篇6分文章告诉你~

2023
01/25

+
分享
评论
作图丫
A-
A+

在本研究中,作者使用了六种机器学习模型来预测肾癌中的淋巴转移。

导语

淋巴结转移(LNM)可能与预后不良有关。本文基于机器学习模型来预测肾癌中LNM的发生。 

背景介绍

大家是不是经常关注  TCGA和GEO数据而忽视了SEER数据库呢?今天小编为大家带来一篇SEER数据库+简单机器学习发表6分期刊的文章,题目为  Development and validatio  n of a machine learning model to predict the risk of lymph node metastasis in renal carcinoma。

12901674540220440

研究流程

3771674540220768

数据介绍

使用SEER * Stat软件(8.3.5)提取2010年1月1日至2017年12月31日期间诊断患有肾癌病例的患者作为训练队列。 人口统计学和临床数据,包括人口统计学特征(婚姻、年龄、性别、种族、生存时间、活或死)、肿瘤信息(原发部位、肿瘤大小、偏侧性、TNM分期、肝转移和肺转移)和病理学(组织学类型、病理分级)。

结果解析 

01   临床变量与肾癌淋巴结转移的相关性  

使用LASSO回归从16个系数为非零的变量中筛选出8个变量(图1)。单因素分析显示,年龄、分级、肝转移、M分期、原发部位、肺转移、T分期、肿瘤大小与LNM相关。多因素logistic回归分析结果显示,分级、肝转移、M分期、原发部位、肿瘤大小和T分期是独立的LNM危险因素。

患者的年龄在LNM和非LNM之间没有显着差异。原发部位在 C64.9 肾的患者患 LNM 的风险高于原发部位在 C65.9 肾盂的患者。当病理水平变坏时,患者将面临更大的LNM发生危险,除了中度分化。肝转移被确定为一个独立的危险因素,但肺转移不能是一个危险因素。此外,M分期(M1)和T分期(T1,T2,T3,T4)较高的患者伴有更多的危险 (表1)。

34621674540221202

图1

70841674540221251

表1

02   预测模型的开发和验证  

多变量分析结果产生了六个独立的风险因素,使用这些因素构建机器学习模型。图2根据训练队列中10折交叉验证的结果,列出了六个基于机器学习模型的平均AUC值。在所有ML-ed模型中,XGB模型表现出最好的预测性能(AUC = 0.916),紧随其后的是RF(AUC = 0.914),GBM(AUC = 0.908)和NBC(AUC = 0.906),而DT的性能(AUC = 0.892)较差。LR也表现良好(AUC = 0.905)(图2)。因此,XGB模型作为最优预测模型。

74871674540221303

图2

图3展示了每个预测模型中六个变量的相对重要性以及所有算法之间的共同趋势:M 阶段在所有变量中排名第一。在XGB模型中,M分期、T分期和病理分级是前三大重要变量。作者使用热图评估变量的相关性(图4)。没有显著相关性和共线性,变量彼此独立。

65901674540221355

图3

28711674540221417

图4

03   最佳阈值概率的选择  

选择性能最佳的XGB模型,PDF和CUC结果的阈值和临床性能可能是决定性因素。尽管PDF中的两条曲线之间存在适度重叠,但非LNM患者主要集中在代表0-54.6%LNM风险的部分,而LNM患者分布在剩余部分(图5A)。CUC 显示了在任何概率阈值下 LNM 和非 LNM 的真正阳性百分比(图5B)。在临床实践中,正确检测LNM与诊断无LNM具有同等的重要性。本研究中,54.6%被选为做出临床决策的阈值概率,可以确定约81%的非LNM患者和约89%的LNM患者。

46051674540221475

图5

04   肾癌淋巴结转移的风险预测  

作者基于XGB模型构建了一个网络计算器,其中包含六个变量,供临床医生通过输入变量来预测患者相应的LNM概率 ( https://share.streamlit.io/liuwencai4/renal_lnm/main/renal_lnm.py )。如图 6所示, 作者进行了演示(LNM概率=3.1%)。

66791674540221528

图6

小编总结

在本研究中,作者使用了六种机器学习模型来预测肾癌中的淋巴转移。首先,作者鉴定了LNM的6个独立危险因素(病理分级、肝转移、M分期、原发部位、T分期和肿瘤大小)。其次,6个机器学习模型可以预测LNM,大多数模型达到了ROC曲线下高区域(AUCs)>0.9。第三,在比较了6个基于ML的模型的性能后,XGB的预测性能最好。第四,54.6%的临床决策阈值概率由FDP和CUC确定。第五,作者基于XGB模型构建了一个网络计算器。

本文的亮点在于使用了SEER数据库的临床数据进行分析,比TCGA和GEO更加新颖。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
机器学习,危险因素,肾癌,阈值

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!