申请认证 退出

您的申请提交成功

确定 取消

【神麻人智】基于机器学习的垂体腺瘤切除术后30天计划外再住院的分析和预测:一项具有外部验证的多机构回顾性研究

2022-09-09 10:56   古麻今醉

在这项具有外部验证的多机构回顾性研究中,基于机器学习的技术能够准确可靠地预测垂体腺瘤切除术后30天计划外再入院。该模型可以集成到电子病历中,并为未来研究机器学习算法和提出的风险分层系统的临床影响提供了基础。

92361662688912582

背景:经蝶垂体腺瘤切除术后计划外再住院率高达10 %,但却往往难于预测。

目标:开发一个可靠的预测计划外再住院的系统,并创建一种经验证的按风险对患者进行分层的方法。

方法:数据集是从国家外科质量改进计划和两个三级学术医疗中心进行回顾性收集。八个机器学习分类器对国家外科质量改进计划数据进行拟合,采用贝叶斯参数优化方法进行优化,并根据外部数据进行评估。置换分析确定预测变量的相对重要性,并使用训练好的机器学习模型建立风险分层系统。

结果:通过外部数据集上接收操作员特征曲线下面积为0.76(95 %置信区间0.68-0.83)的几个分类模型准确预测再入院率。置换分析确定了预测再入院的最重要变量,如术前钠水平、返回手术室和总手术时间。根据拟议的风险分层系统确定的高风险和中风险患者比低风险患者更可能再次入院,其相对风险分别为12.2(95%置信区间5.9-26.5)和4.2(95%置信区间2.3-8.7)。总体风险分层显示出较高的识别能力,C统计量为0.73。

结论:在这项具有外部验证的多机构研究中,使用机器学习技术准确预测垂体腺瘤切除术后的计划外再入院。本研究中确定的特征和开发的风险分层系统可以指导临床和手术决策,降低医疗成本,并通过更好地识别高风险患者进行更密切的围手术期管理,提高患者护理质量。

经蝶垂体腺瘤切除术后再入院的危险因素仍不清楚,成本高,且难以预测。预测再住院的高风险可以改善手术决策,降低相关的医疗成本,并通过关注这些患者的围手术期护理来提高护理质量。

机器学习方法已经被证明比传统的统计方法有一些优势。机器学习可以解释结果和预测变量之间的非线性关系,并放宽了预测变量之间没有交互作用的同质性假设。只有一项有限的单中心研究评估了基于机器学习的垂体腺瘤切除术后不良手术结果预测,但这项研究没有评估计划外再入院。此外,该算法在外部临床数据上的验证,这是机器学习方法中的一个关键步骤,尚未执行。

我们假设机器学习算法可以可靠地预测垂体腺瘤手术患者30天的再入院率。我们评估了几种机器学习分类器,以预测非计划性30天的再入院,并验证了这些模型。

方法

数据集收集

国家手术质量改善计划(NSQIP;美国外科医生学会)在2006年至2018年期间接受垂体腺瘤切除术的患者(n=2292)被纳入了最初的模型构建和测试(图1)。本研究使用通用手术术语代码61546、61548和62165识别患者。

选择2012年至2018年在俄亥俄州立大学韦克斯纳医学中心(OSU)(n=297)和2007年至2017年在犹他大学医院(UUH)接受垂体腺瘤切除术(n=485)的患者作为外部测试数据集。参与机构获得了机构审查委员会的批准,并放弃了知情同意。这两个机构都参与了NSQIP,因此外部数据集中的每个患者都与NSQIP患者进行了交叉对照,以确保没有患者被纳入这两个数据集。

数据整理和分析

在训练阶段使用的1775名参与者被随机分为训练组(n=1475)和验证组(n=300)。对于数值,使用平均插补替换缺失的数据(2.9%)。分类变量被编码为一个数字数组。在训练前,通过以0为中心并按单位方差进行标度,对数值变量进行标准化。外部测试集中缺失的数据(13.1%)使用从训练集计算的平均值来代替。外部测试集也是类似通过以0为中心,并使用来自训练集的均值和标准差来缩放到单位方差来标准化。最有可能缺失的特征是术前部分凝血酶时间(PTT)(缺失数据的23%)和年龄(缺失数据的22%)。

使用单因素方差分析测试完成训练、验证和外部测试数据集的统计比较。使用Sidak法对多次比较的P值进行校正。患者也按再入院状态和机构亚组进行分析。使用假设方差相等的双侧t检验计算子组比较的P值,并使用Sidak法对多次比较进行校正。所有分析均使用Python版本3.6.10(Python.org)进行。

特征选择

兴趣标签的定义为在出院后30天内,因与同一医院或其他医院的初次手术相关的任何原因而导致的任何计划外住院患者再入院。

通过使用所有相关和可用的预测NSQIP特征,对训练集和验证集进行初始置换特征重要性分析来选择训练特征。特征重要性定义为当在训练数据中随机打乱单个特征值时,优化分类模型的受试者工作特征(ROC)曲线下面积(AUC)得分的平均下降。在对单个特征进行洗牌后,对训练集进行训练,并在验证集上重新计算AUC分数。从所得到的特征重要性列表中,根据其相对重要性和可用性,我们选择了10个特征纳入我们的研究。

算法选择和参数优化

我们训练、优化了八个机器学习分类器,并将其包含在我们的分析中(表1)。对于每个模型,使用scikit学习机器学习Python库(版本0.22.1)初始化分类器。此外,使用优化的分布式梯度增强Python库(XGBoost、版本1.1.1)来初始化XGBoost分类器。对于每个模型,使用基于贝叶斯序列模型的优化方法和使用超选项v0.2.5的树解析估计器算法进行调整超参数。对训练集进行优化,使用K-fold交叉验证(K=5),进行5000次迭代。在交叉验证折叠上获得最高平均平衡精度分数的超参数,这是一个由类频率加权的精度分数。为了跟踪模型的性能,这些算法在使用ROC AUC和精确召回率(PR)AUC的验证集上进行了评估。验证集上的AUC分数的95%可信区间是通过随机重抽样和替换来计算的,以创建1000个样本,大小与原始组的相同。本研究采用STARD检查表。

69421662688912831 图1 显示培训、验证和外部测试数据集和机构子组的流程图。 表1 机器学习分类模型用于再入院预测的简要描述和相关特征 14301662688912893

外部测试集的统计分析

对于外部测试集中的每个患者,通过每个优化的分类模型进行计划外的30天再入院预测。根据这些预测,计算出敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、ROC AUC、F1评分和PR AUC。每个指标的95%可信区间是通过随机重抽样和替换引导点估计来计算的。

29201662688913036

图2 一种使用高PPV的分类模型和高NPV的分类模型将患者分为低风险、中风险和高风险类别的系统。NPV,阴性预测值;PPV,阳性预测值。

表2 培训、验证和外部测试集的患者人口统计数据和再入院数据

35911662688913161

置换特征重要性分析

为了识别纳入的10个特征的相对重要性,执行第二置换特征重要性分析。在对单个特征进行洗牌后,在指定的训练集上进行训练,并在验证集上重新计算AUC分数。每个优化的分类模型都包含在这个分析中,并对不同分类器的ROC AUC评分的变化取平均值,以产生最终的特征重要性列表。同时,还计算了由最高基线ROC AUC评分定义的最佳表现模型的个体特征重要性列表。

风险分层、发展和统计分析

使用训练的分类模型进行风险分层。通过使用验证集确定了一个具有高PPV和一个具有高NPV的分类模型,并用于按顺序进行预测,并将患者分为风险类别(图2)。使用模型当从验证集中识别出最高的PPV和NPV后,然后在外部测试集上评估风险分层系统的性能。与低风险(对照组)相比,计算并报告了高风险和中风险患者的比值比(OR)和相对风险(RR)指标。可信区间的计算是通过随机重抽样和替换引导点估计来实现的。通过计算风险分层系统的一致性(c-统计量)来评估总体鉴别能力。

结果

研究参与者

训练集包括1475例患者[中位年龄53岁,IQR 50-59岁;30天再入院:7.8%],验证集包括300例患者(中位年龄53岁,IQR 50-60岁;30天再入院:8.3%),外部测试组包括782例患者(中位年龄49岁,IQR 34-63岁;30天再入院:6.3%)(表2)。3组患者的再入院率无显著统计学差异(P=0.985)。再入院状态亚组间术前钠水平无显著统计学差异(P=0.496)(表3)。通过传统的统计方法,钠离子的方向和幅度的差异可以忽略不计。年龄、术前钠离子水平、手术时间在训练、验证和外部数据集之间均有统计学差异(P<0.001);然而,从临床的角度来看,这些差异是很小的,并且不会影响患者的管理。

表3在外部数据集中,按机构和再入院状态子组划分的患者人口统计数据

54231662688913449 55441662688913667

图3  A,外部测试集上每个分类模型的接收器工作特征曲线和曲线下相关面积分数。B,外部测试集上每个分类模型的精度召回曲线和曲线下相关面积分数。MLP,多层感知器。

特征选择

在初始训练集中,通过初始排列分析选择10个特征进行评估:年龄、体重指数(BMI);美国麻醉医师协会(ASA)风险分类;返回手术室;总住院时间;术前钠、PTT、血尿素氮(BUN)和肌酐水平;以及手术时间。这些变量被确定为预测再入院的10个最关键的特征。

参数优化

在k-倍交叉验证过程中,XGBoost分类器的平衡准确率最高,为76.1%。经过交叉验证和参数优化后,多层感知器(MLP)和XGBoost模型在验证集上获得了最高的ROC AUC得分,分别为0.70(95%置信区间 0.56-0.83)和0.70(95%置信区间 0.57-0.81)。决策树模型在验证集上获得了最高的PR AUC得分(0.37,95%置信区间 0.18-0.55)。

外部测试集

我们比较了每个模型在外部组上的ROC曲线、PR曲线和相关的AUC评分(图3).随机森林、XGBoost、支持向量机(SVM)和逻辑回归模型的表现相似,在外部测试集上获得了最高的ROC AUC评分,值为0.76(95%置信区间 0.68-0.83)。logistic回归模型的最高敏感性值为0.71(95%置信区间 0.59-0.84),而MLP模型的特异性最高的值为0.98(95%置信区间 0.98-0.99)(表4)。当对机构亚组进行分析时,发现UUH和OSU患者的表现高度一致,ROC AUC评分分别为0.76(95%置信区间 0.64-0.88)和0.79(95%置信区间 0.70-0.86)(表5)。

置换分析

对训练和验证集进行的排列特征重要性分析确定了预测计划外30天再入院的最重要特征,按重要性顺序为:术前钠水平,原切除手术后回到手术室,手术时间,术前尿素氮水平,总住院时间。当对所有分类器的排列分析取平均值时,以及当单独使用随机森林分类器进行排列分析时,这5个特征被认为是最关键的。其他变量,如BMI、年龄、术前PTT、ASA分类和术前肌酐水平,在进行预测时并不那么重要,尽管它们的纳入仍然导致分类模型的性能更好。

风险分层系统分析

根据验证数据集的性能,选择三个模型纳入风险分层系统。将两个具有高PPV的模型组合以识别再入院的高风险患者,并将其合并成一个投票分类器,这是机器学习中用于组合多个模型的基于集成的方法。该投票分类器使用了一个“硬”投票方案,其中≥正面分类需要1票。这些模型是AdaBoost分类器[PPV=0.62(95%置信区间0.33-1.00)]和MLP分类器[PPV=0.25(95%置信区间 0.00-0.25)]。同样,我们选择了在验证数据集[0.94(95%置信区间0.91-0.97)]上达到较高NPV的随机森林分类器,将患者分为中风险和低风险类别。AdaBoost和MLP分类器共同构成模型#1,而随机森林分类器构成模型#2(图2)。

该风险分层系统对验证集、外部测试集和机构子组的评估结果如图4所示。在外部测试集上进行评估时,风险分层系统确定了33例高危患者,其中11例再次入院[33.3%;OR 14.7(95%置信区间11.6-19.7);RR 12.2(95%置信区间5.9-26.5)];202例中风险患者,其中23例再次入院[11.4%;OR 2.9(95%置信区间2.7-3.1);RR4.2(95%置信区间2.3-8.7)];以及547例低风险患者,其中只有15例再次入院(2.7%)。验证、外部UUH、外部OSU和组合外部集的c-统计量分别为0.64、0.69、0.75和0.73。

表4 所有外部患者和机构亚组的95%可信区间的表现特征

36971662688913826

讨论

在这项基于机器学习技术的概念验证研究中,我们研究了多中心垂体腺瘤切除患者30天计划外再入院的预测。该分析证明了识别再入院高风险患者的可靠能力,仅使用10个现成的患者特征和特征,ROC AUC为0.76。该方法在两个大型北美机构队列中的外部验证表明,尽管不同机构之间存在一些显著差异,但该方法稳健且可重复。

特征重要性分析显示,术前钠离子水平、返回手术室、总住院时间是模型性能和决策的最重要特征。传统的统计学方法无法解决这些参数的临床差异。换句话说,在不考虑影响该患者的所有其他因素的情况下,术前截钠量不能简单地用来将患者归类为高风险患者。尽管与NSQIP系列存在差异,但该算法对真实数据集上的再入院分类具有良好的准确性。

使用机器学习分类模型,在外部多中心机构队列中验证了一个可靠的风险分层系统。高风险和中风险的患者可以可靠地识别,但由于机器学习算法的性质,预测变量系数无法解析出来。由于垂体腺瘤的高发病率,即使是较低的再入院率,也有可能给患者和医院带来巨大的成本。了解经蝶窦垂体腺瘤切除术后30天计划外再入院的因素有助于优先考虑高风险患者的围手术期护理。例如,由于低钠血症是经蝶窦垂体腺瘤切除术后计划外再入院的最常见原因,因此可以对高风险患者实施严格的液体限制指南或额外的术后血清钠水平测量。此外,由于患者再入院率和质量指标可能会影响报销,因此通过使用再入院风险基准对不同的患者群体进行风险调整,并计算预期再入院率,开发有效的患者分层方法非常重要。

表5 所有外部患者和机构亚组的受试者操作者特征(ROC)曲线下面积(AUC)、F1评分和精确回忆(PR)AUC,每个分类模型的95%可信区间

77551662688914079

垂体腺瘤切除术的预后预测

传统的统计学方法显示,经蝶窦手术后的不良事件与住院时间、ASA分型、年龄、手术时间和肿瘤大小相关,但它们未能确定计划外30天再入院的明确预测因素,也未能将患者分为风险类别。此外,大多数研究只包括来自单个机构的再入院数据,使用单一的统计技术(如回归分析),重点关注由于特定原因(如低钠血症)导致的再入院,或没有验证其预测模型。

我们的研究结果与Hollon等人的研究结果一致,他们显示了机器学习方法预测垂体腺瘤切除术后不良手术结果的能力。作者使用logistic回归分类器预测了垂体腺瘤切除术患者的综合不良结果,但他们没有进行外部验证来评估该方法推广到其他数据集的能力。此外,该研究只研究了常见的机器学习方法,没有专门研究计划外的再入院,并且严重缺乏与其他现代机器学习分类技术的比较。我们的研究通过包括外部验证的多机构分析和8种不同的机器学习方法的性能比较来增加该领域。此外,我们的分析提供并验证了一个基于优化算法的风险分层模型。

11591662688914212

图4 通过开发的验证集、机构亚组测试集和总外部集的风险分层系统确定为低风险、中风险和高风险患者的非计划30天再入院百分比。OSU,俄亥俄州立大学;UUH,犹他大学医院。

局限性

这项研究的一个局限性是,虽然纳入了2个不同的机构进行外部验证,但它们可能并不代表治疗垂体腺瘤的所有类型的医院。将需要对外部数据集进行额外的验证和对预测模型的改进。本研究受限于来自NSQIP数据集和外部机构的不完整数据。在机器学习应用中,通常用平均计算替换缺失的数据,但已知如果数据缺失不是随机缺失的,就会导致偏差。通过将前瞻性收集的NSQIP数据集与多个机构队列的外部验证相结合,将偏倚风险最小化。需要更多的研究集中于将基于机器学习的模型整合到临床决策中,以及由此产生的对患者预后的影响。

结论

在这项具有外部验证的多机构回顾性研究中,基于机器学习的技术能够准确可靠地预测垂体腺瘤切除术后30天计划外再入院。该模型可以集成到电子病历中,并为未来研究机器学习算法和提出的风险分层系统的临床影响提供了基础。

述评

该回顾性研究的数据集是从国家外科质量改进计划和两个三级学术医疗中心进行收集的,它提出并验证了一种机器学习算法来预测垂体腺瘤切除后30天计划外再入院的相关不良后果。并分析提供并验证了一个基于优化算法的风险分层模型。该模型可以集成到电子病历中,并为未来研究机器学习算法和提出的风险分层系统的临床影响提供了基础。

使用机器学习分类模型,在外部多中心机构队列中验证了一个可靠的风险分层系统。高风险和中风险的患者可以可靠地识别,但由于机器学习算法的性质,预测变量系数无法解析出来。由于垂体腺瘤的高发病率,即使是较低的再入院率,也有可能给患者和医院带来巨大的成本。了解经蝶窦垂体腺瘤切除术后30天计划外再入院的因素有助于优先考虑高风险患者的围手术期护理。

由于机器学习方法比传统的统计方法具有优势,如能够解释结果和预测变量之间的非线性关系,以及解释预测变量之间的相互作用,作者的这种方法值得称赞。继续开发这些算法有可能最终影响神经外科医生预测垂体腺瘤切除术后30天再入院的能力,并采取积极主动的措施来降低这些发生率。

编译:陈淑漫

述评:刘蔚

原文链接:Crabb BT, Hamrick F, Campbell JM, et al. Machine Learning-Based Analysis and Prediction of Unplanned 30-Day Readmissions After Pituitary Adenoma Resection: A Multi-Institutional Retrospective Study With External Validation. Neurosurgery. 2022 Aug 1;91(2):263-271. 

声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。

不感兴趣

看过了

取消

进行,使用,患者,验证,预测

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交