申请认证 退出

您的申请提交成功

确定 取消

临床研究|机器学习模型预测心脏外科手术患者术后谵妄的有效性

2023-05-30 09:27

综上所述,机器学习算法开发的预测模型可用于心脏手术后POD的预测。基于本研究数据,不同模型的预测效能存在差异,AUC范围从0.67到0.86,其中GBDT和RF表现出了较好的机器学习效能,适合于本研究数据框架,更有可能提高POD预测的准确性。

以下文章来源于临床麻醉学杂志,作者黄琦,刁玉刚,等

本文由”临床麻醉学杂志“授权转载

机器学习模型预测心脏外科手术患者术后谵妄的有效性

黄琦1 关美娇2 邹彬2 郑晶晶2 刁玉刚2

1中国医科大学北部战区总医院研究生培养基地

2中国医科大学北部战区总医院麻醉科

基金项目:辽宁省重点技术资助项目(2020JH2/10300121)

通信作者:刁玉刚

摘要

目的

基于机器学习算法建立心脏外科手术患者术后谵妄(POD)风险预测模型,并验证其有效性。

方法

2021年5—12月择期行心脏外科手术患者710例,男468例,女242例,年龄≥18岁,ASA Ⅰ—Ⅳ级。采用医疗电子信息系统收集患者资料。记录术前抑郁筛查量表(PHQ-9)评分、广泛性焦虑障碍量表(GAD-7)评分以及简易精神状态检查量表(MMSE)。将采集的整个数据集按照训练集(75%)和测试集(25%)的比例进行划分,其中训练集和测试集中POD发生率相同。建立6种机器学习模型,包括梯度提升决策树(GBDT)、支持向量机(SVM)、随机森林(RF)、逻辑回归(LogR)、K最邻近法(KNN)、深度神经网络(DNN),基于这6种算法以5折交叉验证的方式对训练数据集的数据进行模型的学习训练,通过测试数据集的数据对模型性能进行验证。基于准确率、精确率、召回率、F1分数、受试者工作特征曲线(ROC)及ROC曲线下面积(AUC)比较不同模型的有效性,并找出适合本研究数据框架的最佳模型。

结果

有151例(21.3%)心脏外科手术患者中发生POD。本研究进行了6个机器学习模型的性能比较,在使用全部特征作为潜在风险因素的条件下,GBDT的AUC为0.86(95%CI 0.82~0.89),SVM的AUC为0.79(95%CI 0.76~0.83),RF的AUC为0.85(95%CI 0.83~0.87),LogR的AUC为0.67(95%CI 0.63~0.70),KNN的AUC为0.67(95%CI 0.63~0.69),DNN的AUC为0.78(95%CI 0.74~0.82)。

结论

机器学习算法开发的预测模型可用于心脏外科手术后POD的预测,其中GBDT和RF表现出了较好的机器学习效能,适合于本研究数据框架,更有可能提高POD预测的准确性。特征工程可进行患者数据的可视化处理,以筛选心脏外科手术发生POD的风险因素。

关键词

心脏外科手术;人工智能;机器学习;术后谵妄;预测模型

术后谵妄(postoperative delirium, POD)是一种常见的术后神经系统并发症[1],在心脏手术后发生率较高[2-4]。POD可影响患者术后机体功能的恢复,升高术后其他系统并发症发生率、住院期间死亡率,增加临床护理难度和医疗成本。机器学习是一种计算机科学理论,在人工智能(artificial intelligence, AI)的众多领域中起核心支撑作用,基于给定的任务条件从大数据中进行广泛的学习,以产生稳定的效应器模型,从而预测其他来源的数据结果。机器学习为大量临床数据纳入稳健预测分析的开发提供了机会[5-7]。本研究选择6种机器学习模型,用丰富的数据集来识别高准确性的POD预测模型,探索建立一种有效的AI预测模型,通过筛查分析发生POD的危险因素,开发高效的大数据管理与分析方法,用于评估心脏手术患者POD发生风险。

资料与方法

一般资料

本研究经医院伦理委员会审查通过[Y〔2020〕063号],并在中国临床试验注册中心注册(ChiCTR2100047561),患者或家属签署知情同意书。选择2021年5—12月择期行心脏外科手术的患者,性别不限,年龄≥18岁,ASA Ⅰ—Ⅳ级,能够进行正常语言交流,预计住院时间至少3 d,手术方式包括:冠状动脉搭桥术,二尖瓣、主动脉瓣或三尖瓣瓣膜置换、成形手术,其他(主动脉疾病手术、室间隔疾病手术、心包疾病手术)。排除标准:心脏外科急诊手术,有严重的视力、听力障碍疾病,无法配合完成POD评估,失访、资料不全,已签署拒绝用于医学研究相关文书。 

分组方法

术前1 d在病房进行随访问卷,分别采用抑郁筛查量表(patient health questionnaire, PHQ-9)、广泛性焦虑障碍量表(generalized anxiety disorder, GAD-7)和简易精神状态检查量表(mini-mental state examination, MMSE)评估患者基线精神状态。术后7 d内或至出院前,将重症监护病房CAM-ICU和普通监护病房3D-CAM评分为阳性的患者定义为POD[8-10]。在ICU和普通病房,患者每24小时接受一次评估。床旁评估人员需接受关于POD评估的系统化培训。

拟定特征

收集手术程序、麻醉类型和持续时间、基线诊断和合并症、检查结果、谵妄发展、谵妄诱发因素(例如药物、医源性事件、导管)信息或身体约束、术后并发症和并发疾病等。确定可用于预测模型的特征,共拟定潜在预测特征103项。其中包括术前特征55项,术中特征19项,术后特征29项。观察终点为POD,所有预测特征均来自谵妄发生前,术后实验室检查结果均来自手术后当天采集指标的结果,以便麻醉科医师和外科医师根据风险特征调整术前、术中和术后的管理策略。

数据收集

通过医院Do-care系统和EMRS系统收集纳入患者的麻醉记录和临床电子病历、检验信息、医疗影像检查结果等指标。根据拟定特征关键词分类整合数据资料,包括术前变量、人口学特征、生活方式、认知功能、身体功能、心理社会因素、外科用药、检验检查信息、手术类型、手术时间、术中输血量、术中血流动力学变量及麻醉用药等变量作为完整的特征集。为了维持数据的一致性,全部数据需要进行格式化处理,所有的分类变量特征都会被转变为指标变量,值为0(无/不存在)或1(是/存在)。数值变量均以具体数值表示。等级变量转换为数字等级后按具体等级表示。为了避免缺失值造成统计检验效能的降低和偏差,将特征集中缺失数据通过链式方程进行多重插补[11]。

模型学习和验证

用于预测POD的机器学习算法模型包括:梯度提升决策树(gradient boosting decision tree, GBDT)、支持向量机(support vector machines, SVM)、随机森林(random forest, RF)、逻辑回归(logistic regression, LogR)、K最邻近法(K-nearest neighbor, KNN)、深度神经网络(deep neural networks, DNN)。为了进行模型开发,将整个数据随机分为训练集(75%)和测试集(25%)。使用机器学习算法程序sklearn模块中的train_test_split工具对训练集与测试集进行随机划分,训练集与测试集中POD发生率相同。GBDT使用决策树作为基础学习器,对一系列树的预测进行多轮迭代求和[12],在每个步骤中,都会训练一个新的决策树来拟合实况和当前预测之前的残差。SVM代表了一类相对较新的方法,其关键特征是尝试通过使用所谓的结构风险最小化来最小化训练数据的误差并降低模型的计算复杂度以及避免过拟合[13-14]。RF结合了多个决策树的集成分类器,基于树的回归的集成方法来确定一组预测变量的响应,不依赖于数据分布的假设。LogR通过迭代循环识别自变量的最强线性组合,在检查多个变量时会提供更多的信息。KNN是一种非参数算法,包含了许多模式分类问题的基线分类器,如模式识别、文本分类、对象识别、事件识别等[15],无论数据大小,都不存在参数或固定数量的参数,其参数将由训练数据集的大小决定,不需要对基础数据的分布进行任何假设。DNN通过学习实例来近似函数和动态。利用统计学方法从原始感官数据中提取高级特征,从大量数据中获得有效的输入空间特征。使用5折交叉验证进行对训练数据集(75%)的学习[16],进一步将训练数据集等比例平均分成5个子集,每个子集分别做一次验证集,其余四个子集作为训练集进行学习,其中进行参数设置和调整,交叉验证后会得到5个子模型结果,基于交叉验证的AUC的优化取5个子模型的平均得分,来确定每种分类器的最佳模型,达到更客观准确的评价效能。最终使用保留的25%的测试数据集进行验证评估。

统计分析

采用SPSS 23.0进行统计分析。正态分布计量资料以均数±标准差表示,组间比较采用独立样本t检验;非正态分布计量资料以中位数(M)和四分位数间距(IQR)表示,组间比较采用Kruskal-Wallis检验。计数资料以例(%)表示,组间比较采用χ2检验。P<0.05为差异有统计学意义。

机器学习模型的开发使用Python 3.8,集成开发环境Pycharm 2020.1.2。采用机器学习方法,基于特征工程筛选特征重要性。根据以下标准在测试数据集中比较各模型的性能[17]:准确率、精确率、召回率、F1分数、受试者工作特征曲线(receiver operating characteristic curve, ROC)及ROC曲线下面积(area under curve, AUC)。机器学习性能指标基于以下方法:准确率=(TP+TN)/(TP+TN+FP+FN);精确率=TP/(TP+FP);召回率=TP/(TP+FN);F1分数=2/([1/召回率]+[1/精确率])。FN,假阴性率;FP,假阳性率;TN,真阴性率;TP,真阳性率。

结果

本研究共纳入患者710例,其中151例(21.3%)发生POD,以训练集(75%)与测试集(25%)进行划分后,其中训练集533例,测试集177例(表1)。

49841685401311351

通过机器学习中的SHAP程序包对18项因素权重的分布进行决策路径的分析。Y轴左侧为对POD结局有统计差异的18项因素,Y轴右侧蓝色到红色的路径表示变量值的大小;横坐标正值表示偏向影响POD,负值表示偏向对POD无影响。术前焦虑评分、抑郁评分、术后寒战发生率、术后疼痛评分、二尖瓣手术比例、既往有外周血管疾病史和肺部疾病史比例、年龄、ICU停留时间、术前曾暂停手术、独居比例越高(越接近红色),其结果越偏向导致POD的结局;而MMSE评分、身体质量指数、文化程度越低(越接近深蓝色),其结果越偏向导致POD的结局(图1)。

68191685401311565

通过模型特征工程,采用随机森林算法进行特征重要性的排序,各个特征重要性的比较见图2。

76621685401311753

基于六种机器学习模型算法在训练数据集上进行的交叉验证的结果,使用ROC曲线进行比较(图3),其中在GBDT和RF的算法下,5折交叉验证的AUC达到了更高的水平,面积更大,更接近于1,表现出较好的训练结果。

18881685401312523

六种预测模型对测试数据集的ROC曲线图见图4,测试数据集中各个模型预测POD的算法,包括接收者操作特征AUC和95%CI见表2。

16291685401312671

31071685401312741

讨论

本研究开发并单中心验证了6种基于机器学习的模型,每个机器学习模型都以独特的方式处理分类问题,因此各个模型在进行预测时具有相对的优势和不足。性能上,优先选择能够使性能最大化的算法,在处理不平衡数据时,具备较强的泛化优势。可解释性上,缺乏解释性可能是模型成功或失败的决定性条件,所以存在可解释性问题时,基于回归和决策树的分类器是很好的选择。复杂性上,一种复杂的模型在数据中可能会发现更多模式,复杂性越高,性能就越好。数据量上,为了获得更好的训练结果,真正需要的数据根据特征比例的量,以及数据的平衡分布决定的,其中以DNN和KNN在处理数据方面较为出色。维度上,数据集的垂直大小代表拥有的数据量,水平大小代表特征的数量,垂直维度取决于样本量,在考虑垂直维度后,水平维度会增加模型的复杂性,模型特征越多,对结局就会有更多的解决方案。在综合对比以上5个方面后,选择了6种机器学习模型,以便于用丰富的数据集来识别最准确预测POD的模型。

本研究结果显示,GBDT和RF模型的算法和预测结局效能最好,能初步实现预测POD的能力。GBDT和RF是以决策树作为基础学习器,最终结果是由多棵树一起决定,提示在本研究中,决策树的基础算法更具优势[18]。单独使用决策树算法时,存在过拟合的缺点,故通过梯度提升的方法和集成多棵决策树来响应各变量以解决过拟合的问题。GBDT通过减少模型偏差提高性能,RF通过减少模型方差提高性能,在本研究中,二者对数据框架的拟合较其他模型更好,其性能和稳定性都优于其他模型。

传统的关于预测POD模型研究往往受限于数据收集及统计学处理,为缩小范围会限定于某一特定的群体(例如高龄、某一具体术式等),POD发生率更高[19-20],产生的偏倚使结果并不能完全反映临床实际情况。POD的发生机制涉及多个学科的内容,杂糅且难以界定。只有纳入全部类型的患者,尽可能完善全面的参数,深入挖掘才能找到深层次的原因。机器学习相对不受统计学方法的限制,故本研究纳入的年龄范围较广,目的是使预测模型能更精准,泛化能力更强。

通过统计学方法得出的差异和通过随机森林法则筛选后得到的特征重要性排序比较显示,统计学意义上的差异与机器学习的特征重要性排序不能完全对应。机器学习中的特征重要性模块对数据特征做了特征归一化处理,基于树的集成模型,在所有单棵树上该特征重要性的一个平均值构成了特征的重要性。机器学习的量化模型响应的是各变量与因变量间的关系强弱,而统计学上的P值是检验可信度的一个指标,其检验是决定拟合方程的可靠程度。传统的数理学统计离不开基于显著性的假设检验,但往往在相同的研究不同的数据中,由于分组的差异,根据P值可能会得出相反的结论,不仅浪费研究时间,还会误导决策[21]。机器学习可以在不满足假设条件的数据上进行特征的选择,从宏观上考量每种参数的重要价值。在确定变量在分类中的作用时,随机森林是一个很好的分类器模型,特征重要性可以很直观的了解哪些变量在分类模型中具有较高的影响力。

此外,术前的基线认知功能状态的评估是有价值的,术前抑郁、焦虑和简易精神状态的评估在特征工程中占很大权重。Lee等[22]研究表明,在加入或不加入术前认知功能的两组选定特征集中做比较,当样本的特征集中包含了术前认知功能评估时,模型的预测性明显提高。Taylor等[23]研究表明,全特征集下机器学习模型的性能会更好。在全特征集条件下,通过特征测试的结果,机器学习能发现以前被忽视的POD预测因素,将微小的或潜在的变量通过赋予一定的权重,使其向量和像树状图一样集中到一起,最终指向结局。特征的分类越细致,模型的学习效果就越好,使用的特征越多,建模的精度就越高,最终模型的顶部特征就会来自不同类别的特征[24-25]。

POD本质上是一种复杂的、多因素的状况,预测模型的整体性和跨人群概括的能力相对有限,未来可以通过扩大样本量,利用机器学习的整体能力广泛进行学习,深入内涵的挖掘潜在的预测因子,在大量资源中找到一种自动筛查POD的机制[26],从而强化机器学习的泛化能力。通过使用多种机器学习的算法,能够根据在临床中从入院时就开始获取或收集患者的变量,以中等准确度预测POD的发生。一旦预测算法被开发,还可以进行随机对照试验,观察在围术期实施算法模型后,是否会降低POD发生率以改善预后。

此外,本研究也存在一些局限性。本研究仅使用单中心数据,使用的样本量相对机器学习的处理容量来说相对不足。当机器学习应用于更大的样本量时,性能可能会有所不同。本研究结果的有效性对于外部的数据构架的预测可能是有限的,重要的预测因素可能因机构的不同而有所差异。每个机构可以使用机器学习方法根据具备的条件选择及补充预测模型,使用电子病历中的历史数据并定期更新完善相关模型。

综上所述,机器学习算法开发的预测模型可用于心脏手术后POD的预测。基于本研究数据,不同模型的预测效能存在差异,AUC范围从0.67到0.86,其中GBDT和RF表现出了较好的机器学习效能,适合于本研究数据框架,更有可能提高POD预测的准确性。未来可进一步进行多中心研究来验证通过GBDT和RF进行的更好的预测。

参考文献略。

DOI:10.12089/jca.2023.04.005

END

免责声明:

本公众平台所刊载原创或转载内容不代表米勒之声的观点或立场。文中所涉及药物使用、疾病诊疗等内容仅供医学专业人士参考。

END

编辑:MiLu.米鹭

校对:Michel.米萱


不感兴趣

看过了

取消

机器学习,数据集,模型,研究

不感兴趣

看过了

取消

相关阅读

赞+1

您的申请提交成功

您的申请提交成功

确定 取消
海报

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交