DL为医学数据分析创造了新的可能性,在神经外科领域引起了大量的关注。
深度学习(DL)是一种强大的机器学习技术,越来越多地被用于预测手术预后。然而,DL模型有效性和重复性的重大障碍是需要大量数据和缺少模型可解释性。本研究的目的是系统回顾涉及神经外科预后预测的的DL研究的特征,并评估其偏倚和报告质量。我们使用PubMed、Scopus和Embase数据库检索文献,发现了1949条记录,其中纳入了35项研究。其中32个(91%)开发并验证了一个DL模型,而3个(9%)验证了一个已存在的模型。最常见的亚专科区域是肿瘤学(16 of 35,46%)、脊柱(8 of 35,23%)和血管学(6 of 35,17%)。18项研究的偏倚风险较低(51%),5项研究(14%)不清楚,12项研究(34%)较高,最常见的原因是数据质量不足。对个体预后或诊断报告标准的多变量预测模型的透明报告的依从性很低,每个研究未报告的个体预后或诊断项目的多变量预测模型的中位数为12个透明报告(39%)。因为只有3项研究(9%)提供了代码,
2项研究(6%)提供了最终模型,模型透明度受到严重限制。除了公共数据库外,没有现成的研究数据集。没有研究表明DL模型可供临床使用。将DL用于神经外科预后预测仍处于起步阶段。缺乏适当的数据集是造成偏倚的一个主要问题。虽然研究已经取得了良好的结果,但需要提高模型开发和报告的透明度,来促进研究的重复性和验证。
关键词:人工智能,数据库,深度学习,机器学习,预后
近年来,包括深度学习(DL)在内的机器学习策略的使用已经扩大,也极大的影响到了卫生保健。DL在各种数据分析任务中都优于传统的机器学习方法,而不断增长的数据收集和计算能力使越来越复杂的DL技术在医学上的应用成为可能。患者将从基于dl的个性化医疗方法中获益,而神经外科对于这一趋势也不例外。预后预测是一个潜在的影响领域,已经有了重大的研究成效。作为一种风险分层工具,dl可以为手术获益不明确的患者的临床决策提供支持。
DL是基于人工神经网络的,计算结构预后预测基于它们的生物对应物。
深度前馈神经网络(DFNNs)是最简单的DL体系结构,可以操作许多数据类型。图1给出了一个基本的DFNN的示意图。其他的DL体系结构包括卷积神经网络,它通常用于图像数据,以及循环神经网络,它操作按顺序组织的数据如文本1。表1给出了本文中遇到的每种DL体系结构的描述。尽管DL研究很有吸引力,但DL并非没有局限性,需要对其方法、有效性和可重复性进行批判性的审查。虽然传统的机器学习模型可以直接询问输入变量和模型输出之间的关联,由于DL模型具有更大的规模和数据复杂性,限制了它们的可解释性,并增加了对严格的临床前测试的需要。此外,DL模型的性能依赖于训练数据的质量和数量。在神经外科等专业领域,由于患者数量有限,获取适合DL模型训练的数据集仍然具有挑战性。外部数据库常用于神经外科研究;然而,许多并不是神经外科特有的,从而引起了质量和适用性方面的担忧。最后,DL研究缺乏报告标准限制了模型的可解释性和可重复性。本研究旨在系统地回顾神经外科DL预后预测研究的特点,特别关注其方法学、报告质量和偏倚风险。此外,我们还希望提供提高透明度的建议,并支持神经外科中DL研究的未来验证。
方法
根据系统回顾和meta分析指南的首选报告项目,我们对DL在神经外科预后预测中的应用进行了系统回顾。该回顾的方法没有被登记过。通过以“神经外科”、“预测”和“深度学习”作为关键词,对PubMed医学中心(国家医学图书馆)、“Scopus.Embas”的数据库进行了查询。没有设置任何时间范围限制。
删除重复记录后,研究首先通过标题和摘要进行筛选,然后通过全文审查筛选最终纳入。研究的选择是基于以下纳入标准进行的:同行评审的原始研究,英语语言,全文可用,并使用DL模型对接受神经外科手术的患者进行预后预测。DL根据LeCun等人的定义,包括至少有一个隐藏层的神经网络模型。除全文文章外的研究也被排除在外。
两位审稿人(J.H.和N.A.S.)独立筛选了所有的文章。分歧通过讨论得到了调和。数据提取由一名审稿人(J.H.)基于预先指定的标准进行。采用Mann-WhitneyU检验来比较数据集的大小。由于研究的异质性,我们进行了定性数据综合,以描述本综述中包含的DL研究的设计、报告和可重复性。采用偏倚风险评估工具(PROBAST)来评估偏倚风险. 它可以在开发临床结果预测模型的研究中确定偏倚的风险,包括跨越4个关键领域的20个信号问题:参与者、预测因子、结果和分析。对所有信号问题都进行了评估,该项目评估了最终模型中的预测器权重分配,除项目4.9外,由于其复杂性,不适用于DL模型。
结果
我们于2020年12月20日进行了文献检索,确定了1949条记录(图2)。其中回顾了140篇文章,有35篇纳入最终分析。表2提供了本审查中使用的DL术语的术语表。
研究特点
表3总结了研究特征。2020年发表了22项研究(63%),2019年发表了7项(20%),2018年发表了5项(14%),2018年之前发表了1项(3%)。北美占14项研究(40%),亚洲占10项(29%),欧洲占10项(29%)。最常见的神经外科亚专科领域是肿瘤学(16 of 35,46%)、脊柱(6 of 35,23%)和血管学(6 of 35,17%)。最常见的手术预后是生存时间(10 of 35,29%)和功能状态(8 of 35,23%),最常见的是改良Rankin神经功能障碍量表。在19项研究(54%)中,将DL模型与其他机器学习模型进行了比较,其中14项研究(40%)认为DL取得了优势。没有研究表明DL模型已经准备好供临床使用。
数据来源
主要数据来源为25项研究的机构数据库(71%),9项研究(26%)的外部数据库,1项研究(3%)的调查数据。除一个机构数据库外,所有机构数据库都包含单一机构数据,而其余数据库包含2个机构。在使用的9个独特的外部数据库中,只有3个是特定于神经外科的(BraTS、DaneSpine和Mrclean)。中位数数据集大小为154(四分位数范围77-1195,范围17-101 654)。在预测二元结果(69%)的24项研究中,类别不平衡很显著,中位结果患病率为0.30(四分位数范围0.21-0.39,范围0.015-0.48)。在两项使用临床变量作为预测因子的研究(P=.008,n=16)和使用成像的研究(P=.001,n=15)中,使用数据库作为主要数据源的研究有更大的数据集规模。
模型开发和验证
32项研究(91%)进行了DL模型的开发和验证,而3项研究(9%)进行了预先存在的DL模型的验证。6项研究(17%)在一个不同于训练数据集的数据集上外部验证了DL预测模型,其中2项研究(6%)使用来自不同国家的数据进行了验证。一项研究(3%)进行了时间验证。内部验证是其余25项研究(71%)中唯一的验证技术。临床单变量是最常用的预测因子(16 of 35,46%),其次是单独成像(9 of 35,26%)、临床变量和成像(6 of 35,17%)、临床文献(2 of 35,6%)和连接体数据(2个35,6%)。在进行数据增强的9项研究(26%)中,5项(14%)使用了合成少数类过采样技术,4项(11%)对输入图像进行了空间转换。5项研究(14%)使用归因解释缺失数据。
17项研究(49%)使用DFNNS,15项(43%)使用卷积神经网络,4项(11%)使用循环神经网络。10项研究(29%)采用了现有的DL架构,最常见的是VGG(3of35, 9%)、ResNet(2of35,6%)和U-Net(2of35,6%),所有这些研究都对图像数据进行操作。19项研究(54%)提供了超参数,12项研究(34%)报告了培训硬件。在32项开发研究中,29项(91%)描述了预防过拟合,20项(63%)使用交叉验证,15项(47%)使用退出。有两项研究(6%)使用了专有的DL模型。
偏倚风险
在18项研究中,使用PROPAST评估的总体偏倚风险较低(51%),在5项研究中不明确(14%),在12项研究中较高(34%)(图3)。表4为最常被评为导致高或不明确偏倚风险的PROPAST项目。表3给出了研究偏倚的潜在来源。
报告质量
有四项研究(11%)支持使用任何报告检查表。总体TRIPOD依从性较低,每项研究的中位数为12个项目(39%)(图4)。在标题/摘要和结果领域的报告特别差,分别为14%和52%。只有3项研究(9%)提供用于模型开发的代码,而2项研究(6%)提供最终训练的模型。另外两项研究(6%)表明,代码和训练模型都可以从作者处获得。
讨论
我们对在神经外科中进行预后预测的DL研究的方法、报告质量和偏倚风险进行了评估。在过去的几年中,DL在神经外科预后预测中的应用呈指数级增长,包括了广泛的亚专科和疾病。然而,由于与传统的机器学习方法相比,DL方法缺乏可解释性, DL研究的设计和报告以最大限度地提高模型的有效性、透明度和重复性为主。
综述表明,神经外科DL研究在这些领域有很大的改进空间。在本综述中遇到的超过三分之一的研究被认为有很高的偏倚风险,这在很大程度上是由于数据质量的缺陷。这些潜在的偏差应该根据神经外科DL研究的新颖性来考虑,并进行检查,为未来的研究提供最佳实践。然而,对DL研究的报告不佳会使问题复杂化,并限制研究人员对已发表的工作进行批判性评估和构建的能力。我们的研究结果强调了增加数据可用性,模型开发代码和最终模型的发布,以及遵守标准化报告指南,为DL模型的临床部署奠定基础。
DL的临床相关性
确定手术干预的理想患者仍然是神经外科的一个主要问题。本研究中包含的DL模型预测了不同的的临床结果,证明了DL在解释复杂临床数据方面的适用性,往往优于传统的机器学习技术。这种个性化预后工具的临床结合可以对基于价值的护理和以病人为中心的决策有帮助。
鉴于其潜在的临床影响,预测模型必须保持在一个高标准的有效性。由于验证不当的DL模型可能在不同的环境中表现不同,因此在临床采用之前,必须对异质性患者队列进行表现评估。重要的是,本综述中包含的研究很少进行外部验证,也没有人在临床环境中验证DL模型或表明该模型已经准备用于临床。临床验证需要强大的外部验证,这反过来又依赖于数据集和模型可用性的透明报告和协作。
一般来说,由于缺乏随机对照试验的前瞻性验证和评价,而且缺乏DL研究的报告质量,DL在医学上的应用受到限制。DL在神经外科中的临床验证的主要局限性源于缺乏对相关数据集的获取和较差的DL模型报告。随着DL的可能性越来越大,神经外科医生在考虑临床应用之前了解其缺点是很重要的。
数据质量
获取高质量的数据仍然是DL在神经外科中使用的最大挑战之一,与患者数量较高的专业相比,可能会限制DL的应用。“垃圾输入,垃圾输出”这句话是DL模型的一个永恒问题,如果给出有缺陷的数据,它会产生不可靠的预测或无法进行训练。在回顾的研究中,两种最常见的高风险因素涉及数据质量缺陷。较小的数据集大小和高度不平衡的数据可能会限制模型的性能和通用性。
DL的合理使用要求研究人员评估现有数据的适用性。缺少的数据可能会限制数据集的大小,特别是在外部数据库中。使用数据推断方法,如预测均值匹配,可以使可用的训练数据最大化。但是由于DL模型的复杂性使它们容易发生过拟合,特别是在较小的数据集中,而传统的机器学习方法可以表现得相当好,并应包括在DL模型性能的评估中。DL研究应该报告整个模型选择过程,并证明最终模型的选择,这将为模型性能提供标准基准,并有助于阐明DL最适合回答的问题。
当试图预测罕见的结果如手术并发症时,类别失衡是一个重要的挑战,必须加以解决,以免使DL模型的性能产生偏差。合成少数过采样技术是一种常用且易于实现的生成少数类数据的对策。对大多数类数据的随机采样不足是另一种选择,在使用高维数据时可能更合适。尽管类别失衡和数据缺失的发生率很高,但这些技术在回顾的研究中很少使用,这表明DL模型可以仅仅通过提高训练数据质量而得到改进。这些方法还可以分析以前被忽视的数据集。
数据可用性
对高质量神经外科数据库的有限访问最终限制了DL研究的临床相关性。大多数研究使用的是内部的单一机构数据集,而没有现成的机构数据集。机构数据集的发表将为神经外科研究人员提供更多的机会来探索临床问题和比较各种模型的效用。然而,数据发布必须考虑到患者的保密性和隐私标准。
外部数据库中只有三分之一是神经外科特有的,这在本综述中很常见,并且具有优势,因为它们聚集的患者比单一机构更容易获得。不出所料,使用此类数据库的DL研究比依赖机构数据的研究有更大的患者队列。外部数据库的使用也避免了手工进行数据抽象的需要,这是充分利用电子健康记录中捕获的信息的一个主要障碍。虽然这些因素使非神经外科数据库对DL研究特别有吸引力,但由于相关变量的收集有限和数据完整性不确定,这些数据库可能不适用于神经外科研究,并可能导致DL研究的偏倚。使用神经外科特异性数据库,如国家神经外科质量和结果数据库,可能会减轻这种担忧,尽管需要对这些外部数据库对神经外科DL研究的适用性进行更仔细的研究。这可以在某种程度上通过使用外部数据库验证DL模型来实现。
为了克服数据质量的限制,需要加强在数据共享和DL模型开发方面的协作。其中一个例子是BraTS,一个来自19家机构的胶质瘤患者术前多模态磁共振成像扫描数据库,结合年度医学图像计算和计算机辅助干预(MICCAI)竞赛,已导致许多出版物使用DL进行脑肿瘤分割和生存预测。另一个很有前途的策略是联合学习,它需要在单独的数据集上对DL模型进行分段训练,从而绕过了不同机构之间的数据共享的需要。尽管对于有限的数据可用性,可能没有普遍可行的解决方案,但增加在神经外科领域的DL研究人员之间的合作将促进更稳健的DL模型的开发和验证。
报告透明度
神经外科研究的可重复性,特别是鉴于数字医学的新趋势,一直是一个值得关注的话题。与传统的机器学习方法相比,DL存在可解释性问题,这表明模型开发的透明度尤为重要。本综述中评估的DL研究的透明度有限,这表明对TRIPOD报告指南的遵守程度不一致,只有4项研究报告使用了所有报告指南。更多地采用报告标准,如TRIPOD和即将到来的以人工智能为重点的TRIPOD-AI17和诊断准确性研究报告标准-人工智能(STARD-AI)71仪器,将支持更大的可解释性,并确保在神经外科文献中进行彻底的全面报道。
在经过评审的文章中,对代码和最终模型的访问是有限的,这对重复性构成了另一个重大障碍。尽管神经外科相关期刊之间的数据共享策略不一致,但存在72个像GitHub这样的在线存储库,是为了促进代码或训练有素的模型发布,而代码发布是其他学科的实践标准。此外,鉴于代码和经过训练的模型不包含受保护的健康信息,它们比机构数据集更容易共享,增加代码和训练模型的可用性将显著提高神经外科DL研究的可重复性。
局限
这项研究也有其局限性。由于我们的研究重点是使用DL来预测手术预后,所以在神经外科中执行其他任务的DL研究,如图像分割不包括在本综述中。然而,我们选择将本研究的重点放在预后预测上,是因为DL技术的范围广泛,以及其潜在的临床影响和对执业神经外科医生的相关性。此外,由于DL方法和相关术语的异质性,我们的搜索可能遗漏了相关文章。我们的研究结果也受到发表偏倚的影响。用于评估报告质量和偏倚风险的TRIPOD和PROBAST指南并不是专门为DL研究而设计的。虽然我们对它们进行了修改以提高适用性,但可能与DL研究相关的其他信息我们没有评估到。最后,偏倚评估的风险本质上是主观的,不同背景的评分者可能会有所不同。
结论
DL为医学数据分析创造了新的可能性,在神经外科领域引起了大量的关注。然而,DL在神经外科预后预测中的应用仍然处于起步阶段,主要受到数据局限性和模型报告不佳的阻碍。扩大模型的透明度,密切遵守报告标准,以及提高对减轻DL偏倚风险的方法的认识,将提高神经外科DL研究的可重复性。我们建议研究人员和期刊编辑更加重视报告标准的标准化采用,如TRIPOD,作为确保神经外科DL应用的重复性的第一步。需要增加更多的合作努力来提高数据的可用性,并强调外部验证,以更好地阐明DL在神经外科预后预测中的作用。
编译:陈海燕
审校:王增涛
原文链接:Huang J, Shlobin NA, DeCuypere M, Lam SK. Deep Learning for Outcome Prediction in Neurosurgery: A Systematic Review of Design, Reporting, and Reproducibility. Neurosurgery. 2022;90(1):16-38.
声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您