专家增强的机器学习

2021
04/19

+
分享
评论
古麻今醉
A-
A+

点击“蓝字”关注,更多精彩内容! 

摘要

越来越多证据表明机器学习在跨学科领域的运用具有重要价值与前景,但机器学习的成功运用往往受到可用数据的质量与数量的限制,亦受限于既定模型的置信水平。现阶段仍主要是依靠经验性的比较人与机器学习的性能以决定某项任务应由计算机还是专家来执行,而实际上最佳的学习策略可能往往需要结合人和机器的综合优势。因此,本研究提出了专家增强的机器学习(expert augmented machine learning,EAML),一种自动化的方法以指导专家知识的提取并将其应用至机器学习的模型中。研究使用了一个大型的重症监护病人数据集,衍生出126个预测医院死亡率的决策规则, 随后15名临床医生对每个规则亚群进行评估,并与总体样本相关风险相比较。研究者通过将临床医生所评估的风险与经验性风险评估相比较,发现多数情况下与临床医生的意见是一致的,但也有明显例外高估或低估了真实风险。研究者发现训练数据集的问题,包括一个错误编码的变量和一个隐藏的混杂因素,根据临床医生评估的风险和经验风险之间的不一致程度过滤数据,加强对样本外数据的执行性能,并能够用较少的数据完成训练提高效率。本研究结果表明EAML将有助于在关键应用程序中构建强大而可靠的机器学习模型。

研究背景

机器学习(machine learning, ML)的运用已日益广泛与成功,但往往数据效率低下导致无法推广到新领域中。与此相对应的是,人类却能够通过使用已有知识,用更少的数据进行学习。因此,创建一个通用的方法来提取和利用人类已有的知识是ML未来研究的基础。专家系统在20世纪60年代引入,并在20世纪80年代和90年代初普及,是一种模仿人类决策以解决人工智能所遇到的问题。其涉及到多个“如果-那么”(”if-then”)规则的硬编码,这些规则是由领域专家所精心设计的,但这种方法并不可靠,因为其常需要大量的规则但却无法自动生成这些规则。在实践中,这种方法通常使得规则不完整和性能较差。因此,目前人们的注意力主要集中在不需要人工干预的ML算法。最近,英国医学研究理事会的预后研究战略同盟发表了一系列建议,以建立一个临床预测模型开发框架,强调人类专家监督模型培训、验证和更新的重要性。

学习算法能够利用数据的相关结构将一组特征映射到研究者所感兴趣的结果。这种映射的成功与否将取决于几个因素,而不是协变量中的实际信息量(也称为特征,也称为独立变量),包括数据中的噪声量、隐藏混杂因素的存在以及可用训练样本的数量。由于缺乏人类的基本常识,现阶段的ML算法常会犯一些简单的错误。例如,在一项经典研究中,一种算法被训练用来评估肺炎合并哮喘患者的死亡概率,其死亡风险甚至低于非哮喘患者。显然其预测结果被误导了, 但却是基于数据中真实的相关性所获得,因这部分患者得到了理应获得的更快、更积极的治疗,故而预后良好。因此,诸如以上这类模型的误用可能会导致灾难性的结果如使得哮喘患者过早结束治疗或治疗不足。

预测建模的性能取决于可用数据的数量和质量。在实践中,我们依靠人类专家来完成某些任务,而其他任务则依靠机器学习。然而,最佳的学习策略可能需要结合人和机器的互补优势。我们提出了专家增强机器学习,这是一种自动提取于特定问题的人类专家知识的自动化方法,并将其与机器学习相结合,以建立完整、可靠和数据高效的预测模型。在最近的一项研究利用胸部X射线与深度学习模型以检测肺炎(CheXNet),研究人员观察到卷积神经网络(convolutional neural network,CNN)优于放射科医生的整体准确性。随后的一项研究表明,CNN的一些预测是建立在图像伪影的基础上的,这些伪影可以识别肺炎患病率较高的医院,或者区分常规的和便携式的放射照片(后者是在病情较重的患者身上进行的),而图像中出现的病理情况反而被忽略了。研究还表明,当使用一家医院的数据训练模型来预测另一家医院的数据时,绩效会下降。

在医学等高风险领域的应用中, ML面临的最大挑战之一是自动提取和合并已有的知识,使ML算法能够推广到新病例,并用较少的数据进行学习。在本研究中,研究者假设将人类专家所拥有的关于因果和相关的生理知识与机器学习模型相结合,以提高模型的可推广性,即样本外性能。通过引入了专家增强机器学习(EAML),该程序允许训练模型具有以下特征:1)更少的数据,2)对潜在变量分布的变化更为稳定,3)抵抗性能随时间衰减。EAML不像早期的专家系统那样依赖硬编码和不完整的规则集,也不像目前ML算法那样依赖潜在的相关性,而是引导已有知识的获取来改进最终的ML模型。本研究使用2001年至2012年间在贝斯以色列女执事医疗中心(BIDMC)收集的、由Physinet团队发布的多参数重症监护智能监测(MIMIC)数据集来预测重症监护病房(ICU)患者的死亡率,以证明EAML的价值。

研究方法与结果

研究者对2001年至2008年间在BIDMC收集的MIMIC-II ICU数据集进行RuleFit训练(图1),使用流行ICU评分系统中包含的17个人口统计学和生理学输入变量预测医院死亡率, 产生了126条非零系数规则。通过对24508个案例进行70%/30%的训练/测试分割,RuleFit获得了74.4的测试集平衡准确度,而随机森林的测试集平衡准确度为67.3。此前,人们发现Random-Forest是MIMIC-II数据集算法库中的佼佼者。随后,一个由加利福尼亚大学旧金山分校的15名临床医生组成的委员会,将每个规则定义的亚群的风险与普通人群进行分类,而不显示经验风险。临床医生平均用41±19分钟回答126个问题。

图1:研究策略:

通过计算每个规则临床医生的评估均值,增加感知风险等级对规则进行排序。为了检验是否成功获得有效的临床信息,根据规则等级将分为五组(表2),并按组绘制经验风险图。正如预期的那样,临床医生对规则的平均排名与其经验风险(死亡率)之间存在单向关系(表3)。                                                           

表2:医师风险等级的离散度,按临床医师平均风险等级划分的死亡率。根据临床医生的平均评估,规则被分成五组。

ΔRank(delta Rank)有助于发现隐藏的混杂因素

研究者定义ΔRank=Ranke–Rankc,用以衡量临床医生与经验性数据的不一致。ΔRank在90%置信区间之外,则可能表明临床医生对给定亚群的风险判断错误,或者隐藏的混杂因素正在改变风险。

表3:使用随机森林模型预测死亡率相关评估变量的重要性(a)临床医生的评估;(B)尽管PaO2/FiO2在这两种情况下都是最重要的变量,但在前一种情况下被用于了解插管状态,而在后一种情况是基于其对死亡率的生理影响,临床医师作出反应的依据。

EAML 能够改善样本外性能

研究者通过多参数重症监护智能监测(MIMIC)数据集来预测重症监护病房(ICU)患者的死亡率,证明EAML的价值,如表4所示变量转换的一个例子,模型根据MIMIC-II数据进行训练,并使用临床医生与经验风险的一致性程度定义的不同规则子集,训练并对模型进行测试,通过检验清楚无效规则,有助于使用较少的数据完成训练。

表4:EAML 能够改善样本外性能

评述:

人工智能早已渗透至医疗健康的诸多领域,通过对平台数据库的整合与深度机器学习有利于辅助医疗、优化临床决策,近年来其在麻醉学领域的运用亦呈方兴未艾之势。2018年4月,美国食品药品监督管理局批准了第一个用于临床的人工智能软件系统,该系统可通过分析眼底图像来帮助诊断糖尿病性视网膜病。随着人工智能技术在医学领域的发展和应用持续增长,对于各个领域的临床医生来说,了解这些技术是什么以及如何利用它们来提供更安全、更高效、更具成本效益的医疗护理是非常重要的。本文中研究者通过引入了专家增强机器学习(expert augmented machine learning,EAML),一种从专家那里自动提取特定问题的临床知识并将其整合到ML模型中的方法。以往的工作常常是根据临床医生对个别病例的评估,利用所有可用的患者特征预测风险,但成功率有限。而本文中,研究者将原始生理数据转化为一组简单的规则,并要求临床医生评估这些规则定义的亚群相对于整个样本的风险。本文研究表明EAML具有以下性能:1)发现隐藏的混杂因素和临床医生知识的局限性,2)更好地概括潜在特征分布的变化,3)提高面对时间衰减的准确性,4)使用较少的数据进行训练, 5)说明所选模型的局限性使用从经验分布估计的交叉验证。之后,使用PhysioNet项目中的模拟数据集(重症监护患者的大型数据集)来预测医院死亡率。

总之,本文通过建立了EAML,将临床医生的知识及其不确定性纳入最终的ML模型。EAML不仅仅是一种正则化机器学习模型的不同方法,而且被设计用于提取不一定存在于训练数据中的领域知识。结合这些专家已获取的知识有助于该算法更好地推广到基础变量分布的变化,这些变化发生在physinet项目重建数据库之后,可以训练模型更稳健的精度。在临床医生同意经验数据的情况下,优先使用这些规则不仅可以产生更好的概括模型,而且可以用更少的数据来实现。EAML对ML算法的可解释性和质量评估具有良好的启示作用,能够解决ML中的准确性与可解释性的权衡问题,并允许在部署之前检查模型的所有规则,这对于建立预测模型的可信性至关重要。

编译:郑珊珊

述评:罗猛强 邓萌

原始文献:                             Gennatas ED, Friedman JH, Ungar LH,et al. Expert-augmented machine learning. Proc Natl Acad Sci U S A. 2020 Mar 3;117(9):4571-4577. doi: 10.1073/pnas.1906831117.

本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
机器学习,临床医生,数据集,死亡率,研究者,模型,算法

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!