【神麻人智】持续深度强化学习用于全麻期间丙泊酚的给药
目的:全身麻醉期间,麻醉医生须同时管理患者多方面生命体征监护,镇静催眠药的自动化给药能够更精确地控制患者无意识水平,使麻醉医生能够专注于监护患者其他方面的关键体征。强化学习(reinforcement learning,RL)算法具备学习复杂的控制给药方案的性能,与现代技术应用模型相结合,将有助于临床开发有效的麻醉药物自动给药系统。
方法:我们在之前强化学习工作基础上,利用基于RL的actor-critic模型,将深度RL应用于麻醉期间自动给药。RL由策略网络及估值网络所构成,策略网络能够将患者麻醉状态转化为丙泊酚输注的连续概率密度,而估值网络用于评估患者麻醉状态的有效性。本研究通过使用不同函数训练和测试三种RL模型,利用随机参数的模拟药代动力学/药效学模型对药物给予进行训练,以确保针对不同患者个体差异间的有效性,评价最佳模型效能,并使用手术室内全麻病例进行回顾性测试分析,借助Shapley解释法评估对决策影响最大的因素。
结果:深度RL智能体系显著优于比例积分-微分(NPI)控制算法,使用最小化总剂量获取的模型在模拟患者中的表现最佳;运用于真实的临床数据时,模型所推荐的剂量能够与麻醉医师的给药剂量效果一致。
背景
19世纪40年代乙醚麻醉的出现将外科手术从创伤转变为安全而人性化的治疗,目前美国每天有近60000名患者接受手术全身麻醉。麻醉是一种可逆的药物诱导状态,其特征是遗忘、制动、抗伤害和意识消失。在整个手术过程中,麻醉医师往往使用吸入性或静脉内药物来管理患者的麻醉状态。虽然麻醉状态由许多生理特征所组成,但其中对患者无意识水平(level of unconsciousness,LoU)状态的调控备受关注。目前使用最多的静脉麻醉药物是丙泊酚,其会影响大脑皮层和觉醒中枢剂量依赖性地诱导意识丧失。术中需维持丙泊酚剂量平衡,以使患者保持足够的麻醉深度,避免术中知晓,剂量过高则会显著增加不良反应,如异丙泊酚输注综合征。目前麻醉医师可以手动计算和注射或使用靶控输注,其中麻醉医师设置大脑麻醉下所需的丙泊酚浓度,输注泵根据患者的平均水平,给予药物并调整输注速率。
闭环麻醉输注系统
麻醉药物输送的自动化有助于精确控制患者的无意识状态,使麻醉医师的精力能够部分得到解放,同时确保患者使用最适剂量的麻醉药物提高麻醉质量。研究表明与手动药物滴定相比,自动药物输送系统能够更可靠地维持所需的意识水平,减少麻醉药物使用剂量与相关并发症。自动麻醉给药系统的开发需三个主要部分:测量、建模和控制。首先,测量涉及自动获取患者的意识水平。意识水平最常用的表示是脑电双谱指数(BIS)、患者状态指数(PSI)和突发抑制概率(BSP)。BIS和PSI使用频谱EEG特征的组合进行计算,并直接内置于商用EEG监测仪中。这些意识水平指数均在一个有界区间内,最大值和最小值代表完全意识(即系统中没有任何镇静催眠药物)和脑死亡。使用状态空间模型计算爆发性抑制(burst suppression,BS),爆发性抑制是一种仅在深度无意识状态下出现的脑电图模式。因此,BS可能性的计算有助于ICU患者麻醉药物的精确靶控,而对于术中使用闭环输注系统,应尽可能避免麻醉过深的无意识阶段。因此,手术室内倾向于使用BIS或WAVCNS评估患者的意识水平。建模涉及开发药代动力学(PK)和药效学(PD)模型,以了解患者的意识水平,并及时调整药物剂量,但是,对于意识水平的调节,算法性能往往受到线性假设和/或相关参数数据来源模型的限制。
强化学习
强化学习(RL)是一种优化控制模式,具有与环境交互学习灵活优化的奖励系统。RL方法可以是on-policy,从自身操作的结果中学习,也可以是off-policy,从其他操作(即从数据库)中学习。基于RL的控制器可以是无模型的,使用深层神经网络作为RL(称为“深层RL”)已被用于从重症监护病房数据库、移植病历系统,及模拟肿瘤对化疗的反应。回顾性(即使用数据库或注册表)的RL研究常常不具备自动学习功能;另外,有研究显示由于多种混杂因素,药物剂量与测量效果相关的观察性研究(即回顾性)往往存在误报真实药物/效果关系的风险。
方法
本研究首次将持续性深度RL应用于全身麻醉给药,通过使用来自模拟PK/PD模型的数据,构建RL框架用于训练神经网络,使用深度神经网络可以使模型的参数数量与策略图的输入数量成线性比例,避免在扩展表格策略的输入维度时出现指数增长,由此产生的策略可以表示非线性函数。我们研究开发了一个数学模型,用于学习如何使用丙泊酚来控制意识水平。RL框架涉及控制器和患者之间的交互,通过评估训练期间的执行性能,获得奖励来学习改进性能,对模型进行效能评价,包括使用数据库对其进行模拟,即使用回顾性全麻病历进行评价,缺点是无法对RL进行实时评估患者的反应,完成测试后,我们利用(SHAP 值)输出模型的结果。
图1:情景模型中的环境与事件间的交互框架图。环境的主要组成部分是患者模型,由PK模型和PD模型组成,PK模型决定丙泊酚全身分布情况,PD模型决定大脑中给定药物浓度引起的效应水平。
结果
1:使用系统病历比较各模型性能
使用1000例检测病历测试模型的执行性能,图4显示的是3种训练模型(无惩罚模型、剂量惩罚模型、过度剂量惩罚模型即超过目标意识水平给予双倍的剂量补偿)和PID(proportional/integral/derivative:比例、积分、微分)控制器的平均百分比误差 (mean absolute percentage error,MAPE) 平均百分比误差以及误差的范围;所有模型的均值均低于PID控制器,其中剂量惩罚模型模型性能最佳,结果提示PID控制器出现剂量过负荷的机率最高;而过度惩罚模型的MAPE更易出现极端值。
图2:1000个模拟病例中各种控制器的执行性能比较
图3显示的是真实场景的模型轨迹趋势图,主要参考指标为真实的意识水平(LoU)以及目标LoU,其中PID控制器与无惩罚模型出现异常的概率最高,与这形成对比的是,剂量惩罚模型很少出现偏倚以及执行偏差。
图3:各模型和控制器的真实与目标的意识水平(最佳、中等、最差MAPE)
2:模型释义
模拟测试中使用SHAP值明确药物剂量变化所造成的影响,使用深度RL的剂量惩罚模型,关键影响因素为意识水平(LoU)错误、效应浓度的估算(图4)。
图4:剂量惩罚模型随时间进展的SHAP值评分。B为诱导期,C为整个全麻期
3 回顾性手术室病例测试模型性能
鉴于剂量惩罚模型在模拟的测试中显著优于其他模型,研究选择该模型进行回顾性应用于手术室全麻病例中。图8显示麻醉过程中麻醉医师给予的剂量、模型对6例患者给予的推荐剂量,实际意识水平LoU和假定的目标LoU。正如预期的那样,该药物推荐的剂量高于麻醉医师即刻给予的剂量,但随后30-60min内均会回到麻醉医师给药的水平。
图5. 回顾性分析全身麻醉病例的结果;上图:麻醉师使用的药物剂量(紫色)和RL剂量惩罚模型(绿色)给出的剂量建议。底部:以5s(金色)分辨率的LoU和30min的LoU平均值。
结论
本文首次将深度RL算法运用于全麻期间丙泊酚连续给药,RL训练算法使用的回归函数可以灵活设计,通过系统地开发、建模、测试不同模型间的性能、使用临床病例进行性能验证,通过对学习策略的仔细分析、自动给药技术的释义,模型能够使全麻期间麻醉药物的剂量达到临床最佳实践的水平。
编译:郑姗姗;审校:罗猛强
原文链接:Schamberg G, Badgeley M, Meschede-Krasa B, KwonO, Brown EN. Continuous action deep reinforcement learning for propofol dosingduring general anesthesia. Artif Intell Med. 2022 Jan;123:102227.
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读