传统统计分析基于做出假设和对假设进行检验,通过对于数据的线性、多重共线性的假设和对于比值比(OR)、危害比(HR)等 统计量 的计算来进行分析。
摘要
为了确定意识障碍患者(disorders of consciousness,DOC)的意识水平,静息态功能磁共振(rs-fMRI)已被广泛应用与检测DOC患者和对照组之间局部、区域和网络级别的活动差异。尽管此方面已经获得了部分实质性进展,但基于rs-fMRI意识水平生物标志物的识别仍有待发掘。最近的研究显示机器学习(machine learning,ML)在临床应用以区分意识状态是一种具有前景的工具。我们研究了经过训练的二分类区分有意识清醒和麻醉引起的无意识的机器学习的模型是否够可靠地识别病理性的无意识状态。研究提取了44名受试者在清醒、轻度镇静和无反应(深度镇静和全身麻醉)局部活动、区域同质性和区域功能活动在rs-fMRI的特征,并使用这些特征来训练三个不同的候选机器学习分类器:支撑向量机(support vector machine,SVM)、极端随机树(extra trees,ET)和人工神经网络(artificial neural network,ANN)。首先,我们表明,所有三个分类器都在数据集中(通过嵌套交叉验证)实现了可靠的性能,接收器操作特征曲线下的平均面积(AUC)分别为 0.95、0.92 和 0.94。。此外,因为接受过麻醉数据训练的几个分类器在区分无反应觉醒综合征/植物状态(unresponsive wakefulness syndrome/vegetative state,UWS/VS)患者组与健康对照组时显示出了一致的能力,平均AUC分别为0.99、0.94和0.98。我们用以观察预测DOC的数据集,得到了可比的跨数据集性能。最后,探索了应用上述分类器来区分中间意识状态的可能性,特别是在轻度麻醉镇静下的受试者和被诊断为具有最低意识状态(minimally conscious state,MCS)的患者。我们的研究结果表明,对来自麻醉参与者的 rs-fMRI 特征进行训练的机器学习分类器有可能帮助区分临床患者的病理性无意识程度。
1、引言
确定DOC患者意识水平仍然是一个具有挑战的临床问题,行为评估是主要诊断手段,但仅靠临床医生判断而没有标准化诊断,误诊率超过40%。改良昏迷恢复量表(Recovery Scale-Revised,CRS-R)等标准化的行为检查广泛应用,若未在短时间内重复评估患者,也可能发生误诊。在某些情况下,隐性意识可能是由于阻止运动活动的中枢神经系统损伤而发生的。全身麻醉期间的术中知晓是一种类似的现象,在报道的所有手术病例中有0.15%的病例有明确回忆;5%没有明确回忆。此外,一名健康受试者在丙泊酚麻醉期间的rs-fMRI结果显示了隐性意识。识别临床环境中的隐性意识极为重要,检测到存在可靠隐性意识的DOC患者将得到更多关注和促进康复的努力。因此,建立与不同意识水平相关联的、独立于行为的可重复的大脑标记是至关重要的。
在过去的十年中,人们开始更多关注可测量意识水平的客观技术。之前大量研究已经探索了例如fMRI、PET、脑电监测等可能与神经意识相关联的神经成像技术。不同技术都有不同的应用领域,因此也有着各自的优点与缺点。
rs-fMRI能够为理解跨多个尺度的大脑活动的动态功能组织提供关键组件,(局部、区域、网络)这也是意识活动所必需的。大脑固有活动的特征与生理、药物、无意识的病理状态有关。尽管这个方面有了实质性的进展,但基于rs-fMRI的意识状态分类缺乏研究。机器学习作为一种具有前景的工具,可以在临床实践中增强不同意识状态的区分。在过去的研究中,已经建立了能基于每个患者的神经成像数据来区分不同程度的意识状态—例闭锁综合征、最低意识综合征(MCS)和无反应觉醒综合征/植物状态(UWS/VS)。
尽管取得了这些进展,DOC患者的研究面临的一个长期挑战是病因的异质性。DOC可能通过神经组织的局灶性损伤(例如创伤性脑损伤、中风)或弥漫性损伤(例如阿尔茨海默症)诱发,其中每一种都以不同的方式影响者大脑的结构完整性和功能动力学。综上所述,DOC患者之间的差异、行为评估的高误诊率以及缺乏真实数据,是建立稳定可重复性的机器学习模型的关键问题。相比之下,提出的替代研究模型,即健康受试者麻醉药诱导的无意识,提供了受试者内设计的可能性。使用这一范式,评估氯胺酮、七氟醚、丙泊酚这些麻醉药对意识改变的效果。
本研究旨在通过系统地比较流行的机器学习分类方法和评估模型训练数据的新来源,即参与者在麻醉引起的无意识期间的使用,进一步提高对 DOC 的理解和诊断。为此,我们的目标是 (1) 构建、优化和评估三种不同类别的机器学习模型(即支持向量机、额外树和人工神经网络),使用 rsfMRI 区分有意识的清醒和麻醉诱导的无反应,测量包括局部活动(低频波动幅度,ALFF)、区域同质性(ReHo)和区域间功能活动。(2) 评估基于麻醉期间收集的数据训练的机器学习模型是否对 UWS/VS 患者做出可靠的预测,以及 (3) 探讨使用上述机器学习模型区分完全清醒和无意识状态的患者在是否存在中间状态的可行性,例如处于轻度镇静状态的受试者和患者在最低意识状态 (MCS) 中。
2、实验方法
2.1、受试者与fMRI数据采集
fMRI数据从两个独立研究地点(上海与威斯康星州)83位受试者队列收集,数据集一为在上海收集丙泊酚和七氟醚麻醉的数据,称为anesthesia-SHH组。数据集二为在威斯康星州收集丙泊酚麻醉的数据称为anesthesia-WI组,数据集三称为DOC组,是在上海收集包括意识障碍患者和健康受试者数据。
2.1.1、数据集一:anesthesia-SHH
之前发布的数据集使用的分析与本研究不同。这项研究得到了复旦大学附属华山医院机构审查委员会的批准,所有受试者知情同意。32位右利手(男/女:15/17;年龄:26-64岁)受试者接受经蝶入路切除垂体微腺瘤切除术。根据放射血检查和血液检查,根据腺瘤大小(直径<10mm,无鞍外生长)诊断位垂体微腺瘤,ASAⅠ~Ⅱ级,无开颅手术、脑神经病变、重要器官功能障碍或服用神经精神药物等病史。受试者没有MRI检查禁忌症(如血管夹或金属植入物)。其中,3位受试者因为过度体动排除,其余29位患者进行后续分析。
23位受试者接受丙泊酚药物麻醉轻度(n=17)和全身麻醉(n=23),期间通过右手或前臂静脉留置导管输注麻醉药物丙泊酚。丙泊酚使用把控输注(TCI)以获得恒定的效应浓度。联合瑞芬太尼1.0μg/kg,琥珀胆碱1.5mg/kg行全麻下气管插管。TCI从1.0μg/ml开始,以0.1μg/ml步长递增。直至达到合适的效应浓度。5分钟的平衡期确保丙泊酚达到平衡。用于轻度镇静的丙泊酚把控浓度稳定在1.3μg/ml,全麻时稳定在4.0μg/ml。此外6名受试者接受了七氟醚全身麻醉。诱导采用8%和纯氧,调整新鲜气体流量至6L/min,联合瑞芬太尼1.0μg/kg,琥珀胆碱1.0mg/kg,用2.6%(1.3MAC)和纯氧维持,新鲜气体流量为2.0L/min。
使用Ramsay量表进行患者行为反应性评估(Fig.1a)。受试者被要求用力握住调查者的手,反应清晰强烈,完全清醒(Ramsay1~2分);对语言指令反应明确但缓慢,为轻度镇静(Ramsay3~4分),如果对语言命令无反应,处于深度麻醉或全身麻醉中(Ramsay5~6分)。
受试者在清醒和轻度镇静期间继续自主呼吸,全麻期间采用间歇正压呼吸机通气,潮气量8~10ml/kg,呼吸频率10~12bpm,维持呼末二氧化碳分压(PetCO2)35~45mmHg。研究过程中,有两名有资质的麻醉医生在场,随时有完整复苏设备。受试者在进行fMRI扫描时佩戴耳塞和耳机。
rs-fMRI数据采集包括3次8min扫描,分别为清醒基线(n=29)、轻度镇静(n=17)和全身麻醉(n=29)。受试者的头部被固定在扫描框并使用海绵填充,最大程度减少头部移动。受试者要求全程闭眼,以舒适仰卧姿势放松,且在扫描期间不能思想专注与某一事物。西门子3T扫描仪(西门子MAGNETOM,德国)使用标准的8通道头部线圈采集全脑的梯度回波EPI图像。。还采集了高分辨率的解剖图像,用于rs-fMRI的配准。
2.1.2、数据集二:anesthesia-WI
之前发布的数据集使用的分析与本研究不同。威斯康星州医学院机构审查委员会批准了这项试验方案。15位健康受试者(男/女:9/6;年龄19~35岁)接受丙泊酚镇静。通过观察者警觉性及镇静评价(Observer’s Assessment of Alertness/Sedation,OAAS)确定四种行为反应状态。分别为清醒基线(OAAS=5±0)、丙泊酚轻度镇静(OAAS=4±0)、丙泊酚深度镇静(OAAS=1.9±0)和苏醒(OAAS=5±0)。受试者在轻度镇静状态下,对言语指令反应迟钝,而在深度镇静状态下没有反应(Fig.1b)。由于个体对麻醉药敏感性不同,不同受试者相应的靶血浆浓度不同(轻度镇静0.98±0.18μg/ml;深度镇静1.88±0.24μg/ml)。在每种镇静状态下,TCI通过持续调整输注速率,维持药物蓄积与排泄的平衡,维持丙泊酚的血药浓度平衡。在此期间进行心电图、无创动脉压、脉搏血氧饱和度和呼末二氧化碳监测;预防性通过鼻导管吸氧。
rs-fMRI数据采集包括四次15min的扫描,分别为清醒基线、轻度和深度镇静以及苏醒。3T Signa GE 750扫描仪(GE医疗,沃喀莎,威斯康星州,美国)使用标准的32通道发射/接受头部线圈采集全脑梯度回波EPI图像(41层,TR/TE=2000/25ms,层厚3.5mm,视场=224mm,翻转角77°,图像矩阵=64×64)。还采集了高分辨率的解剖图像,用于rs-fMRI的联合配准。
2.1.3数据集三:DOC
之前发布的数据集使用的分析与本研究不同。这项研究得到了复旦大学附属华山医院机构审查委员会的批准,所有受试者本人或亲属知情同意。包括21位DOC患者(男/女:18/3)和28名健康对照(healthy control,HC)受试者(男/女:14/14)。在fMRI扫描当天,患者在扫描前后进行了标准化的行为检查,改良昏迷恢复量表(CRS-R)进行评估(Fig.1c)。在评估的患者中,13位被诊断为UWS/VS,8位被诊断为MCS。(Table 1)
健康对照组受试者皆没有神经或精神障碍病史,也没有任何药物史。值得一提,患者分类时根据CRS-R评分进行诊断。如前所述,基于行为诊断存在误诊可能,特别时MCS和USW/VS之间。此外,研究目标为区分UWS/VS患者和健康对照受试者,而不是区分UWS/VS患者,所以CRS-R评分是合适的分类手段。西门子3T扫描仪(西门子MAGNETOM,德国)使用标准的8通道头部线圈采集全脑的梯度回波EPI图像。(33层,重复时间/回波时间【TR/TE】=2000/30ms,层厚=4mm,视场=256mm,翻转角=90°,图像矩阵=64×64)。采集200个EPI序列(6min和40s)以及高分辨率解剖图像。
2.2、fMRI成像数据的预处理与特征提取
在功能性核磁共振影像分析(AFNI)软件中实施预处理步骤:1)删除每次fMRI运行的前两帧;2)时间校准;3)刚性头部运动校正/重新对齐;使用六维运动导数的逐帧欧几里得范数(和平方的平方根)计算头部运动的逐帧位移(FD)欧式范数大于FD=0.5mm,将每帧与前一帧标记为0,反之为1;4)与高分辨率解剖图像配准;5)空间归一化到Talaraich立体定向空间;6)利用AFNI的3dTprojiect函数,对截尾时间数据进行带通滤波,滤波频率为0.01~0.1Hz。同时,通过线性回归去除了各种不需要的成分(如生理估计、运动参数)。不良成分包括线性和非线性漂移、头动时间序列及其时间导数、二值化FD时间序列和来自白质和脑脊液的平均时间序列;7)6mm高斯过程中各向同性半高宽空间平滑;8)将每个游程的每个个体素的时间进程归一化为零均值和单位方差,解释了非神经起源的差异(例如,与磁头线圈的距离)。最后,全局信号回归(GSR)没有包括在下面的分析中,因为它可能会在区域之间引入人为的反向关性,从而使结果产生偏差。
2.3功能网络的定义
采用了一个完善的节点模板,该模板包含10个功能网络中的226个节点(直径为10mm的球体,每个球体32个个体素):皮质下网络(Sub)、背侧注意网络(DA)、腹侧注意网络(VA)、默认模式网络(DMN)、额顶叶任务控制网络(FPTC)、扣带盖任务控制网络(COTC)、突显网络(SAL)、感觉/躯体运动网络(SS)、听觉网络(ODI)和视觉网络(Visual)(Fig.2a)。
2.4低频振幅(The amplitude of low-frequency fluctuations,ALFF)计算
通过AFNI的3dRSFC程序在体素水平上计算每个受试者的ALFF。ALFF通过测量信号幅度在频域中的积分(在0.01-0.1Hz的低频范围内)来量化局部静息状态的信号波动。通过计算低频范围的功率与整个频率范围的功率之比,改进了最初的量化ALFF的方法,从而得到ALFF分数(fALFF)用于本研究分析。预先定义的10个网络中每一个的平均fALFF值是在受试者级别上提取的,并且针对每种情况单独提取。
2.5区域同质性(regional homogeneity,ReHo)计算
在体素水平上,使用指定体素的BOLD时间序列与其26个最近邻体(约2 mm半径球体)的BOLD时间序列之间的肯德尔协调系数(Kendall’ s coefficient of concordance,KCC)来计算ReHo。ReHo量化区域内信号相关性。用AFNI的3dReHo程序进行ReHo分析。由于空间平滑会人为增强ReHo,降低其可靠性,因此从非平滑地BOLD时间序列中计算了ReHo。空间平滑随后被应用与ReHo图(Fisher’s Z变换),其中具有6mm高斯过程半高宽。预定义的10个网络中的每一个的平均ReHo值是在受试者级别上提取的,并且针对每种情况单独提取。
2.6区域间功能连接(inter-regional functional connectivity,FC)
基于上述节点模板FC,其中任意一对节点中心之间的最小欧几里得距离为2 cm。这与ReHo明显不同,ReHo反映了半径为2 mm的球体内的连接性。我们计算了每对节点之间的时间进程的皮尔逊相关系数,得到了成对的226×226相关矩阵(Fisher’s Z变换)。通过分别对关联矩阵的对角线上分量和非对角线分量内的节点级FC值进行平均,来计算网络内和网络间的连接值。
2.7模型培训、验证和测试
在上述过程之后,从rs-fMRI中提取了75个特征:ALFF(10)、ReHo(10)、网络内FC(10)、网络之间FC(55)(Fig.2b)。所有机器学习模型都在复合麻醉数据集上进行训练(29个样本来自anesthesia-HSS,15个样本来自anesthesia-WI,共44个样本),后评估预测稳定性,以及推广至DOC患者数据处理的能力。
对于前者,研究采取了嵌套交叉验证。首先,通过随机抽样和替换产生麻醉数据集的100个子样本(外折叠)。然后,每个外折叠被分成两个独立的数据集,一个优化数据集(80%外折叠)和一个验证数据集(20%的外折叠)。然后使用k折交叉验证进一步拆分优化数据集,产生5个子样本(内折叠)。每个内折叠由训练数据集(内折叠的80%)和测试数据集(内折叠的20%)组成。内折叠用于评估和优化模型超参数,而外折叠用于评估模型在新数据集上的性能。在没有嵌套交叉验证的情况下使用超参数优化时,模型更有可能过度拟合训练数据并高估测试数据的性能。
为了量化模型的外部有效性,我们使用Bootstrap抽样程序来估计跨数据集(麻醉到DOC)的模型性能;DOC数据的100个子样本是通过从原始数据中随机抽样并进行替换而产生的。
在这两种方法中,类分布是固定的,以便在模型验证和测试中使用的子样本中有相同数量的两个分类。为了准确估计可靠性和概括性的,模型性能被计算为100个子样本的平均值。所有模型训练和超参数调整都是在不将模型暴露于DOC数据的情况下执行的,以确保不会无意中引入信息,从而影响对泛化性能的分析。
2.8模型选择
在研究中评估了三种不同的候选模型类型:支撑向量机(support vector machine,SVM)、决策树和人工神经网络(artificial neural network,ANN)。SVM和决策树的模型都是使用scikit-learn构建的,这是一个在神经成像领域常用的Python机器学习库。ANN是使用在TensorFlow平台上运行的深度开源学习库Keras构建的。
2.9SVM
SVM是一种判别模型,生成一个超平面(即决策边界),以最大化N维空间中两个类之间的物理分离,其中N表示特征的数量(Fig.3a)。超平面由支撑向量定义,支撑向量是位于分类边界的样本。这项技术已经在以前的神经成像分析中得到了广泛应用。
2.10决策树
决策树构成了一大类非参数模型,在视觉上类似于嵌套的树结构。决策树的分支表示应用简单决策规则来解析数据直到进行分类的点。决策树寻求通过应用基尼杂质或熵等度量来最大限度地获得信息,从而进行高质量的拆分。
随机森林是决策树的一个常用子类型(Fig,3b),在多变量神经成像应用中有成效。随机森林与常规决策树的不同之处在于,决策树是从原始数据的随机抽取的引导样本中构建的。在结构不同的集合树上聚合预测有助于最小化模型方差并降低过度拟合的风险,这是机器学习中经常遇到的外部有效性问题,其中模型与训练数据太接近。因此,当暴露于测试数据时,泛化能力很差。目前的研究应用了随机森林的极端随机树变体(extra trees,ET),这在确定分割点的方法中引入了额外的随机性。
2.11ANN
ANN是一类对大脑神经元结构进行松散建模的算法(Fig.3C)。它们由单个节点(神经元)组成的相互连接的网络组成,通过权重和偏差来调整其连接的强度。通过应用激活函数(例如,阶跃函数、Sigmoid函数)来定义神经元的输出。ANN能够通过重复过程来“学习”,反复应用反向传播算法来自动调整相对于当前预测和预期输出之间的差值的连接权重。
我们选择构造一个简单的具有紧密连接的前馈网络结构(也称为多层感知器)的ANN,由一个输入层、两个隐藏层和单节点(sigmoid型)输出层组成。为了解决过度适应的风险,我们在训练期间对两个隐藏层(分别为20%和50%)应用了dropout。为了加快训练过程,我们对隐层内的节点使用了广泛使用的整流线性单元(ReLU)激活函数。自适应矩估计(Adam)被选为模型优化器,二进制交叉熵作为损失度量。
2.12超参数优化
在训练机器学习模型之前,必须选择一组“超参数”。这些超参数表示在训练期间约束模型行为的设置(例如,随机森林模型中的决策树的数量)。所选择的超参数组合可能会导致模型性能的巨大变化,并且必须针对任务需求进行调整,因为不存在通用最优超参数集。
在实践中,通常通过网格搜索法或随机搜索法来选择合适的模型超参数。随着模型超参数数量的增加,执行网格搜索的计算量呈指数增长。因此,大多首选随机搜索方法。
然而,考虑到网格搜索和随机搜索背后的方法,这两种方法都不能保证确定最佳的超参数组合。因此,人们对自动超参数优化算法的开发越来越感兴趣,以帮助调整过程。
本研究选择使用Python库Hyperopt-Sklearn来进行自动超参数优化,其容易与Hyperopt-Sklearn库整合是选择的原因。Hyperopt-Sklearn库应用优化算法(即树形结构的Parzen Estimator),通过迭代评估不同的组合并随后对其他组合实现高性能的可能性概率进行建模,来导航预定义的超参数空间。为了提高计算效率,定义了一个由以下可调超参数组成的受限搜索空间:SVM(gamma,C),ET(最大树深度,每次分割时考虑的最大特征数,树的数量,决策准则)。由于ANN具有大量可调超参数,且重复训练的计算量要求较高,因此没有对神经网络进行超参数优化。
使用Scikit-learn的默认超参数SVM和ET来比较超参数优化前后的模型性能。由于Kera神经网络没有默认的网络结构,我们通过应用中为双隐层前馈网络推荐的算法方法,为每一层选择了合适的节点数,第一层由25个神经元组成,第二层由5个神经元组成。
2.13特征处理
使用上述流程,本研究提取75个fMRI的特征。尽管预计其中一些特征比其他特征提供更多的信息,但关于意识的特定生物标记物仍有许多待发现。本研究评估了75个特征的集合训练模型,以及在通过特征处理分离的较小特征训练的模型。为了测试后者,选择了anesthesia-SHH和anesthesia-WI数据集中包括清醒状态和无反应状态(深度镇静和全身麻醉)之间有显著差异的特征。该方法产生了32个较小的特征子集:ALF(3)、网络内FC(8)、网络间FC(21)。
2.14模型压力测试
为了进一步区分我们分析中使用的模型、评估模型分类是否稳定抗扰动。采用了(1)随机drop-out增加部分的模型特征,以及(2)通过向特征添加更多的噪声来逐渐降低信噪比。这两个压力测试都是仅通过对用于测试的DOC数据集修改进行的。
为了研究模型如何响应数据集信息的扩散、非特定减少,研究从测试数据集中随机删除了模型特征递增部分(从0至100%)。通过将所有受试者的特征值设置为零,将特征从DOC数据集中“删除”;进行归零,而不是纯粹删除,以确保训练数据集中的特征数量与测试数据集中的特征数量相等,来满足模型的要求。
为了降低信噪比,将噪声引入到测试数据集中。对于每个特征,根据计算的所有受试者的均值和方差,生成高斯分布。通过在每个特征周围的高斯分布上随机抽样一个值,将该采样值乘以某个比例因子(范围从1x-100x),最后将噪声添加回原始的主体级别特征,从而在主体级别添加噪声。然后对带噪声的特征进行重新缩放,以匹配该特征的原始预噪声均值和方差。
为了得到对效果稳定评估,在每次压力测试的前后,使用前述相同的bootstrap抽样程序(B=100)来评估模型的性能。
2.15中间态
为了评估区分中间意识状态的可行性,研究从三个新收集数据集进行了相同的预处理和特征提取,这些新组没有包括在初步分析中:轻度异丙酚镇静期间的受试者(Light,n=15),异丙酚镇静恢复期间的受试者(Rec,n=15),以及处于最低意识状态的临床患者(MCS,n=8)。
对于没有包括在模型训练中的受试者,生成了预测概率,作为模型相对于设置为0.5的二元判决阈值在分类中可信度度量。在任何一个极端的预测类别概率与用于训练的麻醉数据集中一组非常相似;预测类别概率大于0.5被归类为清醒,而小于0.5的值归类为无反应。
2.16统计分析
采用双样本t检验分析受试者在清醒和无反应状态下各特征值分布的差异,用配对t检验分析超参数优化前后模型性能的差异以及扰动前后模型性能的差异。对每个模型的预测分类概率的分析首先通过将组分布与设置为0.5的二元决策阈值进行单样本t检验,后进行双样本t检验,将中间状态与训练中使用的两种状态(即,唤醒、无反应)进行比较。
在进行多变量分析之前,研究试图确定是否可以在数据集内(麻醉交叉验证)和跨数据集(麻醉到DOC)的单一特征水平上进行可靠的分类。进行单变量分析是为了探索是否有必要使用更复杂的基于多变量模型的方法,并进一步了解与意识水平高度相关的特定生物标志物。
为了量化分类性能,首先分析从不同分类器获得的预测的准确性,然后绘制其关联的真阳性率与假阳性率,从而生成接收器操作特征ROC曲线。使用ROC曲线计算曲线下面积(AUC),作为衡量分类性能的指标(AUC分数范围从0到1,其中0表示完全不准确,1表示完全准确,0.5表示概率水平)。
对于单变量性能分析和后处理超参数优化,采用α<0.05处的Bonferroni校正来控制在多个统计比较时假阳性风险,研究对中间态的分析的样本量很小,所以没有进行任何修正。
2.17数据和代码可用性声明
上述机器学习管道的休息状态功能磁共振功能数据和代码可在https://github.com/Justin-Campbell/ML-Anes-DOC访问.
3、实验结果
3.1单变量性能
正如预期的那样,我们观察到清醒组(n=44)和深度镇静/麻醉组(n=44)(Fig.4)以及健康对照组(n=28)和UWS/VS患者(n=13)(Fig.5)之间存在显著差异的几个特征。
随后对具有组差异的特征生成的ROC曲线下面积(AUC)的分析显示,数据集内(AUC:0.65~0.81)和跨数据集(AUC:0.52~0.87)的单变量无模型分类可用范围广泛。在极少数情况下,特征的AUC<0.50,表明与意识状态的负相关,使用前面描述的程序来纠正相关的AUC(|AUC-0.50|+ 0.50)以提高可解释性。
尽管单变量分类器的上述概率水平的表现表明某些特征可能与不同的意识状态密切相关,但在数据集内和跨数据集上的表现并非完全一致的(例如,背侧注意网络和躯体感觉网络、DA-SS、连接特征的AUC分别为0.79和0.56)。这表明,不一致的特征可能与麻醉剂诱导的无意识的某些独特方面密切相关,但并不意味可以概括两者之间的信息。
为了模拟四种类型的特征(即,ALFF、ReHo、网络内FC、网络间FC)内的总体性能,研究将每种特征类型内的代表性ROC曲线量化为其所有相关单变量ROC曲线的平均值(Fig.6)。
对数据集中具有代表性的ROC曲线的AUC分析表明,总体性能最强的是网络间FC特征(M=0.67,SD=0.08),其次是网络内FC(M=0.66,SD=0.03)、ALFF(M=0.63,SD=0.05)和ReHo(M=0.59,SD=0.04)。相比之下,基于ALFF的功能显示出最强的跨数据集总体性能(M=0.73,SD=0.08),其次是网络内FC(M=0.68,SD=0.06)、网络间FC(M=0.64,SD=0.09)和ReHo(M=0.58,SD=0.03)。在这两个数据集上,ReHo派生的特征表现最弱,这表明组之间存在重叠,这可以通过检查ReHo值分布来看出(Fig.4a中;Fig.5a中)。
为了确保观察到的表现不是由非神经活动驱动的BOLD信号混淆,我们使用来自头部运动的13个特征(12个方向的头部运动的标准偏差,所有头部运动参数的欧氏范数)进行了类似的无模型单变量分析。尽管基于运动的特征在数据集中的表现略高于概率水平(M=0.66,SD=0.15),但它们的跨数据集性能明显较低(M=0.20,SD=0.08)。
3.2模型性能
这三个模型在特征处理和默认超参数优化之前都表现出了很强的分类性能(数据集内、跨数据集):SVM(M=0.83,SD=11;M=0.85,SD=0.04;Fig.7a,d),ET(M=0.92,SD=0.07;M=0.92,SD=0.02;Fig.7b,e),ANN(M=0.94,SD=0.06;M=0.98,SD=0.01;Fig.7c,f)。
其中两个模型在特征处理后显著降低了数据集内和跨数据集的分类性能:ET(t(99)=5.83,P<0.001;t(99)=16.55,p<0.001),ANN(t(99)=10.01,P<0.001;t(99)=38.10,P<0.001)。相比之下,特征处理似乎没有对SVM模型产生有意义的影响。
统计学上参与超参数优化的两个模型在跨数据集分类性能(优化)方面有显著提高:SVM(t(99)=33.51,P<0.001)、et(t(99)=5.48,P<0.001)。虽然超参数优化也改善了支持向量机的数据集内性能(t(99)=8.55,P<0.001),但ET模型没有观察到显著差异。
总体而言,SVM受超参数优化的影响最大,优化后的性能显著提高(数据集内的M:+0.12;M:+0.14跨数据集),性能变异性降低(数据集内SD:0.05;跨数据集SD:0.04)。
综上结果表明,超参数优化是构建稳健的机器学习分类器的关键步骤,特别是在使用SVM时,并且自动选择合适的超参数的方法(例如Hyperopt-Sklearning)可能会提供一种有效的、更少偏倚的方法,总体上比其他手动调整方法更可取。此外还表明基于训练数据集中观察到的组差异的特征处理可能会恶化而不是提高某些模型的数据集内和跨数据集的分类性能。
3.3压力测试
经过超参数优化后,所有模型在数据集内和跨数据集都获得了接近最优的性能(AUC>0.95)。应用了计算压力测试来探索当呈现次优数据时,测试哪些模型继续表现良好。正如预期的那样,随着从测试数据集(DOC)中特征随机删除,分类性能(AUC)稳步下降。所有三个模型都保持了相对较强的平均AUC(>0.80),直到丢弃(归零)的特征数量超过60-80%(Fig.8a)。
第二个计算压力测试,即系统地降低信噪比(SNR),能够模拟每个模型如何响应糟糕的数据质量(高水平的噪声)(Fig.8b)。分析表明,在信噪比降低的情况下,ET模型保持了最高的平均AUC,而SVM和ANN模型下降得更快,接近机会水平:1/25 (ET:~0.76;ANN:~0.63; SVM:~0.63), 1/50 (ET:~0.67; ANN:~0.58; SVM:~0.59),1/100 (ET:~0.58; ANN:~0.55; SVM:~0.55)。
计算压力测试的结果表明,ET模型在某种程度上更好地分析次优数据;原因可能是由于该模型构建大量异类树的独特方法,将随机性引入到模型中,并通过使用引导聚集来平均预测。
3.4特征重要性
为了更好地理解驱动模型性能的特定特征,研究对SVM和ET模型的特征重要性进行了探索性分析。鉴于优化的SVM是线性的,能够通过检查线性超平面的系数来量化相对的重要性(Fig.9a)。ET模型中的特征重要性是模型<sklearn.ensemble.ExtraTrees Classifier.Feature_Importance_>的易于访问的属性,该属性表示单个特征在多大程度上有助于减少每次分离时的基尼杂质(Fig.9b)。
网络层面的功能连通性分析(即网络间FC和网络内FC的功能连通性分析)是两个模型中分类任务的最具信息量的特征。此外,与SVM相比,ET模型似乎使用了更广泛的特征集。
3.5中间态
在所有三个模型中,关于非中间状态出现了类似的模式(Fig.10)。也就是说,麻醉恢复组(Rec)和健康对照组(HC)被可靠地归类为清醒;Rec(SVM:T(14)=20.18,P<0.001;ET:T(14)=12.86,P<0.001;ANN:T(14)=15.62,P<0.001),HC(SVM:T(27)=9.97,P<0.001;ET:T(27)=5.77,P<0.001;ANN:t(27)=9.99,P<0.001)。此外,UWS/VS一般被归类为无反应;UWS/VS(SVM:T(12)=12.29,P<0.001;ET:t(12)=5.06,P<0.001;ANN:不显著),而MCS分类不确定(SVM:不显著;ET:不显著;ANN:不显著)。有关混淆矩阵,请参见Table2。
进一步分析显示,三个模型中,MCS组和健康对照组之间的DOC数据集由显著差异(SVM:T(34=5.76,P<0.001;ET:t(34)=5.62,P<0.001;ANN:T(34)=2.76,P<0.001),但只有ANN模型才能确定MCS组和UWS/VS组之间的显著差异(t(19)=2.54,P<0.05)。此外,在ET和ANN模型中,我们发现受试者在轻度麻醉镇静和镇静恢复的两组之间存在显著差异(ET:T(14)=2.70,P<0.05;ANN:T(14)=2.98,P<0.05)。考虑到对中间状态的分析的样本量小,所以本节中报告的P值没有修正。
在检查预测的类别概率后,研究确定了两位MCS受试者(分别为9号和13号受试者)被所有三种模型归类为清醒。在回顾了每个受试者的昏迷恢复量表(CRS-R)分数后,我们发现这两个受试者是得分最高的(CRS-R=12);说明高分与更高的意识水平相关。据报道,9号受试者在扫描两个月后恢复(CRS-R=23)。
4、讨论
本文中所开发的机器学习rs-fMRI特征提取、模型选择、超参数优化和无意识药物诱导状态下的交叉验证,可构建一个应用于无意识病理状态的稳定分类器。此外,还发现MCS患者分类与健康对照组有显著不同,表明在这一中间状态下,存在可检测到的rs-fMRI活动差异。未来的模型可以根据这些相同的rs-fMRI特征进行训练,区分不同意识水平分级。
检查来自rs-fMRI活动的单一特征水平上的组差异,得出了三个主要结论。首先,与之前显示的各种网络功能重要性的研究一致(包括默认模式)。在意识层面,观察到麻醉和DOC数据在这些网络中的低频波动幅度显著降低。还发现了涉及各种跨网络的意识相关的功能连接性崩溃,这与意识中通过多感觉整合和自上而下的过程所起的作用是一致的。其次,几个特征作为自由模型的单变量分类器表现良好,大部分时间以高精度区分清醒和无反应(例如,扣带盖任务控制网络和背侧注意网络之间的连通性(COTC-DA),数据集内AUC:0.74,跨数据集AUC:0.82)而其他的表现接近概率水平(即大多数基于ReHo的特征)。第三,我们发现许多特征在麻醉和DOC数据集之间表现不一致。这种观察到的不一致模式表明,某些特征本身可能无法在数据集中推广或与无意识相关,但可能是麻醉诱导的无意识(或病理诱导的无意识)期间神经活动的一些其他可检测变化的指标。
在过去的几年里,越来越多的研究应用机器学习方法来检查成像数据在诊断患者意识障碍的价值。在这一研究领域中使用了一系列神经成像技术,包括fMRI,氟脱氧葡萄糖正电子发射计算机断层扫描术(FDG-PET)和EEG。值得注意的是,在上述研究中,rs-fMRI在区分MCS和UWS患者时可以达到很高准确率(>80%)。本研究中没有训练分类器来区分MCS和UWS患者,而是测试了无意识的药物状态是否具有预测价值,泛化至无意识的病理状态(即UWS患者)。此分类器成功地将有意识的受试者从无意识受试者中分离出来(>90%),这一性能水平类似之前的FDG-PET研究,该研究称在区分闭锁综合征患者和UWS患者时准确率达100%。综上,将机器学习方法作为区分有意识和无意识状态的工具似乎是可行的。然而,由于以下几个原因,中间状态的分类(例如,轻度镇静,MCS)仍然具有挑战性。首先,如果认为人的意识仅分为有或无,那么意识的中间状态就是模糊的。其次,在镇静和MCS过程中观察到的相当大的个体差异,可能需要更大的样本量来训练机器学习模型。研究应用了一种不同的策略来测试中间状态分类,即训练模型来区分意识和无意识,并对不可见的中间状态数据进行预测。虽然我们对中间状态分类的结果是探索性的,如果能进一步发展,可能会更有临床意义。
我们在研究中评估的三个候选机器学习模型-支撑向量机(SVM)、极端随机树(ET)和人工神经网络(ANN)。选择这三组是因为它们在神经成像领域中越来越受欢迎,并且分类方法明显不同。经过训练,每个测试的模型都达到了高水平的性能(AUC>0.95,无论是在数据集内还是跨数据集)。因此有理由得出结论,这些模型中的任何一个都可能是适合于类似任务的分类器。
有趣的是,研究观察到验证数据集(DOC)与训练数据集(麻醉)的性能几乎相同。在两个数据集中观察到的高性能表明,区分有意识状态和无意识状态(使用rs-fMRI特征)是一个相对简单、直接的分类。我们对这两个状态之间的特征级别差异的分析显示,这两个组之间存在明显的分离(Fig.4),单变量分类器的高性能进一步支持了这一观察结果,在DOC数据(即FPTC ALFF)上AUC高达0.87,在麻醉数据(即网络连接之间的SS-VIS)上AUC为0.81。
然而,有一些重要的因素会影响模型的选择。首先,目前为止谈到模型训练时,基于深度学习的ANN是计算要求最高的(这是反向传播算法的结果,它涉及许多重复的训练测试时期),并且在样本量有限的情况最有可能过度匹配。相反,虽然SVM
是最简单和有效的构建,但对超参数优化前后的模型的分析表明,SVM对超参数的选择也最敏感。虽然经常使用SVM是因为其相对简单,但这说明应该注意观察SVM的性能可能会因训练前的构造方式而发生显著变化。
出于这些原因,研究认为ET模型是两者之间的一个很好的折衷(同时提供了计算效率、构造简易性和一般可靠性之间的良好平衡)。最后,基于决策树的模型还有一个特别的优势,即能够对特征重要性进行事后分析,这有助于在未来的研究中进行特征选择。
研究探索了一种相对新颖的超参数调优方法,即通过Hyperopt-skLearning进行自动优化。鉴于这些方法旨在减少用户在超参数选择偏倚,避免手动超参数搜索方法的时间密集性质,并且还提供相对于默认超参数设置的强大的性能改进。随着其他人采用这些新兴技术,这项技术将得到更多应用。
与预期相反,基于麻醉数据集中观察到的组差异进行的特征处理通常会降低性能。处理后的特征子集中排除的许多特征包含有意义的信息。特征的选择仍然是构建机器学习模型的关键步骤。结果表明,通过递归特征消除等方法可以更好地消除冗余或非信息特征,在递归特征消除方法中,在有和没有特定特征的情况下迭代测试模型的性能。
综上所述,我们对单个特征的分析以及对SVM和ET特征重要性的事后探索,提供了收敛的证据,表明网络水平的rs-fMRI活动测量(即在网络内FC,网络间FC)是研究无意识的特别相关的生物标志物;网络水平的测量往往在数据集中和跨数据集中具有高单变量无模型分类性能,并且也被确定为ET模型中最重要的特征之一。最近许多关于意识的神经关联的研究也同样强调了长距离连接和网络层面特征的重要性。有趣的是,尽管网络水平的测量通常是最独立的有意识和无意识状态,但我们没有发现这两者之间有任何普遍不同的特定网络。研究提出了两种可能的解释:1)网络特征来源于预定义的网络模板(226个节点),将原始的空间分辨率从数万个体素降低到数百个。由于个体差异,这种对大脑活动的相对粗略的估计不可避免地带来不准确的网络分配。2)无意识(无论是病理诱导的还是麻醉剂诱导的)可能导致网络活动的空间弥漫性改变,而不是局灶性改变。这两种解释都强调了使用多变量分析的重要性;多变量方法有助于解决个体差异(潜在地,DOC人群的异质性),同时也捕捉到来自大规模大脑活动的信息。
方法上的局限性。首先,在对数据集内和跨数据集性能的分析中,观察到所有三个模型的数据集内和跨数据集性能都接近最优。尽管这是一个积极的结果,但使随后在三种模型之间进行比较变得困难,因为没有观察到三种模型中最优者。鉴于单一特征在某些情况下也是高性能的单变量分类器,两组之间通常有明显的区别。这解释为什么观察到几乎相同的跨数据集性能;在大多数机器学习应用程序中,当测试到新数据时,模型性能相对于训练期间通常会下降。
由于分类的简单性,研究有可能实现了一种天花板效应,掩盖了三种模型在更具挑战性的任务中表现出的有意义的差异。尽管研究者试图通过应用计算压力测试来进一步描述模型,但还是难以评估观察到的差异是由于模型稳健性的实际变化,还是由于不同模型如何进行分类的结果。
尽管研究对中间状态的探索表明,模型处理MCS组与UWS/VS组和健康对照组不同,但只能得出有限的结论。首先,由于模型没有被训练来执行真正的多标签分类,不能认为模型区分MCS和UWS/VS或MCS和健康对照组时,可靠实现了高水平性能。对麻醉镇静期间收集的数据的分析提供了一个初步迹象,该组可用作未来MCS的类比。然而,由于多标签分类不是研究的主要目标,这一假说没有得到明确的检验,需要进一步探索。
总之,本研究验证了麻醉药诱导的无意识作为病理性无反应状态研究的替代模型的使用,并为使用基于rs-fMRI的多变量机器学习方法进行分类建立了管道。希望帮助大样本验证性研究和机器学习在临床上的常规应用铺平道路。
述评:
传统统计分析基于做出假设和对假设进行检验,通过对于数据的线性、多重共线性的假设和对于比值比(OR)、危害比(HR)等 统计量 的计算来进行分析。但是由于数据量不断增大,高维数据难以被传统统计模型处理。大量研究利用ML技术进行大脑相关研究,例如结合常规和灌注磁共振的计算机辅助分类方法,用于鉴别诊断脑瘤类型和分级;利用SVM通过分析头皮EEG,构建特定于患者的分类器来检测癫痫发作;各种机器学习算法(如SVM、NN和随机森林(RF)预测中重度创伤性脑损伤(TBI)的预后;使用改进的CSP和转移学习算法来提高EEG信号分类的准确性,并加快训练时间等。 2009年有学者提出以"无反应觉醒综合征(UWS) "来替代植物状态这一概念,随着对于VS研究的深入,提出了最小意识状态(MCS)的概念,VS和MCS两者无论从临床表现、病理生理和预后方面都存在明显的差异。2020年5月25日 Nature Neuroscience期刊在线发表了题为Assessing the depth of language processing in patients with disorders of consciousness(探索意识障碍患者层级语言加工)的合作研究论文。该研究针对意识障碍患者开展了语言加工相关神经表征的探索性研究,并将相关神经表征与 机器学习 方法相结合,成功实现了对患者意识状态的诊断和康复预测,为意识障碍患者的临床诊疗提供了新的参考。此项研究也提供了很好的临床研究与机器学习结合的范本,并且后续的应用对于意识障碍患者状态的诊断和康复预测有着极其重要的临床价值和社会意义。
未来在DoC领域里面很多机制需要去突破,中国的脑计划聚集了大量的神经科学家,在这个领域的不断观察、探索、发现和尝试,不断推陈出新诊断和治疗技术,让我们更加接近事实的真相。
编译:夏若愚;述评:王昀
原文链接: Campbell JM, et al. Pharmacologically informed machine learning approach for identifying pathological states of unconsciousness via resting-state fMRI. Neuroimage. 2020;206:116316.
声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。
不感兴趣
看过了
取消
人点赞
人收藏
打赏
不感兴趣
看过了
取消
您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!
打赏金额
认可我就打赏我~
1元 5元 10元 20元 50元 其它
打赏作者
认可我就打赏我~
扫描二维码
立即打赏给Ta吧!
温馨提示:仅支持微信支付!
已收到您的咨询诉求 我们会尽快联系您