首页
快讯
关注
资讯
- 健康
- 科技
- 热点
- 视频
- 产业
- 政策
- 护理
- 投资
- 医改
- 养老
- 疫情
- 人物
- 医保
- 疾病
- 管理
- English
- 临床
- 心血管
- 肿瘤
- 内分泌
- 妇儿
- 感染
专题
专区
知识

欢迎登录体验更多功能

搜索

【神麻人智】鉴别老年患者术后谵妄的3分钟诊断性谵妄评估方法的评价

2022

06/04

古麻今醉

A-

A+

谵妄是老年患者术后常见的并发症，通常未被发现，并可能导致更糟糕的结果。3分钟谵妄诊断量表（3D-CAM）可能是谵妄常规临床诊断的实用工具。

79451654212831541

摘要

重要性 谵妄是老年患者术后常见的并发症，通常未被发现，并可能导致更糟糕的结果。3分钟谵妄诊断量表（3D-CAM）可能是谵妄常规临床诊断的实用工具。

目的评估3D-CAM检测术后谵妄的效果，并与用于研究目的的长形CAM进行比较。

设计、设置和参与者 这项关于2015年至2018年期间参加正在进行临床试验的老年患者的队列研究是在美国一家三级医院进行的。纳入的参与者年龄在60岁或以上，正在接受至少需要住院2天的重大选择性外科手术。数据分析时间为2019年2月至4月。

暴露至少2小时需要全身麻醉并计划拔管的外科手术。

主要结果和措施 对患者同时使用3D-CAM评估和基于标准化认知评估的长形CAM进行谵妄评估。使用Cohenκ与重复测量、广义线性混合效应模型和Bland Altman分析来检验这两种方法之间的一致性。

结果 16名评审员同时进行了471次CAM和3D-CAM访谈，包括299名患者（平均[SD]年龄，69[6.5]岁），其中大多数为男性（152[50.8%]）、白人（263[88.0%]）、非心脏手术（211[70.6%]）。两种仪器具有良好的组内相关性（CAM为0.84，3D-CAM为0.98）。Cohenκ在CAM和3D-CAM之间表现出良好的整体一致性（κ=0.71；95%可信区间，0.58至0.83）。根据混合效应模型，3D-CAM和CAM之间存在统计上的显著差异（固定效应的估计差异为−0.68;95%可信区间，−1.32～−0.05; P=0.04）。Bland Altman分析显示，3D-CAM诊断谵妄的概率是CAM诊断谵妄的概率的两倍以上（概率比，2.78；95%可信区间，2.44至～3.23）。

结论和相关性 3D-CAM仪器显示了与长形式CAM的一致性，并可能为检测术后谵妄提供一个实用和敏感的临床工具，但需要注意的是，3D-CAM可能会过度诊断谵妄。

简介

谵妄是一种精神状态剧烈波动变化，包括注意力不集中、思维紊乱和意识水平改变。谵妄在外科手术后的老年患者中很常见，特别是那些需要在重症监护室（ICU）住院的患者。谵妄与发病率、死亡率、入院的可能性和住院时间的增加有关。谵妄往往无法诊断出来，临床实践中的这一重要空白至少部分是由于缺乏有效的、实用的筛查工具。改善谵妄检测可能有助于临床医生对脆弱的患者实施早期干预，有可能避免负面结果。

混淆评估法（CAM）是最常用的、经过验证的检测谵妄的工具之一。CAM通过简单的认知评估来确定谵妄的4个基本特征：(1）急性变化和波动过程，（2）注意力不集中，（3）思维混乱，和/或（4）意识水平改变。3分钟谵妄评估诊断访谈法（3D-CAM）是由CAM衍生出来的，目的是创造一个简略的工具来识别谵妄，需要较少的培训。作为一个筛查工具，3D-CAM的设计是为了最大限度地提高灵敏度，以便不漏掉潜在的谵妄病例。3D-CAM的施用时间不到3分钟，有可能作为常规临床护理的一部分来实施。本研究的目的是评估3D-CAM与长形CAM在单一中心识别重大手术后的老年人谵妄的一致性。

方法

本稿件符合《加强流行病学观察性研究报告（STROBE）》的观察性研究报告指南。患者被纳入预防手术治疗引起的谵妄和并发症（PODCAST）试验，脑电图指导麻醉以减轻老年病综合症（ENGAGES）试验，和/或为期一年的手术结果调查后的系统评估和有针对性的服务改进（SATISFY-SOS）研究。所有患者都是60岁或以上，在密苏里州圣路易斯的巴恩斯犹太医院接受重大选择性外科手术。PODCAST和ENGAGES试验是正在进行的随机临床试验，分别研究亚麻醉氯胺酮和脑电图指导麻醉对降低术后谵妄发生率的有效性。这些研究中的病人至少每天都要评估谵妄情况，直到术后第5天。SATISFY-SOS是一个正在进行的登记处，评估术后病人报告的结果。本研究是在华盛顿大学医学院的3个母体研究的机构审查委员会批准下进行的，所有患者都提供了书面知情同意书。无论患者在2项随机试验中的分组情况如何，都被纳入该次研究中。

研究人员在使用CAM和3D-CAM仪器方面经过严格的培训。CAM访谈的培训协议之前已经描述过了。简而言之，它包括一个关于CAM的行为和评分的初始3小时教学课程。这包括审查标准化视频，受训者将观看由经验丰富的评分员（定义为之前在CAM创建者的带领下完成全天CAM培训计划或完成培训协议的人）预先录制的面试。在有经验的评分员确定视频评分的准确性后，受训者将观察有经验的评分员进行CAM面试。随后，受训者和有经验的评分员将独立对CAM进行评分。一旦受训者和有经验的评分者就2名有谵妄的病人和2名无谵妄的病人的CAM的所有12个特征达成一致，然后经验丰富的评分员在进行访谈时观察受训者。经过两次面谈观察，经有经验的评分者批准，受训者被认为有资格独立进行CAM评估。额外的3D-CAM培训包括一系列标准的视频访谈，可在医院老年生活项目网站上获得。在观看视频采访后，研究人员必须在使用3D-CAM仪器评估患者谵妄之前，根据3D-CAM测定，对2名谵妄患者和2名无谵妄患者达成一致。

为了本研究的目的，CAM被重新安排，以便首先完成3D-CAM问题。CAM和3D-CAM评估员一起走近病人。CAM评估员进行访谈，3D-CAM评估员在观察CAM访谈的同时，同时收集病人对3D-CAM问题的回答。一旦3D-CAM问题在访谈中完成，3D-CAM评估员将离开房间。这使得3D-CAM问题得以完成，但允许3D-CAM评估员掩盖为CAM收集的额外信息（即，长期患者报告出现谵妄症状、妄想、定向障碍、睡眠障碍、数值向前和记忆障碍）。

此外，3D-CAM还有两个问题可以询问家属是否注意到患者心理状态相对于基线的变化。在CAM评估员不在场的情况下，向家庭成员，或在没有家庭成员的情况下向床边护士询问这些问题。CAM和3D-CAM评估员独立地对他们各自的评估进行打分，并对对方的打分进行忽略。并记录完成每项评估所需的时间，不包括评分时间。

每天由配对的评分员对患者进行评估，直到按照相关研究方案完成随访，或由CAM确定患者在连续3次访谈中没有出现谵妄。在术后第0天完成的CAM和3D-CAM配对在麻醉护理结束后至少2小时进行。参加PODCAST研究的患者在上午和下午都进行了CAM和3D-CAM评估。那些参加ENGAGES和SATISFY-SOS研究的人只在下午完成评估。

统计数据分析

我们之前发表了关于我们在这项研究中使用的统计方法的详细描述。简而言之，广义线性混合模型（GLMM）被用于测量者之间的可靠性以及方法的一致性（CAM与3D-CAM）。尽管在任何给定的访谈中只进行了1次CAM和3D-CAM（即1个评分者使用CAM，1个使用3D-CAM），但GLMM方法能够为每个仪器提供一个测量者间可靠性的估计。使用Bland Altman分析以及Cohen κ，对2个工具之间的一致程度进行了评估，并对个别患者的多种谵妄评估进行了适当调整。除了总体上是否存在谵妄的一致性外，还使用相同的统计方法对是否存在谵妄的4个基本特征（即急性变化和波动过程、注意力不集中、思维紊乱和意识水平改变）进行了事后测试，以评估两种工具的评分算法中最不一致和一致的地方。数据分析使用SAS 9.4版（SAS研究所）以及R 3.4.2版（R统计计算项目）完成。包括GLMM在内的所有分析的统计学显著性水平按惯例规定为α=0.05，结果以95%CIs表示。Cohen κ的结果是根据Landis和Koch的指南来解释的，该指南将κ值超过0.75的情况描述为实质性的。

结果

共有299名患者在不同的时间点进行了471次同时评估（表）。患者的平均（SD）年龄为69（6.5）岁，152（50.8%）为男性，263（88.0%）为白人。大多数患者正在接受非心脏手术（211[70.6%]），并且没有认知障碍（Short Blessed Test中位数[IQR]得分，4[0-5]；8项区分衰老和痴呆的访谈中位数[IQR]得分，0[0-1] ）。对每位患者进行评估的平均时间（IQR）3D-CAM为3分钟（2-4分钟），CAM为8分钟（6-10分钟）（P<0.001）。这些时间并不包括为评估打分所花费的时间。16位不同的评分者参与了患者访谈。

49611654212831629

在测试测量者之间的可靠性时，GLMM得出的组内相关值为：CAM的变化比例为0.84，3D-CAM为0.98。这些相关值表示大量患者差异，但由于评分者的原因，差异较小。因此，评分者在使用这两种工具时有很好的一致性（即这两种工具表现出良好的评分者间可靠性）。

然后对3D-CAM和CAM之间的方法一致性进行了测试，发现GLMM有明显差异（固定效应的估计差异，-0.68；95%可信区间，-1.32～-0.05；P = .04）。因此，CAM和3D-CAM显示了方法上的分歧。还使用GLMM对4个基本特征中的每个特征的一致性进行了进一步测试。发现这些特征之间的一致性对于急性变化（固定效应的估计差异，1.23；95%CI，0.71～1.74；P < .001）、注意力不集中（固定效应的估计差异，-0.84；95%CI，-1.03～-0.65；P < . 001），和思维混乱（固定效应的估计差异，-1.48；95% CI，-2.04～-0.93；P < .001），而意识水平的改变没有发现显著差异（固定效应的估计差异为0.66；95%可信区间，−0.13至1.45；P=0.09）。

基于用于测试方法一致性的GLMM的潜在变量公式，给出了每种方法的单独水平汇总度量。也就是说，为299名患者中的每一位确定了一对模型估计的CAM和3D-CAM的持续谵妄结果，并用于绘制Bland Altman图。然后，根据潜在变量生成一对模型估计的二元谵妄结果，用于评估Cohenκ。Bland-Altman分析提供了一致性的可视化表示，以及概率方面的一致性。该方法用x轴上结果的平均值（[Outcome A+Outcome B]/2]）和y轴上两个成对测量值之间的差值（Outcome A+Outcome B]/2）绘制观察值。Bland-Altman在对数尺度上的平均差异为-1.03（95%可信区间，-1.18至-0.88）（图1）。因此，CAM阳性的概率是0.36（95%可信区间，0.31至0.41）倍，其逆向显示3D-CAM阳性的概率是2.78（95%可信区间，2.44至3.23）倍。

8061654212831917

图（1）3分钟诊断谵妄评估法（3D-CAM）和长形CAM仪器的Bland Altman图

对4个特征中的每一个都生成了额外的Bland-Altman图（图2）。其中一个特征，即意识水平的改变，是在对数刻度上绘制的，因为数据必须是正态分布的，以便进行Bland-Altman分析。急性变化概率表的平均差异为0.36（95%可信区间，0.35～0.38），意味着与3D-CAM相比，CAM对急性变化的评分要高0.36。注意力不集中的平均差异为-0.16（95%可信区间，-0.17～-0.14）；也就是说，3D-CAM在注意力不集中方面的得分要高0.16。思维混乱的平均差异为-0.15（95%可信区间，-0.17～-0.13）；3D-CAM在思维混乱方面的得分要高0.15。最后，意识水平改变的平均差异为1.06（95%可信区间，0.91～1.21），这意味着与3D-CAM相比，CAM对意识水平改变的评分是其2.89倍。

对299名患者使用2种工具进行重复测量，得出的κ值为0.71（95%可信区间，0.58-0.83）。根据特征，Cohen κ测试得出的数值是：急性变化为0.17（95% 可信区间，0.12-0.23），注意力不集中为0.57（95% 可信区间，0.49-0.65），思维混乱为0.39（95% 可信区间，0.26-0.51），意识水平改变为0.37（95% 可信区间，0.13-0.60）。

7971654212832017

图（2）3分钟诊断性混淆评估法（3D-CAM）和长形CAM仪器的4个组成部分的Bland-Altman图

讨论

我们比较了一种研究方法（即原始的CAM仪器）和一种简单的临床评估（3D-CAM）。我们发现，这两种仪器都具有较高的可靠性和良好的整体一致性（κ=0.71）。然而，与长型CAM相比，3D-CAM对谵妄的诊断更为积极。这并不意外，因为3D-CAM被设计为具有高灵敏度的筛查工具，所以不会遗漏谵妄的病例，但有可能出现假阳性。在临床实践中，简短的筛查测试后，将由临床医生进行较长时间的确认过程。

本研究中使用的参考标准，即CAM，已被发现是一个可靠的评估工具，并在多项研究中根据标准的精神病学访谈和《精神疾病诊断与统计手册》（第四版）（DSM-IV）和DSM-IV-TR标准进行了验证。CAM在检测临床环境中经常未被诊断的低反应性谵妄方面也表现出优秀的心理测量特性。本研究中提出的长CAM方法的使用主要是为了研究应用，对临床使用确实存在障碍，包括培训要求和管理及评分的时间。在临床实践中，较短的CAM通常使用简短的认知筛查工具进行评分，如Mini-Cog筛查工具或简短的便携式精神状态调查表，这可以产生一个高度敏感和快速的方法。

此前，其他简短的谵妄评估已经在不同的病人群体中提出并得到验证。CAM的另一个衍生版本，即重症监护室CAM（CAM-ICU），是为了识别高危人群（即ICU患者）的谵妄。CAM-ICU是针对不能说话的病人（例如，插管或气管切开）而制定的，并与这些人群中的标准精神病学家访谈很一致。当与能说话的病人的参考标准访谈相比，CAM-ICU被发现有53%的敏感性和100%的特异性，而3D-CAM被发现有95%的敏感性和93%的特异性。

在麻醉后护理单元，CAM-ICU还与护理谵妄筛查量表（NuDESC）以及参考标准访谈进行了比较。与参考标准相比，两种工具的灵敏度都没有超过32%，但每种工具都保持了92%以上的特异性。在非手术环境下，与CAM相比，NuDESC的敏感性为86%，特异性为87%。最佳的谵妄筛查工具可能因预期用途和环境而不同。

优势和局限性

我们的研究有显著的优势。在测试这些评估方法的研究中，由于掩蔽要求或使用非重叠问题，通常不可能像我们在当前研究中所做的那样同时进行评估。由于谵妄是一种波动性疾病，不在同一时间进行的评估可能会因为时间上的分离而出现不一致。因此，我们同时使用3D-CAM和CAM的能力是一种方法学优势，使我们能够在不考虑谵妄波动过程的混杂效应的情况下评估仪器。我们的方法的其他优点包括严格的培训协议，不同的统计方法，普遍一致的结果，以及具有高精确度的结果（即，狭窄的置信区间）。

这项研究也有几个重要的局限性。我们没有像其他验证研究中常见的那样，由有经验的医生评分员进行通常被称为参考标准的结构化访谈，而是将3D-CAM与CAM进行比较。这一局限性很难克服，因为目前还没有诊断谵妄的客观标准（如临床生物标志物），而专家临床医生提供参考标准的说法被认为是有争议的。尽管如此，两个有许多共同评估问题的工具之间有大量的重叠也就不奇怪了。也有可能3D-CAM因其设计为高灵敏度仪器而出现误报，而长形CAM因其设计用于研究而出现误报，或者结果包括两者的组合。最终，如果没有一个客观校准的参考标准，这些问题就无法得到解决，目前还不存在针对谵妄的参考标准。由于评估员接受了CAM和3D-CAM方面的培训，CAM评估员可能已经确定了3D-CAM仪器的结果，并对其评分产生了偏差；然而，所有评估均由第三方审查，以获得准确的仪器评分。此外，在询问期间没有进行评分，因此CAM评估人员不太可能实时知道3D-CAM的结果。

这些数据是从一个单一中心的患者中收集的便利样本，可能无法推广到其他患者或机构。此外，尽管进行访谈的时间被记录了下来，但每份文书的评分时间却没有被记录。3D-CAM比长CAM方法简短得多，因此，在临床上可能更容易适用。本研究的结果可能无法推广到非术后环境，因为术后环境中意识水平改变等谵妄的特征可能不同。对仪器性能的评估不应基于单一的研究，其他研究应完善这些发现，以确定3D-CAM在接受过手术的患者中的效用和准确性。尽管结果似乎表明3D-CAM过度诊断谵妄，但长CAM也可能诊断不足谵妄，或者，正如之前所指出的，一些明显的假阳性3D-CAM诊断实际上表明亚综合征性谵妄。最后，为了保持掩蔽性，在每个评估时间点上，两个工具的排序都是一样的，可能会因为排序效应而影响到表现特征，尽管认知评估的项目是一样的。

结论

可以合理地得出结论，筛查谵妄的最佳工具取决于目标患者群体和环境。CAM和3D-CAM不适合不能说话的病人，使得CAM-ICU在这种情况下成为更合适的工具。另一方面，CAM和3D-CAM可能比CAM-ICU更适用于外科手术后的病房，因为那里的病人往往能够说话。此外，CAM和3D-CAM提供了一个结构化的访谈和评分系统，具有出色的参与者间可靠性。总的来说，基于在多个临床环境中进行的广泛测试，CAM可能是这三种仪器中最可靠的，长形CAM目前是最适合用于研究目的的。3D-CAM完成不到3分钟，更适合临床应用。考虑到任何高度敏感的筛查措施都可能存在假阳性，建议使用更成熟的方法，如长形CAM或DSM-5标准来确认诊断。

述评：

我们越来越意识到术后谵妄的常见性和危害性，但大多数术后谵妄，特别是低活动型和混合型的术后谵妄仍然没有被识别。所以及时识别术后谵妄是对其进行干预的第一个关键步骤。

精神障碍诊断与统计手册第五版（Diagnostic and Statistical Manual of Mental Disorders-Fifth Edition，DSM-V）诊断标准是谵妄诊断的金标准。但DSM-V诊断标准适合精神专业人员应用，未经专门训练的非精神专业人员不容易掌握。1990年发展起来的意识模糊评估法（ confusion assessment method，CAM）是目前广泛使用的谵妄评估工具，适合非精神科医师使用。CAM量表具有良好的敏感度（94%~100%）和特异度（90%~95%），不过因其需要认知评估和大量时间的专业评估培训，及对患者评估时长平均为8分钟，是其临床应用受限的原因。

2014年编制的3分钟谵妄诊断量表（3-minute Diagnostic Interview for CAM，3D-CAM）是对CAM量表的进一步优化。该量表包含22个问题条目，细化了评估方法和评估标准，敏感性95%和特异性93%，同时专业评估培训时长大为缩短，对患者评估时间平均也只有3分钟。所以较之CAM ，3D-CAM具有更强的临床实用性。同时，2020发表的中文版3D-CAM量表经过验证敏感性（82.6%-93.8%），特异性在（96.7%-98.1%），同样具有较高的信效度。

当然，文中也指出了3D-CAM是被设计为具有高灵敏度的筛查工具，它不会遗漏谵妄的病例，但有可能出现假阳性。在临床实践中，简短的筛查测试后，需要由临床医生进行较长时间的确认过程。

总之，术后谵妄问题目前还不容乐观，需要我们尽早识别，及时干预。

编译：向传梅 述评：郁文

原文链接：Oberhaus J, Wang W, Mickle AM, et al. Evaluation of the 3-Minute Diagnostic Confusion Assessment Method for Identification of Postoperative Delirium in Older Patients. JAMA Netw Open. 2021 Dec 1;4(12):e2137267.

声明：古麻今醉公众号为舒医汇旗下，古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可，禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用，亦须注明来源。欢迎转发、分享。