第一节 量表性能评价
在心理健康测试、卫生服务、健康教育、社会医学以及生存质量研究等领域研究中,基于面谈、问卷、量表等方法得到的测量指标,如生存质量得分、疼痛得分、对某种服务的满意度等,由于其不能精确测量,那么所测得到的数据是否真实可信呢?为了考察所设计的量表是否符合要求,所使用的量表是否适合被试人群,以及考察调查研究结果的准确性和科学性,对量表进行信度、效度、反应度的评价分析是十分必要的。该分析主要解决量表是否容易被人接受及完成量表的质量问题,可用患者完成量表的时间、可接受程度、受试者对量表的理解程度和满意程度等来评价。一般完成一份量表的时间控制在20分钟以内是比较容易被人接受的,如果时间太长,容易使被试厌烦,影响量表完成的质量。对于量表的回收率和完成率(被试完成量表的比例),通常要求达到85%以上,如果过低,说明量表太复杂,不适合被试人群。信度又称可靠性或者精确性,是用以反映同一被试在相同条件重复测量结果的一致程度,是以衡量变异理论为基础的,主要受随机误差的影响,如调查员、调查对象、调查情景等。目前衡量信度的方法主要有以下几种:(一)重测信度(test-retest reliability)让同一组被试在前后两个不同的时间完成同一量表,并假设被试的生存质量没有改变,以这两次测量结果的相关系数来表示重测信度。它是以两次测量结果的变化情况来反映测量结果的稳定程度,并从相关的角度评价量表的信度。因此,测量结果吻合度越高,重测信度越高。由于被试的某些特征可能会随时间发生变化,那么两次测量的差异可能不是单纯由误差引起;而且如果两次测量时间间隔比较短,后一次的测量可能会受前-次测量“记忆效应”的影响,测量结果不一定能真实的反映被试的特征。因此,两次测量的时间间隔不宜太长,也不宜太短,多数研究者推荐2~4周较为合适,样本量为20~30人,且两次测量的时间段内主要调查指标没有发生改变。在对量表(问卷)的重测信度进行评价分析时,不同的资料类型需要选择不同的指标。当测量结果是分类或者等级变量时,可用Kappa系数来评估重测信度;当评估的变量是连续变量时,则用基于方差分析的组内相关系数(intraclasscorrelation coefficient,ICC)来评价量表的重测信度。对于这两种系数,在样本量足够大,经统计学检验有统计学意义的前提下,可根据如下标准判断重测信度的情况:信度系数>0.75表示重测信度好;0.4≤信度系数≤0.75表示重测信度较好;而信度系数<0.4表示重测信度差。
在量表的编制或者修改过程中,一般考虑对重测信度<0.4的条目进行修改或者删除该条目.
(二)复本信度(parallel-formsreliability)是在一个测量中采用两个测量复本来对同一群研究对象进行测量时所得到的结果的一致性程度,通过两个复本得分的相关系数反映复本信度复本信度的高低反映了这两个复本在。内容上的等值性程度。复本信度也应考虑复本实施的时间间隔,一般来说,复本应尽量在同一时间实施,以剔除时间的影响。复本信度主要用于教育学领域,在医学领域应用较少。(三)内部信度(internal reliability)
主要反映量表(问卷)中条目之间的相关程度,考察量表各条目是否测量了相同的内容,若一个量表包括几个不相关的内容,则需要分别计算每个内容的内部信度。内部一致性信度又分为分半信度(分半信度系数R)和内部一致性信度(Cronbach)
1.分半信度(split-halfreliability)为了解决重测信度中时间的影响和复本信度中设计复本的困难,心理学家Spearman提出了分半信度这个方法:将量表(问卷)的条目分成等价的两半(在内容、形式、条目数上相近),如奇数题和偶数题,分开计
分,计算这两部分的相关系数Rk,即为分半信度。由于分半信
度只计算了一半的测量信度,因此不能等价于整个量表的信度。分半信度经Spearman-Brown公式校正后可计算整个量表的信度R=2R/(1+R.)。分半信度的优点是只需要用一个测量工具对同一组人群实施一次测量,不受记忆效应的影响,不容易出现误差项之间的相关。但由于分半信度没有一种严格的理论推导证明,且条目的组合方式多种多样,带有一定的随机性,因此,在实际应用中使用较少。2.内部一致性信度(internal consistency reliability)用Cronbach a系数表示,是目前最常用的信度系数。假如将一个条目视为一个初始问卷,那么k条目问卷就相当于将k一1个平行问卷与初始问卷相连接,组成了长度为初始问卷k倍的新问卷,k条目问卷的信度系数根据Cronbach公式计算为:a=kc2[a]1-1=1S,其中k表示问卷条目数,S;表示第i个T条目的方差,S为总得分的方差,这个信度系数称为Cronbachα系数,它相当于所有可能组合的分半法信度系数的平均值104一般量表(问卷)包括多领域,宜分别计算每个领域的Cronbachα系数,否则可能会出现整个量表的内部一致性较低的情况。在样本量足够大,经统计学检验有统计学意义的前提下,一般认为:α系数≥0.8表示内部一致性好,0.6≤α系数≤0.8为较好,α系数<0.6为差。一般要求量表(问卷)的α系数大于0.8105Cronbach a系数也常用于量表条目的删选:计算某一领域的Cronbach a系数,比较去除其中某一条目后系数的变化,如果某条目去掉后α系数有较大上升,则说明该条目的存在有降低该方面的内部一致性的作用,应该去掉,反之则保留。实际上,上述两种信度系数是同质的, Cronbach a系数反映的是量表条目之间的一致性,而分半信度系数反映两半问卷所测分数间的一致性。(四)评分者信度(scorer reliability)是指不同评分者在同一时间点对同一对象进行评定的一致性程度。有些问卷不是根据客观的记分系统记分,而是由评分者给被测者打分或评定等级。对于这种标准化程度较低的测量,就必须计算评分者信度,它分为评分者间信度和评分者内信度。前者是用于度量不同评
分者间的一致性,
后者是度量同一评分者在不同的场合下(如不同时间、地点等)的一致性。两名评分者的评分者间信度和测量两次的评分者内信度可用Pearson相关系数或Kendall、Spearman等级相关系数表示。如果评分者在三人以上或同一评分者测量三次以上,且采用等级记分时可以采用Kendall和谐系数来确定评分者信度.影响信度的因素:①样本特征:研究人群的同质性、平均能力水平等;②量表长度:一般量表中增加同质的条目,信度会提高;③条目难度,当量表的平均难度接近50%时,信度最高;④在重测信度中,时间间隔的影响。效度是测量的有效程度,即测量工具所能反映调查对象真实情况的程度,采用效度系数来衡量。效度是科学的测量工具所必须具备的最重要的条件。鉴别效度必须明确测量的目的与范围,考虑所要测量的内容并分析其性质与特征,检查测量的容是否与测量的目的相符,进而判断测量结果是否反映了所要测量的特质的程度。效度是个多层面的概念,目前衡量效度的方法有如下4种是指从字面上看问卷能否测量研究者想了解的问题,主要通过专家的主观评价,根据研究目的来评判问卷可达到研究预期目的的程度。但有些问题如果直接提问得不到真实的信息,须“牺牲”表面效度,以换取其他效度。(二)内容效度(content validity)是指测量内容的适合性和相符性,主要以研究者的专业知识来主观判断所选择的测量工具是否能正确反映研究的目的,问卷是否包含足够多的条目来反映所要测量的内容。内容效度涉及量表语言表达的准确性问题,通常以专家评议为依据,也是主观评价指标。内容效度的具体测评方法为计算每个条目的得分与其所属领域得分的相关性,相关系数大,说明内容效度好。在条目筛选或者修订的过程中,内容效度也作为一个重要指标,如果某一条目的相关系数<0.4(有些研究认为0.3也可以),可考虑删除该条目,或者对条目的措辞进行修改。(三)效标关联效度(criterion-related validity)是指测量工具的内容具有预测或估计的能力,是外部参照比较的方法。由于测量相同构想或特质的测验彼此之间应该有较高的相关,因此,常以一个公认有效的同类研究的量表作为标准,检验新量表与标准量表测量结果的相关性,用这两种测量工具测量的总得分的相关系数表示效标关联效度。根据比较标准与测量结果之间是否在时间上有延迟,又分为预测效度(predic-tive validity) 和同时效度(concurrent validity) 。①预测效度是指测量结果与测量对象在一段时间以后的表现(预测标准)之间的相关程度,相关程度越高,预测效度就越高。②同时效度是指测量结果与一个已断定具有效度的现有指标之间的相关程度,相关程度越高,同时效度就越高。效标效度系数通常较低,一般以0.4~0.8之间比较理想。效标效度是用测量分数与效标分数之间的相关系数来衡量的,减少了主观判断的影响,但这种方法也存在一些局限:①效标的选择靠主观判断;②某些新研究的领域缺乏标准量表;③当新量表所构想的因子纬度与标准量表的因子纬度不完全符合时,如新量表的内容较多,则可能出现效标系数较低的情况。(四)结构效度(constructvalidity)又称构想效度,是指量表(问卷)能测量到理论上的构想或者特质的程度,即研究者所构想的量表结构与测量结果的吻合程度。要确定一个量表(问卷)的结构效度,则该量表不仅应与测量相同特质或构想等理论上有关的变量有高的相关,也应与测量不同特质或构想等理论上有关的变量有低的相关。前者称为聚合效度(convergent validity) ,后者称为区分效度(discrimi-nate validity) 。目前最常用的评价方法是因子分析法。在因子分析中,各条目在所属领域上的因子负荷越大(一般≥0.4),则聚合效度越好;而条目在非所属领域上的因子负荷越小(明显<所属领域上的因子负荷),则区分效度越好。因子分析法的介绍详见本章第二节“项目反应理论”o反应度(responsibility)是指一份量表反映微小特性变化(如微小生存质量的变化,某些具有临床意义的变化等)的能力。在现实的研究中,特别是干预性研究,如果一份量表经上述评价后有一定的信度和效度,但不能检测出某些细微的、有临 床意义的、随时间改变的变化,则这个量表还不算一个好的量表,因此还需进行反应度分析。目前多数研究者从如下两个方面评价量表的反应度:①量表应能区分同一群体生存质量随时间的变化,主要通过效应值(effectsize,ES) 、配对t检验统计量体现。②量表应能区分不同群体(如健康人和患者)的生存质量。其测评方法为分别计算这两个群体的生存质量各领域得分和总得分,再进行单因素或多因素分析,如果结果有统计学意义则表明这个量表有区分不同生存质量人群的能力。为了发展一个测量HIV/AIDS患者健康状况的PRO,中国中医科学院临床研究且成员经过多个核心组的讨论(包括医师和患者),文献回顾等过程起草了基于HIV/AIDS报告的临床结局评价量表的条目池,包括5个领域(全身状况、局部身体状况、情志状况、能力状况、其他状况)、37个条目,所有条目均为5级记分条目,从1~5表示从最好状态到最差的状态。由于篇幅的限制,本章只列出代表领域,其具体条目内容如下:全身状况:Q4.您经常感觉疼痛吗?(包括头痛、关节痛、腰背痛、四肢痛等)?局部身体状况:表8-1-1列出了基于HIV/AIDS患者报告的临床结局评价量表大样本测试的信度结果,4个领域的内部一致性信度系数都大于0.70,说明这些领域内部一致性信度较好。本分析将量表条目分为奇数题和偶数题两部分,结果分半信度为0.941,分半信度经过Spearman-Brown公式校正后得到整个量表的信度为0.969,说明此量表的分半信度高,内部信度很好。信度测量的是量表(问卷)测量结果是否一致的可靠程度,而不涉及测量结果是否真实的问题;而效度重点考察测量结果的有效性,它们之间的差别在于所涉及的误差不同,信度测量的是随机误差的影响,效度是反映由于测量了与测量目的无关的变量所引起的系统误差。对量表(问卷)而言,效度比信度有更高的要求,效度是首要条件,而信度是效度的必要条件,有效的问卷必是可信的问卷,但可信的问卷未必是有效的问卷。