【PRO专栏】第三节 缺失数据处理

2021
05/11

+
分享
评论
黎麟
A-
A+

条目缺失(missing data) 是指调查对象虽然填写了问卷但对问卷中某些条目没有回答,又称部分条目缺失。

第三节 缺失数据处理

数据缺失根据缺失的程度分为:量表(问卷)缺失和条目缺失量表缺失(unitnon-response) 是指调查对象由于某种原因没有接受测量,致使整份问卷缺失。这种缺失常发生于纵向研究中,有下列3种情况:①单调缺失:研究对象由于药物的副作用、病情恶化或者失访而离开试验并不再返回;②间断缺失:研究对象由于某种原因在整个随访期中偶有一次或者数次失访而造成问卷信息丢失;③后期加入:研究者加入的时间短于规定的随访时间造成前面的信息缺失。

条目缺失(missing data) 是指调查对象虽然填写了问卷但对问卷中某些条目没有回答,又称部分条目缺失。Fayers119等研究者将条目缺失的原因分为3类:①调查对象忘填或者漏填,特别是老年人或者病情较重的患者;②调查对象不愿意填写某些涉及隐私的问题,或者某些不知道如何回答的问题,比如在民意调查中,某人可能不清楚某候选人是否优于另一个候选人;③条目本身的问题:调查对象不理解条目内容。不同原因的缺失有不同的含义,比如第二类缺失对评价治疗或者疾病影响是很有意义的, Cheung 120等的研究显示中国人群对敏感问题绝回答率高达44%,如果简单的删除,可能会损失这方面的息,使现有的样本不能很好的代表总体人群。

一、数据缺失的内在机制

根据数据发生缺失的概率是否与本变量的可观测值或者该数据集中其他变量的观测值有关,缺失数据分为三种缺失机制121.122:完全随机缺失(missingcompletely atrandom,MCAR) 、随机缺失(missing at random,MAR) 、非随机缺失(missing not at random,MN AR)

(一)完全随机缺失

数据缺失发生的概率既与具有完全数据的变量无关,也与有缺失数据的变量无关,即缺失不依赖完全数据或者其他缺失数据,这样的缺失数据类型称为MCAR。比如,在有关年龄和收入的调查研究中,若缺失与年龄和收人的可观测值无关,则该缺失为完全随机缺失;若低收人群体愿意报告他们的收人,而高收入群体多数不愿意回答收人这个问题,此时的缺失就不是MCAR。要检验MCAR假设是否成立,可以用缺失值分析(missing values analysis, MVA) 比较回答者和未回答者的分布来评价观察数据,也可以使用单变量t-检验或者Little'sM CAR多变量检验来进行更精确的评价。如果MCAR假设为真,则可认为缺失现象是随机发生的,可观测到的数据是从总体中随机抽取的,此时可以直接删除有缺失值的个体,且不会发生估计偏差。其唯一不足是减少了样本量,降低检验功效。若MCAR假设不成立,则考虑其他缺失数据类型,并寻找相应的解决方法。

(二.)随机缺失

这种缺失假设条件较少,比完全随机缺失情况较为严重,但在量表研究中最为常见。它是指缺失数据发生的概率仅依赖于数据集中其他无缺失变量的观测值,而与有未观测值的变量无关,简单理解为缺失的原因与调查对象的生存质量没有关系。比如在某高血压调查研究中,年龄是完全数据,而高血压有缺失,调查发现高年龄组的调查对象由于行动不方便,未到现场检查而造成缺失率较高,而高血压的缺失值与血压本身无关,则这样的缺失类型称为MAR。随机缺失中的“随机”并不是指缺失值在整个样本中是随机分布的,而是指在不同的亚群体中是随机分布的,比如高收人群体的缺失值多于低收人群体,但在两个群体中缺失值都是随机分布的。通常可以从已收集到的数据分析出缺失的原因,并可以用某些方法估计出缺失数据值,因此完全随机缺失和随机缺失都可以称为“可忽略的”缺失。当缺失机制为随机缺失时,仅使用数据完整的个体进行分析会因为这些数据完整的个体组成的样本不是研究总体中的随机样本而导致选择性偏倚。 

(三)非随机缺失

这种缺失类型是最严重的一种,是指数据缺失的概率不仅与其他变量的取值有关,也与自身的取值有关。比如进行阅读能力研究,低文化水平的调查对象可能不能理解条目的含义而放弃回答,说明条目的缺失与阅读能力有关。这种缺失大都不是偶然因素造成的,目前没有很好的处理方法,故又称为“不可忽略的”。

 二、缺失数据的处理方法

针对不同的数据缺失情况,目前缺失数据的处理方法大致可分为以下四大类:完全数据的方法、加权的方法、填补的方法、模型的方法。

(一)完全数据单元的方法

删除有缺失值的个体是缺失数据处理最简单的一种方法。当量表数据缺失较少时,用这种方法是可以接受的。当缺失类型为完全随机缺失时,删除有缺失的个体不会引起结果偏差。然而,一般的生存质量资料,特别是重复测量资料,缺失值比较多,且多数是随机缺失或者非随机缺失,仅使用完全数据分析是不合理的。有研究者用不同的缺失值处理方法处理同一份数据,发现删除法得到的生存质量得分最高,因为能够完成调查的对象通常是健康状况较好的,可见删除法得到的分析结果不能反映调查对象的真实情况。因此在对缺失值情况作评价时一定要谨慎,不可妄下结论。

(二)加权方法

当缺失比例较多时,只使用完全数据进行分析会引起信息损失和结果偏差。为了减少这种偏差,可以利用抽样调查(有限总体)的随机化推断中的加权原理对具有完全数据的个体赋予不同的权重。个体的权重可以通过均数的加权类估计、logis-tic回归或者probit回归估计得到,若解释变量中存在对权重估计起决定性因素的变量,那么这种方法可以有效减小偏差。然而,若解释变量和权重不相关,则并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法就不合适了。

(三)填补的方法

处理缺失数据问题,填补是一个常用、方便的方法,比全部删除不完全样本所产生的信息丢失较少,其基本思想是用填补值替代缺失值。填补值是缺失值预测分布的平均值或者一个抽样值,要求以观测数据为基础,为填补创建一个预测分布的方法。根据填补的原理,填补方法分为简单填补和多重填补。

1.简单填补常用的简单填补法有均值填补、邻近观察值补、回归填补法、EM算法填补、hot-deck填补法等。

(1)均值填补:常用于条目丢失的填补,可用条目评分均值、样本均值或者组内均值填补条目缺失的评分。这种方法比较简单,但也不是最优的。因为当缺失主要发生在低生存质量群体时,若用均值填补缺失值,则会高估调查人群的生存质量。此外,均值填补会减少条目间的变异,降低条目间的相关性。有研究者认为当缺失是随机缺失时,均值填补才是有效的。

(2)邻近观察值填补:常用于重复测量资料,它是用距离缺失发生最近的前一时间点的可用观察值替代缺失值。由于它的假设是缺失值与前一时间点的观察值相同,当这一假设不成立就会引起偏差,结果偏向于保守。

(3)回归填补法:是用有缺失值的变量为因变量,无缺失值的变量为自变量建立回归模型,利用回归模型产生的预测值替代缺失值。当自变量中出现较多的相同值时,得到的相同的预测值也很多,这时回归的填补法类似于均值填补,也会降低条目间的相关性。为了弥补这一缺陷,有研究者提出了随机回归填补法,它是在回归预测值的基础上增加一个任意的随机项(又称回归残差),该随机项考虑了预测值的不确定性,使新的预测值更接近真实情况。

(4) EM算法(expectation-maximization algorithm) 补123:当变量间呈现曲线联系时,线性回归填补是不合适的。此外,数据缺失较多时,回归算法效果一般也不好,此时EM算法将是更合适的方法。EM算法是一种迭代算法,最初由Demp-ster等提出,主要通过期望步(expectation)和极大化步(maxi-mization) 多次迭代后,获得最大似然估计值,实现缺失值的估计。该算法在缺失值的估计上非常有效,其优越性在于能在数据模型的未知参数和缺失数据之间建立一种相互依赖的关系,用假定参数值预测缺失值,然后用预测值更新参数估计值,经过反复迭代,直至收敛,使得到的缺失值的估计值更加稳健。

(5) Hot-deck填补法:是用具有完全数据的个体观察值填补那些状况相近的患者的缺失值。当条目缺失较多(超过半数的条目丢失)时,Hot-deck填补法是简单填补法中效果较好的方法。然而它也存在不足之处:填补值产生于数据完整的个体,会造成类似删除法引起的选择性偏差,且在选择填补值时主观因素影响较大。

 2.多重填补(multipleimputation,MI)简单填补法虽然方法多样,相对简单易行,但单一填补没有考虑填补本身带来的不确定性影响,不能反映在一个不响应模型下抽样的变异。为了利用更多的数据信息,Rubin于1978年首次提出多重填补法,它既拥有简单填补的优势,又弥补了缺陷。多重填补的基本思想是在数据随机缺失的情况下,用已有的观测值通过填补模型对每一个缺失数据产生一系列可能的填补值,每个值都被用于填补,于是产生多个数据集,对每个数据集的分析结果进行综合,产生最终的统计推断122、123这样的统计推断结果考虑了缺失数据的不确定性,从而使结果更为可靠。多重填补的应用需要满足两个假设,即数据是随机缺失的,且需要满足多元正态分布。在满足这两个假设的前提下,选择填补模型和选择加人模型的变量。常用的填补模型有回归模型、近似贝叶斯自举法、马尔科夫链蒙特卡罗法(MCMC)等,不同的模型可用于不同类型的缺失数据,如MCMC用于非单调模式的缺失数据。与F220算法相比,多重填补所依据的是大样本渐近完整数据的理论,抽样调查和普查的大型数据集中,先验分布对结果的影响很小,同时多重填补对参数的联合分布作出了估计,利用了参数间的相互关系。然而,多重填补法在理论上比较完善,但在应用上仍存在一些问题。比如它只对随机缺失有效,对非随机缺失仍然无能为力;填充模型复杂,且需要根据某种概率分布假设产生相应的填补值,这限制了该方法的使用范围。因此,多重填补法多用于简单填补法所不适合的资料。

(四)模型的方法

该方法是用一系列数学模型对不完整数据(缺失数据)进行分析的方法。一般对观测的数据先定义一个模型,在该模型下基于似然或者适当的分布做出统计推断118.121这个方法的优势表现在:某些模型能够在非随机缺失的假设下分析数据,比如混合模式模型、正态选择模型、Markov链模型等;在模型假定的基础上产生的方法可以进行推演和评价;该方法可以考虑数据不完整时方差分析的可用性。不同的模型有不同的优势,所以选用模型时要考虑缺失数据的比例和缺失原因,并结合灵敏度分析,选择多个模型中灵敏度最高的模型。

目前许多常用统计分析软件都能对缺失数据进行处理,比如SPSS软件中的缺失值分析模块(MVA)提供四种缺失值处理方法,即列表状态删除、配对状态删除、回归算法、EM算法,主要用于处理简单的横断面资料。对于重复测量资料中的缺失值可选用SAS软件中的GLM和MIXED模块进行分析。对于多重填补技术,也有很多的统计软件:SAS、S-plus中的DM算法,MICE软件、NORM软件等。然而目前处理非随机缺失数据的软件仍然很少,有待进一步的开发。

在调查研究中,虽然有严格的质量控制,有时缺失数据的出现仍是很难避免的。缺失数据看似简单,但要区分其内在机制是十分复杂的,现在很多处理方法都是针对完全随机缺失和随机缺失,对于非随机缺失,尚没有很好的处理办法。在实际分析中,完全随机缺失是很少出现的,最常见的是随机缺失,因此,在调查之前就要考虑哪些变量可能有缺失值出现,在设计时尽量包含一些相关变量,以便用来估计缺失值。

上述介绍了很多种缺失值处理方法,那么该怎样选择处理方法呢?这主要取决于研究目的及数据缺失的情况。有研究认为数据缺失率<1%时,对结果影响很小,可采用删除的方法;当缺失率<10%时,可选用简单填补法;当缺失率在15%~60%之间时,可以用一些复杂精密的方法,比如多重填补、模型法等;然而当数据缺失率>60%时,所有填补方法都无能为力了。因此,为了提高研究效率,研究者在量表的设计、实施阶段都应该做好质量控制,尽量减少缺失值。


本文由作者自行上传,并且作者对本文图文涉及知识产权负全部责任。如有侵权请及时联系(邮箱:nanxingjun@hmkx.cn
关键词:
PRO,数据,处理,模型,变量,算法,均值,权重

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!