生物统计学常用统计分析方法系列文章之九：PROC MIXED （Mixed Model混合效应模型）

2022

12/27

法迈新媒体

A-

A+

重复测量也较多地出现在一些分类数据中，这时我们就会使用到一些分类数据的统计方法。

我们先来理解一下Mixed Model （混合效应模型），我们知道固定效应（fixed effect）和随机效应（random effect）。我们通常把某个因素对结果变量的影响称为这个变量的效应。而这种效应分为固定效应和随机效应。当这个变量水平是事先确定的，是个固定的常数时，那么它的效应就是固定效应；例如治疗组，我们这个试验就想研究A组和B组，那么水平只有A和B两个水平，因此组别就是个固定效应。而当这个变量具有随机的特点时，比如它的变量水平数是无限的或不确定的，我们试验中纳入的只是这些水平数的一个随机样本时，它的效应就是随机效应。比如病人这个效应，我们试验中纳入的病人是从病人总体中随机抽取出来的，是个随机样本，因此病人这个效应就是个随机效应。如果一个模型里既有固定效应，又有随机效应，那么这样的模型就是混合效应模型。其实重复测量数据分析就是一个混合效应模型，为什么呢？（1）我们纳入模型的治疗组别一般是固定效应（2）我们纳入模型的病人效应一般是随机效应混合效应模型现在已被广泛应用于重复测量数据的分析，那么混合效应模型在处理重复测量数据方面有什么优势呢？（1）混合效应模型适用于有一定数量缺失值的数据。如果一个测量值缺失了，不会对这个病人其他的测量值产生影响。这样就充分利用了有缺失值的病人的数据，而不会像univariate和multivariate方法那样，一个观察值缺失，整个受试者的数据均作为缺失。（2）混合效应模型允许每个病人测量次数不同和观测时间不同。比如说，一个病人在第4个月进行了测量，而另一个病人在第6个月进行了测量，这时我们只需要在时间（time）变量上记录下一个是4个月，另一个是6个月就可以了。（3）混合效应模型不对compound symmetry做要求。我们可以让模型选择自己的协方差结构（covariance structure），也可以自己指定一个协方差结构。首先，我们看一下PROC MIXED程序需要用到的数据格式，与univariate方法类似，如下：

SAS 程序：

PROC MIXED; CLASS GROUP TIME PATIENT; MODEL RESPONSE= GROUP TIME GROUP*TIME; REPEATED / TYPE=UN SUBJECT=PATIENT(GROUP) PCORR; RUN; 程序解释：（1）TYPE= 选项：规定模型的协方差结构，即规定不同时间点的方差假设以及不同时间点关系的假设，常见的有以下几种： a. TYPE=UN: 即unstructured approach，对所有时间点的相关性不做任何假设，这时相邻时间短的测量之间的相关性比相邻时间长的测量之间的相关性往往更为紧密。 b. TYPE=CS：即compound symmetric structure，假设任何两个时间点间的相关性是相同的，而各个时间点为方差齐性。这时如果我们在上述PROC MIXED程序里选择TYPE=CS，那么其结果和univariate approach的结果是相同的。 c. TYPE=AR(1)：即First-order autoregressive structure，相邻的时间点或者说连续的两次访视测量的相关性是相同的。假设相邻的两个时间点的相关性为ρ，那么第一次访视和第三次访视测量的相关性就是ρ的平方，第一次访视和第四次访视测量的相关性就是ρ的立方，依次类推；而各个时间点为方差齐性。还有如TYPE=ARMA(1,1), TYPE=TOEP, TYPE=HF等等，有兴趣的同学，可参考SAS user’s guide。另外，我们可以利用SAS output中的Fit Statistics中的统计量AIC, AICC, BIC等作为判断标准来判断那个协方差结构是最合适的协方差结构。（2）与PROC GLM不同，PATIENT(GROUP)这个效应在模型里是在SUBJECT=这个选项中规定的。

GEE分析

Generalized estimating equations (GEE)是另一种处理有缺失值的重复测量数据的方法，在SAS程序里是通过PROC GENMOD来实现的。它需要指定correlation structure（如compound symmetric（CS）和unstructured（UN）），但GEE对模型参数的估计通常会比较准确，即使指定correlation structure时指定了错误的correlation structure。在这一点意义上，GEE分析比PROC GLM和PROC MIXED更为稳健（robust）。另外，我们知道一个重复测量数据不均衡或缺失值较多时，如果还要纳入较多的协变量，这时使用PROC GLM时，会带来很多解释上的困难，而且这种困难会随着我们更多地纳入协变量而变得更大。而GEE就很适合这种纳入较多协变量的数据，当然这时我们需要这个数据必须是较大的数据集。通常来说，如果有3－4个变量（包括治疗组别），这时至少样本量需要50－100。来看一下SAS程序的实现：数据结构