惊爆 | 只要是样本研究 p值不能少【连载5】
【引言】北京大学统计学专家姚晨老师认为:只要是样本研究,p值不能少(详见本文【微点评】),山西大学统计学专家仇丽霞老师从“质性研究”和“量性研究”角度分析认为“目前,p值是抽样研究结论推断的‘唯一’标准(详见本文【微点评】)。看来我国医学统计专家的意见比较统一。在等待明天推送的【论p】《中医药专家有话说》之前,敬请您还是先“硬着头皮”把林老师的“伪阳性反机率”统计学“扫盲”读完。至此,我们的【惊爆】系列将转为【论p】,更多观点交锋,为君呈现,敬请关注!
【续昨】
伪阳性反机率的问题
现在要详细讨论影响伪阳性反机率的因素,就是影响到“统计检定是显著的条件之下,虚无假设为真”这一个机率的因素。这里再重覆一下,我们一般了解的统计推论,奠基于虚无假设为真时,p值显著的机率,也就是伪阳性的机率被控制在α之内:Pr(Test=+|H0)= Pr(p<α|H0)=α。但我们现在要反过来问的是:统计检定是显著的情况下,H0 为真的机率,也就是伪阳性的反机率:Pr(H0| Test=+)= Pr(H0| p<α),这好比筛检结果为阳性、但其实球员并未使用PED、患者其实无病的机率。如果α等于零,可以很清楚的发现,这两个机率是一样的,都是零;但α不等于零的时候,它们就不一样。由下图来看,伪阳性的反机率跟先验机率——研究假设的先验机率——以及检验的强度有关。(图五、六)看图可以得知,power越大,还有先验机率越大的话,伪阳性的反机率就越小。可是当power 越小的时候,还有先验机率越小的时候,伪阳性的反机率就越大。
图五
图六
我做了一个表,列出研究假设的先验机率,从最小排列到最大,可以看到在不同检定强度之下,伪阳性的反机率是多少。(图七)它可以高到近乎1.00。换句话说,研究假设的先验机率如果很小很小,则即使p值检定显著,但虚无假设仍然为真的机率其实还是很大很大的。如果研究假设的先验机率是0.5——你事先也许不知道哪一个是对的,你假设是0.5,就像丢铜板一样,此时,伪阳性的反机率才是 0.05,才跟α一样。也就是说,研究假设的先验机率必须要高于0.5,伪阳性的反机率才会小于0.05。可是假如你的研究假设,譬如刚刚提到的ESP研究,这种实验没有什么理论、没有什么因果关系,然后你就去做了一个统计分析。换句话说这个研究假设的先验机率可能很低,此时伪阳性的反机率其实是很高的。图七第一栏是假设power为0.95,如果power低一点到0.75呢?如果是0.50呢?我们可以看到其实结果差不多。当然power越低,问题会越严重,但其实差不多,当你的先验机率是0.5的时候,原来是0.05,现在是0.09,所以差别不是特别大。原则上,power对于伪阳性反机率的作用不是那么强,作用强的是prior,即是研究假设的先验机率。
图七
小结:当检定强度或研究假设的先验机率甚低的时候,α= 0.05 可能严重低估了伪阳性之反机率,也就是在p值检定显著的情况下,虚无假设H0仍然极有可能为真,而其为真的条件机率可能甚大于 α。此时如果我们拒绝虚无假设,便作出了错误的统计推论。(续完)
【微点评】:姚晨
我们任何人在做决策时,通常是基于手头所掌握的数据进行分析所得结论,如果是基于样本数据去推断总体的话,由于样本结果受到抽样误差的混杂,所得结论必然会有一定的错误发生,那么我们需要用一个统计量去衡量错误发和的概率大小,即p值大小。除非你研究的是一个有限总体,不存在抽样的话,那么这个p值是可以不用的。当然p值只是代表了一种概率,一种假阳性的概率。也就是说你用样本去推断总体的时候,这个无效假设成立的可能性。所以需要有一个数量来体现这个抽样误差导致无效假设成立的可能性的大小。因此p值肯定是需要的,只不过我们在理解p值的时候需要更好的去理解它的无效假设是什么。那么实际上p值小于等于0.05时,可以拒绝无效假设的成立。当然,我们现在下作出决策时还需更多地结合估计参数的95%可信区间。因为可信区间是对总体参数的估计。当然这个可信区间估计的范围里面同样也有p值的意义。因为它如果是95%的话,5%可能是估计错误的。所以我想应当感谢任何关于p值的争论和探讨,使我们确信,只要你是样本研究,p值永远是需要作为根据样本研究结果推论总体结论的一个统计量。
姚晨 现任北京大学第一医院医学统计室主任,兼任北京大学临床研究所副所长。主要学术任职有中国医师协会循证医学专业委员会主任委员,中国卫生统计学会统计理论与方法专业委员会副主任委员,国家食品药品监督管理总局高级研修学院客座教授,CFDA药品/ 器械审评专家库专家。“临床研究(方法)学”博士生导师。致力于临床研究的数据管理与统计分析方法应用的研究,开展临床研究设计教育培训工作。与临床医生合作,参与了众多的的新药、医疗器械和研究者发起的临床研究项目。
【微点评】:仇丽霞
质性研究是以研究者作为研究工具,对观察到的现象采用归纳、演绎、推理的方法进行论述,如综述、议论文、评论员文章等,常选用典型而非代表性的论据概括出结论。这类研究与“P”值没有任何联系。
量性研究是研究者采用量化的方法对客观事物进行测量,并利用数理统计的方法进行分析。如果是对事物总体的研究,只需要进行统计描述,说明其水平、变异和分布即可,与“P”也没有关系;如果采用抽样研究,除了进行统计描述,还需要考虑抽样误差,对总体进行推断,此时就需要根据抽样研究的规律进行推断,就离不开“P”值,目前“P”值是抽样研究结论推断的“唯一”标准。但我们称其为“统计结论”,还必须与专业结合,讨论研究结果实际意义。如果“废弃P值”就需要重新建立一套抽样研究的理论,但目前尚未见到。
所以,我认为在没有提出更合理、更好的解决抽样研究统计推断的新方法、新标准之前,“废弃P值”就等于没有标准,会造成更大的混乱。
仇丽霞 女,博士、教授,博士研究生导师,山西医科大学卫生统计教研室,从教31年。主要从事基于遗传算法的多目标药物有效成分最优提取条件、处方最优配比的研究、传染病时空统计和医疗器械临床试验的科研工作。
[注]本文资料自微信公众号【经管世界】,原文标题《美国顶级学术期刊宣布禁用p值,原来p值很危险》
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读