【论p】ASA关于统计意义和P值的声明

2018
02/27

+
分享
评论
黎麟
A-
A+
来自美国统计协会的声明>>

近些年,科学研究的日益定量化和大型复杂数据集的激增扩充了统计学方法应用的范围。它创造了科学进步的新途径,但也带来对从研究数据提取结论的关注。科研结论的真实性,包括其可再现性,不仅仅取决于统计学方法。合适地选择技术、恰当地进行分析以及正确解释统计结论,在保证结论正确和确切表达结果的不确定性上也起了关键作用。许多发表的科学结论是以p值这个指标评估的“统计学意义”概念为支撑的。虽然p值是一个有用的统计学测度,但它普遍地被错误使用和错误解释。这已经导致某些科学杂志不鼓励使用p值,某些科学家建议废弃它,自从引入p值以来某些争论就基本上没有变过。在这个背景下,美国统计学会(ASA)相信,以一个正式的声明来澄清关于正确使用和解释p值的若干广泛赞同的原则,可以使科学界从中得益。这里提及的内容不仅影响科研,而且也影响研究基金、杂志工作、职业发展、科学教育、公共政策、新闻和法律。这个声明并不想解决与合理统计实践有关的所有问题,也不想平息基本争议。而是借这个声明以非技术的语言,按照统计学界的广泛共识,阐明若干原则,有助于改善定量科学的实施或解释。

什么是p值?

非正式而言,p值是在一个特定统计模型之下,数据(例如,两个比较组样本均数之差)的一个统计学概括,等于其观察值或取更极端值的概率。

原  则

1.p值可以表明数据和特定统计模型之间如何不相容。

p值提供一个办法来概括一个特定数据集和为其建议的一个模型之间的不相容性。最常见的情形是在一组假定之下构建的一个模型和一个所谓的“零假设”。零假设常常是效应不存在,诸如两组之间无差异,或者一个因素和一个结局之间无关系。如果用以计算p值的基本假定成立,p值越小,数据和零假设之间不相容性越大。这个不相容性可以解释为质疑或提供证据反对零假设或基本假定。

2.p值并不度量研究假设为真的概率,或者数据纯系随机产生的概率。

研究者常常希望把p值放到关于零假设为真,或者观察数据系随机产生的叙述中。p值并非如此。它描述数据和特定假设之间的关系,而不是描述假设本身。

3.科学结论和商务或政策决定不可以仅仅基于一个p值是否通过特定的阈值。

将数据分析或科学推断简化为机械的“一刀切”裁定(诸如“p<005”),这样来证明科学论断或结论会导致错误的信念和糟糕的决策。在“一刀切”的一侧,结论立即是“正确”,在另一侧,立即是“错误”。研究者作科学推断时必须考虑许多因素,包括研究的设计、测量的品质、所研究现象的外部证据,以及数据分析背后的假定是否成立。实践固然常要求二择一,作“yesno”决定,但是,并不意味单靠p值就能保证一个决定正确与否。将广泛使用的“统计学意义”(通常解释为“p≤0.05”)作为宣布一个科学发现(或真理)的合格证会导致科学过程相当大的歪曲。

4.正确恰当的推断要求完整的报告和透明度

p值和有关的分析决不可选择性地报告。数据作了多重分析,却只报告特定部分的p值(一般报告通过了阈值的那些)会使得所报告的p值根本不可解释。专挑有前途的发现,又称为数据捕捞、意义追逐、意义寻觅、选择性推断和“p黑客”,导致已发表文献中虚假的、过度统计学意义的结果,必须严格避免。人们一定不要正规地实施多重统计检验而产生这个问题:每当研究者基于根据统计结果选择报告什么,如果不告诉读者如何选择及其偏倚,那些结果的解释必是严重歪曲不实的。研究者必须公开研究阶段被探索假设的个数、所有数据收集的决策、实施过的所有统计分析和计算过的所有p值。至少要知道进行了多少分析和什么分析以及怎样选择某些分析(包括p值)来报告,才能基于p值和相关的统计量作出真实的结论。

5.p值或统计学意义并不度量效应的大小或结果的重要性。

统计学意义并不等价于科学、人类或经济意义。较小的p值不一定意味较大或较重要效应的出现,较大的p值不一定意味缺乏重要性或没有效应。任何效应,不论多小,如果样本量足够大或测量精度足够高,总能产生一个小的p值;如果样本量小或测量不精确,大的效应也可能产生不起眼的p值。类似地,如果估计的精度不同,同一个被估计的效应将有不同的p值。

6.p值本身并不对模型或假设提供一个好的度量

研究者必须知道,没有背景或其他证据,p值提供的信息是有限的。例如,一个接近0.05的p值本身只是反对零假设的微弱证据。类似地,一个相对大的p值并不意味证据有利于零假设;许多其他的假设可能和观察到的数据同样或者更加一致。由于这些原因,当其他方法适宜和可行时,数据分析决不可止于一个p值的计算。

其他方法

鉴于出现p值的错误使用和错误概念,有些统计学家愿意以其他方法补充甚至取代p值。包括比检验更强调估计,诸如置信区间、可信区间或预测区间;贝叶斯方法;证据的其他测度,诸如似然比或贝叶斯因子;以及其他途径,诸如决策理论模型和错误发现率。所有这些测度和方法依赖于更多假定,但它们较多直接关注效应的大小(及其连带的不确定性)或假设是否正确。

结  论

好的统计实践,作为好的科学实践的基本成分,强调好的研究设计和实施原则,数据的多种数值和图形概括、理解所研究的现象、结果的全面和完整的报告,以及正确逻辑和定量地理解数据概括意味什么。没有任何单一的指标可以取代科学推理。

【注】美国统计协会(American Statistical Association,简称ASA),是全美最主要的为统计学以及相关专业所设立的组织机构。其于1839年11月27日于马萨诸塞州波士顿成立。

【译者】:方积乾 教授,1961年获复旦大学数学学士学位,1982年至1985年在加利福尼亚大学伯克利分校,师从蒋庆琅教授,研究生命现象的随机过程模型,获生物统计学博士。1985年在北京医科大学由讲师直接提升为教授。1991年任中山医科大学公共卫生学院教授、主任、博士导师。国际生物统计学会中国组负责人;中国卫生统计学会副会长、广东省卫生统计学会会长。曾在英国肯特大学、澳大利亚国立大学讲学,1993以来,任香港中文大学兼职教授。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
ASA,P值,声明,统计学,p值,数据,科学,结论

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!