首页
快讯
关注
资讯
- 健康
- 科技
- 热点
- 视频
- 产业
- 政策
- 护理
- 投资
- 医改
- 养老
- 疫情
- 人物
- 医保
- 疾病
- 管理
- English
- 临床
- 心血管
- 肿瘤
- 内分泌
- 妇儿
- 感染
专题
专区
知识

欢迎登录体验更多功能

搜索

【p值之争】斯坦福大学陆教授有话说

2018

02/27

黎麟

A-

A+

p 值是测试临床试验研究假设的一个可接受的推断统计。然而，过分依靠单一的 p 值来判断一项研究的科学价值是对 p 值的一种滥用；研究结论需要基于一系列相互关联的结果，而不是一个单一的统计检验。

【引言】陆老师说，刊载在《上海精神医学》2015年第27卷第6期的中文版译者在翻译时有多处“不尽人意”，比如“多样性的翻译是错的。应该是变异，英文是variation ，也就是大家说的方差（variance）。观察到的p-值是个统计量，也就是统计观测值。自身有方差。有时看着p值很小，置信区间却很宽。但所有的替代方案都会存在同样的问题。所以p值是评价随机影响的重要指标，是必要条件之一。但不是充分条件。只用p值决定科研成果是对p值的错误使用。医生不会用一个指标去诊断疾病”。“临床意义在先，统计学意义在后。无临床意义的研究不需要统计验证。”在这篇论文中陆老师还特别提出了数据质量的问题：“进入分析的数据是垃圾，所产出的只能是垃圾！”看来，任何一个从事临床科研的工作者都应当避免成为有意和无意的垃圾制造者。

p 值之争

概述：p值是生物医学研究中使用最广泛的统计学概念。最近，学界关于p值的效用以及p值的滥用与已发表的医学研究无法重复性较差之间可能存在的关联性有一些争论。在本文中，我们以通俗易懂的方法介绍p值，并且解释它的随机性和局限性。然而，目前提出其它能替代p值的概念也有同样的局限。我们得出了如下的结论：对于检验临床试验的中的零假设 (null hypothesis) 和替代假设 (alternative hypothesis) 来说，使用p值是一种有效的方法。然而，仅仅利用从某单一统计检验所得出的p值来判断研究项目的科学价值则是一种对p值的滥用；为得到可信的临床研究结果，我们需要将利用p值得到的推断检验的结果与次要结果以及其它数据进行整合。对于在研究中阐释统计结果而言，了解p值的多样性和局限性是至关重要的。【关键词：p值；统计推断；假设检验；统计显著性；科学可重复性】

1. 背景

在一个经典研究中，如临床试验，研究者可能对一个创新治疗和安慰剂对照（或标准治疗）两组之间在一个预设的终点时的差异感兴趣。初步证据表明创新治疗可能会使患者受益，临床试验的目的在于严格验证这个假设。

在我们证明一个新的、试验性治疗方案起作用之前，为了进行一个符合伦理的试验，我们必须对两种治疗方案保持均衡，均衡意味着两种治疗方案间无差异。这一假设就是我们统计学上所指的零假设 (null hypothesis)。除了零假设，所有临床试验有一个工作假设 (working hypothesis)，即试验性治疗不仅起作用，而且还有显著的临床好处。这一假设通常被称为替代假设 (alternative hypothesis)。

在完成一个试验的基础上，我们分析研究试验数据以确定支持哪一个假设，零假设或替代假设。1925 年，Fisher [1] 将零假设显著性检验 (null hypothesis significance testing, NHST) 从背景噪声引入目的各异的有趣发现中。NHST 检验在大多数科学学科中是使用最广泛的数据分析方法 [2]。我们查看试验中所观察的两种治疗方法之间的差异，并且问我们自己：“在均衡假设（即，零假设）成立的情况下，观察到两组之间差异大于等于目前差异的概率是多少？”这种概率被称为“p 值”[3] 或“显著性概率”。当这个概率足够小时，我们有信心认为治疗方案之间没有差异的可能性很小，因此，我们得出结论为试验支持替代假设（即，促成该研究的工作假设）。当概率较大时，我们仅有少量的证据支持替代假设，尽管它可能仍然是正确的。

2. p 值之争

p 值的动人之处在于它将信号（治疗差异）和噪音（所估计信号的随机变化）合并成为一个的衡量试验数据所提供的证据强度的单一测量。p 值在科研界广泛被采用，并且被认为是现代科学最有影响和最具变革性的统计概念。然而，尽管有这些成功之处，但是关于 p 值的使用是否应该对无法重复科研中的统计显著性负责最近出现了辩论，这是限制临床研究转化为临床实践的一个严重问题。Halsey 等 [4] 在 Nature Methods 最近发表的自文章中讨论到：“人们在使用 p 值时往往没有意识到，在大多数情况下，一个研究的统计功效太低以至于 p 值无益余数据解释。研究人员如果放弃用 p 值而使用替代的统计方法来解释数据会做的更好。”

按照这一思路，Journal Basic and Applied Social Psychology 的编辑最近对他们杂志发表的文章禁用 p 值和假设检验 [5]。

与这种观点相反，我们认为 p 值本身不能因为科学研究结果缺乏可重复性而被指责。p值是作为在某一实验中信噪比 (signal-to-noise)来衡量证据强度的一维度量。与所有统计量一样，p 值是从数据中估计的，因而，它也受制于随机变化，所以它的置信区间可以很宽，特别是当原始数据从一个相对较小的数据点样本获得的时候。例如，基于 Lazzeroni 等的工作 [6,7]，对一项已报告单侧 p 值为 2.5% 的检验进行相同的重复，p值的 95% 置信区间可以从 0% 到 79%。然而，该置信区间的宽度可以通过增加重复实验的样本大小而缩小。

一个常见的与可重复性无关的p值的误用是，临床医生和其他人没有受过统计训练的应该人解释不当。p值测量的既有结果是因为偶然性的概率，却往往被错误地解释为衡量关联性强度的一个变量。例如，临床试验中较小的p值会被不正确的推测为该实验干预比对照组中干预（如果有的话）具有更大的优越性。然而，如果样本非常大，一个很小的、临床上不显著的效应值可能与非常低的p值相关。因此，一个小的p值并不一定意味着研究发现具有很大的临床或生物利益。

研究人员已经提出了p值的几个备选方案 [8,9]，包括置信区间和贝叶斯统计。置信区间提供了二维信息，点估计（信号）和置信区间的宽度（噪声），从而有可能比p值具有更多的信息，大家应该一直报告之。然而，置信区间是单位依赖的，因此很难在不同研究中比较。此外，基于置信区间接受或拒绝零假设的决定准则还是会得出与基于p值作为决定准则得出的相同的结论 —— 无论何时 95% 置信区间不包括一个参数的零假设的值，相应的p值即小于 0.05。贝叶斯统计学中的“贝叶斯置信区间 (Bayesian credible interval)”类似于频率统计中的置信区间，是p值的另一个替代方法 [10]。这两个替代方法，如p值一样，当决定接受或拒绝一个临床假设时会产生假阳性和假阴性率，并且可能会在展现发现的临床和生物学意义上解释错误。

3. 对数据可重复性而言，禁用 p 值并不是解决方法

一项成功的研究包括很多阶段设计和分析，包括数据采集、处理和分析。这些步骤的最后一步就是推论统计，例如p值，以及运用统计值的决定准则来接受或拒绝所感兴趣假设。在收集和分析数据的过程中，研究者们要做很多决定，例如如何收集数据、排除哪些观察值以及合并和比较哪些条件 [11]。这些在数据分析之前的决定决定对最终结果的有效性比运用推理统计时产生的决定有更大的影响。

Simmons 等 [11] 表明尽管名义上能接受的最大假阳性率认可的是 5%（即，p<0.05），但是在一个单一研究中一些数据分析决策可以将假阳性率增加至 60%。为了过低估计防止假阳性率，他们推荐所有数据分析决策的公开化并且报告所有相关的比较，不仅仅是显著性的结果。Gelman 和 Loken[13] 还推荐了一些更严谨的方法来减少发表中的假阳性结果：包括所有研究分为两个阶段，首先是基于理论的探索性研究，第二阶段是对研究本身提前阐明数据处理与分析的所有细节的预注册研究方案进行纯粹的证性研究。这种方法可以有分析的自由性和灵活灵活性，同时也提供了足够的严谨性，从而减少发表假阳性结果的数量。它有助于将合理有力的验证性分析结果和需持有怀疑态度的探索性分析结果区分开来。

仅仅发表具有统计学意义的结果（“阳性”）的激励导致了发表偏倚，这种现象就是阳性结果的研究可能比阴性结果的研究更有可能被发表。发表偏倚是一个严重的问题，它既会影响研究结果的重复性，或许更重要的是，这也会影响发表的研究成果在临床指南和健康政策中的正确解释和转化 [15]。然而，发表偏倚主要是一种与 p 值使用无关的选择性发表主要问题；阳性研究的选择性报告也可以在其他推理统计中发生，如用来测试零假设和替代假设的贝叶斯临界区间 [16]。发表偏倚无法通过禁用 p 值来降低，但可以采用更高的标准和科学评审程序并且鼓励精心设计和阴性结果的研究发表。

研究的不可重复性的缺陷不能归咎于p值的使用。正如指 Leek 和 Peng 指出的 [12]，“清除劣质统计的科学需要审视每一步，不仅是最后一步”。临床试验研究是由明确的零假设和替代假设构建而成的，所以为假设检验使用p值是恰当的。禁用p值对科学研究成果的低重复性不是解决方案。

那么，什么是研究结果重复性差主要罪魁祸首？如果我们把统计统计决策看作是在一项研究中收集的数据所得出结论的科学效度的诊断测试，那么p值可以被看作是一个实验室测试值（类似于辅助临床诊断决定的一项实验室测试）。在这个比喻中，1 减去p值就是“诊断测试”的特异性，即接受没有治疗效果时接受零假设概率。统计功效是诊断测试的灵敏度，即能够正确识别一个真实 / 有效的假设的能力。然而，如果只有一小部分研究进行了正确的（真实 / 有效）临床假设，诊断 / 统计检验的阳性预测值（即，临床假设得到正确的统计学显著性的几率）将是低的。例如，使用一项 I 类错误率为5%（即95%的特异性）和80%的功效（灵敏度）的研究设计，当只有10%的临床假设被验证为真实的时候，阳性预测值（即，统计学显著性结果是正确的可能性）仅为60%，对于较低统计功效的设计将会更糟。因此，禁用p值对于基于问题假设的研究来说不是一个解决方案。这个概念Ioannidis博士 [17] 在他2005年著名的文章“为什么大多数发表的研究结果是错误的”中已经解释了。科学是一种迭代学习的过程，没有捷径。只要进行的研究中真实假设的比例是低的或研究的进行统计功效低（低灵敏度），结果都是不太可能重复的。进入分析的数据是垃圾，所产出的只能是垃圾！

为了提高研究结果的可重复性，我们必须首先严格执行科学原则，以产生定义准确和科学合理的假设。这需要通过深入的背景研究（通常包括系统综述）来制定具有扎实基础的方案，需要进行预实验以证明概念，采用严格的方法来客观评估结果措施并合理展开临床试验以确保高的统计功效（即，高灵敏度）。医生不能根据单一的实验室检测值来诊断一种疾病，他们依靠收集证据来支持诊断测试。同样，临床试验和其它医学研究结果不能完全依靠主要结果的一个单一p值；我们应该考虑主要结果与支持主要结果的次要结果和其它依据的一致性。最后，报告研究结果的准确性、完整性、和透明方式非常重要的（例如，使用报告指南，见 http://www.equator-network.org），这样可以使读者可以使用或重复结果以清楚地理解该研究设计的优势和局限性，以及该研究产生的数据分析所使用的统计方法的优点和局限性。

4. 结论

总之，p 值是测试临床试验研究假设的一个可接受的推断统计。然而，过分依靠单一的 p 值来判断一项研究的科学价值是对 p 值的一种滥用；研究结论需要基于一系列相互关联的结果，而不是一个单一的统计检验。了解 p 值的局限性和多样性是正确诠释试验结果的关键。在进行研究之前，更好的了解研究背景和有效地开展预试验是最重要的步骤，可以提高科学研究结果的有效性和可重复性。由于自身的局限性而降低对 p 值和假设检验的使用对不可重复的临床试验研究不太可能较大的改善。

[注]该论文的备注和引文部分从略，详细资料可来函索取。

Lu 博士是斯坦福大学生物统计学教授，也是美国退伍军人事务部 (VA) Palo Alto 研究计划合作协调中心主任 (CSPCC)，支持为退伍军人全国性大型多中心临床试验和 DNA 银行研究提供全面的研究支持。Lu 博士来自上海，他从复旦大学获得数学学士学位并从上海交通大学获得应用数学硕士学位，随后从加州大学伯克利分校获得生物统计学博士学位。他的研究已在 200 多个同行评审的出版物中发表，并覆盖了广泛的临床领域，包括他目前在 Palo Alto CSPCC 监督指导的几个心理健康试验。Lu 博士是美国统计协会的当选院士，是伊芙琳修复纪念奖和 HealthSTAR 骨质疏松症医学研究奖的获得者。作为上海交通大学的校友，Lu 博士被聘为《上海精神医学》生物统计学编委。进一步信息可以从 https://med.stanford.edu/ profiles/ying-lu 上获取。

Belitskaya-Lévy 博士是一名美国退伍军人事务部 (VA) Palo Alto 研究计划合作协调中心的数理统计学家。她是退伍军人合作研究计划 ——DNA 银行的生物统计学领头人。Belitskaya-Lévy博士曾经是 Rob Tibshirani 教授的学生，并从斯坦福大学获得统计学博士学位。她在纽约大学医学院生物统计学系任职超过 10 年。目前，她的工作重点是遗传和基因组研究、高维数据分析的研究设计和统计方法学。