惊爆 | 百年p值 怎么说禁就禁?【连载2】

2018
02/09

+
分享
评论
黎麟
A-
A+
今天接着刊出林老师的“大科普”文章,其后刘强的【微点评】是一个统计爱好者的一些认知。敬请阅读。

【引言】昨日文章《美国顶级学术期刊宣布禁用p值》刊出后,收到不少朋友的“各抒己见”。好友C志鹏说:“这种反思是有价值的。以前大家都在用,但从来没有怀疑过。”好友G岩华认为:“美国人的这种探索精神值得学习。据说FDA在临床评价方式上也在探索改变,甚至会打破传统的1-4期临床方式。评价方法的改变或会带来方案设计、统计分析的改变,值得关注。”在我看来,美国政治学顶级学术期刊《政治分析》宣布禁用p值,这是一个事实,除非该刊朝令夕改,收回成命。这个事实给出的重要信号是,面对一场争议该刊已经作出抉择,是对沿用百年、让我们耳熟能详和深信不疑“科学方法”的质疑。面对太平洋彼岸的这个事实,会不会波及和是今天还是明天波及到药业或中国药业,都是未知的。正如几千年来谁也不会想到30多年前中药也要用一种叫RCT的方法进行评价才能上市,更不会“算出”到2017年有两类中药又回到“可仅提供非临床安全性研究资料,并直接申报生产。”反思与探索是中国药业明天能够长出参天大树的“文化土壤”,交流与争鸣是中国药业未来能够自立与世界民族之林的“科研生态”。百年p值,怎么会说禁就禁呢?值得我们去思考。今天接着刊出林老师的“大科普”文章,其后刘强的【微点评】是一个统计爱好者的一些认知。敬请阅读。

P 值是什么?

P 值是什么?我想在座有很多专家比我都懂,但是也有一些同学在场,所以还是稍微解释一下。

p值是由 Ronald Fisher在1920年代发展出来的,已将近一百年。p值检定最开始,是检定在一个model之下,实验出来的data跟model 到底吻合不吻合。这个被检定的model,我们把它叫做虚无假设(null hypothesis),一般情况下,这个被检定的model,是假设实验并无系统性效应的,即效应是零,或是随机状态。在这个虚无假设之下,得到一个统计值,然后要算获得这么大(或这么小)的统计值的机率有多少,这个或机率就p值。

举一个例子,比如说研究ESP(超感官知觉)时会用到比例(proportion)这个统计值。我们用大写的P来代表比例,不要跟小写的“p值”的p混淆。在p值的争论里,有一篇研究ESP的心理学文章被批评得很厉害。文章中提到了一个实验,让各种图片随机出现在荧幕的左边或者右边,然后让受测者来猜图片会出现在哪边。我们知道如果受测者的猜测也是随机的,也就是没有ESP的效应,则猜对的或然率应该是一半一半,算比例应该是差不多P = 0.5,这里比例P = 0.5就是我们的虚无假设。但这个实验,实验者是一位知名心理学教授,他让受测者用各种意志集中、力量集中的办法,仔细地猜会出现在左边还是右边。结果发现,对于某种类型的图片——不是所有图片,而是对于某些类型的图片,特别是色情图片——受测者猜对的比例,高达53.1 %,而且在统计上是显著的。所以结论就是:有ESP,有超感官知觉。

这里p值可以这样算:就是先做一个比例P的sampling distribution(抽样分配)。如果虚无假设是对的,平均来讲,P = 0.5。0.5就是P的抽样分配中间这一点,这个比例就是我们的虚无假设。在受测者随机猜测的情况之下,P应该大约是0.5的。可是假如真正得到的P是0.531,抽样分配告诉我们:如果虚无假设是对的,亦即如果没有任何超自然的力量,没有ESP存在,大家只是这样随机猜测的话,则猜对的比例大于或者等于0.531的机率,可以由抽样分配右尾的这个面积来算。作单尾检定,这面积就是所谓的p值。如果作双尾检定的话,这值还要乘以2。以上就是我们传统讲的p值的概念。

我们得到p值以后,要作统计检定。我们相约成俗地设定一个显著水准,叫做α,α通常都是0.05,有时候大家会严格一点用0.01,比较不严格则用0.10。如果我们的α= 0.05,则若p < 0.05,我们就可以拒绝虚无假设,并宣称这个检定在统计上是显著的,否则检定就不显著,这是传统的p值检定方法。如果统计上显著的话,我们就认为得到实验结果的机会很小,所以就不接受虚无假设。

为什么说p值很小,就不接受虚无假设?我个人的猜想,这是依据命题逻辑中,以否定后件来否定前件的推论,拉丁文称作modus tollens,意思是以否定来否定的方法,也就是从“若 P则Q”和“非 Q”导出“非P”的推论,这相信大家都知道。P值检定的逻辑是一种有或然性的modus tollens,是probabilistic modus tollens。“若H0为真,则p值检定显著的机率很小,只有0.05”,现在p值检定显著了,所以我们否定H0。但是命题逻辑的modus tollens,“若P则Q”是没有或然性、没有任何误差的余地的。“若H0为真,则p值检定不可能显著”,这样p值检定显著时,你可以否定H0,大家对此都不会有争议。

问题是假如容许或然性,这样的推论方法还是对的吗?举一个例子:“若大乐透的开奖机制是完全随机的,则每注中头奖的机率很小,只有1 / 13,980,000”,现在你中奖了,你能推论说大乐透开奖的机制不是随机的吗?p 值的问题,便是在于我们能不能够因为p值很小,小到可能性很低,我们就用否定后件的方法来否定前件。我们用命题逻辑来作统计推论,但其实我们的推论方法跟命题逻辑却不完全一样,因为我们的α绝对不可能是零,如果α是零的话,就不是统计了。

再来就是看电影时间,电影很有趣,可以帮助我们了解什么是p 值,也可以再接着讨论为什么用p值来作统计推论会有错。这部电影叫做“玉兰花”,是1999年的电影,已经很旧了,可能在座年轻的朋友就没看过。网络上在Youtube有这一段,请大家观赏。

相信大家应该都看得懂这短片的用意。玉兰花这部电影,虽然里面有讲一些脏话,但是其实是一部传教的影片。它的推论方式,其实就是我刚刚讲的p值的推论方式,它有一个虚无假设,就是说事情发生没有什么超自然的力量在作用,都是随机发生的,是by chance,不是by design,可是它发生了,竟然有这么巧合的事情。大家可以想一下,如果事情的发生都是by chance,都是随机的,那么像这种事件发生的机率有多少?很小很小,0.0…01,几乎不可能发生。所以假如是随机发生的,就几乎不可能发生,可是它发生了,我们就以否定后件来否定前件,推论虚无假设-by chance 的这个假设-是不对的。

既然不是by chance,它是什么?就是by design,是设计出来的。这是基督教的一种论证上帝创造世界的方法。在美国,有些学区还在争论,生物是创造的还是进化的?创造论的主张者都会用这样的论证,说你看我们人体,它是这么复杂的一个系统,这种系统可能是随机发生的吗?若是随机发生,机率有多少?是0.0…01,所以它不可能是随机发生,因此是创造的。这个理论叫做intelligent design(智慧的设计)即我们这个世界都是上帝创造、是上帝很有智慧地依照蓝图设计出来的。我今天也不想争辩这种推论对不对,我只是举例来说明这种推论的逻辑。(未完待续,明日文章“p值不是什么?”敬请关注)

【微点评】:刘强

我不是统计专业背景,仅作为有一些数据分析经验的相关人员说说我的学习体会。

p值的局限性以及大量医学研究论文中对p值的误用和错误解释,在数据分析领域已经是一个老生常谈的话题。我也曾经在很多场合和感兴趣的朋友们交流过这方面的问题。应该说,所谓“p值的陷阱”,是一个学界公认的客观存在。

我对相关事件的体会如下:

(1)p值和基于无效假设的检验确实存在局限,但拒绝p值和基于“无效假设”的检验方法,在当前的国际学术界仍然被视为“激进的选择”,存在较大争议。依据ASA相关说明,即便是这份对p值和统计显著性的声明制定,也被很多专家认为难以达成一致意见。

(2)对于学术期刊的表态,值得大家更关注的可能不是“p值”或者背后的基于“无效假设”的检验,而是拒绝报告p值以后,用于替代p值支撑统计推断的方法应该是什么?是否比P值更加合理?

(3)林教授报告的以抽样结果作为客观事实,以此评估无效假设可能为真的几率可能是NHSTP一个很好的替代思路,但现在尚未形成成熟的学界共识。这为统计学家提供了一个机遇。希望国内的统计专业人员深入到相关研究中去,有所建树。

(4)虽然存在争议,但在较短的时间,p值和NHSTP被淘汰的可能性不大。比起理论上的局限,统计学术界更加担心的,可能是在形成研究结论时对p值和统计显著性的误解和误用。ASA在声明的结论部分指出,良好的统计实践强调良好的研究设计和实施、各种数值和图形的数据摘要、对研究现象的理解、在特定情境中对结果的解释、完整的报告和适当的逻辑,并对数据摘要的含义的定量理解。没有单一的指标能取代科学的推理。因此,对于应用这些统计方法的研究者而言,在现阶段,应当更加关注对p值、统计显著性和NHSTP如何正确的应用和解释。

(5)《基础和应用社会心理学》拒绝NHSTP的社论中还提到了一个有趣的观点,“我们在心理学研究中鼓励使用大样本,因为随着样本量的增大,描述性统计结果越稳定,抽样误差越小”。在临床研究中,传统的干预性研究由于受试者风险和高成本,倾向于使用“符合统计学要求”的样本量,鼓励大样本缺乏可行性。但是近年来,能够支持足够大样本的观察性研究模式,如以注册登记研究为代表的真实世界研究获得了越来越多的关注,从某种意义上说,也体现了这样一种趋势。

贝叶斯统计早已成为了和经典统计分庭抗礼的一个重要学派,两者之间的学术争论已经长期存在,并且极大的推动了统计科学的发展。一些杂志对p值和NHSTP的质疑和拒绝未必不是这场旷日持久的学术争鸣的一部分。拒绝p值和NHSTP只是许多学术争议的结果,如果我们过分关注“拒绝”和“禁止”本身,和我们过去过分关注“p值”并没有本质的区别。我们不妨借此机会对统计理论和学科发展给予更多关注,提升我们对相关分析方法的理论认识和应用技巧,以积极的态度来面对这些争议可能对医药学术和行业产生的影响。

刘强,中医学博士,现任世界中医药学会联合会评价中心主任、临床循证研究指导中心副主任。具有二十多项国家课题和药物研发临床研究的数据分析工作经验,在国内核心期刊发表论文30余篇,参与专著编写6部。

[注]本文资料自微信公众号【经管世界】,原文标题《美国顶级学术期刊宣布禁用p值,原来p值很危险》

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
惊爆,连载,百年,受测者,统计,检定,推论,假设

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交