如何理解 95% 置信区间?

如题所述

我说下我的理解:

比如,我们要根据一系列样本来估计参数a
那么,我们可以定义这样的一个量:它由a表示,但它的分布,却不依赖于a。我们将这个量称作枢轴量。
例如,如果a是方差已知的正态分布的均指,设样本均值是,那么,服从已知的正态分布,我们就可以称作b是枢轴量。

容易看出,枢轴量有两点性质:1.分布已知,2.包含未知参数的信息。


我们将估计a的枢轴量记作f(a,X),这里,X表示样本。因为枢轴量的分布已知,我们便有可能找到这样的区间[bl,bh],使得的概率大于95%,更近一步,如果能够求出和不等式等价的不等式,我们便可断定,a落在区间的概率不低于95%,即该区间是a的置信度为95%的置信区间
温馨提示:答案为网友推荐,仅供参考
第1个回答  2018-01-11
看见两位哲学界前辈 @鸟怪山@蔡倩愉 关注了这个问题。其实我不知道你们的关注点在哪里——是单纯地想了解统计学,还是有自己的哲学关切。如果是后者,我十分愿意谈一谈置信区间的哲学意蕴。它或许能为人们理解置信区间提供一个有趣的知识背景,或者满足一部分人的求知欲。当然,对科学哲学不感兴趣而只想在数学层面理解置信区间的人则完全没有必要阅读。
关于置信区间在数学层面上的解释,各个答案已经说得不错了,我想这里没有必要再介绍置信区间是什么了。我想介绍的是,我们为什么需要置信区间,以及它为什么通常是95%。由于时间和能力有限,涉及到的很多专业的问题我无法探讨,所以只想给出一个大家都看得懂的概要。
我们知道,置信区间不是一个孤立的概念,它是统计学理论(具体来说是内曼-皮尔逊统计推断理论)中的一环。而统计学理论往往是为科学服务的,这是因为现代科学注重数量层面,并且往往涉及个别和一般。所以我们的讨论落在科学哲学的层面也就不奇怪了。当然,这些讨论对于不被称为科学的统计应用也是有效的。我们会从看似不相关的科学哲学问题说起,最后讨论到置信区间。
说起科学,它想要做的工作很多,它可能包括提出对个别现象的解释,对未来的预测,等等。然而,更吸引人的是提出关于总体的理论,而解释和预测也往往依赖于普适理论。关于这种普适理论,我们首先想到的范例就是牛顿力学。然而,我们如何提出一个普适理论呢?
在这里我们发现,人类具有一个根深蒂固的局限性——我们不能一下子就如同上帝一样认识全体,而只能一个一个地观察个体。因此,认识总体似乎只能通过从个别到一般的方法,即归纳。然而,休谟告诉我们,从有限的经验观察中是无法得出关于总体的理论的。这很好理解:就算你看到10000只天鹅是白的,你也不能下定论说“天鹅都是白的”,因为第10001只就可能是黑的。如果从个别到一般是不行的,那么我们是否有办法绕开个别而直接得到一般——比如,通过神启等方式?波普会告诉你,这并不解决问题。发现的逻辑和验证的逻辑是不同的,就算你通过神启发现了总体的规律,可是面对怀疑时你还需要验证它的正确性,而这必然还要回到个别。
那么怎么办呢?波普说,我们无法通过有限的个例证实一个理论,但我们可以证伪它!比如,如果我们发现了1只黑天鹅,那么“天鹅都是白的”这个理论就被证伪了。这样,所有被接受的理论就不是证实无疑的理论,而是尚未被证伪的理论。而科学与非科学的界限,就在于是否具有可证伪性。
这就是波普的证伪主义。相信很多知乎用户都对此了解,我经常看到知乎用户在谈论科学问题时诉诸可证伪性。然而故事还没完呢——证伪真的像想象中那么简单吗?
证伪主义可能面临至少三个问题:
(1)科学理论往往不是孤立的,而是相互支持的。当科学理论建立在其他理论或假设的基础上时,我们不知道被证伪的是这个理论还是它所依靠的前提。
(2)它将一些我们通常认为是科学的东西排除在科学之外——比如达尔文的进化论就不具有可证伪性。
(3)统计推断往往不具有可证伪性。
涉及置信区间的,就是第三个问题。统计学也想得出关于总体的结论,而它作出推断的方式和我们之前所说的都有所不同。在统计学中,我们为了知道总体数据的某些特性,往往采用抽样的做法,用样本估计总体。这种估计,很难被证实,因为我们往往不掌握总体的数据;它也同样很难被证伪,因为统计推断是关于总体数据特征的推断,无法用任何一个单独的个体数据证伪。
我们可以想象这样一个例子:我用一定量的样本数据估计出全体知乎用户的平均年龄为28岁,那么——显然,你举出“White是20岁”来证伪是无效的,因为我们这里谈论的是平均;如果你收集了一组样本,其平均年龄为35岁,是否能够证伪呢?也不行,因为我们谈论的是总体。仿佛,我们在这里完全没有办法确定关于总体均值的估计是否正确。
你可能会想到,假设为了验证关于总体均值的估计,我随机抽取了1000000组样本,其均值都与28有一些差距,这是否能够证明总体均值不是28呢?当然不能。我们仍然不能确定地说总体均值不是28,不过,我们可以说总体均值是28的可能性不大。你一定明白了,这里我们能够谈论的只能是可能性。所以在这类问题中,我们接受或拒绝一个理论,不是因为它被证明了是正确或错误的,而是因为它很可能正确或很可能错误。
“很可能”的界限在哪里?波普是不赞成以概率数字来表示正确或错误的可能性的,不过在科学的实践中我们往往需要明确的标尺,这还是要求助于数学。统计学家们想出了办法,他们往往(人为地)估计总体数据的分布情况,然后(人为地)构造统计量,最后将统计量同预先(人为地)设定的标准相对比,以此决定我们是否应该接受/拒绝一个统计推断。鉴于其中检验方法和标准都是十分“人为的”,所以不得不承认由此得出的结论是“方法论上的真理”。置信区间,便是这样的一种人为设定的接受/拒绝理论的标准。读到这里,你已经明白置信区间从何而来了。
那么置信区间为什么通常是95%呢?其实,这个数字并不是必然的,而是人为设定的。置信水平的设定是有影响的——如果我们对置信水平要求过高,我们可能会拒绝实际上是正确的理论(犯了I类错误);如果我们对置信水平要求过低,我们可能会接受错误的理论(犯了II类错误)。并没有一个万全之策能够让犯两种错误的可能性同时降低,我们必须做出选择。鉴于我们更加不喜欢犯II类错误,所以我们习惯于把置信水平设置在高水平。人们觉得95%是合适的,它的涵义是当总体呈正态分布时估计值落在总体均值左右两个标准差范围内的概率的近似值。详见http://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule。关于置信区间的问题,我想说的就这些。
最后说些闲话。首先,如果没有意识到以上问题,我们很可能会像前期维特根斯坦那样简单地所认为科学就是所有真命题的总和。而以上讨论让我们认识到,即使是科学,也并不是具有坚实确定性的,它可能需要方法论的支持。所以,科学更像是一个游戏,我们制定规则然后玩它。其次,我想借用后期维特根斯坦的标准米比喻——有一件东西你不能说它是一米长,它就是巴黎的标准米。同样,你不能说科学方法论是真还是假,因为我们用方法论来衡量真假。最后,也不要为我们在某些问题上无法获得完全确定的真理而感到悲伤——我们毕竟不是上帝,或许我们的智慧只能做到这种程度吧:)。
(完)
======
注:评论区有很多朋友认为,此答案在数学上犯了一些错误。我对数学了解不深,很感谢大家的批评。各位读者请只看此答案的哲学部分就好。
第2个回答  2018-01-11
很多答案当中用关于真值的概率描述来解释置信区间是不准确的。我们平常使用的频率学派(frequentist)95% 置信区间的意思并不是真值在这个区间内的概率是 95%。真值要么在,要么不在。由于在频率学派当中,真值是一个常数,而非随机变量(后者是贝叶斯学派) ,所以我们不对真值做概率描述。对于这个问题来说,理解的关键是我们是对这个构造置信区间的方法做概率描述,而非真值,也非我们算得的这个区间本身。

换言之,我们可以说,如果我们重复取样,每次取样后都用这个方法构造置信区间,有 95% 的置信区间会包含真值 (*)。然而(在频率学派当中)我们无法讨论其中某一个置信区间包含真值的概率。

实际上,在特定的情形中 (^) 我们甚至可以直接断定一个参数不在一个 95% 置信区间中,即使我们构造这个区间的方法完全正确。这更说明我们不能说参数在某一个区间内的概率是多少。

只有贝叶斯学派才会说某个特定的区间包含真值的概率是多少,但这需要我们为真值假设一个先验概率分布(prior distribution)。这不适用于我们平常使用的基于频率学派的置信区间构造方法。

更多的解释可以参考:
http://en.wikipedia.org/wiki/Confidence_interval#Misunderstandings

评论里的补充解释:
换种方法说,假设我们还没有取样,但已经制定好取样后构造 95% 置信区间的方法。我们可以说取样一次以后,获得的那个置信区间(现在还不知道)包含真值的概率是 95%。然而在取样并得到具体的一个区间之后,在频率学派框架下就无法讨论这个区间包含真值的概率了。

取样前能讨论,取样后却无法讨论,这可能让很多人感到很不自然。扩大来说,传统频率学派对已经发生,但我们不知道结果的事件的讨论存在困难。虽然这个问题通常在应用上无伤大雅,但确实有不少学者因此寻求对概率的不同解释。

______________________
* 也许你会说这么描述就相当于说某个置信区间包含真值的概率是 95%。那我只能说你必须寻求频率学派以外的对概率的解释。这是一个很深奥的哲学问题:)
^ 参见 http://stats.stackexchange.com/questions/26450/why-does-a-95-ci-not-imply-a-95-chance-of-containing-the-mean 中的回答
第3个回答  2018-01-11
个人觉得这个和小概率事件的定义是密不可分的
要理解置信区间,不妨看看假设检验的三种方法,其实是同一种方法向着数据端演化来的。
(比如我要看0<x-1<2,这个不等式是不是对实验数据“2”成立了,方法三就相当于已经把x单独提取出来成了1<x<3了,发现2是成立的,这就是算置信区间的方法,其实原来0<x-1<2不等式才是体现小概率事件思想的)

方法一:(算显著性)判断数据是不是小概率
一开始我们就定义发生概率低于alpha=5%的事情为小概率事件(这个是人为取定的,或者1%)
假设推断就是在假设成立的条件下,去看实验数据是不是小概率事件,找枢轴量方法等等,如果是发生率是5%,啊哈,一次数据居然是小概率事件,这个不太可能出现啊,所以我会拒绝假设。

方法二:(算p值)判断数据折合为一个随机变量后在小范围的概率(见林青青同学的图)
同样p值,回到我们定义小概率事件的alpha时,如果alpha取太大,就更可能拒绝原来假设(发生概率10%你都认为是小概率而拒绝了,要求更严格),alpha太小容易接受,这时我们先不取定alpha的值,发现alpha取p这个值的时候刚好拒绝原假设,这个就是p值,p值是针对已有的数据得到的。Fisher等人支持直接用p值决定拒绝与否,习惯一般p小于0.01就强有力拒绝,等同于你用显著性判断方法一开始定义1%的是小概率事件,结果数据还发生了。
注意:这个p相当于折合到另一个随机变量取值在一个末端的小范围的概率,而不是指数据这样取发生的概率,数据的取值是连续的,只能用概率密度函数来描述,不能直接用概率。


方法三:(算置信区间)每次数据都去算个p值太麻烦了,约定好了alpha后,我直接把需要算的都先算好,得到一个区间,看数据统计量是不是在这个区间,不在就拒绝。
为了让判断更方便一些,我们直接得到一个区间来统计值是不是在此之内,95%置信区间就是对一个参数做出的假设范围,如果实验得到在这个范围,就可以说不再我们之前定义的小概率事件内,就说没有主够的理由拒绝。
第4个回答  2018-01-11
看大家答的挺high,我也来!
在我看来,题主的问题分为两部分,一是置信区间,二是为啥这个区间一般取95%.

关于置信区间,每本统计学的书都会讲到,也会配上实例,题主可以多体会。这个概念其实可以归结为常识的数学表达。现实中,如果我们按常理推测有事情不会发生,可惜他确实发生了,那肯定是我们的推理依据错了。翻译成数学语言就是,一个小概率事件(发生概率<1-95%),从统计意义上说(根据过去数据建立的概率模型)不应该发生,结果发生了,那和这个小概率事件等价的命题就很大概率被拒绝(”错“的,就是我们的经验不支持这个结论)。
我一般是把这个方法类比为反证法,假设(小概率事件),推导出矛盾(不应该发生却发生了),那肯定是原假设有问题,不采纳。

偏个题, 我特别喜欢拉普拉斯这句话, probability is nothing but common sense reduced to calculation. 统计也一样,都是一些常识转换成数学运算,理解它要从常识出发。

第二点,为啥一般取95%,这个数据大概是对应着20次重复,会出现一次小概率事件吧,1/20 说少也不少,我的感觉是这个数值应该是个经验数值(拍脑袋?),也可能是假设检验这套理论建立起来的时代引入的,符合当时的时代要求,具体也没看到过有讲这个的来历了。
不过完全可以不是95%,很多地方就推荐97%, 99%也是有的。那到底应该取多少好呢?这个问题是统计理论本身无法回答的。要按照实际需要来。
举个例子,一批产品,我们要求要判断这批产品合不合格,这就是一个假设检验的问题。那具体多少不良率才算不合格呢?要知道不良率定的越高,越容易达标,但是残次品多就卖毁招牌;如果不良率订低了,产品要返工,增加成本。所以这个不良率肯定是一个折衷,成本和品牌要兼顾。这就不是统计理论的问题了,是对市场的判断问题。
具体的比如,一般的汽车,我们要求它不出问题的概率 > 99% 就OK了, 那置信区间可以取99%; 一般电信系统,就是移动联通用的,行业标准是5个9,可靠率 > 99.99999%, 因为一般来说同一时间,电信公司要服务成千上万的用户,如果一分钟内有1千万用户接入,那掉话的用户应该 < 0.0000001*10^8 = 10个,要知道用户掉话可以去告电信公司的;而最高的标准是航天,可靠性7个9,因为这些东东飞出去了就基本上没法修了,要是出了问题损失就大了,更不用说如果是载人航天,人命关天。