才子佳人博客

我的故事我讲述

统计分布的置信区间与置信水平
 
来源:xjh  编辑:xjh  2018-11-04

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。

置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间。

置信区间的计算公式取决干所用到的统计量。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用。置信区间的常用计算方法如下:

Pr(c1<=μ<=c2)=1-α

其中:α是显著性水平(例:0.05或0.10);

Pr表示概率,是单词probablity的缩写;

100%*(1-α)或(1-α)指置信水平(例如:95%或0.95);

表达方式:interval(c1,c2) 为置信区间。

置信区间与置信水平、样本量等因素均有关系,其中样本量对置信区间的影响为:在置信水平固定的情况下,样本量越多,置信区间越窄。其次,在样本量相同的情况下,置信水平越高,置信区间越宽。

置信水平是指总体参数值落在样本统计值某一区内的概率,一般用1-α表示;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。

在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。

特别注意:

我们用局部估计整体。

参数95%的置信度在区间A的意思是:

正确:采样100次计算95%置信度的置信区间,有95次计算所得的区间包含真实值。

错误:采样100次,有95次真实值落在置信区间。

真实值不会变,变得是置信区间。

要理解置信度,就要理解好置信区间。要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是用样本估计总体。在统计学中,非常容易把概念模糊化,很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。

但是这里有两个容易混淆的地方

1.真值指得是样本参数还是总体参数?这个问题的答案是总体参数,我们取的数据是样本数据,但是我们要估计的是总体的参数。

2.95%的概率,变动的是谁?这里95%的概率,变动的是置信区间。


分类:网络日志| 查看评论
相关文章
文章点击排行
本年度文章点击排行
发表评论:
  • 昵称: *
  • 邮箱: *
  • 网址:
  • 评论:(最多100字)
  • 验证码: