离差和方差的区别?

如题所述

1.定义上的区别:

离差:

离差,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标

方差:

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

2.公式上的区别:

离差:

用的表示数据离散趋势的统计指标有全距、四分位区间距、平均差、方差和标准差。

全距

全距是说明数据离散程度的最简单的统计量。把一组数据按从小到大的顺序排列,用最高分减去最低分,所得的值就是全距,即最高分和最低分之问的距离。

上面A组数据的全距为81-79=2;B组数据的全距为100-50=50。全距小,说明数据的分布相对集中;全距大,说明数据的分布较为分散。

全距的优点是计算方法简单,而且也容易理解。缺点是由于它只考虑到两端的数值,没有考虑中间数值的差异情况,描述数据时不太稳定。

四分位区间距

中位数可以用来表示一组数据分布的集中趋势。中位数正好把一组数据一分为二。如果把中位数左侧和右侧的分布再各分成两个部分,得到的是四个相等的分位。

这组数据的第一个四分位(即25%的位置)的值正好处于数据分布的四分之一处,中位数正好是第二个四分位的值,第三个四分位的值刚好位于该组数据分布的四分之三处。

把第三个四分位的值减去第一个四分位的值,所得到的值叫做四分位区间距,统计学上也用这种方法来表示数据的离散情况。

如上面A组数据的四分位区间距为81-79=2;B组数据的四分位区间距为100-60=40。除了四分位区间距,统计学上还有十分位区间距和百分位区间距,

它们的区分方法相同,十分位则将数据由大到小或由小到大排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数(deciles)

分别记为D1,D2,...,D9,表示10%的数据落在D1下,20%的数据落在D2下……100%的数据落在D9下。百分位区间距与十分位区间距同例

只是将数据分成100等份,于99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,…,P99,表示1%的数据落在P1下……99%的数据落在P99下。

平均差

与全距相比,四分位区间距在表述数据的离散情况时稍微好一些,但由于它没有把所有的数据都考虑在内,其稳定性会差一些。

比如说,我们得到两组数据,这两组数据的值并不完全一样,但最后得到的四分位区间距的值则可能完全一致,这便是用四分位区问距来表示数据分布的不足之处。

理想的办法是把全部数据都考虑在内来计算分布程度。理由很简单:平均数代表一组数据的集中趋势,我们把一组数据中的每个数据与平均数相比较就可以得知每个数据与平均数偏离的程度,或者说与平均数差异的情况。

如果把这组数据中每个数据与平均数差异的情况相加起来,那么所有数据的差异情况便一目了然。把这个值除以数据的个数,所得的值叫做平均差。

方差:

方差在统计描述和概率分布中各有不同的定义,并有不同的公式。

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。

实际工作中,总体均数难以得到时,应用样本统计量代替总体参数

经校正后,样本方差计算公式:S^2= ∑(X-  ) ^2 / (n-1)

S^2为样本方差,X为变量,  为样本均值,n为样本例数。

在概率分布中,设X是一个离散型随机变量,若E{[X-E(X)]^2}存在,则称E{[X-E(X)]^2}为X的方差,记为D(X),Var(X)或DX

其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。

离散型随机变量方差计算公式:D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2

当D(X)=E{[X-E(X)]^2}称为变量X的方差,而  称为标准差(或均方差)。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的统计量 。

对于连续型随机变量X,若其定义域为(a,b),概率密度函数为f(x)

连续型随机变量X方差计算公式:D(X)=(x-μ)^2 f(x) dx

方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大)

若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。

因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。

3.性质上的区别:

离差:

离差的代数和等于0

参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值与平均数之外的任何数之差的平均和。由于这两种性质,使离差在描述统计中运用较广。

方差:

1、设C是常数,则D(C)=0

2、设X是随机变量,C是常数,则有  D(CX)=C^2D(X),D(C+X)=D(X)

3、设 X 与 Y 是两个随机变量,则

D(X+-Y)=D(X)+D(Y)+-2Cov(X,Y)

其中协方差2Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}  

特别的,当X,Y是两个不相关的随机变量则

D(X+-Y)= D(X)+ D(Y) 

此性质可以推广到有限多个两两不相关的随机变量之和的情况。

4、D(X)=0的充分必要条件是X以概率1取常数E(X),即P{X=E(X)}=1

(当且仅当X取常数值E(X)时的概率为1时,D(X)=0。)

注:不能得出X恒等于常数,当x是连续的时候X可以在任意有限个点取不等于常数c的值。

5、D(aX+bY)=a2DX+b2DY+2abCov(X,Y)。

温馨提示:答案为网友推荐,仅供参考