个数，样本平均数，中位数，方差，标准差会怎样变化？

如题所述

样本平均值的概念很简单：所有数据之和除以数据点的个数，以此表示数据集的平均大小；其数学定义为

方差、标准差

方差这一概念的目的是为了表示数据集中数据点的离散程度；其数学定义为：

标准差与方差一样，表示的也是数据点的离散程度；其在数学上定义为方差的平方根：

为什么使用标准差？

与方差相比，使用标准差来表示数据点的离散程度有3个好处：

表示离散程度的数字与样本数据点的数量级一致，更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例，其方差约为41，而标准差则为6.4；两者相比较，标准差更适合人理解。

表示离散程度的数字单位与样本数据的单位一致，更方便做后续的分析运算。

在样本数据大致符合正态分布的情况下，标准差具有方便估算的特性：66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内，而99%的数据点将会落在平均值前后3个标准差的范围内。

平均值与标准差的适用范围及误用

大多数统计学指标都有其适用范围，平均值、方差和标准差也不例外，其适用的数据集必须满足以下条件：

中部单峰：

数据集只存在一个峰值。很简单，以假想的CPU使用率数据为例，如果50%的数据点位于20附近，另外50%的数据点位于80附近（两个峰），那么计算得到的平均值约为50，而标准差约为31；这两个计算结果完全无法描述数据点的特征，反而具有误导性。

这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例，如果80%的数据点位于20附近，剩下的20%数据随机分布于30~90之间，那么计算得到的平均值约为35，而标准差约为25；与之前一样，这两个计算结果不仅无法描述数据特征，反而会造成误导。

遗憾的是，在现实生活中，很多数据分布并不满足上述两个条件；因此，在使用平均值、方差和标准差的时候，必须谨慎小心。

如果数据集仅仅满足一个条件：单峰。那么，峰值在哪里？峰的宽带是多少？峰两边的数据对称性如何？有没有异常值(outlier)？为了回答这些问题，除了平均值、方差和标准差，需要更合适的工具和分析指标，而这，就是中位数、均方根、百分位数和四分差的意义所在。

中位数

对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。（中位数：中位数是(n+1)/2位置上的值）

至于样本个数，从以上各个概念的公式中你也可以看到，平均值、中位数、方差、标准差等这些参数的大小都是跟样本个数即N有关的。

温馨提示：答案为网友推荐，仅供参考

相似回答

大家正在搜