问一个统计学的问题

最近在统计学应用上有点困惑,本人不是学数学的,希望专业人士指导一下,
具体问题如下:

目的:从一堆数据样本中,挑选出可能变异的个体,举个例子,有一堆数
4.2,4.3,4.4,4.5,4.0,7.1 我要从这堆数中筛选出7.1,因为它和其他
数比较过于离散,可能存在变异。
我的做法是
1)先求出平均值X
2)再计算每个变量偏移量△X=Xi-X
3)算出△X/X
4)约定阀值(如20%),如果△X/X>20%就挑选出来

现在问的问题是:
1)统计学上有没有这种从样本中挑出变异的一套理论?
别给我说是变异指标,方差、标准差、差异系数这些是用来研究整个样本集合的离散程度,和个体的研究还是有一定的区别。
2)有没有更好的分析方法?

1. 对于这个问题,最好的方法莫过于:聚类分析。
聚类分析是根据样本间的距离进行分类,分类的标准很多:有的按照阀值,有的按照已经规定好的分的类数;可以说该问题就是一个聚类分析的典型应用;在统
计教材中介绍聚类分析的例题就是这种问题。
2. 除此之外,还可以将这个问题堪称寻找“异常点”的问题。统计学是有系统的理论来研究个体“变异”。这种点即为“离群点”,对它需要判断是否是“异常点”,这里有几种常用的判别方法(但要注意,对它的判定往往要结合实际问题的需要进行的,统计学上对异常点的态度非常谨慎,不能随便去掉它):看标准化残存、学生化残存;影响函数;Cook距离;WK统计量。
3. 提问中的解决方法本质上是考虑观察值跟数学期望的比值,如果过大那就说明这个点可能存在问题(这里设置了一个“阀值”作为挑选标准)。从线性回归的角度来看,数学期望就是最小二乘法下最好的常数估计,因此是线性回归的最简单情况。△X就是“残差”,△X/X类似于将它中心化,因为△X/X的数学期望是0,并且不受单位量纲的影响。此外,还有2中提到的方法。具体参见线性回归理论中回归诊断部分。
然而,最正统的方法同时也是目前最好的方法还是:聚类分析。

参考资料:统计理论

温馨提示:答案为网友推荐,仅供参考
第1个回答  2010-04-07
统计学研究的就是大样本的数咯,样本数越少越越不具有普遍规律。
你说的这种情况就用主观臆断好了。