离群值的剔除原则

如题所述

处理离群值的方法有:直方图、箱线图、散点图等方法。

离群值的介绍:

根据维基百科定义,"在统计学中,离群点是指与其他观测值有显著差异的数据点。离群点可能是由于测量中的变异性,也可能表示实验错误;后者有时会从数据集中排除。离群点会在统计分析中造成严重的问题"。

所以,离群点是指一个数据与其他数据相比,其数值过高或过低。例如,在一个高中班级里,几乎所有的学生都在18岁左右,然而有一个学生的年龄是35岁。

离群值是由许多原因造成的,如改变传感器的灵敏度,实验错误或数据处理错误。无论如何,在我们数据分析师或科学家处理数据之前,离群值可能在任何步骤中造成。

离群值检验:

不同的离群值情景(单个,多个可能的离群值,单边还是双边等)和检验方法会有不同设计的统计量与对应的概率分布。检验的方法有许多种,有的甚至是简单的半经验方法。通常文献、教课书上看到的方法有简单切尾均值法,a切尾均值/标准差。

俄国人发明的拉伊达准则,MAD(Median Absolute Deviation)法,Tukey’s箱线图法,Grubbs ESD统计量法,Tiejen-Moore统计量法,Huber’s M-estimator等(大都假设原本数据属于正态分布,或者偏离正态分布不远)。有一次检测一个离群值的方法,有一次可以检测多个单边或双边的离群值的方法。各种方法都有它的局限性。

格鲁布斯检验法效果比较好的方法。格鲁布斯检验法的优点是在判断可疑值取舍的过程中,将正态分布中的两个最重要的参数—平均值和标准偏差引进来,故方法的准确性较高。方法计算的过程是这样的:实验得出一组数据X1;X2;X3;X4……Xn,怀疑其中某个数据可疑(X可疑)。

温馨提示:答案为网友推荐,仅供参考