请举例说明异常值、离群值和极值有什么联系和区别? 没有任务详情

如题所述

异常值、离群值和极值的联系和区别在于,离群值处理,因为过大或过小的数据可能会影响到分析结果,尤其是在做回归的时候,我们需要对那些离群值进行处理。

实际上离群值和极值是有区别的,因为极值不代表异常,但实际处理中这两个所用方法差不多,所以这里也不强行区分了。

异常值:异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。

杠杆点:因此残差的方差与杠杆点有关

离群点:是指一个时间序列中,远离序列的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。离群点是由于系统受外部干扰而造成的。



但是,形成离群点的系统外部干扰是多种多样的。首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。

高杠杆点,一个有高杠杆率的观测值未必是一个有影响的观测值,它可能对回归直线的斜率没有什么影响。

影响点:强影响点:即对模型参数估计值影响有些比例失衡的点。例如,若移除模型的一个观测点时,模型会发生巨大的改变,那么你就需要检测一下数据中是否存在强影响点了。

某些离群点既是异常点也是杠杆点。将离群点和强影响点统称为例外点。异常点是指因变量值远离其平均值所对应的数据点,或者说该数据点在轴上的投影明显远离其他数据点在轴上的投影,其中该因变量值称为异常值。

温馨提示:答案为网友推荐,仅供参考