统计思维——通过统计方法解决分析问题

如题所述

第1个回答  2022-07-09
数据分析中总离不开统计学中的相关概念和方法,因而统计思维也是数据分析思维之一。在数据分析中,统计思维就是用统计的相关思维,来解决数据分析的问题。

一数知全局

这是16年的政府工作报告的讲话,从讲话中,你能看到什么?

16年政府工作报告的这段话中,有两个数据劳动年龄人口平均受教育年限10.23年和10.8年,这两个数据看似差别不大,然而回归到日常生活领域中,却能昭示出很多问题。

通常来说,一个人在大学以前,如果没有留级或者跳级的情况,一般要经历小学6年,初中和高中各3年的教育时间。因此在接受高等教育前,需要经历12年的基础教育。然而在总理的报告中体现出来的劳动年龄人口平均受教育年限不到11年,不禁让人有这种感觉:应该有大多数人没有读完高中,最多只读完高一,甚至还有很多人只是读完了初中。

按照这个思路去查阅相关数据,诚然如此,05年初中升学率50%,14年初中升学率到56%,也就是说近一半的人,都没有读高中,更不要说接受一年高一的教育了。

让我们有这种认识的是来源于这两个10.23年和10.8年的数据,这两个数据的核心在于平均二字。平均值是统计学中最基本和最重要的统计量之一,通过这个统计量就可以从简单的数据中发现相当多的信息。

混乱之中求秩序——统计量的作用

就像一个平均值发现只有一半的人才能读高中一样,统计量往往在一堆庞杂的数据中能够起到管中窥豹的情况。

从简单的几个统计量中,就能迅速知最重要的信息。这里常用的统计量除了平均值,还包括中位数,最大最小值,极差以及各种分位数等等。平均值、中位数、分位数可以提现出分布大致情况,最大最小值和极差可以体现出数据的极端情况。

总之利用这些统计量,能够快速理清数据的大致情况。能够快速分析多组数据,而不用进一步的去拆分对比,起到化繁为简的作用。同时各种统计量的计算都是标准化的,某些时候进行分析时,可以通过计算相关统计量的关系对数据进行标准化处理,从而起到统一量纲的作用。

平均值——大概就是这样大

平均值是最基本和最重要的统计量,其提现了一组数据的大致大小。当拿到两组数据时候,有时往往通过对比平均值就能说明两组数据之间存在的差异。

就如表格中的数据,简单的看过去不能够明显发现两组数据之间差别,A组中既有高于B组所有数据的数,也有低于B组所有数据的数,谁大谁小完全不能简单的说明。然而当计算两组的平均值后,可以知道A组的平均值是23,而B组的平均值是29,整体上说B组的数据是要大于A组的。

对于平均值而言,通常有算术平均值和加权平均值,当然还有更复杂的几何平均值得情况,相对来说算术平均值和加权平均值较常用。对算术平均值而言,就是所有数据相加之后然后除以数值的数量。而加权平均值,就是每个数据值乘以其权重后再将每个乘积相加,其中所有的权重都为1。从两个平均值的定义就可以发现,算术平均值其实是一种特殊的加权平均值,在算术平均值中,每个数值的权重都是相等的,如果有N个数字,那么权重就都是N分之一。

平均值除了对比不同组别的数据大小差异外,还能够对比拆分后的对象与总体的关系。当总体拆分后,拆分出来的数值相加之和往往是总体的数值,任何对象的数值不论如何都比总体的数值小,因而不具备可比性。不过,当计算出总体的平均值后,就可能比较各个对象数值和平均值间差异,哪些对象位于平均值水平,哪些远低于或者远高于平均值。

例子中共有14个省份,这些省的GDP的平均值是2.46万亿,从图中可以看出,只有4个省的GDP大于其平均值,其余10个省都低于平均值,从图中也能看到各省的GDP呈现出分呈现分布不均的特性,江苏GDP达到了平均值得2倍以上,而山西GDP只有平均值的一半。

中位数——一半对一半

平均值可以知道大致的大小,尤其是在对比可以起到作用。然而平均值并不能完全地揭示出问题所在,就比如说近几年各种“被平均”的问题,让平均值只能起到片面的作用。例如我我们一群普通人和马云、王健林从平均收入一万元经过十年到达了平均收入一个亿,人人都知道马云和王健林的收入远远高于一群普通人,甚至比普通人的总和加起来还多几个零,因此这种情况下,平均值就有存在局限性。在知道了平均的基础上,又知道分布的话,有能够从数据中获取更全面的信息。

分布是指数据的散布情况,其中常用的统计量是分位数,其中中位数是最典型的分位数了。顾名思义中位数正好是中间的数,当一组N个数值从小打到排列后,如果N为奇数,中位数就是N/2+1的位置的数值,如果N为偶数,中位数是N/2和N/2+1位置数值的平均值。

通过排列可以知道,当这组数据排除中位数以后,有50%的大于中位数,有50%的小于中位数。

当平均值和中位数相结合的时候,能够同时考察一组数据的大致分布和大致大小,可以快速、简便地看出数据中是否存在分布不均的情况。

正如表中工资数的例子,所有人的平均值是38万,而中位数是员工工资10万,平均值远大于中位数,说明分布不均,呈现出“被平均”的状态,即在数据中有大量的小数值数据以及少量的大数值数据。

平均值,能够知道数据的大致大小,然而却存在大小值分布不明确的情况,加上中位数以后,就能够知道数据分布上的差异了。

四分位数——从分布到偏差

从平均值到中位数,能够知道数据的大致大小和大致分布。尽管可以知道大致分布,以及最大值和最小值,去还不知道大多数对象集中哪个区间上面。这个时候,四分位数就能够起到聚焦分布和排除偏差的作用。

四分位数,顾名思义,就是把一组数据分成四等分的统计量。而四分位数,并不是一个数,而是三个分位点,正好能够从大到小把一组数据划分为四份。

在四分数中,包含三个数,分别是75分位数,50分位数,25分位数。50分位数就是中位数,有50%的数比其大,有50%的数比其小。75分位数与50分位数相似,正好是其大于75%的数,并小于25%的数。而25分位数就与75分位数相反,其大于25%的数,而小于75%的数。因此,可以这样来理解75分位数和25分位数:75分位数是[50分位数,最大值]区间上面的中位数,而25分位数是[最小值,50分位数]区间上面的中位数。同时,25分位数和75分位数之间,正好构成一个区间,这个区间上面集中了一组数据中50%的对象,因此可以理解为,在这组数据中,有50%都集中在[25分位数,75%分位数]的区间上。

箱线图是可以直观体现四分位数的图形,如图可见,在箱线图上分别呈现了上下边界,即最大值和最小值在上下两端,以及75分位数,中位数和25分位数构成了箱体,其中箱体的上边为75分位数,下边为25分位数,而中线是中位数。

通过这样展示数据,就能够将数据的范围和集中情况提现得特别明显。不同对象,也可以利用在一个指标上的箱线图进行对比。图中就是几个类别在一个变量上的对比,可见B类别的数据相比AC更加集中。

类似箱线图的思想,K线图有通过四个数字来体现出分布和趋势,K线图中有四个数字,箱体上有收盘价格和开盘价格,箱体两侧还有周期上最高和最低数据,当收盘高于开盘时,显示为红色,当收盘低于开盘时,显示为绿色。

因此与箱线图相比,K线图还体现了变化情况。随着时间变化,多个K线图放在一起时,能够呈现出这一段时间以来的价格波动情况。K线图在金融领域常用,围绕7K线图的各种变化也有专门的书籍和文章进行讨论。

百分位数——看待极端

从均值、中位数再到四分位数,已经基本能够发现对象分布的情况,当然这是一种比较粗略的情况。在对象的数据中,有时还存在一些极端的情况,这些值与中位数和均值有相当大的距离,因此在这种情况下,如何看待这些数据,如何认定这些数据的离散程度,就需要进一步地来探求数据的分布。百分位数就是分析更细节信息的统计量。

四分数是在25%,50%和75%这几个点上将一组数据划分为四个区间,当数据的区间从25%划分到10%时,能够从数据中得到更细节的信息。10分位数数,就是以10%的区间相隔,第一个10分位数与最后一个十分位数构成的区间,即[10%,90%]区间,就代表了80%的数据集中的范围,大于上边界和小于下边界的数据已经是不再被作为主流被考虑。

当分位点进一步减少到5%的区间时,就有95分位和5分位这两个点,在统计学中,5%通常被考虑为小概率事件,因此大于95分位数或小于5分位数都可以视为基本不会发生的情况。

百分位数的其中一个作用就是用于忽略极端,对于大于95分位和小于5分位的数,都可以作为极端被忽略掉,重点分析[5%,95%]区间上的数据。

此外,百分位数还能够起到重点考察极端的情况,在质量控制的六西格玛体系中,就有[0.25%,99.75%]区间作为质量正常的区间范围,其中99.75%作为质量上限,0.25%作为质量下限,当高于质量上限或低于质量下限的情况发生时,都可以被认为是出现了异常情况,需要重点分析原因。

百分位的变体--累计帕累托

百分位的另外一个典型应用是累计帕累托思想,即80-20法则。这是由意大利统计学家帕累托发现的社会上20%的人占有80%的社会财富现象总结得来,在一组对象中少量的对象具有较大的数值,而这些数值之和就占据了所有数值之和的绝大部分。

往往少量的对象数量上的占比在20%,而数值上的占比为80%。80-20法则在日常的生产生活中常常能够体现出对象在数据上的集中程度,如80%的收入由20%的客户提供,20%的强势品牌占据80%的份额,80%的应收账款集中于20%的客户等等情况。

80-20法则在实施上是根据指标数值大小将对象从小到大排列,接着计算每个对象的数值在对应总数值中的占比,然后依次将占比累加起来。下面的条形图和折线图组成的复合图表就是体现了各个客户在销售额贡献程度,其中柱子表示销售额,而折线表示销售额的累计百分比。

从图中可以发现,在10个客户前面的4个客户就占据了90%的销售额。

此外,80-20法则,还有应用于库存管理中,从ABC物料库存管理的图中可以发现,A类物料不到所有物料中的20%,却占据了近乎80%的资金。

因此需要进行重点管理,而B类和C类的资金占用情况依次下降,因此对管理的要求也依次下降。

从统计到分布

前面从均值到中位数,从四分位数到百分位数,这些统计量联合起来其实都是在描述一组数据的分布情况,当通过统计量知晓大致的分布以后,就能够知道数据的趋势是什么样子,哪些值属于罕见值,哪些值又是属于常见值,对象数据大致的集中程度如何,主要介于哪些数值之间等等。

一组数据可能呈现出多种分布的情况,在这些分布中,常见的是正态分布和幂率分布。

正态分布是值中位数与平均值是同一个值,各种数值两端的分布情况一致,也就是说越接近平均值的数值越多,而越远离平均值的数值越少。

在一张横轴表示数值大小,纵轴表示该值的概率的图形中,正态分布式呈现出一个钟型的样子。数据分析中,正态分布常常用来审视远离中位数的异常数值。聚焦于对象整体的时候,通常考虑剔除异常值,即忽略掉图中的两端。聚焦于异常值本身的时候,通常重视异常值,在六西格玛管理中常常关注在两端出现的异常值发生情况。

而幂率分布正好同正态分布分布相异,幂率分布中的数据分布不均,其中有少量的极大值和大量的小值。

对于幂率分布的曲线就是纵轴表示数值的大小,横轴表示数值的数量。从幂率分布的图像可以发现,幂率分布有着高耸的头部,同时也带着一条长长的尾巴。数据分布中,幂率分布用来审视大值和小值,当关注大值的时候,其实就是找出重点关注的对象,如前文说道的80-20原则。当关注小值的时候,其实就是体现出了长尾效应,商业上的一个例子就是市场上的一些小众产品,其实加起来的需求比主流产品还要大。

统计思维总结

统计思维是数据分析思维的第二种思维,借助统计思维,能够快速知道一组数据呈现的形式和分布。

当我们看到一组数据时,可以通过查看相关统计量的形式,来了解这组数据的概要,从局部到整体,以点带面地看这组数据的大小,分布以及其他特征。通常的统计量包括了,平均值,最大最小值,中位数、百分位数等等。通常查看数据大致大小可以用平均值。查看大致分布可以用中位数,即一半的数据比这个值大,另外一半的比这个值小。查看离散程度可以用四分位,在中位数的基础上可以知道有多个单位大于其他25%的和大于其他75%的,当然百分位就可以更细了。此外还以将统计量交叉对比,当平均数遇见中位数时,就能够知道离散程度有多大。我有1万,你有1万,马云有500亿,我们三人平均值250亿,当然中位数还是1亿,就是一个典型的例子。

统计分析的第一点是依靠统计量一点带面,而第二点就是根据分布预测规律。

当我们知道一组数据的分布后,就能知道一些值的出现应该如何看待,当出现特别大的或者特别小的值时,是属于普遍现象还是稀有现象。例如一群成年人的身高通常是正态分布,一个人一米四,另外一个人一米九都是数据特别稀有的。公交车到达的时间通常是幂率分布,即短时间就到的情况很多,长时间到的情况少,当等车太长时,就可以考虑是不是路上出什么事情了,要不要换车。

分布预测规律同时也能用于生产和生活中,如客户贡献的分布就是幂率分布,少量的客户带来极大的贡献,大量的客户带来小而杂的贡献,有的厂商选择去满足大客户,也有的厂商去满足小而杂的贡献客户,这就是利用了幂率分布曲线的长尾效益。

原文转发,功德无量!