数据分析之数据分布

如题所述

第1个回答  2022-06-18

概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式,主要分为 离散变量概率分布 连续变量概率分布

离散型分布 :二项分布、多项分布、伯努利分布、泊松分布。
连续型分布 :均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。

连续型随机变量 :若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f(x)称为x的概率密度函数,积分值为X的数学期望

一、离散型分布
(一)伯努利分布
伯努利分布只有两种可能的结果,1-成功和0-失败,具有伯努利分布特征的随机变量X可以取值为1的概率为p,取值为0的概率1-p,其中成功和失败的概率不一定相等。
来自伯努利分布的随机变量X的期望值为:E(X)=1 p+0 (1-p)=p
方差为:V(X)=E(X²)–[E(X)]² =p–p²

(二)二项分布
如果做n次伯努利试验,每次结果只有0,1两种结果,如果n=1的话显然是伯努利分布。二项分布的每一次尝试都是独立的,前一次投掷的结果不能决定或影响当前投掷的结果,只有两个可能结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。n次独立重复事件发生k次的概率为:

(三)多项分布
多项分布是二项分布的推广扩展,在n次独立实验中每次只输出k种结果中的一个,且每种结果都有一个确定概率,多项分布给出在多种输出状态的情况下,关于成功次数的各种组合的概率。

举例投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p1,2点出现概率p2,…多项分布给出了在n次试验中,骰子1点出现x1次,2点出现x2次,3点出现x3次,…,6点出现x6次。这个结果组合的概率公式为:

(四)泊松分布
大量事件是有固定频率的。特点:可以预估这些事件的总数,但是没法知道具体的发生时间和发生地点。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

泊松分布是个计数过程,通常用于模拟一个 非连续事件 连续时间 中的发生次数。
主要特点:
1.任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立);
2.经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
3.时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零;

泊松分布即描述某段时间内,事件具体的发生频率。
泊松分布的概率分布函数公式如下所示:

二、连续型分布
(一)均匀分布
均匀分布所有可能结果n个数的发生概率是相等的,均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的,求积分即发生概率)为:

(二)正态分布
正态分布的特征:1.分布的平均值、中位数和众数一致;2.分布曲线是钟形的,关于线x=μ对称;3.曲线下的总面积为1;4.两个正态分布之积仍为正态分布;5.两个独立且服从正态分布的随机变量的和服从正态分布。
若随机变量X服从位置参数μ,尺度参数sigma^2 的概率分布N(μ,sigma^2),且其概率密度函数为:

看作是随机变量X实际可能的取值区间(3sigma法则)。

(三)指数分布
指数分布是独立事件发生的时间间隔。例如婴儿出生的时间间隔、来电的时间间隔、奶粉销售的时间间隔、网站访问的时间间隔

(四)伽玛分布
Gamma分布即多个独立且相同分布的指数分布变量和的分布,即从头开始到第n次事件的发生时间。

(五)共轭先验分布
共轭是选取一个函数作为似然函数的先验概率分布,使得后验分布函数和先验分布函数形式一致(Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布)。

贝叶斯规则 :后验分布=似然函数*先验概率分布

(六)贝塔分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。当不知道某个具体事件的发生概率时,贝塔分布可以给出所有概率出现的可能性大小。
例如 α=0.99,β=0.5,贝塔分布B(α,β)如下图所示:

(七)卡方分布

三、分布之间的关系
(一)伯努利分布和二项分布的关系:
1.伯努利分布是二项分布的单次试验的特例,即单次二项分布试验;
2.二项分布和伯努利分布的每次试验都只有两个可能的结果;
3.二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。

(二)泊松分布和二项分布的关系:
以下条件下,泊松分布是二项分布的极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.每次试验的成功概率相同且趋近零,即p→0;
3.np=λ是有限值。

(三)正态分布和二项分布的关系&正态分布和泊松分布的关系:
以下条件下,正态分布是二项分布的一种极限形式:
1.试验次数非常大或者趋近无穷,即n→∞;
2.p和q都不是无穷小

当参数λ→∞的时候,正态分布是泊松分布的极限形式。

(四)指数分布和泊松分布的关系:
如果随机事件的时间间隔服从参数为λ的指数分布,那么在时间周期t内事件发生的总次数服从泊松分布,相应的参数为λt。