数据分析之数据分布

如题所述

第1个回答 2022-06-18

概率分布用以表达随机变量取值的概率规律，根据随机变量所属类型的不同，概率分布取不同的表现形式，主要分为 离散变量概率分布 和 连续变量概率分布 。

离散型分布 ：二项分布、多项分布、伯努利分布、泊松分布。
连续型分布 ：均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。

连续型随机变量 ：若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分，则称X为连续型随机变量，f(x)称为x的概率密度函数，积分值为X的数学期望

一、离散型分布
（一）伯努利分布
伯努利分布只有两种可能的结果，1-成功和0-失败，具有伯努利分布特征的随机变量X可以取值为1的概率为p，取值为0的概率1-p，其中成功和失败的概率不一定相等。
来自伯努利分布的随机变量X的期望值为：E(X)=1 p+0 (1-p)=p
方差为：V(X)=E(X²)–[E(X)]² =p–p²

（二）二项分布
如果做n次伯努利试验，每次结果只有0，1两种结果，如果n=1的话显然是伯努利分布。二项分布的每一次尝试都是独立的，前一次投掷的结果不能决定或影响当前投掷的结果，只有两个可能结果并且重复n次的实验叫做二项式。二项分布的参数是n和p，其中n是试验的总数，p是每次试验成功的概率。n次独立重复事件发生k次的概率为：

（三）多项分布
多项分布是二项分布的推广扩展，在n次独立实验中每次只输出k种结果中的一个，且每种结果都有一个确定概率，多项分布给出在多种输出状态的情况下，关于成功次数的各种组合的概率。

举例投掷n次骰子，这个骰子共有6种结果输出，且1点出现概率为p1，2点出现概率p2，…多项分布给出了在n次试验中，骰子1点出现x1次，2点出现x2次,3点出现x3次，…，6点出现x6次。这个结果组合的概率公式为：

（四）泊松分布
大量事件是有固定频率的。特点：可以预估这些事件的总数，但是没法知道具体的发生时间和发生地点。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？

泊松分布是个计数过程，通常用于模拟一个 非连续事件 在 连续时间 中的发生次数。
主要特点：
1.任何一个成功事件不能影响其它的成功事件(N(t+s)-N(t)增量之间互相独立)；
2.经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率；
3.时间间隔趋向于无穷小的时候，一个时间间隔内的成功概率趋近零；

泊松分布即描述某段时间内，事件具体的发生频率。
泊松分布的概率分布函数公式如下所示：

二、连续型分布
（一）均匀分布
均匀分布所有可能结果n个数的发生概率是相等的，均匀分布变量X的概率密度函数([概率密度函数]概念是针对连续分布的，求积分即发生概率)为：

（二）正态分布
正态分布的特征：1.分布的平均值、中位数和众数一致；2.分布曲线是钟形的，关于线x=μ对称；3.曲线下的总面积为1；4.两个正态分布之积仍为正态分布；5.两个独立且服从正态分布的随机变量的和服从正态分布。
若随机变量X服从位置参数μ,尺度参数sigma^2 的概率分布N(μ,sigma^2)，且其概率密度函数为：

看作是随机变量X实际可能的取值区间(3sigma法则)。

（三）指数分布
指数分布是独立事件发生的时间间隔。例如婴儿出生的时间间隔、来电的时间间隔、奶粉销售的时间间隔、网站访问的时间间隔

（四）伽玛分布
Gamma分布即多个独立且相同分布的指数分布变量和的分布，即从头开始到第n次事件的发生时间。

（五）共轭先验分布
共轭是选取一个函数作为似然函数的先验概率分布，使得后验分布函数和先验分布函数形式一致(Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布(Dirichlet分布）是多项式分布的共轭先验概率分布)。

贝叶斯规则 ：后验分布=似然函数*先验概率分布

（六）贝塔分布
贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。在概率论中，贝塔分布也称Β分布，是指一组定义在(0,1) 区间的连续概率分布。当不知道某个具体事件的发生概率时，贝塔分布可以给出所有概率出现的可能性大小。
例如 α=0.99，β=0.5，贝塔分布B(α,β)如下图所示：

（七）卡方分布

三、分布之间的关系
（一）伯努利分布和二项分布的关系：
1.伯努利分布是二项分布的单次试验的特例，即单次二项分布试验；
2.二项分布和伯努利分布的每次试验都只有两个可能的结果；
3.二项分布每次试验都是互相独立的，每一次试验都可以看作一个伯努利分布。

（二）泊松分布和二项分布的关系：
以下条件下，泊松分布是二项分布的极限形式：
1.试验次数非常大或者趋近无穷，即n→∞；
2.每次试验的成功概率相同且趋近零，即p→0；
3.np=λ是有限值。

（三）正态分布和二项分布的关系&正态分布和泊松分布的关系：
以下条件下，正态分布是二项分布的一种极限形式：
1.试验次数非常大或者趋近无穷，即n→∞；
2.p和q都不是无穷小

当参数λ→∞的时候，正态分布是泊松分布的极限形式。

（四）指数分布和泊松分布的关系：
如果随机事件的时间间隔服从参数为λ的指数分布，那么在时间周期t内事件发生的总次数服从泊松分布，相应的参数为λt。

相似回答

excel怎么分析数据分布特征excel怎么分析数据分布特征函数答：首先添加数据分析插件，点击左上角按钮，出现菜单页面，选中右下角“EXCEL选项”按钮，点击，3 然后点击“加载项”选项，选中“分析工具库”，点击下方\"转到\"按钮，4 然后出现excel加载宏界面，在”分析工具库“前方框内打勾，点击确定。5 经过上一步已经成功添加”数据分析插件“，在”数据“-”数据...

大家正在搜

如何数据分析分析数据数据统计分析数据分析表格大数据分析数据分析平台数据分析工具数据分析网站 excel做数据分析