卡方检验20%以上的格子的理论频数小于5,怎么办

如题所述

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题
对行乘列卡方检验时,要求不能有五分之一以上的单元格理论频数小于5,或者不能有任意一个格子理论频数小于1,否则容易出现偏差,可以采取以措施

1、增加样本量

2、如果专业上允许,将太小的理论频数所在的行或列与性质相近的邻行或邻列合并

3,、删除太小的行或列

4、使用确切概率法
温馨提示:答案为网友推荐,仅供参考
第1个回答  2021-06-01
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。[1]
步骤
(1)提出原假设:
H0:总体X的分布函数为F(x).
如果总体分布为离散型,则假设具体为
H0:总体X的分布律为P{X=xi}=pi, i=1,2,...
(2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取
A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),
其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
(3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。
(4)当H0为真时
第2个回答  2021-06-02
比较和对照是进行科学研究的基本手段。对于间距测度和比例测度的资料,进行分组比较时可以用均数检验、方差分析等方法。对于有较多可取值的序次测度资料,进行分组比较时可以用各种秩和检验方法。

而对于名义测度的资料、有序分类所得的资料(也属序次测度),分组比较时需用交叉分类进行统计描述,交叉分类所得的表格称为“列联表”,统计推断(检验)则要使用列联表分析的方法------卡方检验。卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。

例:按“性别”和“肥胖程度”交叉分类所得列联表如下:

这里是按两个变量交叉分类的,该列联表称为两维列联表,若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。3维及以上的列联表通常称为“多维列联表”或“高维列联表”,而一维列联表就是频数分布表。

卡方分析的方法:假设两个变量是相互独立,互不关联的。这在统计上称为原假设;对于调查中得到的两个变量的数据,用一个表格的形式来表示它们的分布(频数和百分数),这里的频数叫观测频数,这种表格叫列联表;如果原假设成立,在这个前提下,可以计算出上面列联表中每个格子里的频数应该是多少,这叫期望频数;比较观测频数与期望频数的差,如果两者的差越大,表明实际情况与原假设相去甚远;差越小,表明实际情况与原假设越相近。这种差值用一个卡方统计量来表示;对卡方值进行检验,如果卡方检验的结果不显著,则不能拒绝原假设,即两变量是相互独立、互不关联的,如果卡方检验的结果显著,则拒绝原假设,即两变量间存在某种关联,至于是如何关联的,这要看列联表中数据的分布形态
第3个回答  推荐于2017-12-16
卡方检验试用条件
1.随机样本数据;
2.卡方检验的理论频数不能太小.
两个独立样本比较可以分以下3种情况:
1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验.
2.如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验.
3.如果有理论数T<1或n<40,则用Fisher’s检验.
上述是适用于四格表.
R×C表卡方检验应用条件:
1.R×C表中理论数小于5的格子不能超过1/5;
2.不能有小于1的理论数.
若不符合R×C表的卡方检验.可以通过增加样本数、列合并来实现.
统计专业研究生工作室原创,请勿复杂粘贴本回答被提问者采纳