多元统计SPSS

如题所述

第1个回答  2022-07-10

回归模型普及性的基础在于用它去预测和解释度量变量。但一般的多元回归不适合解决被解释变量是 非度量变量 的问题。

而判别分析适用于被解释变量是非度量变量(属性变量),解释变量是可测量(计算均值和方差,应用于统计函数)的情形。比如对象的所属类别.

任务:用SPSS做鸢尾花数据集的判别分析。

可见这150个样本都是有效的。没有变量缺失

结果:在0.01的显著性水平下,拒绝原假设,即认为每种长度在三组之内是有差异的。

上图反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出,协方差矩阵不是病态矩阵。

上图可知在0.05显著型水平下拒绝原假设(协方差相等)

采用分组时也显著,于是采用分组协方差矩阵的形式。

上图反映判别函数的特征根、解释方差的比例和典型相关系数。

第一个判别函数解释了99.1%的方差,第二个判别函数解释了0.9%的方差
检验认为两个判别函数在0.05的显著性水平下是显著的。

y=3这一组的中心为(5.783,0.513)
y=2这一组的中心为(1.825,-0.728)
y=1这一组的中心为(-7.608,0.215)

第一张表概括了分类过程,说明150个观测都参与了分类。

第二张表说明各组的先验概率:我们在分类选项中选的时所有组相等。

第三张表是每组的分类函数:(区别于判别函数)

我们可以计算除每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中

第四张表是分类矩阵表:

这里交叉验证采用的是“留一个在外”的原则,每个观测是除了该观测之外的所有观测所得来的。

最后为分类结果图:

Setosa鸢尾花与Versicolor鸢尾花和Virginica鸢尾花可以很清晰地区分开,而
Versicolor鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。

由前面分析发现,协方差矩阵不等,可以考虑采用分组协方差矩阵。得到分类结果如下:

结果发现采用组内协方差矩阵和分组协方差矩阵没有明显的差别,因此可以采用组内协方差矩阵进行判别。

城镇居民消费水平的八项指标,之间存在一定的线性相关.为研究城镇居民的消费结构.需将相关性强的指标归并到一起,实际上就是对指标聚类.

不同的聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义.
这里我们采用欧氏距离,分别运用类平均法,最短距离法,最长距离法,对31个省,直辖市,自治区分类.类平均法聚类在SPSS中的操作为:

参数随意选择

分析12个指标X1-X12,对每个城市的综合发展水平做分析评价。

找到因子分析对话框:

点击继续、OK。

接下来看方差解释表和碎石图,于是知道哪几个公共因子被选入:
如图,选中的三各因子方差贡献率依次为: 55.59%、22.30%、9.22%

但此时的到的是未旋转过的公共因子。其实际意义不好解释。
于是对因子进行旋转,并将结果按大小排序,使输出的载荷矩阵中各列按载荷系数大小排列:

最后计算因子得分:


这种评价方法目前应用较多,但也有较大争议,故应慎用。

操作如下:

画出各城市的因子得分图:

选择简单分布:

分别选择FAC1,FAC2作为X轴与Y轴:点击OK:

由旋转后的因子载荷矩阵可以看出,公共因子F1在x1(非农业人口数),x2(工业总产值),x3(货运总量),x4(批发零售住宿餐饮业从业人数),x5(地方政府预算内收入),x6(城乡居民年底储蓄余额),x7(在岗职工人数),x8(在岗职工工资总额)上的载荷值都很大。

因而F1为反映城市规模及经济发展水平的公共因子。

由于在x10(每万人拥有公共汽车树),x11(人均拥有铺装道路面积),x12(人均公共绿地面积)上的载荷较大, 是反映城市的基础设施水平的公共因子。

F3仅在x9(人均居住面积)上有较大载荷, 是反映城市居民住房条件的公共因子。

有了对各个公共因子合理的解释,结合各个城市在三个公共因子上的得分和综合得分,就可对各中心城市的综合发展水平进行评价了:

F1(城市经济规模因子)得分较高者:上海、北京、广州、天津、重庆
F1(城市经济规模因子)得分较低者:西宁、银川、海口

F2(基础设施因子)得分较高者:深圳、广州、南京
F2(基础设施因子)得分较低者:重庆、武汉

F3(居民住房因子)得分较高者:上海、重庆、深圳
F3(居民住房因子)得分较低者:北京、哈尔滨

综合得分前5名:上海、北京、深圳、广州、天津
综合得分后5名:西宁、银川、兰州、呼和浩特、海口。

再结合各因子得分进行分析:

从因子得分图分析表明:
就城市规模而言:新兴城市好于老城市。
就基础设施水平而言:南方城市普遍好于北方城市,新兴城市好于老城市。
综合来讲:东部城市高于西部城市
上海北京深圳发展水平接近:
上海规模大,基础设施水平低。
北京规模大、基础设施好,但居民人均住房面积小。
深圳规模不大,但基础设施水平高,人均居住面积大。
其中由18个城市位于因子得分图的第三象限,这些城市多位于中西部地区,因而如何加快这些城市的发展以带动周边地区的进步,是影响我国整体经济发展的重要课题。

主成分分析的几何观点,是想用一个新的坐标体系来代替原有的坐标体系。使得在新坐标体系下降维所付出的代价能够尽可能地小。

那么就可以通过线性变换:[图片上传失败...(image-14687b-1657953033634)]

来对坐标系进行旋转。(这里顺便推荐b站上 线性代数的本质 )

在企业经济效益的评价中,设计的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可有原始数据矩阵出发求出主成分.

样品数:n=28,变量数:p=9

参考网上的案例:

主成分分析和因子分析均在因子分析模块中完成:

前两个主成分y1 和 y2 的方差和占全部方差和的比例为84.7%.我们就选取y1为第一主成分,y2为第二主成分.基本保留了原来指标的信息,这样由原来的9个指标转化为2个新指标.起到了降维的作用.

SPSS得到 因子载荷矩阵 输出结果如图:

对图中每一类的每个元素分别处以第i个特征根的平方根[图片上传失败...(image-6aa51a-1657953033634)]

就得到主成分分析的第[图片上传失败...(image-5d98fb-1657953033634)]

个主成分的系数.