[转]如何运用缺省值分析(MVA)方法?

如题所述

我在用little’sMCAR检验时发现,以往不少国内的研究在用此检验时,大多数时候并非是针对整个问卷进行的,而是选取部分指标进行检验,如:1、只针对几个缺失较严重的选;2、只针对问卷中核心部分的指标;3、将问卷分为几个部分,如基本情况项目、满意度量表、其它情况项目等,分别检验。我对自己的问卷(包括三个部分:基本情况项、5级量表、其它项)分别进行了几次检验,结果如下:1、全部选项纳入检验,结果Sig. =.044;2、只检验5级量表项,结果Sig. = .083;3、剔除最后的4个跳选项,结果结果Sig. =.398。这些结果差异较大,大于或小于0.05的都有。我对little’sMCAR检验的适用性感到一定困惑,因为我是非统计学的学生,非常的业余。此外,我对跳选项的处理也非常困惑,我的问卷是做关于居民满意度的,最后5项如下:1、你对XXX的总体满意度?1、很不满意;2、较不满意;3、一般;4、较满意;5、很满意如果满意:(1)你会xxxxx?1、一定不会;2、....;5、一定会(2)你会xxxxx?1、一定不会;2、....;5、一定会如果不满意:(1)你会XXXXX?1、一定不会;2、....;5、一定会(2)你会XXXXX?1、一定不会;2、....;5、一定会我现在觉得这些跳选项设计的非常没头脑,感到懊恼,因为不管是否满意,居民都应该可能会有这双方面的行动的!问题是,正常情况下,如何处理这些跳选项?我现在首先要做的是缺失处理,后期还要用到SEM,关于这个问题思考的非常之艰难,因为身边没有可帮助之人,网络搜索和学术论文搜索也难解惑,特向您求助!庄主:我读过Missing ValueAnalysis(MVA,缺省值分析)的文献,但从来没有用过,没有第一手的经验或教训可以分享,所以我只简略回答你的问题。(我的原则是,对于自己没有第一手体验的问题,回答尽量简略,以免误人子弟。)为了便于其他读者的理解,先简介一下MVA。缺省值指调查、实验、内容分析等实证数据中“拒答”、“不知道”、“无意见”等没有实际信息的值。传统的数据分析是将其排除在外,或者用均值或中位数来取代。MVA是一种data-driven(数据导向)而非theory-driven的方法,即根据那些不含缺省值的个案(“样本一”)中的相关信息来预测(即填补)含缺省值的个案(“样本二”)中的缺省值。我至所以不用MVA,主要是对其的基本假定(即缺省值是完全随机或基本随机产生、或样本一和二没有本质差别)存有很大疑虑。这种疑虑,即来自传统文献,也源于我自己的实证研究。我曾用中国大陆的十来个调查、共几万个案的数据做过一个itemnon-responses(INR,问题拒答)的研究(Zhu,position(中立立场)、有时则应将其当作真正的缺省值而从分析中剔除,而不应盲目和机械地依赖SPSS或其它软件中的MVA工具来替我们做这个重要决定。(同学们大家起来,我们不要做SPSS的奴隶!)当然,我的上述看法也许是过分保守和落伍。如果你的样本太小,如果不用MVA来“拯救”(?)那些缺省值,有效个案(即样本一)所剩无几,无法做分析,你应该对做MVA之前(即样本一)和之后(即样本一+样本二)的数据分别检验你的理论假设,然后比较两者的参数(如均值、回归或相关系数等)、但不必比较两者的标准误差或显著程度(因为两者样本大小不一而自然不同)。如果两者有明显区别,说明样本二不是样本一的一个随机子样本、而是另一个具有系统差别的样本(但要害问题是我们不知道这种系统从何而来和如何纠正)。在这种情况下,我会放弃样本二。只依靠样本一的代价是TypeII误差(即可能拒绝了真实的差别或关系);加入了有系统偏差的样本二,虽然减少了Type II误差、但同时大大提高了TypeI误差(可能接受了虚假的差别或关系)。前者的后果是害己(无法发表);后者则是害人(最终也害己)。两害之间,我们应该取其轻者。我基本认同你对国内运用MVA时的流行做法的批评。既然MVA完全依赖样本一中各变量之间的关系,那么变量越多、其中的信息也就越多,所以应该尽量利用所有现有的变量来做MVA。但是(非常重要的条件),假定你要通过MVA填补的是因变量中的缺省值,你就绝对不应该包括你的理论假设或模型中的所有自变量。否则,你用了自变量填补了因变量中的缺省值,然后再检验两者的相关关系,不就成了自我循环了吗?你在介绍你的三种检验结果时,没有讲清楚其“显著”差别的意思是什么:是指你用三者不同的MVA方法生成三个新数据(即三个上述的样本一+样本二),然后分别检验你的理论假设的结果?如是,它们之间的差别就与我上一段讲的有关了。你“全部纳入”的问题中也许也包含了自变量,所以其关系容易显著。其实,在没有弄清你的样本二是否为随机样本之前,这种变量之间的比较没有意义。你需要的是我前一段中讲的个案之间的比较。如果缺失值较多,一般应当做个分析,看看其分布情况及其可能的机制(spss可以做Little's检验)。假如可以认作是随机的话(MCAR/MAR),用EM单次替代即可。否则,试试多次替代。
温馨提示:答案为网友推荐,仅供参考