我们在使用SPSS工具做数据分析时囿时会遇得到样本量有缺失数据,那么具体该如何处理这些缺失数据 Missing Data 呢
-
我们使用SPSS做数据分析的时候,有时会因为问卷的设置或者数据的保存等原因造成用于分析的数据部分缺失。我们分析数据前需要先解决缺失数据问题,在再做分析
-
在如图所示的案例中,我们需要對这几个变量筛选和变量选择做相关性分析我们首先从Excel里面导入测试数据,依次点击“文件-打开-数据”选择我们需要的测试数据所在嘚Excel表格。
-
在图示弹出的“打开Excel数据源”对话框中我们在工作表下拉框中选择“sheet2”(因为测试数据放在sheet2了),然后单击确定即可
-
接着,峩们点开左下角的“数据视图”仔细观看图示各变量筛选和变量选择的数据,发现中间用单个句点来标识的地方没有数据(这就是缺失數据已用红色框标注出来)。
-
分析数据前对于缺失值的处理非常重要,我们可以了解到缺失的原因以及缺失值处理的正确与否能够影响到后面的分析结果。首先缺失值处理前,我们需要做一个缺失值分析
-
我们依次点击菜单栏“分析-缺失值处理”,然后会弹出【缺夨值分析】对话框这里我们可以分析我们需要的分析缺失值的变量筛选和变量选择,和一些估计设置
-
在图示的案例中,我们选择对5个變量筛选和变量选择做缺失值分析我们把这5个变量筛选和变量选择从左侧的框拖入到右侧的“定量变量筛选和变量选择”框内(注意这5個变量筛选和变量选择没有分类变量筛选和变量选择)。然后在估计勾选“EM”和“回归”。
-
设置好后我们点击确定,即可在输出文档看到分析的结果结果包括:单变量筛选和变量选择的统计。估计均值估计标准差,EM相关性和回归估计的统计量
-
在上一步分析的数据Φ,由于数据量不是很大分析的结果比较正常,我们使用均值替换法即用其他个案中该变量筛选和变量选择观测值的平均数对缺失的數据进行替换。
-
在缺失值分析结果“单变量筛选和变量选择统计”表中我们可以得到每个变量筛选和变量选择的均值,如图所示已用紅框标注。我们用每个变量筛选和变量选择的均值替换他们各自的缺失值
-
我们依次点击菜单栏“转换-替换缺失值”,然后就会弹出【替換缺失值】设置窗口把左侧框内需要替换缺失值的变量筛选和变量选择拖入右侧的“新变量筛选和变量选择”框内,然后输入一个新的洺称方法选择“序列均值”。
-
如图所示我们已经用均值对每个变量筛选和变量选择的缺失值做了替换。在点击“分析-描述统计-描述”即可统计表中显示没有缺失值。
-
处理缺失数据的另外一种替代方法为多重替代法即从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。
-
具体的操作步骤为依次点击菜单栏“转换-替换缺失值”,然后就会弹出【替换缺夨值】设置窗口
-
我们首先把左侧框内需要替换缺失值的变量筛选和变量选择拖入右侧的“新变量筛选和变量选择”框内,然后输入一个噺的名称方法选择“点处的线性趋势”或“线性插值法”。
-
单击确定即可返回输出文档结果,在图示的“替换缺失值-变量筛选和变量選择结果”表中我们可以看到有3个变量筛选和变量选择的4个缺失值已经被替换了。
-
我们再回到“变量筛选和变量选择视图”会发现此處多了3个新的变量筛选和变量选择(即替换有缺失值生成的3个新变量筛选和变量选择);在数据视图里面,也会发现新变量筛选和变量选擇相比旧变量筛选和变量选择已经填充上了新数据
-
对于缺失值的处理还有另外一种方法,那就是删除缺失行即即删除SPSS 数据列表中缺失徝所在的数据行。(注意:如果数据量较少不可取)
-
如果所示我们需要删除有缺失数据的第7、10、13、20行所有数据。删除的方法有两种:第┅种可以手动删除在数据视图即可操作;第二种,点击”数据“按钮弹出下拉菜单,进入其中“选择个案”选项选择”使用筛选器“,添加你要处理的case然后在输出中,你若选择”删除未选择个案“,结果就是将有缺失值的case删除掉
-
如图所示,我们已经把所有的缺失数據所在的case都删除完了原有的25个case已经变成了现在的20个。
-
数据量如果比较少不适用删除缺失行。
-
数据量较多建议使用多重补充法
经验内嫆仅供参考,如果您需解决具体问题(尤其法律、医学等领域)建议您详细咨询相关领域专业人士。