雷神3百度云资源1080p三百度云

SPSS统计分析案例:生成随机数
今天的任务:使用SPSS软件生成一组100个符合正态分布的随机数字,主要目的在于让大家了解SPSS软件在随机数字方面的功能表现,日后会用于样本完全随机抽样。
SPSS生成随机数一般有两类,一类是无起始“固定种子”的随机数,随机数不可重现,另外一种则是有“固定种子”的随机数,生成的随机数字可以重现,便于检验。今天主要学习如何生成无“固定种子”的随机数。
打开或新建一个空的SPSS数据文件,此时“数据视图”下是一个空白电子表格,现在首先需要创建一个1到100的编号变量,将数据激活为活动数据集,这是SPSS软件的一个特点,我们必须先人为告诉软件,要生成100个随机数。
方法很简单,直接从excel表格自动填充一个1到100的序列,然后粘贴至SPSS第一列,变量命名为“编码”。
接下来,在菜单栏中依次点击“转换”“随机数发生器”:
勾选“设置起点”,并在下方选择“随机”,也就是要求软件使用一个随机种子,而不是固定种子(随机数可重复)
然后,在菜单栏中依次点击“转换”“计算变量”菜单,调出“计算变量”对话框。
左侧目标变量框中,为即将新增的随机变量命名,比如“随机数”,右侧数字表达式框中输入具体的随机数函数。本例将要求软件自动生成100例均值为0,标准差为1的正态分布随机数。
在函数组中找到随机数函数,软件自动列出多种分布可供选择,本例选择函数 RV.NORMAL(MEAN,STDDEV),只需点击函数名,其会自动出现在数字表达式框中,只需修改0和1两个参数即可。
最后点击“确定”按钮,软件执行生成随机数。来看结果。
我们看到原“编码”变量右侧新增新的变量“随机数”,存储了100例随机数。
最后来看一下这组数据的正态分布图:
平均值-0.06,标准差1.143,基本满足任务要求。
( 文=数据小兵)
点击关键词查看热门文章
聚类| 因子| 回归| logistic| t检验| 正交设计| 频数| 游程| 最优尺度| 多选题| 交叉表| 相关| 安装教程| 树状图| 综合评价| 主成分| 问卷分析| 对应分析| RC工具| 多项logistic| 博客推荐|
回复“关键词”,查阅更多库内文章
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。当前位置: >>
SPSS 18数据分析基础与实践 第三章数据预处理
第3章数据预处理第3章本章学习目标:? ? ? ? ? ?掌握 SPSS 数据预处理的可视离散化方法; 了解 SPSS 缺失值的填补方法; 掌握 SPSS 的数据校验方法; 如何标识重复个案; 如何标识异常个案; 学习如何从数据集中选择符合条件的个案
。随着计算机系统能力的提高,对信息的需要成比例增长,导致收集的数据越来 越多。随之而来的问题是出现更多的个案、更多的变量以及更多的数据输入错误。 这些错误会损害作为数据仓储最终目标的预测模型的预测能力,因此必须使数据保 持“干净”。不过,数据仓储中数据量的增长已经大大超出了手动验证个案的能力, 因而实现自动化的数据验证过程变得十分关键。 数据预处理即当录入或读取数据后,对数据进行必要的清理(包括查错纠错、 标识数据中的异常个案和无效个案、变量和数据值等)、转换、填补缺失值等,为 后续统计分析应用(如均值比较、方差分析、回归分析等)打下良好基础。如果把 整个统计分析过程比作大厨烧菜,那么种菜或去菜场买菜等获取食材就相当于录入 或读取数据,而扔掉坏的菜叶、切菜等准备工作就相当于数据预处理,而在锅里烧 菜烹饪就相当于后续具体统计分析应用(如均值比较、方差分析、相关性分析、回 归分析等)。可见,数据预处理虽不产生最终的分析结果,但作为最终分析的准备, 是数据分析必不可少的一环, 它在完整的数据分析项目过程中的位置如图 3-1 所示。 在本章中,3.1 节讨论尺度数据(即连续型数据)转换到分类数据的可视离散化 方法; 节讨论 SPSS 中数据缺失值的填补方法; 节讨论 SPSS 中数据校验的方 3.2 3.3 法;3.4 节学习如何标识重复个案和异常个案;3.5 节学习如何从数据集中选择满足 条件的个案。图 3-1统计分析项目过程图3.1 可视离散化可视离散化(可视化分段)(Visual Binning)用于为定量变量(或尺度变量) 创建分类变量(或定性变量),从而实现连续变量的离散化。在统计分析中,有时 候需要了解总体的大致分布状况,而不需要了解属性的具体信息。例如,调查居民 的收入水平,实际得到的是以“元”计数的具体收入值。有时候用户最关心的是处 于贫困线以下 (假设年收入¥2 000 以下为贫困) 的居民、 中等收入 (年收入为¥2 000¥30 000)的居民和高收入(年收入高于¥30 000)的居民各占多大比例。这时候, 可以对定量变量年收入进行“可视离散化”,创建一个包括处于贫困线以下、中等 收入和高收入三个类别的新分类变量或定性变量。再比如,我们收集了居民具体的 年龄数值,但我们关心的是处于各个年龄段的人群的比例。此时,可以对定量变量 年龄进行“可视离散化”,创建一个包括青年、中年、老年三个类别的新分类变量。 打开数据文件 1991 U.S. General Social Survey.sav,如图 3-2 所示,该数据文件 为 1991 年美国普遍社会调查数据。 在原始数据文件中,为了解各个年龄段人群的分布情况,需要对年龄变量进行 可视化分段。 SPSS 的可视化分段提供两类分段的方法: 直接输入分割点和根据条件 自动生成分割点。其中,根据条件自动生成分割点提供了三种自动生成分割点的方 法:等宽间隔、基于已扫描个案的等百分位和基于已扫描个案的均值和标准差。数 据 分 析 基 础 与 实 践70SPSS 18 图 3-2 1991 年美国 GSS 数据视图注意: SPSS 中文版的可视离散化程序中对于“Cutpoints”翻译为“分割点” 有的对话框 ,第 3中翻译为“分隔点” 例如本章的图 3-9 中为“分割点”和图 3-10 中为“分隔点” 为 , 。 保持和软件的界面一致,本书沿用 SPSS 软件界面上的用语。读者把这两个 作为一个来理解即可。希望 SPSS 后续的中文版本能够更正这种翻译上的错 误,避免给用户造成不必要的混淆。章 数 据 预 处 理3.1.1 直接输入分割点数据文件 1991 U.S. General Social Survey.sav 中,需要进行可视化分段的变量 “年龄”为定量(或尺度)变量,以下使用可视离散化(Visual Binning)对该变量 进行分段并产生一个新的分类变量。 选择菜单【转换(T)】→【可视离散化(I)】,可视离散化界面如图 3-3 所示。71 图 3-3可视离散化界面选择“年龄”变量进入“要离散的变量(B)”界面,如图 3-4 所示。SPSS 18 数 据 分 析 基 础 与 实 践 图 3-4 选择要离散的变量单击【继续】按钮,得到如图 3-5 所示的可视化封装对话框。72 图 3-5“可视化封装”对话框 第 章 数 据 预 处 理 3如图 3-5 所示,通过中间的直方图可知年龄的分布情况,输入离散后的分类变 量名称:年龄分段。假如我们把 35 岁及其以下的称为“青年”,35 岁至 52 岁的称 为“中年”,52 岁以上的称为“老年”,即可在图 3-5 中“网格(G)”下面的表格 中的“值(V)”所在的列输入分割点的值,在“标签”所在的列填好各年龄段所 对应的标签,如图 3-6 所示。另外,也可以单击右下角的【生成标签(A)】按钮, 自动化分段会自动生成各个分段的标签。图 3-6可视化分段的视图输入完分割点的值之后,即可在直方图上看到相应的分割线,并由分割线及直 方图可大致看出对连续变量的分段情况。本例中可把年龄分成 3 个大致含有相等百73 分比个案的分段。 这时如果单击【确定】按钮,将弹出如图 3-7 所示的对话框。图 3-7提醒单击【确定】按钮,即可在数据文件中生成新变量年龄分段,如图 3-8 所示。数 据 分 析 基 础 与 实 践 图 3-8 分段后的数据视图74SPSS 18以上操作可以通过下列的语法命令程序来实现:NEW FILE. DATASET CLOSE ALL. GET FILE = 'D:\SPSSIntro\1991 U.S. General Social Survey.sav' . DATASET NAME myData WINDOW=FRONT. RECODE 年龄 (MISSING=COPY) (LO THRU 35=1) (LO THRU 52=2) (LO THRU HI=3) (ELSE=SYSMIS) INTO 年龄分段. VARIABLE LABELS 年龄分段 '被调查者的年龄(已离散化)'. FORMATS 年龄分段 (F5.0). VALUE LABELS 年龄分段 1 '青年' 2 '中年 ' 3 ' 老年' 98 'DK' 99 'NA'. MISSING VALUES 年龄分段 (0 , 98 , 99). VARIABLE LEVEL 年龄分段 (ORDINAL). EXECUTE.如果把鼠标放在分割线位置,分割线变为红色,且鼠标变成手形,这时便可随 意拖动分段的分割点,且对应的分割值也在“网格(G)”下方的表格中自动显示, 如图 3-9 所示。第 章 图 3-9 通过鼠标调整分段区间长度 数 据 预 处 理33.1.2 根据条件自动生成分割点除了 3.1.1 节的用户手动输入分段的分割点以外,还可以输入分隔的一些条件, 自动化分段将根据这些条件实现自动智能化分段。 在图 3-5 中,如果单击右下角的【生成分割点】按钮,则出现“生成分割点” 对话框,如图 3-10 所示,在此可以输入生成分割点的条件,例如,等宽度间隔、等 个案数、均值和几倍标准差。75 数 据 分 析 基 础 与 实 践76SPSS 18图 3-10根据条件生成分割点?“等宽度间隔(E)”:输入第一个分割点位置和分割点数量,可视化分段会 自动进行等间距分段。 “基于已扫描个案的等百分位(U)”:输入分割点数量或宽度(%),即 可实现对连续变量等百分位分段。这里分隔点数量和宽度(%)只要输入 一个即可,另外一个会根据输入的值自动生成。例如,如果想把年龄分为 3 段,则在“分隔点数量(N):”后的文本框中输入“2”,“宽度(%) (W)”后的文本框中会自动生成 33.33%,即每个分段大约含有 33.33% 的个案。或者在宽度(%)中输入 33.33,则分隔点数量自动变为 2,如图 3-11 所示。??“基于已扫描个案的平均和选定标准差处的分割点(C)”:可实现根据 均值和选定标准差进行分段。如果选择“+/-1 标准差”,则取均值减去 1 倍标准差、 均值、 均值加 1 倍标准差三个位置作为分割点, 如图 3-12 所示。这里选择如图 3-11 所示的设置,单击【应?】按钮,返回上级对话框,即图 3-6 所示的可视化封装对话窗口,在“离散的变量(B)”后文本框内输入离散化后 的变量名称“年龄段”,然后单击右下角的【生成标签(A)】按钮,自动化分段 便自动为各分段生成相应标签:“&=35”、“36-52”、“53+”,分段变量预览的情况如图 3-13 所示。 图 3-11等百分位生成分割点图 3-12基于均值和标准差生成分割点第 章 数 据 预 处 理3图 3-13分段变量预览设置完成之后,最后单击【确定】按钮,将出现如图 3-14 所示的提醒对话框。 它提示用户一个名为“年龄段”的新变量将会在数据视图中生成。77 图 3-14提醒生成新变量单击【确定】按钮,即可完成该变量的自动化分段。 以上过程可以通过下列语法命令完成。NEW FILE. DATASET CLOSE ALL. GET FILE = 'D:\SPSSIntro\1991 U.S. General Social Survey.sav' . DATASET NAME myData WINDOW=FRONT. * 可视化封装. *年龄. RECODE 年龄 (MISSING=COPY) (LO THRU 35=1) (LO THRU 52=2) (LO THRU HI=3) (ELSE=SYSMIS) INTO 年龄段. VARIABLE LABELS 年龄段 '被调查者的年龄(已离散化)'. FORMATS 年龄段 (F5.0). VALUE LABELS 年龄段 1 '&= 35' 2 '36 - 52' 3 '53+' 98 'DK' 99 'NA'. MISSING VALUES 年龄段 (0 , 98 , 99). VARIABLE LEVEL 年龄段 (ORDINAL). EXECUTE.数 据 分 析 基 础 与 实 践78SPSS 18完成自动化分段后,数据视图如图 3-15 所示。最右边的一列“年龄段”变量即 为分段后新生成的变量。图 3-15新分段变量注意:在应用离散化分段时,建议仔细分析数据的直方图,了解数据的分布特点, 并结合数据的具体含义和分析主题,采用相应的生成分割点的方法。3.2 缺失值统计分析工作者在实务中经常会碰到数据缺失的问题。一般说来,数据缺失主 要由以下几种原因造成:? ? ?在数据收集阶段,收集者没有收集到相应数据; 应答者拒绝回答该问题,比如该问题涉及个人隐私; 该问题对该应答者不适用,比如该问题是针对女性的,而应答者为男性。缺失数据对于分析者来说正如癌症对于医生,含有缺失数据的数据分析是不可 靠的。因此对缺失数据的处理,首先应想办法重新回到数据收集阶段尽量收集到该 数据;如果实在收集不到该数据,再考虑怎么处理缺失数据,如果缺失数据不影响 到具体的统计分析,则不对缺失数据做任何处理(即缺失数据还是作为缺失数据处 理),如果缺失数据影响到了具体的统计分析,则必须考虑采取适当方法来填补缺 失数据。SPSS 统计分析软件的基本模块提供了下列填补缺失数据方法:? ? ? ? ?第 章 数 据 预 处 理 3序列均值; 临近点均值; 临近点的中位数; 线性插值法; 点处的线性趋势。打开数据文件 Cars.sav,该数据文件为不同汽车属性的数据,数据文件的第一 列 mpg(每加仑汽油行驶的英里数)属性出现了较多的缺失值,如图 3-16 所示。79 图 3-16缺失字段视图SPSS 基本模块提供的填补方法可以在菜单【转换(T)】→【替换缺失值(V)】SPSS 18 数 据 分 析 基 础 与 实 践中访问,如图 3-17 所示。图 3-17替换缺失值选择菜单【转换(T)】→【替换缺失值(V)】,得到如图 3-18 所示的“替 换缺失值”对话框。缺失值被替换后的变量在 SPSS 中将以一个新的变量来表示。 双击需要填补缺失值的变量,该变量将作为所选定填补方法函数的参数,新变量名 将赋给填补后的变量。在“方法(M)”框中列出了 SPSS 填补缺失值的五种方法。80 图 3-18选择替换缺失值的方法在图 3-18 所示的对话框中,把变量 mpg 选到“新变量(N)”框中,填充后的 变量名称默认为 mpg_1,填充方法采用默认的序列均值方法,如图 3-19 所示。设置 完成后,单击【确定】按钮。第 章 数 据 预 处 理 3图 3-19填补缺失值生成新变量数据视图窗口中将出现新生成的变量 mpg_1, 所有缺失值都以序列均值 23.5 填 充,如图 3-20 所示。 以上操作可以通过下列语法命令完成:NEW FILE. DATASET CLOSE ALL. GET FILE='D:\SPSSIntro\Cars.sav' . DATASET NAME myData WINDOW=FRONT. DATASET ACTIVATE myData. RMV /mpg_1=SMEAN(mpg). EXECUTE.81 图 3-20填补后的数据视图单击SPSS 18 数 据 分 析 基 础 与 实 践(【检索最近使用的对话框】的快捷方式)按钮,回到刚才的“替换缺失值”窗口,即图 3-19。重复选择 mpg 进入“新变量(N)”窗口,每次采用不 同的缺失值填补方法:mpg_2 采用 2 个临近点的均值填补;mpg_3 采用 4 个临近点 的中位数;mpg_4 采用线性插值法填补;mpg_5 采用点处的线性趋势法填补。选择 不同填补方法后需要单击【更改(H)】按钮,否则选定的填补方法不能生效。设 置完成之后的对话框,如图 3-21 所示。图 3-21多种替换缺失值方法单击【确定】按钮,回到数据视图。当前活动数据集中生成了 5 个新的经过填 补的 mpg 变量:mpg_1、mpg_2、mpg_3、mpg_4、mpg_5。 以上操作可以通过下列程序来完成:NEW FILE.82 DATASET CLOSE ALL. GET FILE='D:\SPSSIntro\Cars.sav' . DATASET NAME myData WINDOW=FRONT. DATASET ACTIVATE myData. RMV /mpg_1=SMEAN(mpg) /mpg_2=MEAN(mpg 2) /mpg_3=MEDIAN(mpg 4) /mpg_4=LINT(mpg) /mpg_5=TREND(mpg). EXECUTE.回到变量视图,把 mpg 和新生成的 5 个变量拖拽到一起进行比较,数据视图如 图 3-22 所示。第 章 数 据 预 处 理3图 3-22替换缺失值后数据视图由图 3-22 可看出,不同的缺失值填补方法填补后的结果是不一样的。? ?序列均值为取整列数据的均值。 临近点的均值为取该缺失值临近的几个点的均值,具体几个点由附近点的 跨度来设定。?临近点的中位数为取该缺失值临近的几个点的中位数,具体几个点由附近 点的跨度来设定。?线性插值法应用线性插值法填补缺失值。用该列数据缺失值前一个数据和 后一个数据建立插值直线,然后用缺失点在线性插值函数的函数值填充该 缺失值。?缺失点处的线性趋势法应用缺失值所在的整个序列建立线性回归方程,然 后用该回归方程在缺失点的预测值填充缺失值。此外,更多专业的缺失值分析及填补方法,可通过 SPSS Statistics 18.0 的缺失83 值分析(Missing Value Analysis)模块实现,有兴趣的读者可查阅缺失值分析模块 的相关资料。 注意:如果分析中没有用到含缺失值的变量,可以不用关心缺失值问题。在 SPSS 相关的分析过程中,选择“按对排除个案(P) 这时如果没有用到含缺失值的 , ” 变量,缺失值对分析没有影响;如果选择“按列表排除个案(L) 含有缺失值 , ” 的个案将不会用于分析,可能会造成信息损失。3.3 数据校验一般说来,在做统计分析之前都会先做数据校验,即找出错误数据并查找错误 出现的原因。 如果数据没有收集到则尽量想办法补全; 如果是录入错误则重新录入; 如果数据确实错误,则可将这些数据设置成缺失值(即丢弃这些数据不进入分析)。 我们称查找错误数据或者不一致数据的过程为数据校验。如何使数据校验过程流程 化、标准化、并且可以重复进行?SPSS Statistics 18.0 的数据准备 (Data Preparation) 模块为我们提供了方便的数据校验功能。 打开数据文件 demographic.sav, 该数据集含有 5 条记录, 每条记录包括学校 id、 班级 id、个人 id 三个标识变量,还包括性别(其中“1”代表男性, “2”代表女性) 和年龄两个变量,数据视图如图 3-23 所示。SPSS 18 数 据 分 析 基 础 与 实 践图 3-23数据视图84 为示例数据校验功能,这里定义 18~70 岁为有效值,而该范围之外的取值作为 无效值处理。从这 5 个个案可以看出,个案 1 和个案 2 的三个标识变量重复,即学 校 id、班级 id、个人 id 完全一样。记录 4 的年龄为无效值(大于 70 岁)。记录 5 的个人 id 缺失,且该记录的性别和年龄均为无效值。通过 SPSS Statistics 18 的数据 准备(Data Preparation)功能,可以实现数据校验,找到无效或者错误的记录。 数据验证功能可以通过菜单路径【数据(D)】→【验证(L)】→【验证数据 (V)】访问,如图 3-24 所示。 选择【数据(D)】→【验证(L)】→【验证数据(V)】,得到如图 3-25 所示的“验证数据”对话框,默认显示的标签为“变量”标签。对“分析变量(A)” 和“个案标识变量(C)”进行如图 3-25 所示的设置。第 章 数 据 预 处 理3图 3-24数据验证85 图 3-25 SPSS 18 数 据 分 析 基 础 与 实 践“验证数据”对话框其中“个案标识变量(C)”为辨识个案(或记录)的变量,相当于数据库中 的主键,它可以唯一的标示一个个案,不同个案的个案标识值必须完全不同;“分 析变量(A)”为定义验证规则并对其进行校验的变量。 “基本检查”标签中的设置保持不变,单击“单变量规则”标签,出现验证数 据对话框,如图 3-26 所示。图 3-26单变量规则单击图 3-26 右下角的【定义规则(F)】按钮,得到如图 3-27 所示的定义验证 规则对话框。在“规则定义”框中定义两个分析变量的规则:86 ?定义性别变量的规则在“规则定义”部分: “名称(M)”后的文本框中输入规则名称:性别规则,类型为数字。 “有效值(V)”:在下拉列表中选择“在列表中”,在“值(L)”表格中 输入“1”和“2”。即有效的性别值只能是“1”(男性)或者“2”(女性), 如图 3-27 所示。第 章 数 据 预 处 理3图 3-27定义验证规则――单变量规则?定义年龄变量的规则在图 3-27 的定义验证规则中,单击左下角【新建(N)】按钮,类似地定义年 龄规则。 在“规则定义”部分: 名称(M):“年龄规则”,“类型(T)”:数字 在“有效值(V)”部分: 在下拉列表中选择:“在范围内”, 最小值(I):18;最大值(X):7087 图 3-28单变量规则定义数 据 分 析 基 础 与 实 践88SPSS 18完成如图 3-28 所示的设置后,单击【继续】按钮,返回到图 3-26 所示的单变 量规则对话框。此时,新定义的两个规则出现在右端的“规则(R)”框中,如图 3-29 所示。先选中“分析变量(A)”框中的“性别”,并对性别变量应用刚才定 义的性别规则,即在“规则(U)”框中的“性别规则”前打钩。 然后,选中“分析变量(A)”框中的“年龄”变量,并对年龄变量应用刚才 定义的年龄规则,即在“年龄规则”前打钩,如图 3-30 所示。 图 3-29应用性别规则 第 章 数 据 预 处 理 3图 3-30应用年龄规则“交叉变量规则”主要是针对两个或两个以上的分析变量定义规则,比如在本 例中定义“性别为男性而且年龄在 18~30 岁”的个案为有效个案,这里保持“交叉 变量规则”标签和“输出”标签的选项设置不变。 单击“保存”标签,“摘要变量(S)”框中的第二列“保存”用于选择是否 把相应的第一列中的“描述”指标保存在数据文件中。这里选中保存所有四个指标, 即勾选全部四个复选框,如图 3-31 所示。89 图 3-31 SPSS 18 数 据 分 析 基 础 与 实 践保存选项单击【确定】按钮,在输出浏览器中显示下列结果。 1.标识符检查 1)不完全的标识符 表 3-1 显示具有不完全标识符的个案。 表 3-1 不完全的标识符标识符 案例 学校 id 5 2 班级 id 3 个人 id .这一部分结果是检查标识变量,其中个案 5 的标识变量不完全。其标识符分别 为:学校 id 值为 2,班级 id 值为 3,个人 id 为空值。因此被显示为不完全标识符个 案。 2)重复的标识符 表 3-2 显示具有重复标识符的个案。 表 3-2 重复的标识符标识符 重复的标识符组 重复数 具有重复标识符的个案 学校 id 1 2 1, 2 1 班级 id 1 个人 id 190 它显示个案 1 的标识符重复了 2 次,重复的两个个案为个案 1 和个案 2。 3)规则描述 这一部分是对单变量规则的总结,显示数据校验所应用的规则的情况。首先对 性别规则和年龄规则进行描述。表 3-3 显示数据校验所应用的规则。 表 3-3 规则描述规则 类型: 数字 域: 范围 标记用户缺失值: 否 标记系统缺失值: 否 年龄规则 极小值: 18 极大值: 70 标记范围内未标记的值: 否 标记范围内的非整数值: 否 $VD.SRule[1]: 规则 类型: 数字 域: 列表 标记用户缺失值: 否 性别规则 标记系统缺失值: 否 列表: 1, 2 $VD.SRule[2]: 规则 显示至少违反一次的规则。 描述第 章 数 据 预 处 理34)变量摘要 表 3-4 为变量违反规则总结。 表 3-4 变量摘要规则 性别 性别 总计 年龄 年龄 总计 2 1 2 1 违规数变量摘要总结数据中违反性别规则的个案数目为 1,违反年龄规则的个案数目 为 2。91 5)个案报告 表 3-5 为个案违反规则情况报告。 表 3-5 个案报告确认违反规则 案例 单变量 a 4 5 年龄 (1) 年龄 (1) 性别 (1) 2 3 . 3 学校 id 3 班级 id 3 个人 id 标识符表 3-5 给出详细的个案报告,个案 4 违反了年龄规则,个案 5 违反了年龄规则 和性别规则。 返回到数据视图窗口,如图 3-32 所示。数 据 分 析 基 础 与 实 践 图 3-32 个案违反规则报告92SPSS 18由图 3-32 可看出,新生成的六个变量提供了详细的数据校验信息,其中“1” 代表无效(即违反规则),“0”代表有效(即符合规则)。 “年龄规则_年龄”变量说明个案 4 和 5 违反了年龄规则,“性别规则_性别” 变量说明个案 5 违反了性别规则,EmptyCase 说明没有个案的辨识变量全部为空, IncompleteID 变量说明个案 5 的标识变量不完全, DuplicateIDGroup 变量说明个案 1 和个案 2 的标识变量出现重复,ValidationRuleViolations 变量说明个案分析变量的 违规数,其中个案 4 违规数为 1(违反了年龄规则),个案 5 违规数为 2(违反了年 龄规则和性别规则)。 本示例仅用于说明数据校验的操作, 所以相对简单, 只有 5 个变量和 5 个个案, 在实际工作中,如果数据量较大,个案数较多(比如几万条个案),变量数较多(比 如几百个变量),那么运用 SPSS Statistics 18 的数据准备(Data Preparation)模块 就可以快速简便地实现数据的校验。因此,该模块是数据预处理中非常实用的一个 模块。3.4 标识重复个案和异常个案3.4.1 标识重复个案当输入大量数据时,有时候会意外地出现输入同一条记录多次;或同一条记录 的某部分多次出现, 即多个个案具有相同的主标识值, 但它们有不同的次标识值 (比 如,同一个身份证号有两个不同的性别)。另外一种出现重复个案的情况是,多个 个案代表同一个案,但是除这些个案的标识变量取值相同之外,其他变量的取值不 同(比如,由同一个人在不同时间购买的不同产品)。 SPSS 的“标识重复个案”可以由用户对“重复个案”进行定义,并在一定程度 上控制对主个案和重复个案的自动确定。这样可以找出输入数据的“意外错误”, 同时也可以找出那些符合给定“重复条件”的个案。 本节仍然以 3.3 节中的数据文件为例。打开数据文件 demographic.sav,然后在 菜单中选择【数据】→【标识重复个案】,然后把“学校 id”,“班级 id”,“个 人 id”选入“定义匹配个案的依据(D)”框中,如图 3-33 所示。第 章 数 据 预 处 理3图 3-33标识重复个案93 单击【确定】按钮,在输出查看器中得到如下的重复个案报告。 表 3-6 重复个案报告所有最后一个匹配个案的指示符为主个案 频率 重复个案 有效 主个案 合计 1 4 5 20.0 80.0 100.0 百分比 有效百分比 20.0 80.0 100.0 累积百分比 20.0 100.0从表 3-6 可知,合计部分显示数据文件一共有 5 个个案,其中有一个个案和其 他个案重复,重复个案占总个案的 20%。然后,回到数据视图中,如图 3-34 所示, 有一个新生成变量“最后一个基本个案”,它标识个案 1 和个案 2 是重复的,其中 个案 2 被标识为主个案。SPSS 18 数 据 分 析 基 础 与 实 践 图 3-34 重复个案报告注意:在判定重复个案出现的原因时,建议把分析 SPSS 重复个案报告与数据的具 体意义相结合,为以后的数据收集和录入提供指导。3.4.2 标识异常个案“标识异常个案”过程基于个案偏离聚类组中心的大小来判断异常个案。该过 程一般应用于探索性数据分析步骤中,可以快速地检测到数据审核中的异常个案, 它优先于任何推论性数据分析过程。此算法设计为一般“异常检测”,即异常个案 的定义不被指定为任何特定应用程序。例如对医疗保健行业中异常付款模式的检测 或对金融业中洗钱行为的检测,其中对异常的定义可以被很好地界定。 异常探测程序可以分为三个阶段:?建模阶段:根据输入的变量,进行聚类分析,找出数据集中没有明显标识 出的自然组别。同时,把聚类分析最后得到的聚类模型和聚类组别的类中 心保存下来。94 ?打分阶段:根据建模阶段的聚类模型把个案划分到各个类,同时创建衡量 每个个案偏离其所在类中心的指标变量,这里称为异常指标。异常指标最 大的个案将被识别为异常个案。?推论阶段:根据打分阶段异常指标的大小对个案进行降序排列。一定比例 的排序居前个案的异常指标值和其他变量的取值将出现在输出结果中。用 户将根据这些值来判断该个案为什么被判定为异常个案。比如,中风治疗效果分析中,数据分析人员对数据质量非常关注,因为这类模 型对数据异常值十分敏感。某些被判为异常个案的观察值可能是实际有效的个案, 而其值却不同于大部分其他个案的取值,因而该个案不能被用于预测分析建模。有 些被判为异常个案的观察值是由于数据输入错误导致的,但是这些个案的变量取值 从技术上说是“正确”的,因而不能被数据验证过程捕获。该信息收集在 stroke_valid.sav 中。本节将介绍如何使用“标识异常个案”过程剔除异常个案,使 数据文件变得干净。 选择【数据】→【标识异常个案】打开如图 3-35 所示的“标识异常个案”的菜 单,如图 3-36 所示。第 章 数 据 预 处 理 3图 3-35标识异常个案菜单95 图 3-36“标识异常个案”――变量对话框在图 3-36 所示的“标识异常个案”――变量对话框中有 5 个标签项。SPSS 18 数 据 分 析 基 础 与 实 践1)“变量”标签设置用于异常探测的变量,这里将变量“Patient ID”选入对 话框右下边的 “个案识别变量”框中, “变量(V)” 把 列表中的变量 “Age category” 到变量“Stroke between 3 and 6 months”选入“分析变量(A)”中。 2)在“输出”标签中将“对等组标准值”、“异常指标”、“按分析变量列出 出现的原因”、“已处理个案”都打上钩,如图 3-37 所示。图 3-37“标识异常个案”――输出对话框3)在“保存”标签中将“异常指标”、“对等组”、“原因”都打上钩,如 图 3-38 所示。96 图 3-38“标识异常个案”――保存对话框4)在“缺失值”标签中选择“在分析中包括缺失值(I)”,如图 3-39 所示。第 章 数 据 预 处 理 3图 3-39“标识异常个案”――缺失值对话框该操作将把变量的缺失值用均值替换,以求最大化地利用数据。 5)将“选项”标签中的“具有最高异常指标值的个案所占的百分比”设定为 2, 将“最大的原因数量”设定为 3,如图 3-40 所示。 单击【确定】按钮。97 图 3-40 SPSS 18 数 据 分 析 基 础 与 实 践“标识异常个案”――选项对话框以上操作可以通过下列的语法命令程序来实现:*Identify Unusual Cases. DETECTANOMALY /VARIABLES CATEGORICAL=agecat gender active obesity diabetes bp af smoker choles angina mi nitro anticlot tia time doa rankin0 catscan clotsolv dhosp result surgery rehab rankin1 rankin2 rankin3 barthel1 barthel2 barthel3 recbart1 recbart2 recbart3 stroke1 stroke2 stroke3 CONTINUOUS=los_rehab cost ID=patid /PRINT ANOMALYLIST NORMS ANOMALYSUMMARY REASONSUMMARY CPS /SAVE ANOMALY(AnomalyIndex) PEERID(PeerId) PEERSIZE(PeerSize) PEERPCTSIZE(PeerPctSize) REASONVAR(ReasonVar) REASONMEASURE(ReasonMeasure) REASONVALUE(ReasonValue) REASONNORM(ReasonNorm) /HANDLEMISSING APPLY=YES CREATEMISPROPVAR=YES /CRITERIA PCTANOMALOUSCASES=2 ANOMALYCUTPOINT=NONE MINNUMPEERS=1 MAXNUMPEERS=15 NUMREASONS=3.在输出浏览器中,得到从表 3-7 到表 3-12 所示的输出结果。 “标识异常个案”采用的聚类算法是两步聚类算法,通过两步聚类将所有个案 分配到某特定的类中(即对等组)中。 表 3-7 个案处理总结(Case Processing Summary)N1 Peer ID 2 Combined Total 644 .4% 100.0% 54.4% 100.0% 100.0% 539% of Combined45.6%% of Total45.6%98 在本例中,将 1183 个个案分成两类,即两个对等组。 异常个案指标列表(如表 3-8 所示)列出了所有个案中 2%的 24 个异常个案。 表 3-8 异常指标列表(Anomaly Case Index List)Case 865
558 626 627 628 581 471 019
Patient ID 1.591 1.586 1.571 1.571 1.559 1.541 1.541 1.541 1.536 1.529 1.513 Anomaly Index第 章 续表Anomaly IndexCase 209 981 290 602 207 163
538 503 945 186
Patient ID 1.513 1.505 1.497 1.491 1.490 1.480 1.479 1.479 1.438 1.430 1.430 1.425 1.423数 据 预 处 理3其中异常指标值(Anomaly Index)是计算每个个案与其所在类中心的距离,该 值越大, 说明该个案越异常, 同时表 3-9 也列出了每个异常个案的个案编号和 “Patient ID”,便于用户查阅异常个案。 表 3-9 个案组所属的聚类组(Anomaly Case Peer ID List)Case 865 Patient ID
1 Peer ID 539 Peer Size Peer Size Percent 45.6%99
558 626 627 628 581 471
290 602 207 163
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1539 539 539 539 539 539 539 539 539 539 539 539 539 539 539 53945.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6%数 据 分 析 基 础 与 实 践100SPSS 18续表Case
538 503 945 186 Patient ID
1 1 1 1 1 1 1 Peer ID 539 539 539 539 539 539 539 Peer Size Peer Size Percent 45.6% 45.6% 45.6% 45.6% 45.6% 45.6% 45.6%表 3-10 列出了 24 个异常个案所属的聚类组, 聚类组的个案数和占总体的百分比。表 3-10 异常个案原因列表(Anomaly Case Reason List)Reason:1 Case 865
558 626 627 628 581 Patient ID
Reason Variable Result barthel1 barthel1 Diabetes barthel1 Rankin3 Rankin3 Rankin3 Rankin3 Variable Impact .110 .136 .125 .069 .097 .074 .074 .074 .075 3 45 50 1 60 (Missing Value) (Missing Value) (Missing Value) (Missing Value) Variable Value 1 90 90 0 90 0 0 0 0 Variable Norm 471
290 602 207 163
538 503 945 186
Rankin3 barthel2 barthel3 barthel1 barthel3 barthel1 barthel3 barthel3 barthel2 barthel2 Rankin3 barthel1 barthel3 barthel2 Rankin3.075 .084 .093 .075 .108 .112 .094 .095 .113 .086 .080 .106 .098 .118 .080(Missing Value) 75 80 65 70 55 80 80 70 75 (Missing Value) 60 80 70 (Missing Value)0 100 100 90 100 90 100 100 100 100 0 90 100 100 0第 章 数 据 预 处 理3异常个案原因列表列出了导致该个案为异常个案的最主要原因变量及其影响系 数、该个案在变量的值以及该变量的正常值。通过追溯原因,可知该个案之所以被 判定为异常个案主要是由于该个案的哪些变量值引起的。 注意: 建议仔细分析异常个案的异常原因列表, 结合数据的具体意义和分析的主题, 判断该个案是否应该被排除在分析之外。 表 3-11 列出了定量变量在每个对等组上的均值和标准差, 该均值和标准差可视 为每个对等组在该变量上的聚类中心。 表 3-11 定量变量的组中心和标准差(Scale Variable Norms)Peer ID Combined 1 Mean Length of stay for rehabilitation Std. Deviation Total treatment and rehabilitation costs in thousands Missing Proportion Std. Deviation .018 .093 .076 Mean Std. Deviation Mean 12.738 38.57 .004 12.466 50.42 .065 12.638 44.13 .037 16.39 18.71 2 17.65表 3-12 列出了分类变量在每个对等组上的众数(即所占百分比最高的取值), 该众数可视为每个对等组在该变量上的聚类中心。101 表 3-12 分类变量的聚类中心(Categorical Variable Norms)Peer ID Combined 1 Most Popular Category Age category Frequency Percent Most Popular Category Gender Frequency Percent Most Popular Category Physically active Frequency Percent 2 209 38.8% 1 275 51.0% 1 285 52.9% 2 215 33.4% 0 328 50.9% 0 342 53.1% 2 2 424 35.8% 0 592 50.0% 0 596 50.4%回到在当前活动数据集中, 注意到每个个案生成了 Anomaly Index (异常指数) 、 Peer ID(对等组 ID)、Peer Size(对等组个案总数)等变量,方便用户查看每个个 案异常指数的详细信息,如图 3-41 所示的“标识异常个案”报告。SPSS 18 数 据 分 析 基 础 与 实 践图 3-41“标识异常个案”报告总之,通过“标识异常个案”报告,可快速挑选出异常个案。“标识异常个案” 方 法 既 可 以 用 于 建 模 前 的 数 据 准 备 , 也 可 用 于 金 融 行 业 的 欺 诈 监 测 ( Fraud Detection),如信用卡欺诈的监测、税收欺诈的监测等。3.5 选择个案“选择个案”可选择数据集中特定的个案或记录,并对所选择的个案或记录进 行分析。 需要特别注意的是,进行了“选择个案”的操作后,之后所有的分析所针对的 个案都是基于所选择的特定个案或记录,直到取消选择个案。102 打开数据文件 1991 U.S. General Social Survey.sav,该数据文件为 1991 年美国 普遍社会调查的数据,数据视图如图 3-42 所示。第 图 3-42 数据视图 章 数 据 预 处 理3这里我们选择变量性别、种族和地区分别为“男性、黑种人、东北部地区”的 个案。选择菜单【数据(D)】→【选择个案】,得到如图 3-43 所示的“选择个案” 对话框。图 3-43“选择个案”对话框单击“如果条件满足(C)”下方的【如果(I)】按钮,并在图 3-44 所示的“选 择个案 If”对话框的“文本输入框”中构建选择“男性、黑种人、东北部地区”个103 案的表达式。图 3-44 SPSS 18 数 据 分 析 基 础 与 实 践“选择个案――选择条件”对话框单击【继续】按钮返回上级对话框,如图 3-43 所示。然后单击【确定】按钮, 则以后所有的分析将仅仅基于符合选择条件的记录。 选择个案后的数据视图如图 3-45 所示, 不满足选择条件的个案其编号 “1” (如 、 “2”、“3”,…)被打上了反斜杠,表示这些个案被过滤掉,没被选中,将不被 应用于分析;而变量性别、种族和地区分别取值为“男性、黑种人、东北部地区” 的个案将被选中, 其个案编号没有任何标记 (如个案 “6”“7” 。 、 ) 同时 SPSS Statistics 根据选择条件生成了“filter_$”筛选器变量,如果其值为“Selected”表示该个案被 选中,如果其值为“Not Selected”表示该个案没有被选中。此外 SPSS Statistics 右 下角的“筛选范围”表示该数据文件已被成功执行过“选择个案”的操作。图 3-45选择个案后数据视图104 生成“filter_$”变量选择个案的语法如下:COMPUTE filter_$=(性别 = 1 & 种族 = 2 & 地区 = 1). VARIABLE LABEL filter_$ '性别 = 1 & 种族 = 2 & 地区 = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE.“选择个案”除了以上根据特定的条件进行选择外,还有其他三种选择个案 的方法: 1.随机选择个案(如图 3-46 所示)第 章 图 3-46 随机选择个案 数 据 预 处 理3在“大约(A)”后的框中输入所选个案的百分比,将实现随机抽取该百分比 的个案数。 选择“精确(E)”,并在其后的文本框中输入具体的个案数 5,在“从第一个 开始的个案(F)”中输入 100,则表示在第 1 至第 100 个案中,随机选择 5 个个案。 2.基于记录号选择个案(如图 3-47 所示)图 3-47基于记录号选择个案在“观测值”后的文本框中输入个案的范围,比如输入 5 和 100,则表示选择 了第 5 至第 100 个个案,总共 96 个个案。105 3.使用筛选器变量选择个案(如图 3-48 所示)图 3-48使用筛选器变量选择个案数 据 分 析 基 础 与 实 践106SPSS 18将“筛选器变量 filter_$”选入“使用筛选器变量(U)”,即可实现之前定义 的“男性、黑种人、东北部地区”个案选择。输出选择个案的方式,如图 3-49 所示。图 3-49输出选择个案的方式在图 3-49“输出”部分中各选项的作用解释如下。? ?“过滤掉未选定的个案”:该选项为默认选项,不删除未选定的个案,只 是过滤掉未选定的个案,未选定个案仍在数据集中,该效果如之前所述。 “将选定个案复制到新数据集”:将对选定的个案生成一个新的数据集, 数据集的名称由使用者自己命名。 ?“删除未选定个案” 在当前数据集中删除未选定个案而只留下选定个案, : 该选项不推荐使用,除非使用者非常确信以后不再需要分析未选定个案。综上所述,“选择个案”功能可实现对特定个案的选择,并基于所选定个案进 行统计分析和建模。 注意:在应用选择个案完成所需要的分析后,立即关闭选择个案是一个好的习惯。 否则,后续的分析将仅仅基于上一次所选择的个案。3.6 小结本章主要讲述了 SPSS 进行数据预处理的几种方法:可视化变量分段是对连续 数据进行离散化,它把变量取值的细节进行简化、分类,它是对总体进行把握的一 种十分有用的方法;缺失值填补是 SPSS 提供给数据分析工作者的一种简单易行的 处理缺失数据的方法;而数据校验可以方便地让分析者找到现有数据中不一致或者 录入数据中存在的错误。标识异常个案可以快速侦测数据中潜在的错误,它可以找 出由于录入导致的数据错误,也可以找出不合常规的异常个案。最后介绍了选择符 合指定条件的部分个案的方法。第 章 数 据 预 处 理 3思考与练习1.对 1991 U.S. General Social Survey.sav 进行个案选择,选择条件为“女性、 白种人、生活为平淡无奇”的个案,并统计这些个案的年龄和教育的平均值 和标准差。 2.一家保险公司想找出那些可以的,具有潜在骗保的客户的索赔个案。他们以 前的索赔数据存储在数据文件“索赔数据.sav”中。但是由于他们的人力和 财力有限,不可能逐一对索赔客户进行一一的调查验证。因此,在用当前数 据建立模型以前,他们计划用 SPSS 的自动数据准备功能,在任何数据转换 实际应用以前,他们想先观测一下这种转换可能结果。因此,请应用 SPSS 的自动数据准备工具, 通过交互式的方式演示他们所有可能采取的转换的潜 在效果。另外,找到重复进行索赔的客户的名单;定义可疑客户规则,并据 此规则找到可疑的客户。 3.在 SPSS 中有几种不同的方式进行个案选择,其中正确的是:107 A)首先创建一个过滤器变量,然后用 SELECT IF 语句根据过滤器变量进行 选择 B) 【数据】→【选择个案】 ,然后输入选择条件 C)在 SPSS 数据编辑器中直接选择符合条件的个案 D)在 SPSS 数据编辑器的变量视图中直接选择符合条件的个案 4.应用 SPSS 的选择记录(Select Cases)菜单,我们可以: A)选择符合指定逻辑条件的记录 B)随机选择一定比例的记录 C)从数据文件中删除某些记录 D)添加某些符合条件的记录 5.哪些方式是 SPSS 缺失值的替代方式:SPSS 18 数 据 分 析 基 础 与 实 践A)序列均值 B)临近点的均值 C)临近点的中位数 D)线性插值法 E)上一个记录的取值 6.哪种方式可以关闭选择个案: A)运行【数据(D) 】→【选择个案】 ,然后选择“全部个案(A) ” B)在相应的数据视图中删除相应的筛选器变量 C)直接删除个案编号前的反斜杠 D)关闭数据文件 7.有关 SPSS 选择某些特定条件的个案的说法,不正确的是: A)用菜单【数据(D) 】→【选择个案】进行选择时,没有被选中的个案可 以仍然保留在数据集中 B)用菜单【数据(D) 】→【选择个案】进行选择时,没有被选中的个案将 不再保留在数据集中 C)在应用 SELECT IF(逻辑表达式)选择个案时,逻辑表达式部分没有必 要应用过滤器变量 D)用菜单【数据(D) 】→【选择个案】进行选择时,没有被选中的个案将 不再保留在数据集中108 8.在异常个案分析中,对于 SPSS 报告的异常个案,正确的处理方式为: A)在进行数据分析前,应该首先删除 SPSS 探测出的异常个案 B)异常个案探测是在数据分析完成之后,进入结果验证阶段所做的分析 C)即使合理地设置了异常探测的选项,对于 SPSS 给出的异常个案也应该 根据数据的具体含义和特点有区别的对待,不能全部从数据集中删除 D)在进行异常个案分析前,应该先对缺失值进行填补 9.有关 SPSS 的数据校验过程,正确的是: A)不用任何指导,SPSS 软件可以对数据进行校验,找出出错的数据 B)用户必须首先定义数据规则,然后才能应用 SPSS 数据校验过程 C)数据校验过程可以找出数据集中的所有错误 D)数据校验过程必须对所有变量逐个进行参考文献1.《SPSS 18 数据校验模块白皮书》。 2.《SPSS 初中级培训讲义》。第 章 数 据 预 处 理3109
第三章_SPSS基本统计分析1... 5页 免费 SPSS 18数据分析基础与实践... 41页 免费 spss基本分析 16页 免费 第三章 利用Matlab和SPSS进... 7页 免费 SPSS...第一篇 SPSS 数据处理基础本篇要点导读:第 1 章 SPSS 数据的录入 数据录入的一般步骤,数据结构的定义,文件合并,文本数据的导入; 第 2 章 数据文件的操作和预...广东金融学院实验报告课程名称:市场调查与预测实验编号 及实验名称 姓名 实验中心 周刺天 实验一:SPSS 数据文件的建立和管理操作 以及数据预处理操作 系班 别级 ...对于设计型和综合型实验,在上述内容基础上还应该画出流程图、设计思路和设计方法...spss 第三章 SPSS数据的... 79页 免费 第四章 SPSS数据的预处理... 48页...本次主要谈谈问卷数据在分析前的一些预处理工作。 数据预处理的步骤: 1. 对...SPSS数据编辑整理 38页 免费 第三章 SPSS数据核查、整... 暂无评价 19页 免费...SPSS18.0实验报告_计算机软件及应用_IT/计算机_专业资料。统计分析教程统计...实践过程中我掌握了如何利用 SPSS 进 行数据简单处理、制图以及进行各种数据分析...SPSS数据分析的主要步骤_计算机软件及应用_IT/计算机_专业资料。SPSS 数据分析的主要步骤利用 SPSS 进行数据分析的关键在于遵循数据分析的一般步骤,但涉及 的方面会相...第4章 SPSS基本统计分析(课后练习参考)_经济学_高等教育_教育专区。第三章 1...7、 对习题二第5题数据,选择恰当的加权变量进行加权处理进而还原为原始数 据为...实践内容(课后练习:SPSS11.5 的安装) ● 作业 第三章 数据库的建立(4 课时,授课)【知识点提示】数据窗口和变量窗口,数据导入导出语法,复选题和排序题的处理。...SPSS数据分析报告_管理学_高等教育_教育专区。SPSS 期末报告 关于员工受教育程度对其工资水平的影响 统计分析报告 课程名称:SPSS 统计分析方法 姓学名:汤重阳 号:...
All rights reserved Powered by
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 雷神三高清百度云 的文章

 

随机推荐