SPSS怎么根据两个js变量转换成字符串一个变量:如0=A;1=B(男>50岁,女>40岁)

目录SPSS运行方式数据集变量名的命名规 - 爱问共享资料
简介:本文档为《SPSSdoc》,可适用于IT/计算机领域,主题内容包含目录SPSS运行方式数据集变量名的命名规则SPSS的数据类型数据排序数据的转置重复个案的识别拆分文件数据文件的合并分类汇总数据的加权频数分析过程描述符等。
侵权或盗版
*若权利人发现爱问平台上用户上传内容侵犯了其作品的信息网络传播权等合法权益时,请按照平台要求书面通知爱问!
赌博犯罪类
17人已下载
在此可输入您对该资料的评论~
添加成功至
资料评价:spss怎么 输入列联表例子_百度知道
spss怎么 输入列联表例子
2x2列的性别
色盲男 535 65女 382 18
我有更好的答案
设置三个变量:性别(男 女)、视觉(正常 色盲)、人数,输入完数据之后,需要对人数变量进行加权。才可以做列联分析
分类资料在医学统计中很常见,比如(有效、无效),(发病、不发病),(男、女)等等。分类资料一般根据频数整理成列联表的形式,一般的列联表多是二维的(也称行列表,或RC列联表,高维列联表下次讨论),列联表根据变量是否有序可以分为双向无序、单项有序、双向有序列联表,统计方法是不同的,分析如下:一、双向无序列联表
是指行、列变量均为无序的列联表,例如要研究吸烟和肺癌之间的关系,行变量为是否吸烟:吸烟、不吸烟,列变量为肺癌发病:发病,不发病,如下表:
未发生肺癌
对于这种数据,我们的统计目的是分析行列变量的独立性,即:肺癌发病是否与吸烟有关,可选用的方法有以下两种:
1、Pearson卡方检验:
基于卡方分布,H0为行、列变量相互独立,SPSS中“分析-&描述性统计-&交叉表”可实现。
使用条件:①样本总数大于40;②各个单元格理论值均大于5。
2、Fisher精确概率:
基于超几何分布,当数据不满足Pearson卡方检验时使用。SPSS中“分析-&描述性统计-&交叉表”可实现。注意SPSS仅提供了2×2表的精确概率,需要计算R×C列联表的精确概率需要自己编程实现,参见:二、单项有序的列联表
常见的情况是结果变量有序,而原因变量无序。比如要比较AB两种药物的治疗效果,药物分组(AB)是无序的,而结果变量是有序的(无效,显效,治愈),可以整理成如下的表格:
可以选择的统计方法主要有:
1、Mann–Whitney U 检验(也叫Mann–Whitney–Wilcoxon检验、Wilcoxon rank-sum检验,Wilcoxon–Mann–Whitney检验):
基于卡方分布,H0为两组总体分布一致,SPSS中“分析-&非参数检验-&独立样本”中可实现。具体实现方法参见:
注意:在SPSS中,如果是整理成了列联表资料,需要用频数进行数据加权。变量编码为:①药物(名义):A=1,B=2,②疗效(度量):无效=1,有效=2,治愈=3,③频数(度量)。
2、Kruskal-Wallis H检验:用于分组数大于2的情况,比如要比较3种或以上药物的疗效。实现方法与Mann–Whitney U 类似。
具体实现方法参见:三、双向有序列联表
1、行、列变量有序但属性不同
比如这个例子:要比较某种药物对某种疾病的治疗效果,按年龄段的分组,要考察治疗效果是否与年龄段相关,整理成下表:
行、列都是有序的,这是我们主要关心的:行列变量之间受否有相关性,如果有相关性,是线性相关还是曲线关系。可以选择的方法如下:
(1)Spearman等级相关:检验有无相关性,基于卡方检验,在SPSS中“分析-&相关-&双样本”中可实现。
(2)线性趋势卡方检验:检验有无线性关系,基于卡方检验,SPSS“分析-&交叉表”卡方结果表格中的“线性和线性组合”就是。
具体参见:
2、行列有序且属性相同
(1)行列变量独立
通常是为了检验一致性。比如用两台仪器对同一样本进行检验,结果分为阴性、阳性,现在要比较两台仪器的结果是否据有一致性。整理成下表:
常用的方法为:
Kappa一致性检验:H0为行列变量无一致性。在SPSS中“分析-&描述性统计-&交叉表”中可实现。
(2)配对行列表
行列变量为配对资料,比如有某种药物可以缓解某种疾病的某种症状,在同一个患者身上比较用药前后的症状,评价药物的资料效果,列成下表:
治疗前有症状
治疗前无症状
治疗后有症状
治疗后无症状
可以选用的统计方法:
(1)McNemar检验:仅用于2×2列联表。基于卡方分布。在SPSS中“分析-&描述性统计-&交叉表”中可实现。本检验与Pearson卡方检验具有同一性,使用条件必须满足Pearson卡方检验的条件。如果条件不能满足,需要进行Yate校正。
(2)Bowker检验:是McNemar检验的扩展,用于分类数目大于2的配对列联表分析。在SPSS中“分析-&描述性统计-&交叉表”中可实现。
采纳率:89%
来自团队:
设置三个变量:性别(男 女)、视觉(正常 色盲)、人数,输入完数据之后,需要对人数变量进行加权。才可以做列联分析
本回答被提问者采纳
设置三个变量:性别(男 女)、视觉(正常 色盲)、人数,输入完数据之后,需要对人数变量进行加权。才可以做列联分析.
设置三个变量。假设你的数据时两个因素两个水平。那么你就设置一个变量是因素,一个变量是水平,另一个变量是频数。你的个案输入如下:(1,1,第一因素第一水平的频数)(1,2,第一因素第二水平的频数)(2,1,第二因素第一水平的频数)(2,2,第二因素第二水平的频数)。卡方检验之前用频数加权一下就可以了。三个因素两个水平的话就是六个个案,以此类推。ppv课学习网站.
设置三个变量:性别(男 女)、视觉(正常 色盲)、人数,输入完数据之后,需要对人数变量进行加权,就可以啦。
其他1条回答
为您推荐:
其他类似问题
您可能关注的内容
列联表的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。当前位置: >>
SPSS培训课程讲义(0522)
[SPSS 培训课程大纲]SPSS 数据分析高级应用培训班培训资料(仅供培训使用)0 [SPSS 培训课程大纲]目 录第 1 讲 统计工具与 SPSS 软件 .......................................................................... 1 1.1 统计工具含义 .......................................................................................................................................................... 1 1.2 统计工具作用 .......................................................................................................................................................... 1 1.3 运用统计工具注意事项 ........................................................................................................................................... 1 1.4 统计工具与 SPSS 软件关系 ................................................................................................................................... 1 第 2 讲 SPSS 入门 ..................................................................................... 2 2.1 SPSS 历史沿革 ......................................................................................................................................................... 2 2.2 SPSS 基本界面 ...................................................................................................................................................... 2 2.3 常规功能设Z .......................................................................................................................................................... 3 2.3 数据变量(详细介绍在课堂上演示) .................................................................................................................. 3 2.3.1 计量尺度 ....................................................................................................................................................... 3 2.3.2 常量与变量 ................................................................................................................................................... 3 2.3.3 变量标签 ....................................................................................................................................................... 3 2.3.4 变量缺失值 ................................................................................................................................................... 4 第 3 讲 数据采集与整理 ............................................................................... 5 3.1 数据编辑器简介 ....................................................................................................................................................... 5 3.2 数据文件的建立 ...................................................................................................................................................... 5 3.3 数据的编辑 .............................................................................................................................................................. 5 3.3.1 查看数据信息 ............................................................................................................................................... 5 3.3.2 数据定位 ....................................................................................................................................................... 5 3.3.3 插入与删除变量和观测量 ........................................................................................................................... 5 3.3.4 实用数据文件操作 ....................................................................................................................................... 6 3.4 单选题、多选题与开放题的数据录入,检查异常值 .......................................................................................... 8 3.5 SPSS 函数 ............................................................................................................................................................... 10 第 4 讲 描述性统计分析 .............................................................................. 13 4.1 常用统计量 ............................................................................................................................................................ 13 4.1.1 描述集中趋势的统计量(将融合在后续演示中) ................................................................................. 13 4.1.2 描述离散程度的统计量(将融合在后续演示中) ................................................................................. 13 4.1.3 描述分布形态的统计量(将融合在后续演示中) ................................................................................. 13 4.2 常用统计表 ............................................................................................................................................................ 13 4.2.1 在线处理分析报告(OLPA)......................................................................................................................... 13 4.2.2 个案摘要报告 ............................................................................................................................................. 14 4.2.3 行形式摘要报告和列形式摘要报告(略,学员可独立学习).............................................................. 14 4.3 频数分析 ................................................................................................................................................................ 14 4.4 描述性分析 ............................................................................................................................................................ 15 4.5 探索性分析 ............................................................................................................................................................ 16 4.6 常用统计图(课堂现场演示) ............................................................................................................................ 161 [SPSS 培训课程大纲]第 5 讲 一般推断性统计分析 .......................................................................... 17 5.1 统计推断理论(课堂现场讲授) ........................................................................................................................ 17 5.2 均值比较 ................................................................................................................................................................ 17 5.2.1 均值过程 ..................................................................................................................................................... 17 5.2.2 单样本 t 检验 .............................................................................................................................................. 18 5.2.3 独立样本 t 检验 ........................................................................................................................................... 19 5.2.4 配对样本 t 检验 ........................................................................................................................................... 20 5.3 相关分析 ................................................................................................................................................................ 22 5.3.1 简单相关分析 ............................................................................................................................................. 22 5.3.2 偏相关分析 ................................................................................................................................................. 23 5.3.3 距离分析 ..................................................................................................................................................... 25 5.4 回归分析 ................................................................................................................................................................ 27 5.4.1 线性回归分析 ............................................................................................................................................. 28 5.4.2 曲线回归分析 ............................................................................................................................................. 29 5.4.3 非线性回归分析 ......................................................................................................................................... 31 5.5 方差分析 ................................................................................................................................................................ 32 5.5.1 单因素方差分析 ......................................................................................................................................... 32 5.5.2 多因素方差分析 ......................................................................................................................................... 35 5.5.3 重复测量方差分析 ...................................................................................................................................... 37 5.5.4 协方差分析 ................................................................................................................................................. 39 第 6 讲 多元统计分析 ................................................................................ 42 6.1 聚类分析 ................................................................................................................................................................ 42 6.1.1 理论背景 ..................................................................................................................................................... 42 6.1.2 距离和相似系数 .......................................................................................................................................... 42 6.1.4 K-Means 聚类 .............................................................................................................................................. 46 6.1.5 分层聚类 ..................................................................................................................................................... 47 6.3 判别分析 ................................................................................................................................................................ 48 6.3 因子分析 ................................................................................................................................................................ 54 6.3.1 基本概念 ..................................................................................................................................................... 54 6.3.2 基本步骤 ..................................................................................................................................................... 54 6.3.3 实例演示 ..................................................................................................................................................... 55 6.4 主成分分析 ............................................................................................................................................................ 57 6.4.1 基本概念 ..................................................................................................................................................... 57 6.4.2 基本步骤 ..................................................................................................................................................... 57 6.4.3 实例演示 ..................................................................................................................................................... 59 第 7 讲 定性数据分析 ................................................................................ 60 7.1 列联表 .................................................................................................................................................................... 60 7.1.1 基本概念 ..................................................................................................................................................... 60 7.1.2 实例演示 ..................................................................................................................................................... 61 7.2 Logistic 回归 ........................................................................................................................................................... 62 7.2.1 基本概念 ............................................................................................................................................................. 62 7.2.2 实例演示 ............................................................................................................................................................. 632 [SPSS 培训课程大纲]第 8 讲 时间序列分析 ................................................................................ 65 8.1 组成要素 ................................................................................................................................................................ 65 8.2 ARMA 模型 ............................................................................................................................................................ 65 8.2.1 ARMA 模型及基本原理 ............................................................................................................................. 65 8.2.2 ARMA 模型的基本形式 ............................................................................................................................. 65 8.3 实例演示 ................................................................................................................................................................ 66 第 9 讲 其他统计分析 ................................................................................ 67 9.1 信度分析 ................................................................................................................................................................. 67 9.1.1 基本分类 ............................................................................................................................................................. 67 9.1.2 实例演示 ............................................................................................................................................................. 67 9.2 生存分析 ................................................................................................................................................................. 68 9.2.1 生存分析的目的 ......................................................................................................................................... 68 9.2.2 生存数据 ..................................................................................................................................................... 69 9.2.3 生存时间函数 ............................................................................................................................................. 69 9.2.4 生存分析的基本方法 ................................................................................................................................. 70 9.2.5 实例演示 ..................................................................................................................................................... 71 第 10 讲 综合案例分析 ............................................................................... 76 10.1 案例背景 .............................................................................................................................................................. 76 10.2 RFM 模型简介...................................................................................................................................................... 76 10.3 实例演示(课堂演示) ...................................................................................................................................... 77 第 11 讲 SPSS 编程简介 ............................................................................... 78 11.1 程序编辑窗口操作入门 ...................................................................................................................................... 78 11.1.1 Syntax 与 UI ............................................................................................................................................. 78 11.1.2 生成和运行 syntax .................................................................................................................................... 78 11.2 syntax 基本规则 ................................................................................................................................................... 80 11.2.1 syntax 简介 ................................................................................................................................................. 80 11.2.2 命令分类 ................................................................................................................................................... 82 11.3 结构化语句 .......................................................................................................................................................... 84 11.3.1 分支语句(条件语句) ........................................................................................................................... 84 11.3.2 循环语句 ................................................................................................................................................... 84 11.4 实例演示 .............................................................................................................................................................. 853 [SPSS 培训课程大纲]第 1 讲 统计工具与 SPSS 软件1.1 统计工具含义 统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科 学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。 统计工具是实现上述过程的手段与方法,包括理论方法与计算软件。 1.2 统计工具作用 在古代,治国安天下多数通过逻辑分析和简单计算就能满足,在现今社会,单纯靠逻辑分析和推断无法满足实 际需要,人们往往需求的是隐藏在表面之后的规律,需要借助统计工具加以实现,比如:利用 C-D 生产函数来判断 国家的 GDP 中,多大程度受固定资产影响,多大程度受人力资本影响,科技进步有多大。诸如此类问题都需要通过 统计工具实现,由此,可以得出统计工具的主要作用就是实现人们想了解到的、可以了解到的那些潜在的关系和规 律。 1.3 运用统计工具注意事项 在说明统计工具在使用中需注意问题之前,举个实际例子。 【例 1.1】有人说:D统计方法没什么用,我想知道明天几点几分下雨,统计方法根本无法实现‖。这样的说法正 确吗? 分析与解答:该种说法错误,从供给和需求角度进行分析。 需求方面:实际生活中,人们期望获取一具体点值,属于微观问题 供给方面:利用统计方法得到的点估计属于宏观问题,只有在大量重复情况下才能实现,举点估计的评价标准 为例说明(课堂讲授) 。 从供给和需求方面可以看出,统计工具是在满足某些约束条件下得出的结果,具体在统计工具运用中需注意如 下事项: 1、注意统计工具满足的基本假定; 2、统计工具计算的结果一定存在误差; 3、只要不影响实际决策的误差可以认为是统计上允许的误差; 4、统计结果往往具有实际意义,不要为了面子而滥用统计工具。 1.4 统计工具与 SPSS 软件关系 SPSS 软件是一种实现理论计算方法,帮助统计研究者简化计划,提高工作效率的电脑软件,通过该软件可迅速 实现描述性统计分析、确定性统计分析、随机统计分析等。1 [SPSS 培训课程大纲]第 2 讲 SPSS 入门2.1 SPSS 历史沿革 SPSS 是世界上最早的统计分析软件,全称为 Statistical Package for Social Science,也称社会科学统计软件。由美 国斯坦福大学的三位研究生 Norman H. Nie、 C. Hadlai (Tex) Hull 和 Dale H. Bent 于 1968 年研究开发成功, 同时成立 了 SPSS 公司,并于 1975 年成立法人组织、在芝加哥组建了 SPSS 总部。1984 年 SPSS 总部首先推出了世界上第一 个统计分析软件微机版本 SPSS/PC+,开创了 SPSS 微机系列产品的开发方向,极大地扩充了它的应用范围,并使其 能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就 SPSS 的自动统计 绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。随着应用领域的不断扩大,SPSS 已经有原 来的名字改为 Statistics Product and Service Solution,即统计产品与服务解决方案。 SPSS 15.0.1 - 2006 年 11 月 SPSS 16.0.2 - 2008 年 4 月 SPSS Statistics 17.0.1 - 2008 年 12 月 PASW Statistics 17.0.2 - 2009 年 3 月 PASW Statistics 17.0.3 - 2009 年 11 月 PASW Statistics 18.0.0 - 2009 年 8 月 PASW Statistics 18.0.1 - 2009 年 12 月 PASW Statistics 18.0.2 - 2010 年 4 月 PASW Statistics 18.0.3 - 2010 年 9 月 IBM SPSS Statistics 19.0 - 2010 年 8 月 IBM SPSS Statistics 20.0 - 2011 年 8 月 IBM SPSS Statistics 21.0 - 2012 年 8 月 IBM SPSS Statistics 22.0 - 2013 年 8 月 2.2 SPSS 基本界面 安装 SPSS22.0 之后,第一次启动将出现如下界面。在点击D取消‖可出现以下常规界面。2 [SPSS 培训课程大纲]2.3 常规功能设Z 通过D编辑‖→D选项‖,获取如下对话框对第一行命令逐一点开,会出现关于 SPSS 如阿年常规功能设Z的所有界面(课堂演示) 2.3 数据变量(详细介绍在课堂上演示) 2.3.1 计量尺度 无论是观测数据还是试验数据,都需要度量。统计数据是对客观现象进行计量的结果,按照对事物的精确程度, 可将所采用的计量尺度有低级到高级分为:名义尺度、定序尺度和间隔尺度(又分为定距尺度和定比尺度) 2.3.2 常量与变量 常量分为数值型常量、字符型常量、日期型常量 变量分为数值型变量、字符型变量、日期型变量。 数值型变量包括:标准型、逗号型、圆点型、科学计数法型、美元型和自定义货币型。 2.3.3 变量标签 变量标签是对变量名进一步解释和说明,包括变量名标签和变量值标签。 变量名标签是对变量名含义的进一步解释和说明,在 SPSS 界面中表现为D标签‖列。3 [SPSS 培训课程大纲]变量值标签是对数值型变量各个取值的含义进行解释和说明,尤其是定型数据,在 SPSS 界面中表现为D值‖列。 2.3.4 变量缺失值 在调查问卷中,被调查者没有填写调查表要求填写的某些数据或填写的数据失真,造成缺失值。这些情况称为 数据缺失或数据不全,缺失或不完全的数据在统计分析中不能使用,需标出,在在 SPSS 界面中表现为D缺失‖列。4 [SPSS 培训课程大纲]第 3 讲 数据采集与整理3.1 数据编辑器简介数据编辑器主要由标题栏、当前数据栏、输入数据栏和数据显示区组成。 3.2 数据文件的建立 建立数据文件可通过如下两种方式实现: 1、D文件‖→D新建‖命令 2、在启动 SPSS 时选择D输入数据‖选项 数据录入方法包括:按单元格输入数据、按变量录入数据、按观测量录入数据和输入带有变量标签的数据。 3.3 数据的编辑 3.3.1 查看数据信息 1、查看变量信息 在数据编辑器窗口中切换到D变量视图‖区域查看变量信息或者执行菜单D应用程序‖→D变量‖命令 2、查看文件信息 执行菜单D文件‖→D显示数据文件信息‖命令 3.3.2 数据定位 1、按个案序号自动定位 执行菜单D编辑‖→D转至个案‖命令 2、按变量值自动定位 执行菜单D编辑‖→D查找‖命令 3.3.3 插入与删除变量和观测量 插入变量可通过以下三种方式实现: 1、通过数据编辑器窗口中相关快捷命令5 [SPSS 培训课程大纲]2、利用鼠标右键完成 3、执行菜单D编辑‖→D插入变量‖命令 删除变量可通过以下两种方式实现: 1、利用鼠标右键完成 2、执行菜单D编辑‖→D清除‖命令 观测量(个案)的插入和删除方法同变量类似,课堂演示。 3.3.4 实用数据文件操作 1、数据的打开和保存(略) 2、数据排序 (1)执行菜单D数据‖→D排序个案‖命令(2)需要根据哪个变量排序,则单击该变量→D排序依据‖ (3)选择D升序‖还是D降序‖ (4)点击D确定‖ 3、数据文件的分解 (1)执行菜单D数据‖→D拆分文件‖命令(2)选择不同的拆分方式:分析所有个案,不创建组(默认方式) 、比较组或按组组织输出 (3)选择不创建组(默认方式) 、比较组或按组组织输出需选取D分组方式‖ (4)点击D确定‖ 4、数据文件的合并 1、增加变量 (1)执行菜单D数据‖→D合并文件‖→D添加变量‖命令6 [SPSS 培训课程大纲](2)选中所添加的变量后点击D继续‖命令(3)点击D确定‖ 2、增加观测值 (1)执行菜单D数据‖→D合并文件‖→D添加个案‖命令(2)选中所添加的变量后点击D继续‖命令7 [SPSS 培训课程大纲](3)点击D确定‖ 5、数据文件的转Z 执行菜单D数据‖→D变换‖命令3.4 单选题、多选题与开放题的数据录入,检查异常值 1、单选题的数据录入 通过具体例子说明 【例 3.1】对马航失联客机的结果有如下几种,选择最可能的一种?( A 坠入海洋 B 恐怖分子劫机 C 被海盗劫机 D 政府行为 具体实现方法有两种: (1)二分法。对每个选项赋值D0‖或者D1‖)8 [SPSS 培训课程大纲](2)对每个选项分别赋值D1,2,3,4‖2、多选题的数据录入 (1)多重二分法 处理方法同单选题数据录入的(1) ,此处略。 (2)多重分类法 若假定最多选 2 个,先对对每个选项分别赋值D1,2,3,4‖,后给出 2 个备选变量即可。9 [SPSS 培训课程大纲]若没有限制选项个数,则将所有的备选变量给出。 3、开放题的录入 开放型问题的处理一般不需要编码的操作, 当然也不需要输入到 SPSS 中进行分析处理, 只能通过调查者的汇总 归纳概括,因此开放型问题在问卷中应该尽可能的减少;原因在于一是不便于分析处理,二是开放型问题的回答率 一般较低。 4、异常值的查找 离群值: (箱图)值与框的上下边界的距离在 1.5 倍框的长度到 3 倍框的长度之间的个案。框的长度是内距。 极端值: (箱图)值距离框的上下边界超过 3 倍框的长度的个案。框的长度是内距 在回归模型诊断里面,一般称预测值与实际值的偏差为&残差&,按照需要取一残差,再按照某种标准取一个阀值 来限定异常点,只要那个点的残差大于阀值,就可以认为它是异常点。 在时间序列分析中,异常值的统计检验方法可以通过残差的正态性检验实现。 3.5 SPSS 函数 SPSS 函数是一个常用程序(rountine),并且利用一个或多个自变量(参数)来执行。每个 SPSS 函数均有一个关 键名称(keywordname) ,且绝不能写错。通常,函数的格式为:函数名称(自变量,自变量,……) ,某些函数可能 只含有一个自变量,而有些函数则可能含有多个自变量,当一个函数含有多个自变量时,各自变量间用逗号(, )隔 开,而函数的自变量通常又可分为以下三种:1)常数,如 SQRT(100):2)变量名称,如 MEAN(VAR1,VAR2,VAR3); 3)表达式,如 MIN(30,SQRT(100))。总之,SPSS 函数和我们平时 EXCEL 里面函数格式规则并无差别。 SPSS 提供了 180 多种函数,共可分为十多类。和 EXCEL 一样,我们也不可能记住所有函数,只要知道一些常 用函数,至于其他函数要用的时候再去查找也不迟,下面本人将列举一些常用函数: 1 算术函数函数 ABS(numbexpr) RND(numbexpr) TRUNC(numbexpr) SORT(numbexpr) MOD(numbexpr,modulus) EXP(numbexpr) LG10(numbexpr) 说明 绝对值函数 四舍五入函数 取整函数 平方根函数 求算两数相除后的余数 以 e 为底的指数函数 以 10 底的对数函数 10 范例(x=2.6,y=3) ABS(y-x)=0.4 RND(x)=3 TRUNC(x)=2 SQRT(y)=1.71 MOD(y,x)=0.4 EXP(y)=20.09 LG10(x*10)=1.41 [SPSS 培训课程大纲] LN(numbexpr) 自然对数函数 LN(y)=1.1 范例(X1=2X2=5X3=8) MEAN(X1,X2,X3)=5 MIN(X1,X2,X3)=1 MAX(X1,X2,X3)=8 SUM(X1,X2,X3)=15 SD(X1,X2,X3)=3 VAR(X1,X2,X3)=9 CFVAR(X1,X2,X3)=0.6 范例 MISSING(X1)=1 MISSING(variable) 若变量缺失,则为 T 或 1,否则为 F 或 0 MISSING(X2)=1 MISSING(X3)=0 SYSMIS(numvar) NMISS(variable,…) NVALID(variable,…) VALUE(variable,…) 若变量是系统缺失值则为 T 或 1, 如为自 定缺失或非缺失则为 F 或 0 缺失值个数 有效值个数 忽略自定义缺失值,当作非缺失 SYSMIS(X1)=0 SYSMIS(X2)=1 SYSMIS(X3)=0 NMISS(X1,X2,X3)=2 NVALID(X1,X2,X3)=1 VALUE(X1)=X12 统计函数函数 MEAN(numexpr,numexpr,…) MIN(value, value,…) MAX(value, value,…) SUM(numexpr,numexpr,…) SD(numexpr,numexpr,…) VARIANCE(numexpr,numexpr,…) CFVAR(numexpr,numexpr,…) 说明 自变量的平均值 自变量的最小值 自变量的最大值 求和 求标准差 求方差 求变异系数3 缺失值函数函数 说明注:X1 为使用者界定缺失值,X2 为系统缺失值,X3 为非缺失值 4 字符串型函数函数 ANY(test,value,value) CONCAT(strexpr,strexpr) INDEX(haystack,needle,divisor) LENGTH(strexpr) LOWER(strexpr) UPCASE(strexpr) LTRIM(strexpr,char) 位Z 自变量所含文字的个数(包括特殊字 符和空格) 自变量中的大写字母改为小写字母 将自变量中的小写字母改为大写字母 在 strexpr 开始处去除 char 所形成的 常量,如无 char 则去除 strexpr 左侧的空 格 NUMBER (strexpr,format) 当自变量为数字的文字变量时,按文 字变量指定格式转换为数字变量 RANGE(test,lo,hi,lo,hi) STRING(strexpr,format) 变量 SUBSTR(sterxpr,pos,length) 从 strexpr 子窜的第 pos 位Z开始取 length 的字符串长度 11 SUBSTR(?this is‘,6,2)=‘is‘ 如果自变量 1 的值包含在自变量集 lo 至 hi 的范围内,则为 T 或 1 按指定格式将自变量转换为文字型 STRING(3+4,F8.2)=‘7.00‘ LENGTH(?th is‘)=5 LOWER(?This‘)=‘this‘ UPCASE(?this‘)=‘THIS‘ LTRIM(?this‘,‘t‘)=‘his‘ LTRIM(?this‘,‘is‘)=‘th‘ LTRIM(? this‘)=‘this‘ NUMBER(?23‘,F8.1)=2.3 NUMBER(?23‘,F8.0)=23 RANGE(?c‘,‘a‘,‘k‘)=T 说明 若自变量 1 和后面自变量窜相同则为 真,记为 1 将自变量连成一个新自变量 Divisor 在 needle 最左侧开始出现的 范例 ANY(is, this)=0 ANY(is,this,is)=1 CONCAT(th,is)=this INDEX(?this is‘,‘is‘)=3 [SPSS 培训课程大纲]5 时间日期函数函数 DATA.DMY(d,m,y) DATA.MDY(m,d,y) DATA.YRDA(y,d) DATA.QYR(q,y) DATA.MOYR(m,y) DATA.WKYR(w,y) 说明 与指定日月年对应的日期 与指定月日年对应的日期 与指定年日对应的日期 指定的季节年份对应的日期 与指定的月年度对应的日期 与指定的周年度对应的日期 范例 DATA.DMY(3,5,99)=05/03/99 DATA.MDY(5,3,99)=05/03/99 DATA.YRDA(99,35)=02/04/99 DATA.QYR(2,99)=04/01/99 DATA.MOYR(5,99)=05/01/99 DATA.WKYR(38,98)=9/17/98注:1. 要正确显示以上函数值,必须先赋予其 SPSS 得日期型变量(DATA)格式,假设以上日期用 mm/dd/yy 格式显示,时间则用 hh:mm:ss 格式表示 2. 1&=d&=31、1&=m&=12、1&=w&=52、1&=q&=4 (六)其他函数 SPSS 除了上述函数外,尚有日期和时间转换函数(YOMODA\CTMIESDAYS\CTIMEHOURS\MDAYS 等) 、连 续几率密度函数(CDF\BINOM\CHISQ\CDF\EXP\LOGISTIC 等) ,此外还有 NORMAL(stddev)可产生平均数为 0, 标准差为 stddev 的正态分布随机数字。UNIFORM(max)可产生平均数为 0 与 max 间呈均等分布的随机数字。12 [SPSS 培训课程大纲]第 4 讲 描述性统计分析4.1 常用统计量 4.1.1 描述集中趋势的统计量(将融合在后续演示中) 1、均值 2、中位数 3、众数 4、百分位数 4.1.2 描述离散程度的统计量(将融合在后续演示中) 1、样本方差 2、样本标准差 3、均值标准差 4、极差 5、离散系数 4.1.3 描述分布形态的统计量(将融合在后续演示中) 1、偏度系数(以众数为衡量指标) 2、峰度系数(高矮) 全方位的刻画和定义一组数据,均数、方差、风度系数偏度系数 4.2 常用统计表 4.2.1 在线处理分析报告(OLPA) 该过程对于按一个或多个分组变量所分的组,计算所考察变量的总值、均值及其他统计量,并且以分层的方式输 出结果,表中每一层是依据一个分组变量的结果输出。 执行菜单D分析‖→D报告‖→DOLPA 多维数据集‖命令13 [SPSS 培训课程大纲]4.2.2 个案摘要报告 个案摘要报告又成观测量摘要报告,主要用于按指定分组统计不同水平的交叉汇编,对变量进行记录列表,并 计算相应统计量。可通过D个案汇总‖命令来预览和打印数据。 执行菜单D分析‖→D报告‖→D个案汇总‖命令4.2.3 行形式摘要报告和列形式摘要报告(略,学员可独立学习) 专门用于生成复杂报表,他们均可以对输出表格进行精密定义,以满足客户的各种严格要求,且输出格式为文 本格式 4.3 频数分析 频数分析是描述性统计分析中最常用的方法之一,可以通过对数据的分布趋势进行初步的分析,以便掌握数据 分布的特征,对数据作进一步分析。 执行菜单D分析‖→D描述统计‖→D频率‖命令 (1) 在菜单栏中选择“分析→描述统计→频率”命令,打开如下所示的对话框。14 [SPSS 培训课程大纲](2) 选择“分组后的人均面积”作为需要分析的变量,单击按钮进入“变量”文本框。 由于本案例中不要求计算其他统计量,所以不用在“统计量”中进行相关设Z,只需在“图表”中选择图形类 型即可。 (3) 选择“直方图”项,激活“在直方图上方显示正态曲线”复选框。 (4) 单击“确定”按钮,系统开始分析。4.4 描述性分析 通过此过程可对变量进行描述性统计量的分析,计算并列出一系列相应的指标,包括平均值、算数和、标准差、 最大值、最小值、方差、全距、和均值标准误差等,并可以将原始数据转换成标准 Z 分布存入数据库,在数据集中 生成一个新的变量,该变量自动命名为DZ+原变量名称‖。 执行菜单D分析‖→D描述统计‖→D描述‖命令,在执行该命令前,执行菜单D数据‖→D拆分文件‖→D比较组‖命令 (1) 打开数据文件,按“班级”数量对数据进行分组。从菜单栏中选择“数据→拆分文件”命令,打开“拆分文件” 对话框。选择“比较组”按钮,然后将“班级”变量选入“分组方式”列表框。单击“确定”按钮,完成分组。(2) 打开下图的“描述性”对话框,从变量列表框中选择变量年龄、体重和身高。 单击按钮将选中的变量移动到“变 量”文本框,并且选择“将标准化得分另存为变量”复选框,即要求以变量形式保存 Z 分值。15 [SPSS 培训课程大纲](3) 选择完变量后,单击“选项”选项,进行统计量的选择。在本例中,选择范围、最大值、最小值、均值、标准 差和方差。单击“继续”按钮确认并返回主对话框。 (4) 设Z完毕后,单击“确定”按钮,系统将执行描述性分析。 4.5 探索性分析 探索性分析可以对变量进行更为深入详尽的统计分析,主要用于当对数据的性质、分布特点等完全不知道的时 候,检查数据是否有错误,获得数据基本特征,以及对数据规律作初步观察。在常用描述性统计指标的基础上,探 索性分析增加了有关数据详细分布特征的文字与图形描述,还可以为方差齐性为目的的变量变换提供线索。 执行菜单D分析‖→D描述统计‖→D探索‖命令 (1) 选择“分析→统计描述→探索”命令,打开如下所示的“探索”对话框。(2) 选择 height 变量进入“因变量列表”框作为待摘要变量;选择 area 变量进入“因子列表”框作为分组变量。 (3) 在输出栏中,选择“两者都”项。 (4) 单击“统计量”按钮,打开统计量对话框。选中描述性、M-估计量、界外值和百分位数复选框,然后单击“继 续”按钮,确认选择并返回“探索”对话框。 (5) 单击“绘制”按钮, “探索:图”对话框。选择“箱图”栏中的“按因子水平分组”项,选择奖分组结果显 示在同一张图上;选择“描述性”栏内的“茎叶图”复选框,输出茎叶图,同时选中“带检验的正态图”复选 框,要求进行正态性检验;选择“伸展与级别 Levene 检验”中的“幂估计”项估计幂次使组间方差齐次。单 击“继续”按钮,确认并选择返回“探索”对话框。 (6) 在“探索”对话框中单击“确定”按钮,完成设Z并执行探索性分析。 4.6 常用统计图(课堂现场演示) 常用的统计图形包括条形图、3-D 条形图、面积图、线图、饼图、高低图、箱图、误差条形图、人口金子塔图、 散点/点状图、直方图等。16 [SPSS 培训课程大纲]第 5 讲 一般推断性统计分析5.1 统计推断理论(课堂现场讲授) 5.2 均值比较 5.2.1 均值过程 均值过程倾向于对样本进行描述,他可以对需要比较的各组计算描述指标进行检验前的预分析。 执行菜单D分析‖→D比较平均值‖→D平均值‖命令 (1) 在数据管理窗口中打开 house. Sav 数据文件。 (2) 从菜单栏中选择“分析→比较均值→均值”命令,打开如下所示的“均值”对话框。(3) 在“均值”对话框左侧变量列表中选中 price 和 sale 变量,单击按钮将其移入“因变量列表”列表框中,并将 district 变 量 移 入 “ 自 变 量 列 表 ” 列 表 框 。 单 击 “ 选 项 ” 按 钮 , 打 开 “ 均 值 : 选 项 ” 对 话 框 , 如 下 图 所 示 。17 [SPSS 培训课程大纲](4) 在“选项”对话框中选择需要分析的统计量,本例中选择统计项目。从“单元格统计量”列表中,选中均值、 标准差、最小值、最大值和个案数 5 个统计量,然后单击“继续”按钮确认,返回“均值”对话框。 (5) 在“均值”对话框中,单击“确定”按钮,完成设Z并执行操作。 5.2.2 单样本 t 检验 用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。既是单样本本身 无法比较,进行的是均数与已知总体均数间的比较。 1 基本假定 (1) 样本来自正态或近似正态总体; (2) 已知总体均值,可得到样本均值和标准差 2 t 检验统计量 x ? ?0 t? ~ t (n ? 1) s n 其中 x 为样本平均数; ? 0 为总体平均数; s 为样本标准差;n 为样本容量;t 为样本平均数与总体平均数的离 差统计量; 3 计算原理 (1) 建立假设,确定检验水平 α H0:μ = μ0 H1:μ ≠ μ0; (2) 计算统计量; (3) 查相应的界值表,确定 p 值,下结论; 4 SPSS 实例演示 执行菜单D分析‖→D比较平均值‖→D单样本 t 检验‖命令 (1) 打开数据文件 pulse.sav 之后,从菜单栏选择“分析→比较均值→单样本 T 检验”命令,打开如下所示的“单样 本 T 检验”对话框。(2) 将变量 pulse 选入“检验变量”列表框。18 [SPSS 培训课程大纲](3) 在“检验值”框中输入已知母体平均数 72。 (4) 单击“确定”按钮,完成设Z并执行上述操作。 5.2.3 独立样本 t 检验 D独立样本 T 检验‖过程比较两组个案的均值。理想的情况下,对于此检验,主体应随机地分配到两个组中, 以便响应的任何差别是由于处理(或缺少处理)而非其他因素造成的。例如而比较男性和女性的平均收入则不属于 此情况人不是随机指定为男性或女性的。在这些情况下,应确保其他因素中的差别没有掩饰或夸大均值中的显著性 差异。平均收入的差值还可能受诸如教育之类的因素影响(而非仅仅受性别影响) 。 1 基本假定 (1) 两个样本独立; (2) 样本来自的正态总体服从正态分布; 2 独立样本 t 检验统计量 t 分两种情况: (1) 两总体方差未知且相等t?x1 ? x22 S / n1 ? S p / n2 2 p~ t ? n1 ? n2 ? 2?2 Sp ?? n1 ?1? S12 ? ? n2 ?1? S22n1 ? n2 ? 2(2) 两总体方差未知且不等2 ? S12 S2 ? ? ? ? x1 ? x2 ? n1 n2 ? , n? 2 2 2 2 S12 / n1 ? S 2 / n2 ? S12 ? ? S2 ? ? ? ? ? ? n1 ? ? ? n2 ? n1 n2 2t?3 计算原理 设总 X1 服从正态分布 N(?1,σ12) ,总体 X2 服从正态分布 N(?2,σ22) ,分别从这两个总体中抽取样本19 [SPSS 培训课程大纲](x11,x12,x13,…x1n)和(x21,x22,x23,…x2n) ,且两样本相互独立,要求检验 ? 1 和 ?2 是否有显著性差异。 (1) 建立假设,确定检验水平 α;H0:μ1 = μ2 H1:μ1 ≠μ2; (2) 判断两总体方差是否相等,F 检验法(spss 会自动检验方差是否相等) ,若 F 值所对应的 P 值&显著水平, 则认为总体方差不等,否则相等; (3) 构造 t 统计量; (4) 根据 t 值和 p 值做出判断,若 p 值&显著水平 α,拒绝原假设,认为两总体均值存在差异;否则接受。 4 实例演示 执行菜单D分析‖→D比较平均值‖→D独立样本 t 检验‖命令 (1) 执行“分析→比较均值→独立样本 T 检验”命令,打开如下所示的“独立样本 T 检验”对话框。(2) 将变量 score 选入“检验变量”列表框中作为检验变量。 (3) 将变量 sex 选入“分组变量”文本框中作为分组变量。 (4) 单击“定义组”按钮。打开 “定义组”对话框。在“组 1”后的文本框中输入 1,在“组 2”后的文本框中输 入 2,然后单击“继续按钮” ,返回主对话框。(5) 单击“确定”按钮,结束设Z并执行操作。 5.2.4 配对样本 t 检验 配对样本:是指对同一样本进行两次测试所获得的两组数据,或对两个完全相同的样本在不同条件下进行测试20 [SPSS 培训课程大纲]所得的两组数据。 配对样本 t 检验:根据样本数据对两个配对样本来自的两配对总体的均值是否有显著差异进行推断。 1 基本假定 (1) 两样本应该是配对的;既是两样本的观察数目相同,且两样本的观察值的顺序不能随意更改; (2) 样本来自的两个总体应该服从正态分布; 2 计算原理 设总 X1 服从正态分布 N(?1,σ12) ,总体 X2 服从正态分布 N(? 2,σ22) ,分别从这两个总体中抽取样本 (x11,x12,x13,…x1n)和(x21,x22,x23,…x2n) ,且样本两两配对,要求检验 ?1 和 ? 2 是否有显著性差异; (1) 引进一个新的随机变量 Y= X1-X2,对于样本值为(y1,y2, …yn) ,其中 yi=x1i-x2i(i=1,2,…,n) ,检验 的问题转化为单样本 t 检验,既是检验 Y 的均值是否与 0 有显著差异; (2) 建立假设,H0:μY = 0; (3) 构造 t 统计量t?y ~ t (n ? 1) ; sy / n ?1(4) 根据 t 值和 P 值做出推断, 若 P 值&显著水平, 则拒绝原假设, 认为两总体均值存在显著差异; 否则接受。 3 独立样本与配对样本的区别 (1) 前者要求两样本独立,后者要求两样本相互配对; (2) 两者的统计量不一样; (3) 前者需要考虑两总体方差相等和不等的情况;后者不需要考虑方差是否相等,一般来说方差是不等的。 4 实例演示 执行菜单D分析‖→D比较平均值‖→D配对样本 t 检验‖命令 (1) 打开数据文件 tea.sav 。其中,服用减肥茶前的体重定义为变量 variable1, 服用减肥茶后的体重定义为 variable 2。 (2) 从菜单栏中选择“分析→比较均值→配对样本 T 检验”命令,如下所示的“配对样本 T 检验”对话框。(3) 在选项对话框中,在“Z信区间百分比”框内输入Z信度。本例中采用默认的 95%Z信度,然后单击“继续” 按钮确认,返回主对话框。21 [SPSS 培训课程大纲](4) 单击“确定”按钮,完成设Z并执行配对样本 T 检验。 5.3 相关分析 5.3.1 简单相关分析 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度, 是研究随机变量之间的相关关系的一种统计方法。 1 基本理论 (1) 线性相关分析:研究两个变量间线性关系的程度,用相关系数 r 来描述。 1)正相关:如果 x,y 变化的方向一致,如身高与体重的关系,r&0;一般地, |r|&0.95 存在显著性相关; |r|≥0.8 高度相关;0.5≤|r|&0.8 中度相关;0.3≤|r|&0.5 低度相关;|r|&0.3 关系极弱, 认为不相关 2)负相关:如果 x,y 变化的方向相反,如吸烟与肺功能的关系,r&0; 3)无线性相关:r=0。 如果变量 Y 与 X 间是函数关系,则 r=1 或 r=-1;如果变量 Y 与 X 间是统计关系,则-1&r&1。 4)r 的计算方式: ①Pearson 相关系数:对定距连续变量的数据进行计算。必须符合正态分布。 ②Spearman 和 Kendall 相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对 离散数据进行排序或对定距变量值排(求)秩。 (spearman 优、良、中、差)定序资料用 spearman。 2 实例演示 执行菜单D分析‖→D相关‖→D双变量‖命令 (1) 打开数据文件“体重与血压.sav” 。 (2) 在数据编辑窗口中打开如下所示的“双变量相关”对话框。22 [SPSS 培训课程大纲](3) 将变量 weight 和 pressure 作为自变量选入“变量”列表框,其他采用默认选择。 (4) 单击“选项”按钮,打开 “双变量相关性:选项”对话框。选择“均值和标准差”和“叉积偏差和协方差” 复选框,然后单击“继续”按钮确认并返回主对话框。(5) 单击“确定”按钮执行上述操作,开始相关分析。 5.3.2 偏相关分析 1 基本原理23 [SPSS 培训课程大纲]研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工 资收入与受教育水平之间的相关关系。 2 实例演示 执行菜单D分析‖→D相关‖→D偏相关‖命令 (1) 建立 SPSS 数据文件“居民收入与支出.sav” ,城镇居民家庭收入人均消费作为变量 X1,城镇居民家庭人均可支 配收入作为变量 X2,农村居民家庭人均纯收入作为变量 X3,年份作为变量 year。 (2) 进行简单相关分析。执行“分析→相关→双变量”命令,打开如下所示的“双变量相关”对话框。 (3) 将变量 X3、X1 和 X2 同时选入“变量”列表框中,其他设Z采用默认选项。 (4) 单击“确定”按钮,运行简单相关分析。 (5) 进行偏相关分析。执行“相关→偏相关”命令,打开如下所示的“偏相关”对话框。(6) 选择 X1、X3 作为相关变量进入“变量”列表框,X2 作为控制变量进入“控制”列表框,并在选项对话框中 选择输出描述性统计量。24 [SPSS 培训课程大纲](7) 交换相关变量与控制变量,即以 X2、X3 作为相关变量,X1 作为控制变量;以 X1、X2 作为相关变量,X3 作 为控制变量。 (8) 单击“确定”按钮,执行上述操作。 5.3.3 距离分析 1 基本原理 是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。分为观测量之间距离分析和变 量之间距离分析。 (1)不相似性测度: ? a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有 Euclid 欧氏距离、欧氏距离平方等。 ? b、对计数数据使用卡方。 ? c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。 (2) 相似性测度: ? a、等间隔数据使用统计量 Pearson 相关或余弦。 ? b、测度二元数据的相似性使用的统计量有 20 余种。 相关系数:相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量 Y 对 另一个(或一组)随机变量 X 的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随 机变量之间的种种相关特征。例如,以 X、Y 分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不 在于由 X 去预测 Y。 2 皮尔逊(Pearson)相关系数 也称为积差相关(或积矩相关)是英国统计学家皮尔逊于 20 世纪提出的一种计算直线相关的方法。 假设有两个变量 X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算: 公式 (1) : ρx,,y= 公式 (2): ρx,,y= 公式 (3): ρx,,y= 公式 (4):cov( X , Y )? X?Y?E (( X ? ? X )(Y ? ?Y ))? X?Y?E ( XY ) ? E ( X ) E (Y ) E ( X ) ? E 2 ( X ) E (Y 2 ) ? E 2 (Y )2N ? X 2 ? ( ? X 2 ) N ? Y 2 ? (? Y 2 )N ? XY ? ? X ? Y? ( X ? X )(Y ? Y ) ? ( X ? X ) ? (Y ? Y )22ρx,,y=X Y ? XY ? ? N?2 2 ? X ? ?? Y? ? ? ? ? ? 2 2 ?? X ? ? ? ?Y ? ? N N ? ? ?? ? ?? ?以上列出的四个公式等价,其中 E 是数学期望,cov 表示协方差,N 表示变量取值的个数。 适用范围: 当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于: 1)、两个变量之间是线性关系,都是连续数据。25 [SPSS 培训课程大纲]2)、两个变量的总体是正态分布,或接近正态的单峰分布。 3)、两个变量的观测值是成对的,每对观测值之间相互独立。 3 斯皮尔曼(Spearman)等级相关系数 主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。 由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推到而来,一些人把斯皮尔曼等级相关看做积差相关的特 殊形式。 ρ= 1 ?6? di2 n3 ? nρ 为等级相关系数,d 为每对数据等级之差,n 为样本容量 4 实例演示 执行菜单D分析‖→D相关‖→D距离‖命令 (1) 打开数据文件 wine.sav,依次选择“分析→相关→距离”命令,打开如下所示的“距离”对话框。(2) 从左边的源变量中选择进行距离分析的变量 A、B 和 C 进入“变量”列表框中。 (3) 从“计算距离”栏内选择“变量间”选项,计算每一对变量之间的距离。 (4) 从“度量标准”栏内选择“相似性”选项,分析变量之间的相似性,系统默认为使用 Pearson 相关系数来分 析。26 [SPSS 培训课程大纲](5) 单击“确定”按钮,进行统计分析过程。 5.4 回归分析 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十 分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关 系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的 关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量, 且因变量和自变量之间是线性关系,则称为多元线性回归分析。 1 回归分析的主要内容 (1) 从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的 常用方法是最小二乘法(必须是线性) 。 (2) 对这些关系式的可信程度进行检验。 (3) 在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量 的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向 后回归等方法。 (4) 利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回 归方法计算十分方便。 在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用 Y 表示; 而影响因变量取值的的另一类变量称为自变量,用 X 来表示。 2 回归分析研究的主要问题 (1)确定 Y 与 X 间的定量关系表达式,这种表达式称为回归方程; (2)对求得的回归方程的可信度进行检验; (3)判断自变量 X 对因变量 Y 有无影响; (4)利用所求得的回归方程进行预测和控制。 3 计算原理 (1) 确定变量 明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量 Y 就是因变量。27 [SPSS 培训课程大纲]通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。 (2) 建立预测模型 依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。 (3) 进行相关分析 回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当 变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象 是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相 关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。 (4) 计算预测误差 回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各 种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。 (5) 确定预测值 利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。 4 注意问题 应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回 归预测法就会得出错误的结果。 正确应用回归分析预测时应注意: (1)用定性分析判断现象之间的依存关系; (2)避免回归预测的任意外推; (3)应用合适的数据资料; 5 实例演示 5.4.1 线性回归分析 执行菜单D分析‖→D回归‖→D线性‖命令 (1)打开数据文件 7-1.sav,然后按照前面所讲的的操作步骤打开主对话框。从菜单栏中选择“分析”→“回归” →“线性”命令,打开如下所示的“线性回归”主对话框。28 [SPSS 培训课程大纲](2)将变量 y(肺活量)作为因变量选入“因变量”对话框,将变量 x(体重)作为自变量选入“自变量”对话 框。 (3)单击“统计量”按钮,打开如下所示的“线性回归:统计量”对话框。从中选择“Z信区间”项输出回归系 数 B 的 95%Z信区间,选择“描述性”项要求输出描述性统计量,选择“个案诊断”项进行回归诊断,选择“所有个 案”项要求输出所有个案的标准化残差、实测值和预测值、残差。(4)单击“绘制”按钮,打开“线性回归:图”对话框。选用 DEPENDENT 和*ZPEAD 作图,并且选择“直方 图”项给出正态曲线和“正态概率图”项输出标准化残差的正太概率图(P-P 图) 。(5)单击“确定”按钮,执行操作,进行线性回归分析。 5.4.2 曲线回归分析 执行菜单D分析‖→D回归‖→D曲线估计‖命令 (1)打开数据文件“人均消费支出和教育.sav” ,然后对数据作散点图,以观察数据的基本分布规律。从“图形”29 [SPSS 培训课程大纲]菜单下选择“旧对话框”下的“散点/点状”命令,以教育支出作为纵轴,以年人均消费性支出作为横轴,绘制散点图 如下所示。从图中可以看出,教育支出和年人均消费性支出不呈直线分布,因此应利用曲线回归进行分析。(2)在数据编辑窗口中,依次执行“分析”―“回归”―“曲线估计”命令,打开如下所示的“曲线估计”对话 框。 (3)选择被解释变量教育支出进入“因变量”列表框。 (4)选择解释变量消费性支出进入“自变量”列表框。 (5)选择变量年份作为标记变量进入“个案标签”列表框。 (6)从“模型”栏中选择几种回归模型,本例我们选择线性、二次型、复合、立方与指数分布。30 [SPSS 培训课程大纲](7)单击“确定”确认操作,执行曲线回归分析。 5.4.3 非线性回归分析 执行菜单D分析‖→D回归‖→D非线性‖命令 (1)打开数据文件 sike.sav。 (2)在数据编辑窗口中,从主菜单栏中选择“分析”→“回归”→“非线性”命令,打开如下所示的“非线性回 归”对话框。(3)将变量 Y 作为因变量选入“因变量”列表框。 (4)单击“参数”按钮,打开 “非线性回归:参数”对话框。 (5)在此对话框中定义模型参数的起始值。由于本例中的模型简单,因此随意定义起始 a=1、b=1 和 c=1。定义 结束后,单击“继续”按钮确认并返回主对话框。 (6)在“模型表达式”文本框中输入 a+b*exp(c*age)。(7)单击“保存”按钮,打开如下所示的“非线性回归:保存新变量”对话框。选择“残差”项保存新变量,然31 [SPSS 培训课程大纲]后单击“继续”返回主对话框。 (8)单击“选项”按钮,打开 “非线性回归:选项”对话框。选中“标准无误的辅助程序估计(B)”复选框,使 用辅助程序方法求出参数的精确标准误差。单击“继续”按钮确认并返回主对话框。 (9)设Z结束,单击“确认”按钮执行上述操作。 5.5 方差分析 方差分析(Analysis of Variance,简称 ANOVA),又称D变异数分析‖或DF 检验‖,是 R.A.Fisher 发明的,用于两个 及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分 成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。 原理:方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个: 一是随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值 之偏差平方和的总和表示, 记作 SSw,组内自由度 dfw。 二是实验条件,实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平 方和表示,记作 SSb,组间自由度 dfb。 总偏差平方和 SSt = SSb + SSw。 组内 SSw、组间 SSb 除以各自的自由度(组内 dfw =n-m,组间 dfb=m-1,其中 n 为样本总数,m 为组数),得到 其均方 MSw 和 MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确 实有作用, 组间均方是由于误差与不同处理共同导致的结果, 即各样本来自不同总体。 那么, MSb&&MSw(远远大于)。 MSb/MSw 比值构成 F 分布。用 F 值与其临界值比较,推断各样本是否来自相同的总体。 1 基本假定 (1) 各处理条件下的样本是随机的。 (2) 各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。 (3) 各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。 (4) 各处理条件下的样本方差相同,即具有齐效性 2 计算原理 (1) 建立检验假设; H0:多个样本总体均值相等; H1:多个样本总体均值不相等或不全等。 检验水准为 0.05。 (2) 计算检验统计量 F 值; (3) 确定 P 值并作出推断结果。 3 应用条件 (1) 各样本是相互独立的随机样本 (2) 各样本均来自正态分布总体 (3) 各样本的总体方差相等,即具有方差齐性 (4) 在不满足正态性时可以用非参数检验 5.5.1 单因素方差分析 1 单因素方差分析概念理解步骤 是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量 的影响,因此称为单因素方差分析。 例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工 资收入的影响等。这些问题都可以通过单因素方差分析得到答案。 单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女32 [SPSS 培训课程大纲]生育率、工资收入;控制变量分别为施肥量、地区、学历。 单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量 两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分, 用数学形式表述为:SST=SSA+SSE。 单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量 带来了显著影响。 2 单因素方差分析原理总结 容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由 控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和 所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同 水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。 3 计算原理 (1) 提出原假设:H0→无差异;H1→有显著差异 (2) 选择检验统计量:方差分析采用的检验统计量是 F 统计量,即 F 值检验。 (3) 计算检验统计量的观测值和概率 P 值:该步骤的目的就是计算检验统计量的观测值和相应的概率 P 值。 (4) 给定显著性水平,并作出决策 4 单因素方差分析的进一步分析 在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来 还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。 (1) 方差齐性检验 方差齐性检验是对控制变量不同水平下各观测变量总体方差是否相等进行检验。 前面提到,控制变量不同水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提 要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。 SPSS 单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是: 各水平下观测变量总体的方差无显著差异。 (2) 多重比较检验 单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量 产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别 于其他水平,哪个水平的作用是不显著的,等等。 例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解 10 公斤、20 公斤、30 公斤肥料对 农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利 于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。 多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问 题也是假设检验问题,因此也遵循假设检验的基本步骤。 检验统计量的构造方法 1)LSD 方法 LSD 方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字画就体现了其检验敏感 性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。 正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD 方法适用于各总体方差相等的情况,但它 并没有对犯一类错误的概率问题加以有效控制。 2)S-N-K 方法 S-N-K 方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况, (3) 其他检验 1)先验对比检验 在多重比较检验中, 如果发现某些水平与另外一些水平的均值差距显著,如有五个水平,其中 x1、 x2、 x3 与 x4、33 [SPSS 培训课程大纲]x5 的均值有显著差异,就可以进一步分析比较这两组总的均值是否存在显著差异,即 1/3(x1+x2+x3)与 1/2(x4+x5)是 否有显著差异。这种事先指定各均值的系数,再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对 比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。 2)趋势检验 当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观测变量值变化的总体趋势是怎样的, 是呈现线性变化趋势,还是呈二次、三次等多项式变化。通过趋势检验,能够帮助人们从另一个角度把握控制变量 不同水平对观测变量总体作用的程度。 5 实例演示 执行菜单D分析‖→D比较平均值‖→D单因素 ANOVA‖命令 (1) 在数据管理窗口中打开 district and sale .sav 数据文件。 (2) 从主菜单栏中选择“分析→比较均值→单因素 ANOVA”命令,打开如下所示的“单因素 方差分析”对话框。(3) 将“销售额”作为观测变量选入“因变量列表”框。 (4) 将“广告形式”作为控制变量选入“因子”文本框。控制变量有几个不同的取值,就表示控制变量有几个水平。 (5) 单击“对比”按钮,然后从打开的对比对话框中的“度”下拉列表框中选择“线性”选项。单击“继续”按钮 确认,返回主对话框。(6) 在 “单因素 ANOVA:事后多重比较”对话框中,选择 LSD 方法进行两两比较。单击“继续”按钮确认,返34 [SPSS 培训课程大纲]回主对话框。(7) 在 “选项”对话框中,选择“描述性”项输出描述性统计量和“均值图”输出频数图。单击“确定”按钮确 认,返回主对话框。(8) 单击“确定”按钮完成设Z,执行单因素方差分析。SPSS 将自动分解观测变量的变差,计算组间方差、组内 方差、 F 统计量以及对应的概率 P 值, 完成单因素方差分析的相关分析, 并对计算结果输出到结果输出窗口中。 5.5.2 多因素方差分析 1 多因素方差分析基本思想 多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对35 [SPSS 培训课程大纲]观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能 够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。 例如:分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为 控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品 种与哪种水平的施肥量是提高农作物产量的最优组合。 2 多因素方差分析的其他功能 (1) 均值检验 在 SPSS 中, 利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比 较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的 是单样本 t 检验的方法, 它将控制变量不同水平下的观测变量值看做来自不同总体的样本, 并依次检验这些总体的均 值是否与某个指定的检验值存在显著差异。其中,检验值可以指定为以下几种: 观测变量的均值(Deviation); 第一水平或最后一个水平上观测变量的均值(Simple); 前一水平上观测变量的均值(Difference); 后一水平上观测变量的均值(Helmert) 。 (2) 控制变量交互作用的图形分析 控制变量的交互作用可以通过图形直观分析。 3 多因素方差分析的进一步分析 在上述案例中,已经对广告形式、地区对销售额的影响进行了多因素方差分析,建立了饱和模型。由分析可知: 广告形式与地区的交互作用不显著,先进一步尝试非饱和模型,并进行均值比较分析、交互作用图形分析。 (1) 建立非饱和模型 (2) 均值比较分析 (3) 控制变量交互作用的图形分析 4 实例演示 执行菜单D分析‖→D一般线性模型‖→D单变量‖命令 (1) 首先建立数据文件“教改成绩.sav” ,然后再新建的数据文件中定义变量和录入数据。关于新建数据文件的方 法,在前面的章节中已详细讲解过,此处不再赘述。 (2) 从菜单栏中选择“分析→一般线性模型→单变量”命令。 (3) 将“教改成绩”作为自变量选入“因变量”文本框中,将“教法”和“教材”作为固定量选入“固定因子”列 表框中。 (4) 单击“选项”按钮,打开如下所示的选项对画框。在“输出”栏选择“描述统计”和“同质性检验”复选框, 然后单击“继续”按钮确认并返回。36 [SPSS 培训课程大纲](5) 单击“事后多重比较”按钮,打开如下所示的事后多重比较对话框。选择变量“教法”进入“事后检验”列表 框中,然后在“假定方差齐性”栏下选择 LSD 和 Tukey 项。(6) 单击“确定”按钮,并执行上述操作。 5.5.3 重复测量方差分析 实例演示 执行菜单D分析‖→D一般线性模型‖→D重复测量‖命令 (1) 输入数据集,并将数据文件命名为 repeated。用 before 表示前测,用 after 表示后测。 (2) 执 行 “ 分 析 → 一 般 线 性 模 型 → 重 复 度 量 ” 命 令 , 打 开 如 下 所 示 的 “ 重 复 测 量 定 义 因 子 ” 窗 口 。37 [SPSS 培训课程大纲](3) 从“被试内因子名称”文本框中删除原有的“因子 1” ,然后输入组内因数名 cla。在“级别数”文本框中输入 因素水平数 3 ,然后单击“添加”按钮,则在右侧的列表框中显示 cla ( 3 ) 。此时, “定义”按钮有效。(4) 单击“定义”按钮,打开如下所示的“重复度量”主窗口。先后选择变量 class、前测成绩、后测成绩进入“群 体内部变量”列表框。(5) 单击“模型”按钮,打开模型对话框。选择“定制”单选按钮,并将 cla 变量选入“主体内模型”列表框。单 击“继续”按钮并返回。38 [SPSS 培训课程大纲](6)单击“选项”按钮,打开选项对话框, 。在“输出”栏中选择“描述统计”项,然后单击“继续”按钮返回。(7) 单击“确定”按钮并执行上述操作。 5.5.4 协方差分析 1 协方差分析基本思想 通过上述的分析可以看到,不论是单因素方差分析还是多因素方差分析,控制因素都是可控的,其各个水平可 以通过人为的努力得到控制和确定。但在许多实际问题中,有些控制因素很难人为控制,但它们的不同水平确实对 观测变量产生了较为显著的影响例如,在研究农作物产量问题时,如果仅考察不同施肥量、品种对农作物产量的影 响,不考虑不同地块等因素而进行方差分析,显然是不全面的。因为事实上有些地块可能有利于农作物的生长,而 另一些却不利于农作物的生长。不考虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农作物产量没 有产生显著影响,但分析的结论却可能相反。 再例如,分析不同的饲料对生猪增重是否产生显著差异。如果单纯分析饲料的作用,而不考虑生猪各自不同的 身体条件(如初始体重不同) ,那么得出的结论很可能是不准确的。因为体重增重的幅度在一定程度上是包含诸如初39 [SPSS 培训课程大纲]始体重等其他因素的影响的。 2 协方差分析的原理 协方差分析将那些人为很难控制的控制因素作为协变量,并在排除协变量对观测变量影响的条件下,分析控制 变量(可控)对观测变量的作用,从而更加准确地对控制因素进行评价。 协方差分析仍然沿承方差分析的基本思想,并在分析观测变量变差时,考虑了协变量的影响,人为观测变量的 变动受四个方面的影响:即控制变量的独立作用、控制变量的交互作用、协变量的作用和随机因素的作用,并在扣 除协变量的影响后,再分析控制变量的影响。 方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各 水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍采用 F 统计量, 它们是各均方与随机因素引起的均方比。 3 实例演示 执行菜单D分析‖→D一般线性模型‖→D单变量‖命令 (1)执行菜单D图形‖→D旧对话框‖→D散点/点状‖命令(2)执行“分析→般线性模型→单变量”命令,打开如下所示的“单变量”对话框。在“单变量”对话框中,选 择“喂养后体重的增加”作为自变量选入“因变量”文本框; “饲料种类”作为固定变量,进入“固定因子”文本框; 而“喂养前体重”作为协变量进入“协变量”文本框。40 [SPSS 培训课程大纲](3)对话框中单击“对比”按钮,并选择“简单”项,然后单击“更改”按钮进行简单对照,分别以“最后一个” 和“第一个”作为参照对比进行对比。在选项对话框中选择“描述统计”项输出描述性统计量。41 [SPSS 培训课程大纲]第 6 讲 多元统计分析6.1 聚类分析 聚类分析是研究(样本或指标)分类问题的一种多元统计方法。聚类分析是根据一批样品的许多观测指标,按 照一定的数学公式具体地计算一些样品或一些指标的相似程度, 把相似的样品或指标归为一类。 变量之间的聚类即 R 型聚类分析,常用相似系数来测度变量之间的亲疏程度;样品之间的聚类即 Q 型聚类分析,常用距离来测度样品之 间的亲疏程度。 6.1.1 理论背景 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学 的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的, 往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元 分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。 在社会经济领域中存在着大量分类问题,比如对我国 30 个省市自治区独立核算工业企业经济效益进行分析,一 般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、 资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对 30 个省市自治区进行分 类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数 进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。 由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有 用的数学工具越来越受到人们的

我要回帖

更多关于 易语言转换变量类型 的文章

 

随机推荐