如何用spss作logit多元回归分析 spss

如何用 R 做 logistic 回归?
或者有相关的书籍资料也行。最好是有完整的例子,handbook上面的介绍实在太简练,有些英文的例子又看不懂。
按投票排序
我推荐一本书吧,《generalized additive model:an introduction with R》,第二章将广义线性模型从理论到R语言实现介绍了个通通透透。我在自己的网易博客里大致翻译了一下,感兴趣可以看看:
震惊了,原来真的有关注R的人可以仔细看看handbook,或者去COS上学习学习也是很不错的
一个实例:ced.logr
& - glm(ced.del ~ cat + follows + factor(class), family=binomial("logit"))谷歌上搜关键字“R logistic”会有比较详细的介绍。真的想不到知乎上也有关注R的,算是很偏的题了。
R语言如果你有什么不懂不会做的,去网上搜资料的时候最重要一点是包括进关键字"R-help",因为你单输一个R,搜索引擎是很难帮你认得是R语言的问题。而因为R的help list里面都有R-help的tag,你把这个关键字包括进去之后搜索结果的相关性就大为提高了。
《统计建模与R软件》不错,人大经济论坛上有,并且里面例子的数据和程序都有。里面有一部分就是讲logistic回归的,具体就是glm()函数,然后设定不同的link函数。推荐吴喜之的《复杂数据分析》,是用R做的
统计之都是个学习R的好地方
R软件非常简单易学,即使没有编程基础,看完《统计建模与R软件》一书基本能掌握。R的help文件十分详尽,打入关键词一查所有语法规则都有。
我一般都是看help文件里的例子,大多数解释得已经很清楚了。手册什么的,个人感觉基本没用,还是把那些例子都拷进你的editor里然后运行,试试就差不多明白了。除非涉及一些参数设置的问题,那就要好好看看package的pdf文档了。另外,如果还是不很理解,可以去
找相关资料。
handbook上介绍的忒简单了,就一个式子拉到了。COS上大都是一些小专题,详细介绍logistic的也木有啊。感谢回答!
《统计建模与R软件》一书的确很不错。
logit=glm(train$V1~.,family=binomial(link="logit"),data=train);
logit=step(logit); # 这个是用来挑选主成分的,但是效果没有直接PCA来得明显
pred=predprob(logit,newdata=test)
# predprob是别的包里的函数,这个可以直接输出概率
已有帐号?
无法登录?
社交帐号登录用SPSS回归LOGIT模型分析得到的结果,请懂的人帮忙解释一下~非常感谢!_百度知道
用SPSS回归LOGIT模型分析得到的结果,请懂的人帮忙解释一下~非常感谢!
/zhidao/pic/item/500fd9f9d72abc2abbac3.baidu://c://f.baidu.jpg" esrc="http.hiphotos:///zhidao/wh%3D600%2C800/sign=ef66216cad51f3dec3e7b162a4dedc27/500fd9f9d72abc2abbac3.baidu.hiphotos.jpg" esrc="http://f://c.com/zhidao/wh%3D450%2C600/sign=fef3a295a9dddcaacfd9f9d72abc2abbac3.hiphotos.baidu.jpg" target="_blank" title="点击查看大图" class="ikqb_img_alink">伪r方是这样的,算大么?不好意思,刚接触数据分析,太多不明白的
你的伪r方很好啊。相当好。说明不同的检验方法下认为你的方程可以解释你的模型的百分之83.9,95.8,87.6。这个比例很好了。你的变量太多了,去几个吧。
提问者评价
其他类似问题
为您推荐:
其他1条回答
提示里面说了的,奇异矩阵的问题我替别人做这类的数据分析蛮多的
logit模型的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁《数据大咖秀》开播了,你有网红,我有大咖,岂止是视频直播!第一期免费开放,本期主题:以什么姿势进入数据挖掘会少走弯路?
参加方式:加QQ群,入群备注“公司简称+职业+姓名”即可。详情连接:/Blog/archives/35131
> 【连载6】如何用spss做logistic回归
前边我们用两篇笔记讨论了线性回归的内容。线性回归是很重要的一种回归方法,但是线性回归只适用于因变量为连续型变量的情况,那如果因变量为分类变量呢?比方说我们想预测某个病人会不会痊愈,顾客会不会购买产品,等等,这时候我们就要用到回归分析了。
Logistic回归主要分为三类,一种是因变量为二分类得回归,这种回归叫做二项回归,一种是因变量为无序多分类得回归,比如倾向于选择哪种产品,这种回归叫做多项回归。还有一种是因变量为有序多分类的回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积回归,或者序次回归。
二值回归:
选择分析——回归——二元,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。
细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着,这个按钮的作用是用来选择交互项的。我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。那么我们为了模型的准确,就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量,按住,在选择变量,那么我们就同时选住这两个变量了,然后点那个的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。
然后在下边有一个方法的下拉菜单。默认的是进入,就是强迫所有选择的变量都进入到模型里边。除去进入法以外,还有三种向前法,三种向后法。一般默认进入就可以了,如果做出来的模型有变量的值不合格,就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。
选好主面板以后,单击分类(右上角),打开分类对话框。在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。这里的字符型变量指的是用值标签标注过得变量,不然光文字,系统也没法给你分析啊。选好以后,分类协变量下边还有一个更改对比的框框,我们知道,对于分类变量,需要有一个参照,每个分类都通过和这个参照进行比较来得到结果,更改对比这个框框就是用来选择参照的。默认的对比是指示符,也就是每个分类都和总体进行比较,除了指示符以外还有简单,差值等。这个框框不是很重要,默认就可以了。
点击继续。然后打开保存对话框,勾选概率,组成员,包含协方差矩阵。点击继续,打开选项对话框,勾选分类图,估计值的相关性,迭代历史,()的,在模型中包含常数,输出——在每个步骤中。如果你的协变量有连续型的,或者小样本,那还要勾选拟合度,这个拟合度表现的会较好一些。
继续,确定。
然后,就会输出结果了。主要会输出六个表。
第一个表是模型系数综合检验表,要看他模型的值是不是小于,判断我们这个回归方程有没有意义。
第二个表示模型汇总表。这个表里有两个,叫做广义决定系数,也叫伪,作用类似于线性回归里的决定系数,也是表示这个方程能够解释模型的百分之多少。由于计算方法不同,这两个广义决定系数的值往往不一样,但是出入并不会很大。
在下边的分类表则表述了模型的稳定性。这个表最后一行百分比校正下边的三个数据列出来在实际值为或者时,模型预测正确的百分比,以及模型总的预测正确率。一般认为预测正确概率达到百分之五十就是良好(标准真够低的),当然正确率越高越好。
在然后就是最重要的表了,方程中的变量表。第一行那个下边是每个变量的系数。第五行的值会告诉你每个变量是否适合留在方程里。如果有某个变量不适合,那就要从新去掉这个变量做回归。根据这个表就可以写出方程了:常量变量变量。。。常量变量变量。。。。如果大家学过一点统计,那就应该对这个形式的方程不陌生。提供变量,它最后算出来会是一个介于和的数,也就是你的模型里设定的值比较大的情况发生的概率,比如你想推算会不会治愈,你设治愈,为没有治愈。那你的模型算出来就是没有治愈的概率。如果你想直接计算治愈的概率,那就需要更改一下设定,用去代表治愈。
此外倒数后两列有一个(),也就是值,哦,这个可不是或者的意思,值是优势比。在线性回归里边我们用标准化系数来对比两个自变量对于因变量的影响力的强弱,在回归里边我们用优势比来比较不同的情况对于因变量的影响。举个例子。比如我想看性别对于某种病是否好转的影响,假设代表女,代表男,代表不好转,代表好转。发现这个变量的值为,那么也就是说男人的好转的可能是女人好转的倍。注意,这里都是以数值较大的那个情况为基准的。而且值可以直接给出这个倍数。如果是各代表一类情况的时候,那就是是的倍,是的倍,以此类推。值对于方程没什么贡献,但是有助于直观的理解模型。在使用值得时候一定要结合它的置信区间来进行判断。
此外还有相关矩阵表和概率直方图,就不再介绍了。
多项回归:
选择分析——回归——多项,打开主面板,因变量大家都知道选什么,因变量下边有一个参考类别,默认的第一类别就可以。再然后出现了两个框框,因子和协变量。很明显,这两个框框都是要你选因变量的,那么到底有什么区别呢?嘿嘿,区别就在于,因子里边放的是无序的分类变量,比如性别,职业什么的,以及连续变量(实际上做回归时大部分自变量都是分类变量,连续变量是比较少的。),而协变量里边放的是等级资料,比如病情的严重程度啊,年龄啊(以十年为一个年龄段撒,一年一个的话就看成连续变量吧还是)之类的。在二项回归里边,系统会自动生成哑变量,可是在多项回归里边,就要自己手动设置了。参照上边的解释,不难知道设置好的哑变量要放到因子那个框框里去。
然后点开模型那个对话框,哇,好恐怖的一个对话框,都不知道是干嘛的。好,我们一点点来看。上边我们已经说过交互作用是干嘛的了,那么不难理解,主效应就是变量本身对模型的影响。明确了这一点以后,这个对话框就没有那么难选了。指定模型那一栏有三个模型,主效应指的是只做自变量和因变量的方程,就是最普通的那种。全因子指的是包含了所有主效应和所有因子和因子的交互效应的模型(我也不明白为什么只有全因子,没有全协变量。这个问题真的很难,所以别追问我啦。)第三个是设定步进式。这个是自己手动设置交互项和主效应项的,而且还可以设置这个项是强制输入的还是逐步进入的。这个概念就不用再啰嗦了吧啊?
点击继续,打开统计量对话框,勾选个案处理摘要,伪方,步骤摘要,模型拟合度信息,单元格可能性,分类表,拟合度,估计,似然比检验,继续。打开条件,全勾,继续,打开选项,勾选为分级强制条目和移除项目。打开保存,勾选包含协方差矩阵。确定(总算选完了)。
结果和二项回归差不多,就是多了一个似然比检验,值小于认为变量有意义。然后我们直接看参数估计表。假设我们的因变量有个类,那参数估计表会给出组的截距,变量,变量。我们我们用代表(常量变量变量。。。),那么就有第类情况发生的概率为如果我们以第一类为参考类别的话,我们就不会有关于第一类的参数,那么第一类就是默认的,也就是说为。
有序回归(累积回归):
选择菜单分析——回归——有序,打开主面板。因变量,因子,协变量如何选取就不在重复了。选项对话框默认。打开输出对话框,勾选拟合度统计,摘要统计,参数估计,平行线检验,估计响应概率,实际类别概率,确定,位置对话框和上文的模型对话框类似,也不重复了。确定。
结果里边特有的一个表是平行线检验表。这个表的值小于则认为斜率系数对于不同的类别是不一样的。此外参数估计表得出的参数也有所不同。假设我们的因变量有四个水平,自变量有两个,那么参数估计表会给出三个阈值,(也就是截距),两个自变量的参数,。计算方程时,首先算三个值,,,,(仅有截距不同)有了值以后,()
通过上边的这几个方程就能计算出各自的概率了。
Logistic回归到这里基本就已经结束了。大家一定要记熟公式,弄混可就糟糕了。希望能对你有所帮助呦。
下章内容,回归及非线性回归。
转载请注明: &
or分享 (0)怎样用SPSS做二项Logistic回归分析?结果如何解释?
1. Logistic回归简介Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。OR(Odds Ratio):比值比,优势比。2.SPSS中做Logistic回归的操作步骤分析&回归&二元Logistic回归选择因变量和自变量(协变量)... ...具体可以参考:3.结果怎么看一些指标和数据怎么看“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。伪决定系数cox & Snell R2和Nagelkerke R2,这两个指标从不同角度反映了当前模型中自变量解释了因变量的变异占因变量总变异的比例。但对于Logistic回归而言,通常看到的伪决定系数的大小不像线性回归模型中的决定系数那么大。预测结果列联表解释,看”分类表“中的数据,提供了2类样本的预测正确率和总的正确率。建立Logistic回归方程logit(P)=β-0+β1*X1+β2*X2+……+βm*Xm4.自变量的筛选方法和逐步回归与线性回归类似,在Logistic回归中应尽量纳入对因变量有影响作用的变量,而将对因变量没有影响或影响较小的变量排除在模型之外。①.Wald检验:Wals是一个统计量,用检验自变量对因变量是否有影响的。它越大,或者说它对应的sig越小,则影响越显著。②.似然比检验(Likelihood Ratio
Test):Logistic模型的估计一般是使用极大似然法,即使得模型的似然函数L达到最大值。-2lnL被称为Diviance,记为D。L越大,则D越大,模型预测效果越好。似然比检验是通过比较是否包含某个或几个参数β的多个模型的D值。③.比分检验(Score Test)以上三种假设检验中,似然比检验是基于整个模型的拟合情况进行的,结果最为可靠;比分检验结果一般与似然比检验结果一致。最差的就是Wald检验,它考虑各因素的综合作用,当因素间存在共线性的时候,结果不可靠。故在筛选变量时,用Wald法应慎重。SPSS中提供了六种自变量的筛选方法,向前法(Forward)和向后法(Backward)分别有三种。基于条件参数估计和偏最大似然估计的筛选方法都比较可靠,尤以后者为佳。但基于Wald统计量的检验则不然,它实际上未考虑各因素的综合作用,当因素间存在共线性时,结果不可靠,故应当慎用。5.模型效果的判断指标①.对数似然值与伪决定系数Logistic模型是通过极大似然法求解的,极大似然值实际上也是一个概率,取值在0~1之间。取值为1,代表模型达到完美,此时其对数值为0;似然值越小,则其对数值越负,因此-2倍的对数似然值就可以用来表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。②.模型预测正确率对因变量结局预测的准确程度也可以反映模型的效果,SPSS在Logistic回归过程中会输出包含预测分类结果与原始数据分类结果的列联表,默认是按照概率是否大于0.5进行分割。③.ROC曲线ROC曲线即受试者工作特征曲线(Receiver
Operating Characteristic Curve),或译作接受者操作特征曲线。它是一种广泛应用的数据统计方法,1950年应用于雷达信号检测的分析,用于区别“噪声”与“信号”。在对Logistic回归模型拟合效果进行判断时,通过ROC曲线可直接使用模型预测概率进行。应用ROC曲线可帮助研究者确定合理的预测概率分类点,即将预测概率大于(或小于)多少的研究对象判断为阳性结果(或阴性结果)。ROC曲线,预测效果最佳时,曲线应该是从左下角垂直上升至顶,然后水平方向向右延伸到右上角。如果ROC曲线沿着主对角线方向分布,表示分类是机遇造成的,正确分类和错分的概率各为50%,此时该诊断方法完全无效。参考资料:张文彤.
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 spss多元回归分析步骤 的文章

 

随机推荐