在应用多元线性回归分析时,是否要求因变量与每个自变量都成...

回归分析算法
1.回归分析基本原理
所谓回归分析法,就是在掌握大量观察数据基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(简称为回归方程式)。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系,这种因变量与自变量的不确定性的关系(相关性关系)。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
2.为什么使用回归分析?
如上所述,回归分析估计了两个或多个变量之间的关系。回归分析的好处良多。具体如下:
1.它表明自变量和因变量之间的显著关系;
2.它表明多个自变量对一个因变量的影响强度。
回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。
3.有多少种回归技术?
有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。总共有7种:线性回归,逻辑回归,多项式回归,Stepwise Regression逐步回归,Ridge Regression岭回归,Lasso Regression套索回归,ElasticNet回归
4. Linear Regression线性回归
它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。用一个方程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量来预测目标变量的值。
一元线性回归和多元线性回归的区别在于,多元线性回归有(&1)个自变量,而一元线性回归通常只有1个自变量。现在的问题是“我们如何得到一个最佳的拟合线呢?”。
1)获得最佳拟合线(a和b的值)
这个问题可以使用最小二乘法轻松地完成。最小二乘法也是用于拟合回归线最常用的方法。对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时,偏差先平方,所以正值和负值没有抵消。
2)最小二乘法原理
在这里假设变量Y与X之间存在线性相关关系。设有n对观测值,构造线性函数Y=ax+b,令,根据上面的阐述,利用最小二乘法求解回归函数参数就是找到适合的参数(a,b)使得 的值最小,然后在式中,分别求S对(a,b)的偏导数,并令其等于零,可求得参数a,b。
自变量与因变量之间必须有线性关系
多元回归存在多重共线性,自相关性和异方差性。
线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值。
多重共线性会增加系数估计值的方差,使得在模型轻微变化下,估计非常敏感。结果就是系数估计值不稳定
在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量
3)线性回归方程的显著性检验
线性回归方程建立后,一般需要进行显著性检验,常用的检验方法有:方差分解法,相关分析法,F检验,t检验以及D-W检验。下面主要介绍F检验和t检验。
在一元线性回归模型中,若b=0,则X的变化不会引起Y的变化,即Y与X不具有线性相关关系。因此,线性回归方程的显著性检验可以通过回归方程的F检验来完成。
提出:b=0, :b0,则在成立,即Y与X之间不存在线性相关的条件下,统计量
服从自由度为(1,n-2)的F分布。在给定了检验的显著性水平以后,可由F分布表得到成立时的临界值,如果对于一组样本计算得出的统计量F的值大于,则否定,即b0,说明X与Y之间确定存在线性相关关系。因此,对回归方程的相关性检验可按下列步骤做F检验。
步骤1:提出假设:b=0, :b0,
步骤2:在成立时,统计量 F(1,n-2)对于给定的显著性水平,查F分布表得到检验的临界值。
步骤3:对于一组样本计算SSR和SSE,并由此得到F值。
步骤4:比较F与的值,若F& ,则拒绝零假设。我们认为X与Y之间存在线性相关关系,否则接受,认为X与Y之间没有线性相关关系。
尽管相关系数r是对变量Y与X之间线性关系密切程度的一个度量,但是相关系数r是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性就越大。因此也需要通过样本相关系数r对总体的相关系数做出判断。由于相关系数r的分布密度函数比较复杂,实际应用中需要对r作变换。令
则统计量t服从t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数=0的假设检验,也就是只要对统计量t进行t检验就行了。
根据一组样本计算出上述t值,再根据问题所给定的显著性水平和自由度n-2,查t分布表,找到相应的临界值/2.若,表明t在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量不存在线性关系。
2.Logistic Regression逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。
Logit函数,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差(如在普通回归使用的)。
2.1极大似然估计参数求解步骤:
(1) 写出似然函数:
这里,n为样本数量,似然函数表示n个样本(事件)同时发生的概率。
(2) 对似然函数取对数:
(3) 将对数似然函数对各参数求偏导数并令其为0,得到对数似然方程组。
(4) 从方程组中解出各个参数。
它广泛的用于分类问题。
逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。
它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
自变量不应该相互关联的,即不具有多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。
如果因变量的值是定序变量,则称它为序逻辑回归。
如果因变量是多类的话,则称它为多元逻辑回归。
2.2 Logistic回归建模步骤
1)根据分析目的设置指标变量(因变量与自变量),然后收集数据
2)y取1的概率是p=P(y=1|X),取0的概率是1-p,用 和自变量列出线性回归方程,估计出模型中的回归系数
3)进行模型检验:根据输出的方差分析表中的F值和p值来检验该回归方程是否显著,如果p值小于显著性水平则模型通过检验,可以进行下一步回归系数的检验;否则要重新选择指标变量,重新建立回归方程
4)进行回归系数的显著性检验:在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,为了从回归方程中剔除那些次要的、可有可无的变量,为了从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程,需要对每个自变量进行显著性检验,检验结果由参数估计表得到。采用逐步回归法,首先剔除掉最不显著的因变量,重新构造回归方程,一直到模型和参与的回归系数都通过检验。
5)模型应用:输入自变量的取值,就可以得到预测的变量的值,或者根据预测变量的值去控制自变量的取值。
Logistic回归模型的建模步骤如下图所示:
3. Polynomial Regression多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。
在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
4. Stepwise Regression逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法:
标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。
向前选择法从模型中最显著的预测开始,然后为每一步添加变量。
向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。
5. Ridge Regression岭回归
岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
6. Lasso Regression套索回归
它类似于岭回归,Lasso (LeastAbsolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。
7.ElasticNet回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。
如何正确选择回归模型?
在多类回归模型中,基于自变量和因变量的类型,数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要。以下是你要选择正确的回归模型的关键因素:
1)数据探索是构建预测模型的必然组成部分。在选择合适的模型时,比如识别变量的关系和影响时,它应该首选的一步。比较适合于不同模型的优点,我们可以分析不同的指标参数,如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows’ Cp准则。这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。
2)交叉验证是评估预测模型最好额方法。在这里,将你的数据集分成两份(一份做训练和一份做验证)。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。如果你的数据集是多个混合变量,那么你就不应该选择自动模型选择方法,因为你应该不想在同一时间把所有变量放在同一个模型中。
3)它也将取决于你的目的。可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现。
4)回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。
没有更多推荐了,多元线性回归是直接将各个自变量间的相互影响消除了吗
相互独立的问题叫“多重共线性” 用vif检验 理论上说就是相关不超过90%都问题不大 肯定会有相关的
B不能说明.乙烯中的碳碳双键中的一个键(π键易断裂,σ键较稳定)易断裂,容易发生加成反应,而乙烷中根本没不饱和键,所以它不能加成,这不是原子间或原子团间(或原子与原子团间)的相互影响会导致物质化学性质的不同.A中的甲苯中苯环吸电子可以使甲基中的碳氢键易断,使甲基上的氢活性增强,这样甲基就易被氧化.C中同样是苯环吸电子使
选AB.A、甲苯能使酸性高锰酸钾溶液褪色 而苯不能——甲苯能使酸性高锰酸钾溶液褪色是甲基上的氢原子被氧化; 而苯上没有可以被氧化的氢原子.B、乙烯能发生加成反应 而乙烷不行——乙烯能发生加成反应,是自身的原子团反应,不是原子团间的相互影响导致的化学性质.
A.苯环影响甲基,甲苯易被高锰酸钾氧化,而苯不能,可说明或原子与原子团间的相互影响会导致物质的化学性质不同,故A不选;B.乙炔中含官能团碳碳三键,乙烷中不含官能团,因官能团不同导致化学性质不同,故B选;C.苯环影响-OH,具有酸性,乙醇为中性,-OH连接的烃基不同,可说明或原子与原子团间的相互影响会导致物质的化学性质不
A.高锰酸钾能使甲苯褪色是应为高锰酸钾强氧化剂使甲基脱落,成为苯甲酸,同时本身被还原褪色.这和官能团没有关系.
主要是电子效应和空间效应(位阻效应,也有)偶极效应等等.
甲基对苯环的影响,使苯环上的H更容易被取代.类似的还有,苯酚与溴水取代,生成三溴苯酚,也说明,羟基对苯环影响,使苯环上的H更容易被取代.
自然地理环境包括大气、陆地和 海洋,对吗? 再问: 气候 地形 土壤 水分 植被。。
D和侧链的影响无关,本身苯就可以与氢气加成.
你的想法很有道理.命运中有既定的部分.你的基因,你的家庭情况等一出生就已经确定的,可称之为“命”而后天的成长,则是“运”,这是自己可以创造和改变的.1岁的你和20岁的你当然不同.这是一个重要的哲学命题.科学现在在很多领域都有很大的进展,但在脑这个领域进展很小.为什么呢?用人的脑来研究人的脑,这本就是一个解不开的问题.
如果你做的是多元回归 看beta那列数据 绝对值越大影响越大 正负号是影响的方向
不显著就应该剔除,除非你想硬塞进这个自变量,那你只有改数据了
照道理是都需要做散点图的,只不过多元线性回归是采用多维散点图来看是否有线性关系
你是否要问这些定类和定序变量怎么进行回归分析,是吧是这样的,在统计中,我们不支持将定类的变量用来作回归分析,可以将定序的变量作回归分析,就是用数字1、2、3等等代替就可以了.而在实际中,有些统计学家也会将定类变量做这样的回归分析,在统计学界中,一般也认同,但不提倡,你应该知道为什么吧,因为这些数据不具备定比变量的特征,
首先,不是所有的数据都需要进行平稳性检验,只有时间序列数据需要其次,这跟相关系数没关系再次,一个自变量多个自变量都可以协整分析就是回归,只不过加了道平稳性检验罢了,其余的和一般回归殊无二致.
可以做置信度和显著性分析啊就是求R2
可以~回归以后再看是否出现自相关、异方差、多重贡献等问题,再修正就行了~ 再问: 我在spss里面用的逐步回归,这个变量进了回归方程,可是和自变量的相关性很低,所以不知道可行不可行! 再答: 首先 逐步回归应用与多重共线问题解决,在建立多元回归方程的过程中,按偏相关系数的大小次序将自变量逐个引入方程,对引入方程中的每个
用SPSS进行多元回归以后,系统会自动给出x1、x2和x3(从大到小)的R的平方和,相减就是解释率.
多元回归分析 你要先确定一下自变量间是否存在严重的共线性,如果没有共线性,然后还要通过散点矩阵看看是否成线性关系,这些之后才可以做多元线性回归所以只看你现在的结果,的确只有x5才有意义,所以你要根据参考资料及常识等进行初步判断,这样的结果是否正确,如果不正确需要重新进行
sig的值小于0.05,说明有显著的影响,也就是自变量与因变量间存在显著的线性关系而常数项无论sig值,无论大小i是否显著,在你写回归方程时,都需要写进去的处理多元线性回归中自变量共线性的几种方法_百度文库
您的浏览器Javascript被禁用,需开启后体验完整功能,
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
处理多元线性回归中自变量共线性的几种方法
&&医学统计 SAS 科研
阅读已结束,下载本文需要
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,同时保存到云知识,更方便管理
加入VIP
还剩4页未读,
定制HR最喜欢的简历
你可能喜欢苹果/安卓/wp
积分 7, 距离下一级还需 3 积分
道具: 涂鸦板, 彩虹炫, 雷达卡, 热点灯
购买后可立即获得
权限: 隐身
道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
读文献时发现了有人利用GLM得到了多个自变量对因变量的解释程度(SS%),但是一个多元线性回归只有一个R2,请问如何得到各自变量的解释能力的。有人说类似于逐步回归,能否讲清楚些呢?
表中左侧的是各因变量,第一行为各自变量。
(73.43 KB)
17:28:29 上传
首先需要百度一下。spss多重线性回归逐步回归法操作和结果解释方法_百度经验&&http://jingyan.baidu.com/article/d621e8daeffb2.html
热心帮助其他会员
总评分:&论坛币 + 15&
初级热心勋章
初级热心勋章
中级热心勋章
中级热心勋章
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师求教,多元线性回归,因变量为连续变量,多个变量为离_百度知道
求教,多元线性回归,因变量为连续变量,多个变量为离
我有更好的答案
多元回归中,自变量对因变量有没有影响,影响大小,主要看显著性检验,即P值。 P值小于0.05,则通过了检验,认为该因素对因变量有显著影响。 对于通过了影响的自变量,如果要比较哪个影响大,哪个影响小,除了看符号的正负外,还可以看标准后的回归系数。
采纳率:81%
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

更多关于 多元线性回归 的文章

 

随机推荐