空间多水平回归分析模型中的各控制变量加入回归模型时什么意思,怎么用软件计算出各系数

用Excel做回归分析的详细步骤
一、什么是法
“回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:
  回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。&
二、回归分析的目的&
回归分析的目的大致可分为两种:
第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。
y=a0+b1x1+b2x2+…+bkxk+误差(方程A)
&把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分別代入x1,x2,…xk的数值,预测y的值。
第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。&
希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。
根据最小平方法,使用求解y=a+bx中的a和b。那么什么是最小平方法?
分别从散点图的各个数据标记点,做一条平行于y轴的平行线,相交于图中直线(如下图)
平行线的长度在统计学中叫做“误差”或者‘残差”。误差(残差)是指分析结果的运算值和实际值之间的差。接这,求平行线长度曲平方值。可以把平方值看做边长等于平行线长度的正方形面积(如下图)&
最后,求解所有正方形面积之和。确定使面积之和最小的a(截距)和b(回归系数)的值(如下图)。
使用Excel求解回归方程;“工具”→“数据分析”→“回归”,具体操作步骤将在后面的文章中具体会说明。
线性回归的步骤不论是一元还是多元相同,步骤如下:
1、散点图判断变量关系(简单线性);
2、求相关系数及线性验证;
3、求回归系数,建立回归方程;
4、回归方程检验;
5、参数的区间估计;
一元线性回归操作和解释
一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。
什么是一元线性回归
回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。举个例子来说吧:
比方说有一个公司,每月的广告费用和销售额,如下表所示:
如果我们把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线:
这条线是怎么画出来的
对于一元线性回归来说,可以看成Y的值是随着X的值变化,每一个实际的X都会有一个实际的Y值,我们叫Y实际,那么我们就是要求出一条直线,每一个实际的X都会有一个直线预测的Y值,我们叫做Y预测,回归线使得每个Y的实际值与预测值之差的平方和最小,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2的和最小(这个和叫SSE,后面会具体讲)。
现在来实际求一下这条线:
我们都知道直线在坐标系可以表示为Y=aX+b,所以(Y实际-Y预测)就可以写成(Y实际-(aX实际+b)),于是平方和可以写成a和b的函数。只需要求出让Q最小的a和b的值,那么回归线的也就求出来了。
& 简单插播一下函数最小值怎么求:
首先,一元函数最小值点的导数为零,比如说Y=X^2,X^2的导数是2X,令2X=0,求得X=0的时候,Y取最小值。
那么实质上二元函数也是一样可以类推。不妨把二元函数图象设想成一个曲面,最小值想象成一个凹陷,那么在这个凹陷底部,从任意方向上看,偏导数都是0。
因此,对于函数Q,分别对于a和b求偏导数,然后令偏导数等于0,就可以得到一个关于a和b的二元方程组,就可以求出a和b了。这个方法被称为最小二乘法。下面是具体的数学演算过程,不愿意看可以直接看后面的结论。
先把公式展开一下:
Q函数表达式展开
然后利用平均数,把上面式子中每个括号里的内容进一步化简。例如
上式子两边×n
Q最终化简结果
然后分别对Q求a的偏导数和b的偏导数,令偏导数等于0。
Q分别对a和b求偏导数,令偏导数为0
进一步化简,可以消掉2n,最后得到关于a,b的二元方程组为
关于a,b的 二元方程组
最后得出a和b的求解公式:
最小二乘法求出直线的斜率a和斜率b
有了这个公式,对于广告费和销售额的那个例子,我们就可以算出那条拟合直线具体是什么,分别求出公式中的各种平均数,然后带入即可,最后算出a=1.98,b=2.25
最终的回归拟合直线为Y=1.98X+2.25,利用回归直线可以做一些预测,比如如果投入广告费2万,那么预计销售额为6.2万
评价回归线拟合程度的好坏
我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合程度到底怎么样呢?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数,系统不能上标,这里是R^2是“R的平方”),用来判断回归方程的拟合程度。
首先要明确一下如下几个概念:
总偏差平方和(又称总平方和,SST,Sum of Squaresfor Total):是每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平方和,即,反映了因变量取值的总体波动情况。如下:
回归平方和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平方和,即,它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。
残差平方和(又称误差平方和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的。
这些概念还是有些晦涩,我个人是这么理解的:
就拿广告费和销售额的例子来说,其实广告费只是影响销售额的其中一个比较重要的因素,可能还有经济水平、产品质量、客户服务水平等众多难以说清的因素在影响最终的销售额,那么实际的销售额就是众多因素相互作用最终的结果,由于销售额是波动的,所以用上文提到的每个月的销售额与平均销售额的差的平方和(即总平方和)来表示整体的波动情况。
回归线只表示广告费一个变量的变化对于总销售额的影响,所以必然会造成偏差,所以才会有实际值和回归值是有差异的,因此回归线只能解释一部分影响
那么实际值与回归值的差异,就是除了广告费之外其他无数因素共同作用的结果,是不能用回归线来解释的。
因此SST(总偏差)=SSR(回归线可以解释的偏差)+SSE(回归线不能解释的偏差)
那么所画回归直线的拟合程度的好坏,其实就是看看这条直线(及X和Y的这个线性关系)能够多大程度上反映(或者说解释)Y值的变化,定义
R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好
假如所有的点都在回归线上,说明SSE为0,则R^2=1,意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系
还是回到最开始的广告费和销售额的例子,这个回归线的R^2为0.73,说明拟合程度还凑合。
四、相关系数R和判定系数R^2的区别
判定系数R^2来判断回归方程的拟合程度,表示拟合直线能多大程度上反映Y的波动。
在统计中还有一个类似的概念,叫做相关系数R(这个没有平方,学名是皮尔逊相关系数,因为这不是唯一的一个相关系数,而是最常见最常用的一个),用来表示X和Y作为两个随机变量的线性相关程度,取值范围为【-1,1】。
当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正,
当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来。
如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。
就如同这两个概念的符号表示一样,在数学上可以证明,相关系数R的平方就是判定系数。
变量的显著性检验
变量的显著性检验的目的:剔除回归系数中不显著的解释变量(也就是X),使得模型更简洁。在一元线性模型中,我们只有有一个自变量X,就是要判断X对Y是否有显著性的影响;多元线性回归中,验证每个Xi自身是否真的对Y有显著的影响,不显著的就应该从模型去掉。
变量的显著性检验的思想:用的是纯数理统计中的假设检验的思想。对Xi参数的实际值做一个假设,然后在这个假设成立的情况下,利用已知的样本信息构造一个符合一定分布的(如正态分布、T分布和F分布)的统计量,然后从理论上计算得到这个统计量的概率,如果概率很低(5%以下),根据“小概率事件在一次实验中不可能发生”的统计学基本原理,现在居然发生了!(因为我们的统计量就是根据已知的样本算出来的,这些已知样本就是一次实验)肯定是最开始的假设有问题,所以就可以拒绝最开始的假设,如果概率不低,那就说明假设没问题。
其实涉及到数理统计的内容,真的比较难一句话说清楚,我举个不恰当的例子吧:比如有一个口袋里面装了黑白两种颜色的球一共20个,然后你想知道黑白球数量是否一致,那么如果用假设检验的思路就是这样做:首先假设黑白数量一样,然后随机抽取10个球,但是发现10个都是白的,如果最开始假设黑白数量一样是正确的,那么一下抽到10个白的的概率是很小的,但是这么小概率的事情居然发生了,所以我们有理由相信假设错误,黑白的数量应该是不一样的……
总之,对于所有的回归模型的软件,最终给出的结果都会有参数的显著性检验,忽略掉难懂的数学,我们只需要理解如下几个结论:
T检验用于对某一个自变量Xi对于Y的线性显著性,如果某一个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。
F检验用于对所有的自变量X在整体上看对于Y的线性显著性
T检验的结果看P-value,F检验看Significant F值,一般要小于0.05,越小越显著(这个0.05其实是显著性水平,是人为设定的,如果比较严格,可以定成0.01,但是也会带来其他一些问题,不细说了)
下图是用EXCEL对广告费和销售额的例子做的回归分析的结果(EXCEL真心是个很强大的工具,用的出神入化一样可以变成超神),可以看出F检验是显著的(Significance F为0.0017),变量X的T检验是显著的(P-value为0.0017),这俩完全一样也好理解,因为我们是一元回归,只有一个自变量X。
用Excel做线性回归分析
还有一点是intercept(截距,也就是Y=aX+b中的那个b)的T检验没有通过,是不显著的,一般来说,只要F检验和关键变量的T检验通过了,模型的预测能力就是OK的。
最后推荐一个很好的统计学课程
这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。
一共80多条视频,全长800多分钟,只能说这是我看过的最好的统计学教程,没有之一,如果本科能看到这个水平的教程,我也不会靠考场上的纸条过这门课了。
其实如果懂一点真正的统计学,生活中会多一些看问题的角度,还是挺有意思的。
一元线性回归就说到这里,谢谢大家!
使用Excel数据分析工具进行多元回归分析
在“数据”工具栏中就出现“数据分析”工具库,如下图所示:
给出原始数据,自变量的值在A2:I21单元格区间中,因变量的值在J2:J21中,如下图所示:
假设回归估算表达式为:
试使用Excel数据分析工具库中的回归分析工具对其回归系数进行估算并进行回归分析:
点击“数据”工具栏中中的“数据分析”工具库,如下图所示:
在弹出的“数据分析”-“分析工具”多行文本框中选择“回归”,然后点击&“确定”,如下图所示:
弹出“回归”对话框并作如下图的选择:
上述选择的具体方法是:
在“Y值输入区域”,点击右侧折叠按钮,选取函数Y数据所在单元格区域J2:J21,选完后再单击折叠按钮返回;这过程也可以直接在“Y值输入区域”文本框中输入J2:J21;
在“X值输入区域”,点击右侧折叠按钮,选取自变量数据所在单元格区域A2:I21,选完后再单击折叠按钮返回;这过程也可以直接在“X值输入区域”文本框中输入A2:I21;
置信度可选默认的95%。
在“输出区域”如选“新工作表”,就将统计分析结果输出到在新表内。为了比较对照,我选本表内的空白区域,左上角起始单元格为K10.点击确定后,输出结果如下:
第一张表是“回归统计表”(K12:L17):&
Multiple R:(复相关系数R)R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本例R=0.9134表明它们之间的关系为高度正相关。(Multiple:复合、多种)
R Square:复测定系数,上述复相关系数R的平方。用来说明自变量解释因变量y变差的程度,以测定因变量y的拟合效果。此案例中的复测定系数为0.8343,表明用用自变量可解释因变量变差的83.43%
Adjusted R Square:调整后的复测定系数R2,该值为0.6852,说明自变量能说明因变量y的68.52%,因变量y的31.48%要由其他因素来解释。(&Adjusted:调整后的)
标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好
观察值:用于估计回归方程的数据的观察值个数。
第二张表是“方差分析表”:主要作用是通过F检验来判定回归模型的回归效果。
该案例中的Significance F(F显著性统计量)的P值为0.00636,小于显著性水平0.05,所以说该回归方程回归效果显著,方程中至少有一个回归系数显著不为0.(Significance:显著)
第三张表是“回归参数表”:
K26:K35为常数项和b1~b9的排序默认标示.
L26:L35为常数项和b1~b9的值,据此可得出估算的回归方程为:
该表中重要的是O列,该列的O26:O35中的&P-value为回归系数t统计量的P值。
值得注意的是:其中b1、b7的t统计量的P值为0.0156和0.0175,远小于显著性水平0.05,因此该两项的自变量与y相关。而其他各项的t统计量的P值远大于b1、b7的t统计量的P值,但如此大的P值说明这些项的自变量与因变量不存在相关性,因此这些项的回归系数不显著
转载于:http://blog.sina.com.cn/s/blog_a20c88bx.html
阅读(...) 评论()【图文】SPSS软件的操作与应用第6讲 回归概念、回归系数_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
SPSS软件的操作与应用第6讲 回归概念、回归系数
&&SPSS软件的操作与应用第6讲 回归概念、回归系数
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢一、因子1、A股的市场驱动因子能分哪几大类?
答:我们将那些被认为是可以影响到股票价格变化的因子称为市场驱动因子。这些因子可以是宏观的,如利率、货币投放量、GDP等;也可以是微观的,如公司的季报、年报中反应出的财务状况、盈利能力等;一般来说,市场驱动因子包括有:估值(包括各种财务模型下的不同估值)、成长性、股票规模、宏观经济政策、市场情绪等。
值得注意的是,在模型的回归检验中,以上因子不一定都是“显著的”,我们应当综合考量该因子在逻辑上是否有意义以及显著性水平来判断是否采用/剔除一些因子。2、常见的因子类别?
答:有行业、技术、基本面、财务信息、市场情绪等类别。3、除了最常用的回归法、还有没有其他方法进行单因子测试?各自的优劣是什么?
答:我不确定这里是否是要求通过哑变量的数据处理方法对一些因子进行检验,一般而言,对于一些难以量化的因子,我们可以通过设置0、1矩阵来检验其因子在不同水平下的显著性。4、单因子测试是否要纠正板块、市值偏差等问题?如何纠正?
答:应根据回归模型对比的标的来选择是否要纠正。举例来说,如果我要检验行业内某一只股票对应行业内其他股票在某个因子上是否存在超额收益,则不需要纠正板块偏差;如果要检验的是某股票对应上证综指是否在某个因子上存在超额收益,则应当纠正板块差异。
具体的纠正方法根据指标的不同应有所不同,按照收益率举例,可以采用单个股票价格求对数,再平减板块价格对数来进行纠正。5、行业归属因子是否应选择动态变化的数据?
答:是。因为不同的因子对于不同的行业可能是显著/非显著的、可能是正相关/负相关的。由于A股市场存在借壳、主营业务改变、收入构成改变等等情况的发生,导致行业归属发生改变,如按照静态行业归属对股票进行量化是存在极大风险的。6、混业经营的上市公司,其行业因子有哪些处理方式?利弊?
答:可以按照其财报中的营收等财务指标进行权重分配,在行业归属因子中采用多个哑变量来体现。举例来说,股票的哑变量可以表示为:股票代码
行业因子金融类银行类地产类A(单一)010B(混业)0.20.30.5
对于混业经营中,其经营业务相关度较高的,可以不做区分,用其中最主要的来替代。7、行业因子采用GICS、证监会等第三方数据更好?还是利用相关性、聚类分析等动态方法分析更好?各自利弊?
答:我是数量经济学的教育背景出身,在我受到的相关课程的教育中,教授一直相当强调“被引入变量的逻辑性”,也就是说,不应当仅仅根据变量是否显著来决定选取与否,这样的话,模型仅仅是空中楼阁。因此,在对股票进行行业分类时,应主要采用第三方数据较好。在真正进入实盘阶段,还应要结合行业分析员、财报分析来判断,是否使用了错误的回归模型,来避免投资错误。
采用“大数据”的方法来对股票进行行业分类是数据探索的一种方式,他可能会发现一些存在潜在相关性的股票集合,但在发现这种可能性后,还应当根据实际情况来判断是否是伪回归来决定是否采信,而不是盲目的拿来结果就用。8、规模因子为什么在中国具有
如此重大的影响?选择长期暴露小盘股有哪些利弊?
答:在A股市场中,小盘股存在筹码集中价格容易操纵,便于“坐庄”的特点。往坏的方面讲,由于中国市场对基金经理的净值要求比较高,基金经理往往可以通过合作来操纵重仓的小盘股的价格来达到完成业绩指标的目的,这也往往是一些“妖股”产生的原因,这里就部展开讨论了。
我认为暴露小盘股的最大弊端是流动性问题。往往回测很美,但没有交易量。另外就是价格波动大,回测模型的估计参数不稳健。9、市值因子应该怎么取?去本身、对数、平方根?你认为流通市值和市值哪个信号更强?
答:我不太明确这里的市值因子是指价格、还是流通量、还是价格和流通量的乘积;我认为,该因子用两者的乘积是比较好的变量。在接受以上前提的情况下,一般可以采用其本身、对数。去本身的情况下,模型的因变量应当是价格类的;取对数的情况下,应当是涨跌幅度类的;
对于二级市场,能流通的市值影响更大,对于一些一级半市场的投资者而言,可以考虑总市值。10、换手率应该怎么计算?如长时间停牌,如何处理?
答:这个因子的变化情况一般第三方数据都会给出。如果长期停牌,一般不建议在复牌初期介入。我们应当认识到量化分析存在自己的局限性,这里不适宜采用量化的方法来做分析判断。11、若某一因子包含长期平均数据,但其中存在缺失,应如何处理?现有两种参考方法:设为空值,或取平均数作为长期均值,哪种更好,还是无所谓?
答:首先假设缺失值所在的时间周期内公司业务等财务数据不存在重大变化;采用空值的话,在数据连续性上存在“断点”,而采用平均值的话容易导致因子不显著,或者该因子被低估。我的建议是根据该因子的变化趋势采用插值法。
如果假设不成立,应根据最新的数据重新回归建模。12、财务数据应当在哪个时点进行更新?比如月频的多因子模型,年报公布可能是3月或4月,是在3月底即时更新,还是在4月统一更新?
答:这个可以根据每个基金的软件条件,如果能做到自动更新数据的,那肯定是更新的越早越好。如果需要手动且工作量太大,可以在一个时间统一更新。
从模型效果的角度来讲,更新的频率越高越及时就越能保证模型捕捉价格的有效性,很多时候是成本问题。13、有哪些指标可以衡量单因子测试的结果?
答:假设回归多因子方程:Y=a1x1+a2x2+a3x3+e
其中,e服从N(0,σ);x1、x2、x3分别为可能有效的因子,从统计上讲,若因子有效,则该因子前的被估计参数ai应显著的不等于0。即在T检验下,P((a-0)/Stda)≥97.5%或者≤2.5%(在95%的置信区间下)。
还是要强调的是:不要单单看显著性是否显著,还要观察变量的逻辑意义。14、依据单因子测试结果,如何对因子有效性进行排序?如何用单一指标衡量因子有效性?
答:参见上一题,P值越大,说明越显著,有效性越高。15、所谓“alpha因子”和“风险因子”,应该如何区分?
答,alpha因子是指在对冲了系统性风险后,能够被模型解释的,具有超额收益的因子。这里不太清楚,风险因子是指“能代表系统性风险并需要对冲的因子”,还是指“波动率(即统计上的方差)”较大的因子。16、你理解中有效且有逻辑的因子应包括哪些?有逻辑但效果交叉的因子应包括哪些?如果采用某种方法组合出一个古怪的因子的解释能力很强,但是看不出因子的经济意义,你该怎么做?
答:由于我还未进行过实盘检验,此问题的回答是我的一些个人推断。
我认为在A股市场,有效且有逻辑的因子特别是中高频量化模型中,应包括市场情绪因子;我的逻辑在于:股票在短期中反应了人们的预期,当预期一只股票会涨,大家都去买入,那股票就上涨了。效果较差的因子应包括财务模型中的一些因子,因为中国市场中,投机、政策性比较强,羊群效应显著。
对于古怪因子的应用,应当要从基金的投资风格、风险承受能力来看。作为一个初级的量化分析师的定位来讲,应当将此因子的获得过程、效果等写成报告,交由上级,或者公司内部讨论决定。17、如何打磨旧的因子,提高其有效性?
答:举例来说,有一个旧的因子A,它以前的逻辑是P(A变大,则Y也变大)&60%;在一段时间失效后,他的逻辑可能变为了P(A变大,且B变小,则Y也变大)&60%,那么,去深入挖掘这种更进一步的条件概率下的显著性,我想或许是一种可能的办法。18、构建因子的新信息源如何寻找?有哪些思路?
答:通过公司内部。公司外部的会议、交流互相启发;阅读文献,掌握国内外的动向。19、现在常用的因子都是易于量化的因子,对于基本面因子、事件驱动因子、市场情绪因子的不易量化的因子,有无合适的处理办法?
答:确实。基本面因子存在数据无变化,没有Varuance的缺点;事件驱动因子没有良好的量化模型(在这里我认为var模型或许是一种可能的建模方式,注:不是Var at Risk);市场情绪因子不存在很好的第三方数据来源,可能要靠自己写爬虫程序。
对于基本面因子,或许可以认为引入常数项来解决;事件驱动我认为在物理上的波动传导模型或许有借鉴的意义,但需要去研读相关的文献;市场情绪的爬虫没有做过,不敢说。二、模型拟合1、拟合多因子模型的综合目标是什么?
答,通过拟合多因子模型,来筛选显著、有逻辑的因子达到解释股票的价格变动,预测其未来的变化情况,最后目标是赚大钱(笑)。2、如何选择样本空间?例如对初上市的股票、ST股票、指数成分股变动。停牌等异常情况的处理?
答:连续的、无缺失值的足够分析精度的频率样本是最好的,如果不满足其中的一项或者几项,可以采用插值、舍去等方法进行处理,这都是数据清晰中的内容。
对于初上市的股票、ST股票由于没有足够的历史数据进行回测,或者适用的模型和一般的不同,我个人的建议是能不碰就不碰,承认量化的局限性。
指数成分股变动、停牌等,应对应修正我们在对冲系统风险时的头寸,避免不必要的风险暴露。3、如何选取因子组?有什么可以参考的经典理论?
答:可以通过阅读研报、内部讨论等方式进行因子选取检验;最经典的应该就是三因子以及三因子扩展模型了吧。4、从选择多因子到多因子策略回测,一般有哪些环节?
答:(1)、有一个大致的可能性思路;(2)、根据这个思路去查阅文献,检索哪些因子是可能被加入模型的;(3)、根据现有数据集,确定可以被量化加入的因子数;(4)、预估计,并检验各因子有效性;(5)、共线性、异方差、自相关、显著性检验和修正;(6)、残差检验,是否存在遗漏变量;(7)、完成并归档。5.每一期的因子暴露度,如果不进行离群值、缺失值的处理以及标准化处理,会有什么后果?如果进行处理,要注意哪些模型扭曲?
答:不处理的话可能会造成模型的预测收益虚高/虚低、模型的时间频度不一致导致被估计参数错误/不稳健等后果。
进行处理主要是插值、取对数、拉回n倍标准差等等,可能会存在过拟合等问题。6、离群值处理方法有哪几种?
答:无论是拉回2倍Std(95%置信区间)、3倍Std(99%置信区间)或者其他位置,这无一个公允的定论,我认为,在处理的过程中,我们要明确这样处理的目标是什么。
如果是避免一些离群的过高收益来误导我们高估了模型的收益率,那我们应该选择较小的倍数。但这样做的同时,也增大了我们低估模型收益率的可能。反之亦然。
因此根据基金自身所设立的风险偏好、收益预期来选择各自的处理准则,我认为是比较合适的。7、缺失值的处理方法有哪几种?一种是作为缺失值自动忽略、二是剔除个股、三是在标准化后设为0或中位数,请评论优缺点。
答:剔除各股是最稳健、保守的处理方法,缺点是排除了可能存在alpha的股票;一般的做法是标准化后做技术处理,这样可能导致模型过拟合;自动忽略不太建议使用,因为数据的连续性上会出现问题。
如果可行的话,可以采用和缺失值因子相关度较高的、数据质量较好的另外一个或者一组因子来代替含油缺失值的因子,可以避免以上问题。但现实不一定满足,满足不一定能获取。8、标准化的方法有哪些?标准化后数据近似呈现何种分布规律?各种标准化方法的利弊?
答:一般就是将因子减去均值除以方差,标准化后呈现N(0,1)分布。我仅知这一种标准化方法。
另外,根据我计量经济学上的知识,标准化在模型的处理中不一定是必要的,在未标准化时,也可以直接采用回归方法进行处理。9、带权重的标准化,权重如何处理?是否需要和回归时的个股权重保持一致?
答:可以根据具体的经济学意义设置权重,应和回归时的个股权重保持一致。10、标准化、离群值处理、缺失值处理三个环节的先后顺序?
答:先处理离群值、再标准化、最后处理缺失值。11、因子之间或多或少存在一些相关性,若把所有因子进行正交处理,会有什么情况,这样或者不这样做的理由是什么?
答:我们必须要处理相关性是因为,若模型的几个因子之间存在线性相关,则这些因子的被估计参数不稳健,容易导致错误的被估计参数。那么,一般来说,多少相关度以下的因子相关性是可以被接受的呢?一般认为是0.7。
对于高相关性的因子,我们可以采用主成份分析法或者正交化处理。但都会丧失一部分因子在逻辑上的解释性,应慎重应用。12、如何选择截面回归的频率?依据是什么?
答:应至少不低于每次调整仓位的频率。依据是根据该量化策略的策略时效性、基金的风险控制要求、数据的精细程度等。13、回归模型设计的个股收益怎么计算?最简单的是什么?
答:可以根据复盘价格进行计算。14、回归模型是否要加入截距项?什么条件下可以取?什么条件下不能取?
答:根据模型,截距项是否有具体的经济意义,有需要即可加入,一般如市场无风险收益率等即可作为常数加入。15、回归时用OLS和WLS的区别在哪里?使用WLS的依据是什么?
答:当残差序列存在异方差性时,用OLS估计的估计参数不稳健,此时应采用WLS对各项参数进行加权,以保证残差序列的无偏、一致、有效性。加权的一般方法是采用OLS估计下的残差、残差平方来做加权。16、如何评估或衡量多因子模型的效果?
答:各因子具有明显的经济学意义、因子前被估计参数的显著性良好、方程整体F检验显著性良好、残差序列满足独立同分布。17、如何判断现有因子是否足够解释收益率?
答:一是可以通过经济学解释来判断是否存在遗漏变量,另外也可以通过对残差分析来检验是否有遗漏因子。若残差项存在异方差性,也有可能是遗漏变量引起的。18、中国股票市场多因子模型的拟合优度通常在什么量级?
答:不清楚。但就单因子来说,如果因子的R2低于0.3,该因子可能就通不过T分布的显著性检验。19、为了提高拟合优度,尽可能多的加入各种因子,会导致什么问题?
答:因子不具备经济学意义、显著性无法通过、模型过拟合,回测很美,预测很烂。20、如果一个因子与现有因子组均低相关,且能显著提高拟合优度,那怎样的理由可能会使我们选择不加入这个因子?
答:在逻辑上不具备经济学意义。21、对于回归法因子测试,嫩肤否直接用不同截面的数据叠加在一起进行回归(即面板回归)?可能产生的后果是什么?
答:可以。但应注意各因子在时间序列上的自相关性,截面相关和自相关会导致被估计参数的不稳定,而且目前在数学上没有很好的解决办法。
可能导致的后果即被估计参数不稳健,导致模型预测能力差。22、在进行多元回归时,如何检验共线性、异方差问题?如何解决?
答:可以观察各变量之间的相关系数来判断是否尊在共线性;异方差可以采用white检验来判断;
在发现共线性后,可以通过减少变量、主成份分析法、正交变换等方法解决;异方差可以通过WLS回归来解决。23、无风险资产在各个市场应如何选择?中国市场有哪些选择?各自的利弊?
答:具体有哪些选择不知道。但猜测有国债、定期、活期存款利率等。24、计算beta值的基准如何选择?不同选择对整个模型影响有哪些方面?
答:应根据“希望对冲的风险和暴露的因子”来选择beta。举例而言,若研究某股票在该行业中是否存在alpha,那beta就是该行业的股票价格。25、研究者已经习惯于用线性模型来解释收益率,为什么不用更复杂的模型?
答;采用非线性模型无法保证被估计参数和残差的良好性质(无偏一致有效),或许随机微分方程的求解是一种可能的方法。26、拟合多因子模型时,数据挖掘问题有多严重?怎样降低过拟合的程度?
答:数据挖掘应当是在数据探索,也就是挑选可能的因子时采用的技术手段。在真正建立多因子量化模型时,一定要确认因子的经济学意义。三、收益预测1、在多因子回归中,预测的目标是什么?收益率?、对行业超额收益率?对市场超额收益率?还是什么?
答:应根据每个模型设定所对冲的beta来确认alpha,这个应当是设立模型时就已经明确的,而不是在模型建立后再回头去找一个的。2、用于收益预测的多因子模型,在拟合时应侧重考虑哪些问题。
答:关于模型设立的一些原则性问题上文已经有所提及,不再赘述,如逻辑性、模型的一些技术性处理等等。还应考虑的是对原始数据的一些处理,如离群值等是否会高估模型的收益率的问题。3、因子收益率如何预测?有哪些方法?是否有必要进行因子择时?国外对这方面的研究如何?
答:可以通过模型外推法进行预测。因子择时在我看来其本质是一个条件概率,如果检验下来,该条件概率是显著且具有经济学意义的,就可以进行因子择时。国外研究不清楚。4、构建选股模型时,通常会对许多因子进行降维、合并,这样做的主要意义是什么》
答:主要是因为共线性问题,还有模型的简洁。5、对于要合并的几个因子,如何分配他们的权重?请静态、动态赋值各一例,他们各自的优劣是什么?
答:如果被合并的因子之间不存在共线性,仅仅是为了模型简洁的要求,可以用因子前的被估计参数来做权重。如果存在共线性,我想可以通过蒙特卡洛来扩大样本量,获得比较文件的被估计参数,并用其做权重。6、已知过去若干起(合并后)因子)暴露度,根据以上测试结果,如何预测下期收益率?
答:不妨假设若干期因子的暴露为(x1、x2、x3、......xn),分别检验每一个xi=E(x)是否通过,如果通过,我们可以认为该因子暴露度是稳健的,那么我们可以用E(x)作为下一期收益率的无偏估计。否则的话,建议重新检验模型设立是否合理,因子是否显著等问题。7、用IC(横截面相关性)衡量预测有效性有什么缺陷?
答:不懂...
根据下一道题干,我猜测IC是指通过上一截面数据的因子暴露程度,来预测下一时间截面的因子暴露是多少。如果我的猜测是正确的,那IC预测实际上是认为收益率不但是和因子相关(截面),而且还存在自相关(time series)。
那么,基于面板数据本身的缺陷,我猜测IC主要的缺陷还是在稳健性上。8、未来1日收益率预测的IC通常在什么水平?未来一月的呢?不同尺度间是否有固定的转换效应?
答:不清楚通常在什么水平。但对于一个time series,通常在多阶预测后,其置信区间会变的大的无法接受。
所以应当只适宜做短期预测,长期无法准确预测。9、预测时间尺度如何选择?未来一天、一周、一个月、还是更长?
答,应根据预测值的置信区间是否在我们的可接受范围内来决定预测的时间尺度,当然在数据获得上必须要满足。10、如何将多因子模型预测与其他预测整合?
答:我认为可以参考多个模型预测的置信区间来协助判断,当置信区间重合良好时,我们可以认为预测是有效的。四、风险预测1、用于风险预测的多因子模型,在拟合时应侧重考虑哪些方面?
答:不太清楚这里的“风险”是指模型中被暴露的因子的风险(方差)的估计值;还是在获得多因子模型后,价格之间的协方差矩阵;如果是前者的话,可以根据基金的风险偏好调整风险资产在组合中的权重;后者的话,应关注价格之间的相关系数,在股票池选取的事后尽量分散风险,选择相关系数低的股票群。2、是否有必要预测收益的波动率?如何预测收益的波动率?是否要在优化中使用波动率?
答:有必要,最大回撤等指标都和波动率是相关的。
我认为不同的数据结构应当采用不同的估计方法,举例来说,波动率是否是自相关的、是否是平稳的等等,主要是应用时间序列的一些模型,如ARCH、GARCH等。
在优化中应当使用波动率,大的方向是在期望收益不变的前提下尽量减小波动率。3、多因子模型预测出的协方差举证是否会发生高度接近奇异的情况?
答,可能。协方差矩阵反应的是股票池中各只股票之间的相关关系,如果接近奇异,说明其中一只或几只股票和其他股票之间不存在相关性。我们可以适当的对该矩阵降维来分析其中有相关性的股票之间的关系。4、设我们称风险预测模型中的因子为“风险因子”,称收益预测模型中的因子为“alpha因子”,如果一个alpha因子也入选了风险因子,会对组合优化结果产生什么影响?如果在风险模型中特意剔除所有的alpha因子,会对组合优化结果产生什么影响?
答:会在调整波动率的时候同时改变了预期收益率。
特别剔除所有alpha因子是不合适的,如果该因子在风险预测模型中是显著的,那就说明他有益于正确的估计模型的波动率,若直接剔除,则会低估模型对风险的估计能力。5、BARRA的多因子风险预测模型主要在哪些有哪些精细化处理?
答:不知道。6、BARRA在不同的市场上用多因子风险预测模型之间的细微差异,反应了各个市场的哪些特点?
答:不知道。7、用日数据vs用月数据估计协方差矩阵,各适用于什么需求?用日内数据估计协方差举证的好处和坏处是什么?
答:一般来说,时间间隔越长,股票间的相关性越差,具体采用何种频率的矩阵,应当根据交易策略的特点,不要盲目选取。8、怎样衡量或评估风险预测模型的有效性?
答:应该还是一些统计学上的指标吧,比如卡方分布等等来检验实盘中的波动率和预测模型的波动率是否服从同一分布。五、业绩归因1、用于业绩归因的多因子模型,在拟合时应当侧重考虑哪些方面?
答:业绩归因是通过对历史上的收益及风险进行检验,分析各因子对收益率、风险的贡献。当模型存在共线性的问题是,可能会导致归因回归系数不稳健。2、有人认为,用于预测的多因子模型相比,
用于业绩归因的低共线性要求更高,请解释可能的原因?
答:问题同上,高的共线性会导致回归系数的不稳定导致错误的归因。3、业绩归因将组合收益分解为若干个因子上的收益和一个特异收益。一位有技术的定性投资经理的归因结果应该是什么?一位利用多因子量化模型选股的投资经理的归因结果是什么?
答:不知道。4、对一个已知策略逻辑大体思路的投资组合进行业绩归因时,采用标准的因子组vs采用针对性的因子组有什么利弊?
答:标准因子组能更好的进行策略间的比较,针对性的因子组能更好的对本策略进行归因。5、多因子业绩归因系统输出结果中,特异收益如果显著的偏正或者偏负,怎样解释?怎样调试归因系统来消除偏离?
答:在残差中存在未被提取的因子,即还存在对业绩归因统计显著的因子未被加入到归因模型中。可以通过改进归因模型,增加因子数来解决问题。6、纯多头组合业绩归因时,以以总头寸或者主动头寸为分析对象,各有什么利弊?
答:应根据被分析模型是否对冲该头寸来决定在归因时的分析对象。比如:某策略通过买入一系列股票同时卖出ETF300期货来对冲上证综指,那在归因分析时就应当使用主动头寸。7、如果不知道持股明细,只知道组合的每日收益
,怎样对其进行多因子业绩归因?误差会放大多少?
答:不知道。8、多因子业绩归因模型怎样与Brinson业绩归因模型结合使用?
答:不知道。2添加评论分享收藏

我要回帖

更多关于 虚拟变量回归模型 的文章

 

随机推荐