stata用test命令检验stata提取回归系数数b1+2b2=0,用的是F检验,这里的F统计量怎么算?


连玉君, 廖俊平, 2017, 如何检验分组回归後的组间系数差异?, 郑州航空工业管理学院学报 35, 97-109. ||


实证分析中经常需要对比分析两个子样本组的系数是否存在差异。 例如在公司金融领域,研究薪酬激励是否有助于提升业绩时模型设定为:

关注的重点是系数 。 我们经常把样本分成"国有企业(SOE)”“民营企业(PRI)”两个样本组繼而比较与是否存在差异。通常认为民营企业的薪酬激励更有效果,即

如果两个样本组中的模型设定是相同的,则两组之间的系数大尛是可以比较的而且这种比较在多数实证分析中都是非常必要的。

1.1 两个文献中的例子

下面使用 Stata 软件自带的数据集 nlsw88.dta 来对此问题进行初步说奣

这份数据包含了 1988 年采集的 2246 个妇女的资料,核心变量包括:小时工资 wage每周工作时数 hours, 种族 race 等变量

我们想研究的是妇女的工资决定因素。

最为关注的是白人和黑人(相当于把原始数据分成了两个样本组:白人组和黑人组)的工资决定因素是否存在差异

分析的重点集中於工龄(ttl_exp)和婚姻状况 (married) 这两个变量的系数在两组之间是否存在显著差异。

下面是分组执行 OLS 回归的命令和结果:

Table1: 白人组和黑人组工资影响因素差异对比

从统计意义上来看答案显然没有那么明确(小学五年级的小朋友会觉得这根本不是个问题!)。

5% 水平上显著为负而后者不顯著。

即便如此我们仍然无法直接作出结论:,因为二者的置信区间尚有重叠:

我们也可以使用 coefplot 命令更为直观地呈现上述关系下图中藍色方框部分的系数是两组估计系数置信区间的重叠区域。由于它的存在我们无法确信 。

2. 组间系数差异的检验方法

下面我们介绍三种检驗组间系数差异的方法:

  • 方法 1: 引入交叉项(Chow 检验)
  • 方法 2: 基于似无相关模型的检验方法 (suest)

引入交乘项来检验某个或某几个变量的系数是否存在组间差异只需在普通线性回归中加入交乘项即可。这是文献中最常用的方法执行起来也最简单。

下面以检验 ttl_exp 在两组之间的系数是否存在显著差异为例进行说明引入一个虚拟变量 ,若某个妇女是黑人则 ,否则 在如下命令中,black 变量即为这里的 模型设定为:

这是朂基本的包含虚拟变量,以及虚拟变量与一个连续变量交乘项的情形

显然,对于白人组而言,则 (1) 式可以写为:

对于黑人组,(1) 式可以寫为:

由此可见在 (1) 式中,参数 和 分别反映了黑人组相对于白人组的截距和斜率差异我们关注的是参数 ,它反映了 ttl_exp 这个变量在两个样本組中的系数差异

因此,检验 ttl_exp 在两组之间的系数是否存在显著差异就转变为检验

对于上述妇女工资决定因素的例子而言,通过引入交叉項来检验组间系数差异的命令如下:

为节省篇幅仅列出最关键的结果如下:

我们也可以不事先生成交乘项,而直接采用 Stata 的因子变量表达式(参见 )得到完全相同的结果:

然而,需要特别强调的是在上述检验过程中,我们无意识中施加了一个非常严格的假设条件:只允许变量 [ttl_exp] 的系数在两组之间存在差异而其他控制变量(如 married, south, hours 等) 的系数则不随组别发生变化。

这显然是一个非常严格的假设因为,从 -Table 1- 的结果来看, married south, hours 等变量在两组之间的差异都比较明显。

为此我们放松上述假设,允许 marriedsouth, hours 等变量在两组之间的系数存在差异:

当然,我们也可以采用更为靈活的方式:允许所有的变量在两组之间都存在系数差异(注意:所有离散变量前都要加 i. 前缀否则将被视为连续变量进行处理(对于取徝为0/1的虚拟变量,可以省略前缀 i.);连续变量则需加 c. 前缀):

这其实就是大名鼎鼎的 Chow test (邹检验)可以用 chowtest 命令快捷地完成。

C. 引入交叉项法嘚假设条件

通过引入交叉项来检验组间系数差异虽然操作上非常简洁但需要注意这一方法背后隐含的假设条件(为了便于说明,重新将 (1) 式列出):

因此当其它变量的系数在两组之间也存在明显差异(A1 不满足),或存在异方差(A2 不满足)时上述检验方法得到的结果都存茬问题。

  • 对于 A1实际操作过程中,可以通过引入更多的交乘项来放松 A1如上文提到的 Model 2 或 Model 3。
  • 对于 A2 则可以在上述回归分析过程中加入 vce(robust) 选项,鉯便允许干扰项存在异方差;或加入 vce(cluster varname) 以便得到聚类调整后的稳健型标准误当然,也可以在模型中允许二维聚类标准误此时可以使用 vce2way 等命令。

最后需要说明的是虽然在上述范例中,我们是以基于截面数据的 OLS 回归为例的但这一方法也适用于其他命令,如针对面板数据的 xtreg, 針对离散数据的 logit, probit


顾名思义,所谓的似无相关模型(seemingly unrelated regression)其实就是表面上看起来没有关系但实质上有关系的两个模型。这听起来有点匪夷所思这种“实质上”的关系其实是假设白人组和黑人组的干扰项彼此相关。为了表述方便将白人和黑人组的模型简写如下:

若假设 ,则我们可以分别对白人组和黑人组进行 OLS 估计然而,虽然白人和黑人种族不同但所处的社会和法律环境,面临的劳动法规都有诸多相姒之处使得二者的干扰项可能相关,即 此时,对两个样本组执行联合估计(GLS)会更有效率(详见 Greene (2012, Econometric analysis, 7th ed, 292–304))

执行完 SUR 估计后,我们就可以对兩组之间的系数差异进行检验了

从上面的原理介绍,可以看出基于 SUR 估计进行组间系数差异检验时,假设条件比第一种方法要宽松一些:

我们可以采用两种方法来执行似无相关检验:一是使用 Stata 的官方命令 suest;二是使用外部命令 bdiff后者语法较为简洁。

在 Stata 中执行上述检验的步骤為:

  • Step 1: 分别针对白人组和黑人组进行估计(不限于 OLS 估计可以执行 Logit, Tobit 等估计),存储估计结果;
  • Step 3: 使用 test 命令检验组间系数差异
*-Step1: 分别针对两個样本组执行估计

Step 2 的结果如下(为便于阅读,部分变量的系数未呈现):

对上述命令和结果的简要解释如下:

  • 白人组和黑人组的估计结果汾别存储于 wb 两个临时性文件中;
  • 执行 suest w b 命令时白人组和黑人组的被视为两个方程,即文的 (2a) 和 (2b) 式Stata 会自动将两个方程对应的样本联合起来,采用 GLS 执行似无相关估计(SUR);
  • 由于 SUR 属于多方程模型因此需要指定每个方程的名称,在下面呈现的回归结果中[w_mean][b_mean] 分别是白人组和黑人組各自对应的方程名称。因此[w_mean]ttl_exp 表示白人组方程中 ttl_exp 变量的系数,而

执行组间系数差异检验的结果如下(Step 3):

此时ttl_exp 在两组之间的系数差异仍然不显著,这与采用第一种方法得到的结论是一致的在我们测试的三个变量中,只有 south 的系数在两组之间存在显著差异对应的 p-value 为 0.0169。

上述过程可以使用我编写的 bdiff 命令非常快捷的加以实现结果的输出方式也更为清晰(在 Stata 命令窗口中输入 ssc install bdiff, replace 可以下载最新版命令包,进而输入 help bdiff 查看帮助文件):

  • 使用 suest 时允许两个样本组的解释变量个数不同。但由于一些技术上的问题尚未解决(很快可以解决掉)bdiff 命令要求两个样本组Φ的解释变量个数相同。在上例中白人组在 Mining 行业的观察值个数为零(输入tab industry black 可以查看),导致我们加入行业虚拟变量时白人组只有 10 个行業虚拟变量,而黑人组则有 11 个行业虚拟变量为此,在上述命令中我使用 drop if industry==2 命令删除了 Mining 行业的观察值。

C. 面板数据的处理方法

  • suest 不支持 xtreg 命令洇此无法直接将该方法直接应用于面板数据模型,如 FE 或 RE此时,可以预先手动去除个体效应继而对变换后的数据执行 OLS 估计,步骤如下:

    • step 1: 对于固定效应模型而言可以使用 centerxtdata 命令去除个体效应;对于随机效应模型而言,可以使用 xtdata 命令去除个体效应
    • step 2: 按照截面数据的方法對处理后的数据进行分组估计,并执行 suest 估计和组间系数检验
*-对核心变量执行组内去心:去除个体效应
  • 相对于方法1(引入交乘项),基于 SUR 嘚方法更为灵活一些在上例中,白人组和黑人组的被解释变量相同 (均为 wage)此时方法 1 和方法 2 都能用。有些情况下两个组中的被解释變量不同,此时方法 1 不再适用而方法 2 则可以。
  • 对于面板数据而言可以预先使用 centerxtdata 命令去除个体效应,变换后的数据可以视为截面数据使用 regress 命令进行估计即可。
  • 为了便于呈现结果可以使用estadd 命令将上述检验结果(chi2 值或 p值) 加入内存,进而使用 esttab 命令列示出来可以参考 help bdiff 中的类姒范例。

将二者的系数差异定义为 检验的原假设为: 。

这里 是一个统计量,若能知道其分布特征便可通过分析 在 的分布中的相对位置来判断我们实际观察到 的概率。若概率很小则表明 是小概率事件,此时拒绝原假设反之则无法拒绝原假设。

例如若假设 服从标准囸态分布,即 则基于实际观察到的 ,我们很容易得出结论:无法拒绝原假设即两组之间的 ttl_exp 的系数不存在显著差异。p-value 很容易计算 (当然吔可以查表得到):

然而,我们并不知道 的分布特征此时,可以对现有样本进行重新抽样以得到经验样本 (empirical sample),进而利用经验样本构造出组間系数差异统计量 的经验分布 (empirical distribution)从而最终得到经验 p 值 (empirical p-value)。

下面先通过一个小例子说明 “经验 p 值”“经验分布” 的概念进而介绍使用组合檢验获得 “经验 p 值” 的流程。

在这个小例子中我们先随机生成一个服从标准正态分布的随机数 ,共有 10000 个观察值这些观察值是通过模拟產生的。如果这些观察值构成的样本是通过从原始样本(原始样本是从母体中一次随机抽样称为 “抽样样本,sample”)中二次抽样得到的則称为 “经验样本 (empirical sample)”。

上例中我们假设 服从标准正态分布,从而可以通过 Monte Carlo 模拟的方式产生 10000 个观察值这事实上是构造了一个经验样本。泹多数情况下我们并不知道 的分布特征,此时无法使用 Monte Carlo 模拟然而,若假设抽样样本 (sample) 是从母体 (population) 中随机抽取的则可以通过抽样样本中二佽抽样得到经验样本 (empirical sample),这些经验样本也可以视为对母体的随机抽样

D. 费舍尔组合检验的步骤

若 是正确的,则对于任何一个妇女而言(不论她是白人还是黑人)其 对 的边际影响都是相同的。因此我们可以将白人组和黑人组的观察值混合起来,从中随机抽取 个观察值并将其视为"白人组",剩下的 个观察值可以视为“黑人组”

需要说明的是,由于 的分布未必是对称的因此, 与 都可以视为在 5% 水平上拒绝原假設的证据因为,前者意味着 在 1000 个 中属于非常大的数值而后者意味着它是非常小的数值。无论如何在原假设 下观察到 都是小概率事件,也就意味着原假设是不合理的

上述过程可以使用连玉君编写的 bdiff 命令来实现。在命令窗口中输入 ssc install bdiff, replace 可以自动安装该命令帮助文件中提供叻多个范例。

例1:不考虑行业虚拟变量

上述过程大约用时 13 秒结果如下:

可以看到,ttl_exp 的经验 p 值为 0.49表明白人和黑人组的 ttl_exp 系数不存在显著差異;married 变量的 p 值为 0.08,我们可以在 10% 水平上拒绝原假设细心的读者会发现,该变量对应的 Freq = 920为什么?(答案在上面 Step 5 处)

例1:考虑行业虚拟变量

若需在模型中加入虚拟变量,处理过程会稍微复杂一些需要手动生成行业虚拟变量,并保证两个样本组中参与回归的行业虚拟变量个數相同此外,书写命令时不能使用通配符。(后续版本的 bdiff 命令会使用 fvunab 命令解决这些 bugs)

*-数据预处理(可以忽略)

若原始数据为面板数据,通常会采用 xtreg, xtabond 等考虑个体效应的方法进行估计抽样过程必须考虑面板数据的特征。在执行 bdiff 命令之前只需设定 xtset id year,声明数据为面板数据格式则抽样时便会以 id (公司或省份代码) 为单位,以保持 id

耗时 608 秒方可完成结果如下:

  • first 选项便于将组间系数差异检验结果保存在内存中,方便后續使用 esttab 合并到回归结果表格中具体使用方法参见 help bdiff
  • 由于抽样过程具有随机性因此每次检验的结果都有微小差异。在投稿之前可以附加 seed() 选项,以保证检验结果的可复制性
  • 其他选项和使用方法参阅 help bdiff 的帮助文件。

如下论文使用了这一方法检验了 “投资-现金流敏感性” 分析Φ的组间系数差异:

  • mtest 命令基于组合检验的思想来检验两个样本组是否具有相同的分布
  • tsrtest, mwtest 命令用于检验两个样本组的均值,中位数方差等哆个维度的差异。
  • 上述命令都可以使用 findit 命令搜索到或直接用 ssc install 命令下载安装。

方法无优劣无论选择哪种方法,都要预先审视一下是否符匼这些检验方法的假设条件

  • Stata 连享会(公众号:StataChina)】由中山大学连玉君老师团队创办,旨在定期与大家分享 Stata 应用的各种经验和技巧
  • 公众号嶊文同步发布于 、 和 。可以在上述网站中搜索关键词StataStata连享会后关注我们
  • 点击推文底部【阅读原文】可以查看推文中的链接并下载相关資料。
  • 欢迎赐稿: 欢迎将您的文章或笔记投稿至Stata连享会(公众号: StataChina)我们会保留您的署名;录用稿件达五篇以上,即可免费获得 Stata 现场培训 (初级戓高级选其一) 资格
  • 意见和资料: 欢迎您的宝贵意见,您也可以来信索取推文中提及的程序和数据
  • 招募英才: 欢迎加入我们的团队,一起学习 Stata合作编辑或撰写稿件五篇以上,即可免费获得 Stata 现场培训 (初级或高级选其一) 资格

原标题:Stata15版新功能你竟然没有想到,一睹为快

注:后台回复“stata15” 即可获得软件

2017年6月Stata 15正式发布。这是Stata有史以来最大的一次版本更新我们贴出了Statalist并且列出了16项最重要的噺功能。这篇文章会重点谈谈这些新功能:

?潜在类别分析(LCA)

?线性动态随机一般均衡(DSGE)模型

?空间自回归模型(SAR)

?区间删失参数生存时间模型

?有限混合模型(FMMs)

?聚类随机设计和回归模型的功率分析

?图形颜色透明度/不透明度

?联邦储备经济数据(FRED)支持

我们称之為ERMS 扩展回归模型四个新的命令适合

.区间回归包括 tobit模型,

这些新的命令让人惊喜因为可以在任何一个方程中加入内生变量,包括处理赋徝和概率选择方程内生变量并不局限于连续性。它们可以是二进制或序数不管是外生的还是内生的,它们都可以与其他变量相互作用它们甚至可以互相作用,形成平方项或立方项!

这些新的ERM命令—eregress, eintreg, eprobit, 和eoprobit注定会流行起来因为他们解决了研究人员的很多问题。首先, 可能有┅个内生变量, 因为许多模型都省略了与模型中的变量相关的变量其次,数据经常被删剪而删剪不是随机的。ERM 样本选择选项允许您对选擇过程进行建模, 并对其进行调整或者, 如果您正在使用非随机处理效应模型, 则可以用 ERM处理分配选项。或者, 可以结合处理分配和选择选项, 其Φ一些是由于后续的行为而损失的拟合内生处理分配模型

Eregress适合线性回归。可以很容易地把概率模型拟合成线性回归模型如果结果变量y昰二进制的,则键入:

如果结果变量y是连续的但变量x2是二进制的,则键入

如果y和x2都是二进制的则键入

如果想知道奇怪的nomain选项的详细情況。当指定endogenous(name=…)时变量name会自动添加到主方程中。可以键入

无论哪种方式相同的模型都是可以的。在前面的例子中指定了nomain所以我不需要解释包括主方程X2的这个选项。

2. 潜在类别分析(LCA)

潜在的均值未被观测分类也就是分组。潜在类是数据中未观测到的组你可能有关于消費者的数据,并且根据消费者对产品的潜在兴趣将他们分成三组但是,在数据中没有指定每个消费者所属组的变量如果有四个二进制變量,它们是消费者所属的潜在类的指示信号可以键入

y1, y2, y3,和 y4 被观测。Consum是潜在的分类变量lclass(Consum 3)指定为3这个值。其结果是拟合一个模型, 其中 y1、y2、y3 囷 y4 是由未观测的类确定四y变量中一个和三类中的一类,命令适合4×3 = 12 逻辑回归分析每个回归都有一个截距。此外多项逻辑回归也可以鼡来预测Consum。

.使用新的estat lcprob命令估计属于每一类的消费者比例;

.使用新的estat lcprob命令估计每个类中Y1、Y2、Y3、Y4的边际均值(均值就是示例所示的概率);

.使鼡现有的predict 命令获取分类成员的预测概率和观测结果变量的预测值

新的bayes:前缀命令使你能够适应比以前版本更广泛的贝叶斯模型。原来也鈳以拟合贝叶斯线性回归, 但是现在可以通过输入文字就可以:

这非常方便以前不能做拟合贝叶斯生存的模型。现在可以:

甚至可以拟合贝葉斯多级生存模型:

在这个模型中, 为变量 id的每个值添加随机截距

新的bayes:前缀命令在许多Stata评估命令之前工作,并提供超过50种可能性的模型支持的模型包括多级、面板数据、生存和样本选择模型!

新命令支持所有Stata的贝叶斯的功能。你可以从之前的模型参数的分布中选择也可以使用之前默认的。当闭合形式解决方案用于Gibbs方法时可以使用默认的自适应 Metropolis–Hastings 抽样, 或Gibbs抽样, 或两种方法的组合。在bayesmh命令的基础上可以使用STATA的任何其他功能可以更改stata提取回归系数数的缺省先验分布,比如使用prior()选项:

4. 线性动态随机一般均衡(DSGE)模型

DSGEs 是经济学中的一个时间序列模型。它们是传统预测模型的替代品两者都试图解释总的经济现象, 但 DSGEs 允许对来自经济理论模型的基础上做这个。建立在经济理论基础上嘚方程很多这些方程的关键特征是, 未来变量的期望值会影响今天的变量。这是区别 DSGEs 与矢量回归或状态空间模型的一个特性另一个特点昰,从理论推导出来的参数通常可以用这个理论来解释。

这里是如何在Stata中拟合一个双方程DSGE 模型大括号, {}, 用于把参数括起来:

p是一个控制变量, 而 y 昰状态空间术语中的状态变量。f.是正向运算符

表示y的预期未来值是现在的 {rho}*y。stata选项指定y是一个状态变量

在DSGE模型中有三种变量:

.控制变量囷方程,如p没有冲击,并且是由方程组决定的

.状态变量 (如 y) 具有隐含的冲击, 在时间段开始时是预先确定的。

.冲击是驱动系统的随机错误

在任何情况下, 以上dsge 命令可以定义一个模型并拟合。

如果我们有一个关于 beta 和kappa之间关系的理论,比如它们是相等的, 我们可以用现有的命令test来测试它

显示将控制变量作为状态变量的线性函数。如果有五个控制变量和三个状态变量, 则每个控件将被报告为三个状态的线性函数在上面的簡单例子中, 预测 p 的线性函数将显示为现在的 y 函数。

报告转换矩阵而策略矩阵将 p 报告为函数y, 而转换矩阵则报告y 如何通过时间演变为p。可以使用Stata的现有预测命令来生成预测可以使用Stata现有的irf命令来绘制脉冲响应函数。

你有没有听过Markdown它是一种创建 html 文档的流行方式。html 文件是繁琐嘚Markdown简单直观,想法很简单可以创建一个文件, 其中包含所需的可读格式的文本, 然后通过它运行一个命令来创建一个HTML文件。

Stata现在支持Markdown, 我们巳经添加了标签 (功能) 到Markdown, 允许包括输入文件中的Stata命令你所包含的命令将被运行和显示, 或者以秘密方式运行, 以及提取输出的部分供文档使用。

您可以创建一个文件例如

在Stata中,你可以输入

dyndoc代表动态文档创建的Markdown文件是动态的, 如果数据发生变化, 你可以通过简单的输入重新创建网頁。

6. 非线性混合效应模型

非线性混合效应模型也被称为非线性多级模型和非线性层次模型可以用两种方式来考虑这些模型。可以把它们看成包含随机效应的非线性模型或者可以把它们看成线性混合效应模型, 其中一些或所有的固定和随机效应都是非线性的。不管哪种方式, 總的误差分布假设成Gaussian分布

这些模型在人口药代动力学, 生物鉴定和研究生物学和农业成长过程中很流行。比如采用非线性混合效应模型對机体的药物吸收、地震强度和植物生长进行了模拟。

新的评估命令被命名为 menl它实现了 popular-in-practiceLindstrom–Bates 算法, 是基于对固定和随机效应的非线性均值函數进行线性化。支持最大似然和受限最大似然估计方法Menl易于使用。可以直接输入单个方程大括号{ },用于将要匹配的参数括起来:

menl可以擬合多级或多层次的规范其中参数将每个层级定义为模型参数和随机效应函数。

这个和上一个模型是一样的此外,b2和b3允许在不同的plant间變化几个方差-协方差结构可用于在同一个层级上对随机效应的相依性进行建模。如果你想建模的话可以把上面例子中的相依性设在U1,U2囷U3之间虽然没有明确说明,在这个模型中存在一个组内错误方差协方差结构灵活应用于异方差和组内相关性的建模。异方差可以建模為一个协变量或预测平均值的幂函数相依性可以使用任意阶的自回归模型进行建模。

除了标准功能外, postestimation特征还包括对随机效应及其标准误差的预测对模型中定义的感兴趣参数的预测, 作为其他模型参数和随机效应的参数、聚类相关矩阵的整体评估等。

7.空间自回归模型(SAR)

Stata适匼空间自回归 (SAR) 模型, 也称为同步自回归模型新的spregress, spivregress, 和spxtregress命令允许因变量的空间滞后、自变量的空间滞后和空间自回归误差。空间滞后是时间序列滞后的空间模拟时间序列滞后近年来成为变量值。空间滞后是附近地区的值

该模型适用于区域数据, 也称为区域性数据。观测结果被稱为空间单位, 可以是国家、州、区、县、市、邮政编码或城市街区或者它们可能根本就不是地理位置。它们可能是社交网络的节点空間模型评估直接影响—区域对自身的影响,并估算邻近地区的间接或溢出效应

有一个全新的 [SP] 手册专门介绍Stata的新SAR功能。这些命令被称为 Sp 命囹它们可以与以下一起工作:

. ?没有shapefiles 和数据,只包含位置的坐标或者

. ?没有 shapefiles没有位置会出现社会网络数据。

下面是它如何与shapefiles一起工作嘚访问了美国人口普查局网站并下载tl_2016_us_county 文件。你现在键入

您已经准备好定义空间加权矩阵和拟合空间滞后模型

只拟合 (1) college (2)的依赖变量的空间滯后和(3) college空间滞后的unemployment模型。该模型也有自回归误差空间滞后变量采用W计算,空间滞后误差采用m计算

8.区间删失参数生存时间模型

Stata新的stintreg 命令加入 streg, 用于拟合参数生存模型。 stintreg 拟合区间删失数据模型在区间删失数据中,故障时间并不确定众所周知, 受试者还没有失败的时候, 以及后來他们已经失败的时候。

stintreg 拟合指数Weibull, Gompertz, 对数正态分布、对数逻辑和广义的gamma 生存时间模型。支持比例风险和加速故障时间度量功能包括

通过 svy 湔缀支持调查数据评估。

9. 有限混合模型(FMMs)

新的fmm:当数据来自未观测到的亚群时, 前缀命令拟合模型它可以与17 个Stata评估命令一起使用。

大多数鼡户使用fmm来拟合模型中的参数 (系数、位置、方差、比例等) 在不同亚群之间的变化在这些模型中,未观测到的亚群称为类比如说你感兴趣的拟合模型。

但你认为有三类模型的参数可能会有所不同尽管没有记录类成员身份的变量, 但可以将

报告将是三个线性回归—每个类为┅个—与预测类成员的模型一起。

fmm:当类可能遵循不同模型时, 也可以同时使用多个评估命令, 如

在这两个类的例子中, 报告将是第一类线性回归模型 Poisson回归是第二类, 以及预测类成员模型。

每个分类在总人口的比例中Postestimation 命令可用于 (1) 评估,(2) 报告类内结果变量的边际均值(3) 预测类成员的概率和预测结果。

Stata已经拟合多项Logit模型Stata15能使它们拟合混合形式, 包括随机系数。

随机系数对拟合多项式逻辑模型具有特殊的意义它们是围繞Independence of the Irrelevant Alternatives (IIA)假设一种方式。这一假设表明, 如果你选择步行去工作, 当你的选择是步行, 乘坐公交车, 或自驾, 你仍然选择步行, 即使你没有选择不可再用的一個选项如果选项是在步行或开车之间,你仍然会选择步行人类有时行为不同。

IIA假设在协变量的条件下,选择是独立的如果违反这种假設, 选择将是相关的。随机系数允许选择相关性研究人员经常在随机效用模型和离散选择分析的中使用混合模型。Stata新的asmixlogit Logit命令支持各种随机系数分布, 并允许包含特定案例变量的模型

Stata现在适合非参数回归。在这些模型中, 不指定函数形式指定变量并指定想要匹配的变量:

匹配項是g()。该方法不假定 g () 是线性的;它也可以

该方法甚至不假定 g () 在参数中是线性的它也可以

报告是y偏导数的平均值, x1, x2 和x3 和标准错误平均值是根据数据计算的。在拟合模型后, 可以使用predict获得预测的数值

平均导数类似于系数,或者至少模型是线性的, 而它不是。要知道非线性模型中的岼均导数并不是平均导数你可能想知道在变量的平均值中x1, x2, 和 x3的y 的导数。可以使用 margins获取:

或者, 您希望在特定的兴趣点上评估预测值,

绘制这个函数的一部分

另外, margins不仅可以计算, 它还能产生引导标准错误

12. 聚类随机设计和回归模型的功耗分析

Stata现有的power命令执行功率和样本(PSS) 分析。其功能包括PSS线性回归和集群随机设计 (CRDs)现在可以添加你自己的功率和样本大小的方法。

. power oneslope在一个简单的线性回归中对斜率测试执行pss。根据给萣的其他研究参数计算样本的大小或功率

. power pcorr在多元线性回归中执行PSS的部分相关测试。部分相关检验是平方偏多相关系数 f的 检验该命令根據其他研究参数计算样本大小或功率或目标平方偏相关系数。

Stata 15现在还支持集群随机化设计:

在CRD中, 组的受试者 (集群) 是随机的而不是个体, 这意菋着样本大小的作用是通过数字集群和集群大小来发挥的样本大小确定包括给定集群大小的数量或给定集群的大小。CRD命令计算 (1) 的一个集群的数目,(2)的集群大小, 或 (3)的功率, 或最小的可检测到的效果大小给定的其他参数这些命令可以根据不相等的集群大小调整选项。

.当指定新的選项集群时,现有的5个 power方法将扩展到支持CRDs它们是

.对于两个样本方法, 还可以针对两个组中的不相等的集群进行调整。

与所有其他功率方法一樣, 新方法允许指定参数的多个参数值, 并自动生成表格和图形结果

另一个新功能是可以添加自己的PSS方法。这是很容易做到的编写一个计算样本大小、功率或效果大小的程序。power命令将为您完成其余部分它将处理选项中多个值的支持, 并且自动生成图形和结果表。

现在, 使用Stata嵌叺的结果生成 Word和 PDF档就像制作 Excel 工作表一样容易大多数使用者喜欢Stata 14中的putexcel,如果你也是他们中的一员你会爱上新的 putpdf和putdocx命令。他们像putexce一样工作可以编写do-file来创建包含最新结果、表格和图表的整个Word 或 PDF报表。可自动执行可重复的报告

新的 putdocx命令将段落、图像和表格写入 word 文档 (. docx 文件)。图潒包括Stata图形和组织的标志也可以设置文本对象的格式。包括字体大小、粗体、倾斜、自定义表等

14. 图形颜色透明度/不透明度

到现在为止, 茬另一个上面画一个物体, 上面的物体盖住下面的物体。在计算机图形学的行话中, Stata颜色完全不透明, 或者, 如果你喜欢不完全透明Stata15允许控制其顏色的不透明度。不透明度指定为一个百分比默认情况下, Stata的颜色是100% 不透明的。

每当指定一个颜色时都可以指定不透明度例如在mcolor ()选项中控制标记的颜色。你可以指定green%50而不是green。你可以指定"0 255 0%50".而不是"0 255 0%50"(相当于绿色)可以自行指定%50, 使默认颜色50%不透明。

但是, 不要指定%0这是完全透明的, 也是无形的。

这里是一个图表使用70%的不透明度:

1998年以来, Stata的ICD命令从仅仅是一个自动的有效代码和简短短语列表, 成为ICD代码的整个数据管悝系统。该系统甚至包括在一个数据集中管理多个ICD版本的能力!

16. 联邦储备经济数据(FRED)支持

圣路易斯联邦储备局向注册用户提供超过47万的美國和国际经济和金融时间序列注册是免费的并且很容易做。这项服务叫FRED它包括来自84个来源的数据, 包括美联储、宾州世界表、欧统局和卋界银行。

Stata 15中你可以使用Stata的GUI来访问和下载FRED数据。可以按类别、发布或来源进行搜索或浏览可以单击选择感兴趣的系列。选择1或选择100當您点击下载"时, Stata将下载它们并将它们合并到一个内存中的单个自定义数据集中。

Stata命令行界面也提供了这些相同的功能命令是import fred。当追踪月報表需要自动更新27个不同系列时, 该命令非常方便

在Stata功能页面中了解更多上述功能, 还有以下功能:

.具有随机系数的面板数据tobit

.区间测量结果嘚多层回归

.删失结果的多级Tobit回归

.时间序列中多断点的测试

.具有随机系数的面板数据非线性模型

.随机系数的面板数据区间回归

.添加您自己的電源和样本大小的方法

.对DO文件编辑器的改进

.对于java插件的改进

我要回帖

更多关于 stata提取回归系数 的文章

 

随机推荐