以下文章来源于连享会 ,作者连享会
作者:曹琳君 (南开大学)
邮箱:linjuncao@yeah.net
编者按:本文主要摘译自下文,特此致谢!
Source:King G, Tomz M, Wittenberg J. Making the most of statistical analyses: Improving interpretation and presentation[J]. American journal of political science, 2000: 347-361. -PDF-
目录
1. 引言
2. 常用统计模型分析展示
2.1 一般线性回归模型
2.2 一般逻辑回归模型
2.3 时间序列横截面回归模型
2.4 多项 Logit 模型
2.5 截尾回归模型
3. CLARIFY 命令的 Stata 运用
3.1 命令安装及基本语法介绍
3.2 具体示例
4. 参考资料
5. 相关推文
1. 引言
在之前的推文中,我们介绍了在解释和展示实证结果时会遇到的不确定性问题,以及使用统计模拟的方法应对不确定性的步骤与技巧。在本推文中,我们主要分享 King 等 (2000) 所展示的常见统计模型示例,并具体演示 CLARIFY 命令在 Stata 中的运用。
2. 常用统计模型分析展示
为了说明 CLARIFY 命令的算法在实践中是如何工作的,King 等 (2000) 以 5 个模型为例进行了展示,具体如下:
2.1 一般线性回归模型
根据 Tufte (1974),King 等 (2000) 估计了美国各州政府规模的对数回归模型。在该模型中,因变量 是 1990 年州政府全职雇用的人数 (以 1000 人为单位) 的自然对数,两个主要解释变量是州人口的对数 和众议院议员中民主党人数所占比例 。King 等 (2000) 使用预测值算法来预测一个拥有 600 万人口和 80% 民主党人的州的政府雇员人数。
首先,King 等 (2000) 使用论文附录中所述的统计软件估计对数线性模型,并模拟一组效应系数 和辅助参数 的值。接下来,我们将主要解释变量设置为 和 ,进而可以构建 并计算 。然后,我们从正态分布 中得出 。最后,我们计算了 ,并将模拟值转换为实际的政府雇员人数,这个数字似乎比其自然对数更容易理解。
通过重复这个过程 1000 次,我们生成了 1000 个预测值,并按从最低到最高对这些预测值排序。第 25 位和第 976 位的数字代表 95% 置信区间的上限和下限。因此,我们以 95% 的信心预测州政府将雇用 73000 至 149000 人。我们最好的猜测是 106000 名全职员工,这是预测值的平均值。
我们还计算了一些预期值和最初的差异,发现将民主党控制权从众议院的一半增加到三分之二,往往会使州政府的就业人数平均增加 7000 人。围绕第一个差异的 95% 置信区间在 3000 到 12000 名全职员工之间。我们的研究结果可能值得跟进,因为据我们所知,研究人员在国家政治文献中没有提到这种关系。
2.2 一般逻辑回归模型
我们的例子借鉴了 Rosenstone 和 Hansen (1993) 的工作,他们试图解释为什么一些人比其他人更有可能在美国总统选举中投票。继罗森斯通和汉森之后,我们收集了在总统选举年进行的每项全国选举研究的数据。如果受访者报告在总统选举中投票,我们的因变量 编码为1,否则编码为 0。
为了便于解释,我们将重点放在 Rosenstone 和 Hansen (1993) 强调的几个人口统计学变量上:年龄 (Ai) 和教育 (Ei) 以年计,收入 (Ii) 以 10 万美元计,种族 (白人编码 Ri=1,其他情况为 0)。我们还包括一个二次项来检验这样一个假设,即投票率随着年龄的增长而上升,直到被调查者接近退休时,这种趋势就会逆转。
因此解释变量集合是 。总统选举中的投票概率是 。我们估计了两种不同教育水平和整个年龄范围内的投票可能性,以及周围的不确定性,同时保持其他变量的平均值。在每种情况下,我们重复期望值算法 M=1000 次,以估计投票概率的 99% 置信区间。
结果如下图 1 所示:在 45 岁到 65 岁之间,投票的概率稳步上升到一个稳定的水平,然后在退休年龄逐渐下降。该图还显示,在年龄的两个极端情况下,与预期值相关的不确定性最大:代表 99% 置信区间的垂直条的受访者最年轻或最年长。
2.3 时间序列横截面回归模型
传统观点认为,市场全球化迫使政府削减公共支出,但 Garrett 的新书提供了相反的证据。Garrett 认为强大的左翼政党和包括工会在内的工会同时出现时,全球化会导致政府支出占 GDP 的比例增加,而在左翼和劳工力量薄弱的国家则会出现相反的情况。为了支持他的论点,Garrett 构建了一个由经济变量和政治变量组成的面板数据,对 1966 年至 1990 年期间的 14 个工业民主国家进行了年度测量。King 等 (2000) 复现了这一结果:因变量 是每个国家的政府支出占 GDP 的百分比,主要解释变量是资本流动 () ( 的值越高表示政府对跨境资金流动的限制越少),贸易值 (贸易值越大意味着对外贸易占国内生产总值的比例越大) 和左派权力 (分数越高,左派政党和工会的结合就越强)。
模型计算结果如表 1 和图 2 所示:首先,无论市场整合水平如何,当左翼劳动力水平高时,政府支出总是大于其水平 (每个表格中第二行的条目都超过了第一行的值)。第二,在高贸易和资本流动性的案例中,低左劳动力和高左劳动力之间的差距比在低市场整合的案例中更大,这意味着党派政治对政府的影响更大。最后,在左翼劳动力较低的地方,如果一个人的市场整合水平从低水平上升到高水平,政府支出就会减少,但在左翼劳动力水平较高的地方,情况则相反。
2.4 多项 Logit 模型
借鉴 Domínguez 和 McCann (1996) 的研究,King 等 (2000) 三位学者探讨了公民意愿对 1988 年墨西哥总统选举的影响。在该研究中,Domínguez 和 McCann 使用多项 Logit 模型解释为什么一些选民更倾向于某个候选人。在该模型中,因变量 是候选人,自变量 是公民意愿,模型总结如下:
影响参数可以随着候选变人的不同而变化,因此 , 和 是不同的向量,每个向量都有 个元素。
模拟的结果如图 3 所示:图中的坐标表示在不同的模拟选举结果下,每个候选人所获得的选票的预测比例。简单地说,一个点离其中一个顶点越近,其名字出现在该顶点上的候选人获得的选票比例就越大。接近中间的一个点表明模拟选举是平局。我们还在图中添加了 “获胜线”,将三元图划分为多个区域,表明哪个候选人获得了多数票,从而赢得了模拟选举
2.5 截尾回归模型
借鉴 Bueno de Mesquita 和 Siverson (1995) 的研究,King 等 (2000) 三位学者使用截尾回归模型探讨了战争对政治领袖生存的影响。在该模型中,因变量 是领导人 在战争爆发后在位的年数,四个自变量分别为领导人在战前的任期 (以年为单位),战前任期与民主之间的相互作用,每 10,000 居民的战斗死亡人数,以及一个指示领导人是否赢得战争的虚拟变量,模型总结如下:
其中 是辅助参数, 是函数。
模拟的结果如图 4 所示,显示了以战前任期为条件的威权主义者和民主主义者生存时间的密度估计。虚线对应的是战前领导人的平均任期,而实线代表的是有额外十年战前经验的领导人的密度。图中的箭头表示每个场景下的中位数结果。左图 (a) 中的箭头比右图 (b) 中的箭头间距更大,这有力地支持了作者最初的主张,即战前任期对独裁主义者比民主主义者更重要。平均而言,经验丰富的威权主义者比经验不丰富的同行保住权力的时间要长 11.8 年;相比之下,民主党在战前的 10 年任期只延长了 2.8 年。
综上,作者建议到统计模型的数据解读不应该只是简单的数字堆砌,而应该用通俗易懂的语言精确描述数据背后的信息。
3. CLARIFY 命令的 Stata 运用
在本小结,本文将演示 King 等 (2000) 开发的用以展示数据结果的命令 CLARIFY。软件的详细信息可以从网站「GARY KING」处获得。
3.1 命令安装及基本语法介绍
安装命令如下:
cnssc install clarify, replace
CLARIFY 由以下三个 Stata 命令组成:
*命令 1
estsimp logit Y X1 X2, sims(1000)
其中,Y 是因变量,X1 和 X2 是自变量,sims 括号中的数字表示重新的次数。
*命令 2
setx X1 mean X2 0
simqi, prval(1)
该命令表示将 设置为均值, 设置为零,模拟得到 的预测概率,以及它的标准差和 95% 的置信区间。
*命令 3
simqi, prval(1) fd(prval(1))
changex(X2 0 1)
该命令表示为了估计模拟的预测概率的变化,以及它的标准差和 95% 置信区间,当 保持其均值, 从 0 到 1 的变化情况。
3.2 具体示例
以上文中图 2 和 图 3 的数据获取为例,命令代码如下:
set seed 9999
noisily estsimp logit DVMAKE SIZE TENURE USFIRM JAPANFIRM ASIANFIRM ///
SMALLNO SMALLNOSQ ASSETSPEC DEMANDUNC ASSETxUNC FABEXPERIENCE ///
SOURCEXPERIENCE DIVERSIFI DIVERSSQ
oreach var of newlist X Y0 Y1 Y0lb Y1lb Y0ub Y1ub dY dYlb dYub {
gen `var' = .
}
forvalues obs = 1(1)18 {
replace X = .01*(òbs'+1) in òbs'
setx 0
setx DEMANDUNC .01*(òbs'+1)
foreach as_lev in 0 1 {
setx ASSETSPEC às_lev' ASSETxUNC às_lev'*.01*(òbs'+1)
simqi, genpr(Yàs_lev'_tmp) prval(1)
sum Yàs_lev'_tmp, meanonly
replace Yàs_lev' = r(mean) in òbs'
_pctile Yàs_lev'_tmp, p(2.5,97.5)
replace Yàs_lev'lb = r(r1) in òbs'
replace Yàs_lev'ub = r(r2) in òbs'
}
gen dY_tmp = Y1_tmp - Y0_tmp
sum dY_tmp, meanonly
replace dY = r(mean) in òbs'
_pctile dY_tmp, p(2.5,97.5)
replace dYlb = r(r1) in òbs'
replace dYub = r(r2) in òbs'
drop *_tmp
}
twoway rbar Y0ub Y0lb X, mw msize(1) lcolor(gs0) fcolor(gs16) || ///
line Y0 X, color(gs0) || rspike Y1ub Y1lb X, color(gs0) lp(dot) || ///
line Y1 X, color(gs0) ||, yscale (r(0 1)) ylabel(0(.2)1) legend(off) ///
xtitle("Demand uncertainty") ytitle("Pr(make)") graphregion(fcolor(gs16))
twoway rbar dYub dYlb X, mw msize(1) lcolor(gs0) fcolor(gs16) || ///
line dY X, color(gs0) || , yscale (r(0 1)) ylabel(-.2(.2)1) ///
legend(off) xtitle("Demand uncertainty") ytitle("dPr(make)") ///
graphregion(fcolor(gs16))
4. 参考资料
King G, Tomz M, Wittenberg J. Making the most of statistical analyses: Improving interpretation and presentation[J]. American journal of political science, 2000: 347-361. -PDF-
Zelner B A. Using simulation to interpret results from logit, probit, and other nonlinear models[J]. Strategic Management Journal, 2009, 30(12): 1335-1348. -PDF-
转自:“经管学术联盟”微信公众号
如有侵权,请联系本站删除!