一、确定研究问题
(一)阅读文献
首先你得先有个大方向,可以是你自己感兴趣的,也可以是在导师的引导下,但最好是两者结合,不然看那么多干货,我选择原地爆炸。一般是确定个核心词,然后在知网上下载相关文献。刚开始看文献,看的特别慢,而且,你几乎看不懂他说的是什么意思,没关系,大家都这样。不过前几篇,你最好按着顺序看下来,从头看到尾,理解他的作用机制,这个变量是如何影响另一个变量的,模型一定要重点看,这是你要学习借鉴的地方,包括变量的量化以及数据的来源,不管你想的有多美,找不到数据,还是没用。看第一遍的时候,可以在文献中做适当的标记,还可以写写感想。但是,看完整篇之后一定要把认为最关键的另外摘录下来!你可以快速浏览全篇,重点看标记的地方,摘录下来!录下来!下来!请记住我爱的忠告,不然,你会忘得(蜜汁微笑).....我摘录的内容(仅供参考):题目与作者信息(参考文献格式)、作用机制、假设、模型、变量量化、数据来源。建议最好摘录20篇以上,然后对看过的文献进行适当的归类与总结,你会慢慢发现这些文献的相通处。记得读文献时适当回顾之前读过的文献,你可能会在看某篇时产生灵感,记得一定要写下来,不然你会忘得......
(二)确定基本模型
关键是要确定主要解释变量以及被解释变量。做好上述工作之后,你需要重读自己摘录的论文信息,然后可以适当组合创新,选择核心变量,然后再进一步搜索相关的文献,不断进行补充与优化。在我看来,问题的确定与基本模型的确定几乎是一致的。
不同文献对同一变量可能采取不同的量化方式。确定好主要变量之后,你可以在这些文献中,选择最适合自己论文的量化方法,还可以为之后的稳健性检验做准备。
二、下载数据
接下来就是找数据了你得知道你每个变量对应的数据,然后去数据库里找。我论文研究的问题是与企业相关的,所以可以利用上市公司的相关信息。手头有的资源是Wind金融数据库(万德)和CSMAR数据库(国泰安),如下对这两个数据库就企业类数据谈谈看法。因为之后数据处理用的是stata软件,对导入数据有一定的要求,所以还要考虑到之后数据整理的方便性。万德数据库只能在特定电脑使用,从万德上下载数据,一个数据表可以同时下载一个公司的各种信息,但是只可以下载一个时间截点的信息,就是截面数据的样式,你的面板数据跨越几个时间点你就需要下载几个数据表,然后在对下载的数据表进行合并(不停的粘贴复制)。国泰安是移动网页型,只要有网址,账号就可以随时随地使用,从上面可以直接下载面板数据样式,但是企业的不同信息存在可能存在于不同的数据表,也就是说,下载完数据后,你也需要合并匹配,并且难度更大,因为不同数据表的样本数可能不是完全相同的。如果是截面数据,或则时间期数不多的面板数据,建议使用万德。如果面板数据的跨时间期数较多,建议运用国泰安。前提是你有的选择。
我的是季度数据,而且跨了几个年份,所以选择国泰安(我能说我这个颜狗在看到国泰安的界面时瞬间就被圈粉了嘛)!但是后期数据整理时,那个不同数据表之间的匹配还是折磨死我了,所以我没思考出,到底是不是万德更胜一筹,但是,对他的界面实在无爱,原谅我的不理性。
友情提示:下载数据时,不要担心自己下载的数据信息会不会太多,时间跨度会不会太大。我因为缺少部分信息,在整理报表时不知道返工了多少回,简直泪目。整理到一半,发现不对劲,又重新回头下载,反反复复.......特别是关于数据统计方面的信息一定要下载清楚,比如股票代码,报表截止日期,报表类型等。
Stata导入数据的格式:
Excel处理时,第一行为变量名,不同列指代样本的不同信息。第一列为股票代码,第二列为年份,第三列为季度,然后依次可以往后输入其他信息比如企业净利润率等。不同企业不同时间点的信息,在每一行录入。当然,行与行之间顺序乱的stata也是可以识别的。建议变量名使用英文,中文不识别。
三、数据处理
(一)选择数据报表类型
从国泰安下载下来的数据有可能分属于不同的报表类型,我第一次没有下载报表类型这一信息,然后有些变量在同一时间点有两个不同的数据,简直乱了套,后来才发现是报表类型那出了问题。报表类型分为A、B两种。A代表母公司报表,B代表总公司报表,下载的数据这二者是混在一起的,所以我们一般要对此先进行分类,一般采取母公司报表数据进行问题研究。
(二)数据删除
1.删除金融类企业的数据:金融类杠杆率大,各指标情况同其他企业差距很大,所以研究企业类问题时一般默认删除。
2.删除空白数据:如果该企业此月份的某一数据缺失,那整行数据都需要进行删除
3.删除不合理数据:你需要对各指标的合理区间进行判断,也许该指标的数据不可能出现负值,也许不可能大于一,你需要删除合理区间意外的数据
4.删除乱码:有些数据是通过数据间的运算得到,所以有可能得到乱码,也需要筛选出来一并删除
删除数据时可以巧用Excel中的筛选功能。这是就要佩服2007版本的office,可以之间筛选出某一数据进行局部删除,而WPS就不能。
(三)数据整合
这时候需要把分散在不同Excel表格中的数据整合到一个表中,空白数据的删除一定要在此项工作之前,因为,当你运用vlookup等函数将表格匹配到一起时,空白处还自动填充成0。在运用Excel进行数据处理时。一定记得问度娘,可以是很小白的问题,你会发现原来Excel还可以这样操作!不要傻傻地自己手工操作。(我一开始就是这样,心痛到不能呼吸,度娘比你想象的强大,Excel的骚操作也不是你我可以膜拜的)
(四)数据变换
Stata只会识别数值型数据,只认英文和阿拉伯数字,所以不合格的当你导入stata时通通标红。我遇见的几种情况:
股票代码000001,000002——NO;日期2018/01/01/ 、20180101——NO;78%——NO;文本类数据——更不可以
至于具体某种情况如何变换成标准样式,请问度娘,千万别直接手动变换啊!我用过vlookup,中间还经常匹配不起来,特别是运用文字信息时,你需要比对进行匹配的ID是否一样,比如广东和广东省就不可以;对日期的处理运用过Excel中“分列”,left等。
四、运用stata进行数据处理
同之前说的,我研究问题用的是各企业的面板数据,所以下列只是我在用stata时处理面板数据的常用命令的介绍。再说一次,这也不是stata教程,stata的基础操作还需要你们自己了解,包括数据如何导入,软件的安装等。
五、论文排版
我怕是中了排版的毒,现在干什么都要额外花些时间去排版,宋体、小四、行间距固定值22磅,首行缩进两格(微笑,我也控制不住我自己啊)!每个学校,期刊对论文格式要求都不同,所以也没有一个统一的标准。但为各位提个醒,先调整页面布局的页边距,不然你好不容易调好的表格又要跨页了!建议大家先详细阅读论文的排版要求,别看一个调整一个,也不建议用格式刷,不见得有多快,而且你看过之后孰能生巧,哪里有问题,自己也能看出来。修改格式时建议大家调整出视图中的格式标记,这样空格,回车等符号都可以在文档中显示出来。
(一)参考文献
样本:
[1] 李后健, 张宗盛. 地方官员任期、腐败与企业研发投入[J]. 科学研究, 2014, 32(05):744-757.
说明:
1.除文字部分其他都用英文格式;
2.各标点符号后要有空格;
3.除了[1],其他[2][3]都用回车生成
4.[1]-[9]设置为首行缩进1.5磅;[10]之后设置为2,目的是为了对齐
5.如果是使用知网导出,记得删去最后的导出时间等多余信息
(二)表格
1.描述性统计
导出:选中stata里的表格——右键——点击“copy table”——粘贴到Word文档中——选中,利用“文本转化成表格”
框线要求:选中表格,调整边框线——上下框线1.5磅,中间横框线0.5磅,中间竖框线0.5磅,左右外侧无边框——选中表格右键——自动调整——根据窗口调整表格
描述性统计如果是0.12的小数,小数点前边会没有0,只是“.12”所以需要手动添加。
2.相关性检验
3. 回归分析
一条回归命令导出一个回归结果,也就是每个导出的回归表格只有两列,所以需要将各回归结果进行合并。我们可以选择最长的一列作为基准,然后将其他的依次加入此表格中(在此操作中,本人觉得WPS的Word很好用)。注意变量名与数据的对应,然后再删除空白行,边框的要求同上。(如果你没实操过,可能觉得我在瞎说八道,算是吧.........)
导出每个表格时,一定记得手动copy “R-squared、Adj R-squared”的信息,在手动添加到表格后边,利用固定效应命令的,可以把那些表量名改为中文,处理如表3。再把表格美化一下,比如将变量名处的表格合并居中,之后再上注释就OK了。
一般注释都是比正文小一号的字体,表名字体跟正文一样。中文用宋体,英文,数字用新罗马(Times New Roman)。表格后边记着空一行再接正文。
六、论文内容
我写的时候对论文框架也迷茫了,因为不同论文结构也有细微差别,然后然后我就纠结到底到该模仿哪篇的结构,纠结的我。可亲可爱导师帮我们拎了一个大框架,实在纠结的同学们可以参考一下。
论文模板
一.引言
二.文献综述
(一)
(二)
(三)
三.理论分析与假设
(一)A与B
(二)
(三)
四.研究设计
(一)数据来源与变量界定
(二)回归模型与方法
五.实证检验与结果分析
(一)描述性统计
(二)相关性检验
(三)回归分析
(四)稳健性检验
六.结束语
参考文献
我知道我忽略了一篇论文最关键的一步,就是论文各部分到底该怎么写。原谅我真的无能为力啊!手头第一篇也还在修改中,日益攀升的发际线呐!要不您们试试佛系写法?
转自冲出论文重围微信公众号,仅作学习交流,如有侵权,请联系本站删除!