教学教研课题研讨

收集与整理数据

发布时间:2023-09-18 10:41 栏目:课题研讨 发布单位:银川市金凤区第十八小 点击量:1242 【公开】

从数据的来源格式来看,数据可分为电子版与非电子版两大类。对于非电子版的数据,需耐心输入数据 (通常先输入Excel表,再导入Stata中),并注意检查,防止出错。即便下载电子版数据,也应检查可能存在的错误。


实证研究的关键材料乃是数据。如果数据质量不高,则 “巧妇难为无米之炊”。无论多么高深的计量方法,如果原始数据质量有问题,也只能是 “垃圾进去,垃圾出来” (garbage in, garbage out)。Zvi Griliches 在 1994 年给美国经济学会做的主席演讲 (presidential address) 指出,由于经济学家不够注意数据的来源及产生过程,经常错误地解释数据,导致研究的进展缓慢;如果不提高数据质量,计量理论方面的重大进展将无用武之地。为此,将数据导入统计软件后,需仔细察看数据 (inspect the data)。一个常见误区是,研究者只知进行回归,却不去熟悉原始数据 (raw data),或增加对数据的感觉 (get a feel for the data)。


察看数据的常见方法为,计算变量的主要统计特征 (summary statistics),包括均值、最大值、最小值、标准差、相关系数等,并根据经济常识判断它们是否合理。比如,虚拟变量的最小值与最大值必然为 0 与 1;否则,此变量有误。如果数据有时间维度 (比如时间序列或面板数据),还可画时间趋势图。如果发现在某个时点上的变量取值异常波动,则应考察此数据是否有误;即使数据无误,也应考虑异常波动的原因。


总之,在察看数据的过程中,主要观察数据中是否存在不一致 (inconsistent) 的地方;比如,出现了不可能、不现实或可疑的取值。如果发现,则要进行处理 (比如,可能是数据输入错误),这被称为 “数据清理” (data cleaning)。


对于大多数从事应用研究的学者而言,主要是使用别人 (比如统计局、世界银行) 提供的数据。即便如此,也应该对数据的质量有一个清醒的判断,并使用相应的计量方法 (至少在做出实证研究的结论时,应考虑数据质量的影响)。在使用别人提供的数据时,还应注意其定义及统计口径,是否是与理论模型中的变量相对应。比如,中国的失业率指的是 “城镇登记失业率”,其统计口径与标准教科书中以及西方国家的失业率概念有很大不同。


对于计量的初学者来说,与真实数据打交道也是加深对计量经济学理解的重要途径。只有弄脏你的手 (get your hands dirty),才能真正学会做实证研究。



上一篇 : 11、论文写作| 下一篇 : 探索性研究

评论

还能输入140

用户评论

Copyright© 2020 nxeduyun.com. All rights reserved   宁ICP备16000125号   宁公网安备 64010602000493号    宁ICP备16000125号
版权所有:宁夏回族自治区教育厅    技术支持:宁夏教育信息化管理中心 客户服务热线:0951-5559291   0951-5559148 校园开放平台
学校地址:宁夏回族自治区银川市金凤区金凤区亲水大街与宝湖路交界处烟墩巷内     联系邮箱:925194030@qq.com