首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从另一个角度看“中国工业企业数据库” ——再谈“中国工业企业数据库”的使用注意事项

导读

中国工业企业数据库是近年来国内外经济学界常用的企业级微观数据库,但从统计抽样调查的角度来看,该数据库存在着各种问题。为更好地了解该数据库可能出现的系统性误差与随机误差,本文使用1996-2013年数据对真实性、系统性误差及基层统计部门反映的各种数据问题,进行定量评估。结果发现:样本范围及统计口径的变动,缺失值较多、“回避规模以上”、“化整为零”等方面的数据问题,均会对数据产生一定的影响,并据此在行业代码整理、真实性检验、统计口径变更处理、统计偏误克服、通货膨胀平减等方面提出了相关建议。

关键词:中国工业企业数据库;规模以上工业企业;工业统计报表;企业级微观数据;工业增加值

从另一个角度看“中国工业企业数据库”

——再谈“中国工业企业数据库”的使用注意事项

陈林 (北京师范大学)

搜集与处理数据,是传统实证研究必不可少的关键环节。它的重要性,就像马克思写作《资本论》时走向工人阶级的调研一般——不可或缺。但随着近年来各类型网络论坛、期刊创新工作的兴起,本科生、研究生从中索取现成数据,腾挪转移“因果变量”,移形换位控制变量,进行“练笔”式的实证研究日渐大行其道。部分单位培养出来的经济学博士研究生,三年时间发表二三十篇实证论文的大有人在,尤其是在近年“巨额”的研究生国家奖学金评选活动开展之后。这样一来,笔者扪心自问,长久以往,学术精神何在。为了由下至上,从数据获得的最初角度往上观察学术精神,笔者对当前学术界用得最多的“中国工业企业数据库”进行了一番不同角度的审视。

笔者首先尝试介绍1998-2013年工业企业数据的整理、合并及真实性检验的方法,并对如何有效地整理、合并及使用中国工业企业数据库,尤其是针对新出现的2010-2013年数据,提出了具体的数据处理建议;随后,笔者对样本范围及统计口径的波动、企业工业统计人员的填报等数据问题等进行定量评估,结果发现部分问题客观存在,并提出对应的处理办法。其中,样本范围及统计口径的波动,缺失值较多、“回避规模以上”、“化整为零”等填报方面的数据问题较为显著,因此笔者提出了相应的解决办法或处理建议。

所谓统计数据,不外乎是过去历史的演绎,基层统计人员翻译出来的历史编码,经济学者只是将数据承载的历史以一个“经济学故事”的形式给读者娓娓道来。对于数据所承载的未来,学界应注重对数据库的应用拓展,比如中国工业企业数据库与其他数据库的合并使用。根据现有的研究,中国海关数据库、历年城市统计年鉴、科技部门的专业数据库、国家知识产权局的专利数据库和《境外投资企业(机构)名录》,是当前与中国工业企业数据库合并的热门对象。其实在数据库合并方面,中国工业企业数据库还大有潜力,上市公司数据库、国家环保局的污染排放监控数据库、全国工商联的私营企业调查数据库等,均是可以考虑的数据库合并方向。

回到笔者对后进的期待,每位学生都应很好地掌握自身所使用数据的结构、特性及其问题,并有相对独立的处理方法,而不应未经思考,援引他人的数据处理方法,甚至直接使用其他学者整理过的数据。从某种意义上来,这既是不熟悉数据结构的表现,也可以看作一种“取巧”。笔者认为这种形式的数据传播,反而不利于学术探讨与智慧传递,因为,每一位初次接触特定数据库的学者都应该经历笔者所探讨的“数据整理”过程,而不能“拿来主义” 。

本文的论文原文和论文故事也在本日的推送中,可进入本公众号内页面查看,同时欢迎各位读者留言!

附本文题录:

陈林.中国工业企业数据库的使用问题再探.[J].经济评论,6:140-153.

陈林,2018:《中国工业企业数据库的使用问题再探》,《经济评论》第6期,第140-153页。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190126B13JZJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券