聊起这个中国工业企业数据库,我得先吐槽一下。很多搞经济学研究的朋友,一提到它,第一反应就是“头疼”。为啥?因为它太“大”了,大到让人又爱又恨。光说数据量,从1998年到2013年,每年都有几十万家规模以上工业企业,累计上千万条记录。如果把它放在20年前,用Excel打开,电脑都可能卡死。但话说回来,这个数据库又是国内做微观经济研究绕不开的宝贝。企业层面的财务、生产、出口数据全都有,简直是实证分析的“金矿”。可惜的是,这金矿挖起来没那么容易,光是下载这一步,就能劝退一半的初学者。

我第一次接触这数据库,是在读研那会儿。导师丢过来一句话:“去把中国工业企业数据库下载下来,准备做回归。”我心想,这还不简单?结果一查,发现根本没有公开的官方下载渠道。该数据库最初由国家统计局内部使用,后来才有学术机构拿到授权。现在市面上能看到的版本基本有两种:一种是高校图书馆购买的使用权,学生通过校内网下载;另一种是网上流传的“民间版”,比如人大论坛、经管之家等,有人分享种子或网盘链接。但这些民间版本质量参差不齐,有的缺年份,有的出现乱码,还有的甚至是删减版。我当年就踩过坑,下载了一个2004年的数据,打开一看,企业数量少了三分之一,气得我直接删了重找。
说到下载的具体方法,我建议先明确自己的需求。如果你是高校的学生或老师,最靠谱的路径是查学校图书馆的数字资源库。像北大、清华、复旦等高校,一般都有购买,你登录校内IP,直接在数据库列表里搜索“中国工业企业数据库”或“China Industrial Enterprise Database”。有的学校还提供专门的访问入口,比如通过“国研网”或“CNKI”平台。不过,这里要提醒一句:官方渠道下载的数据通常是打包好的Excel或Stata文件,但年份不一定全。有的学校只买了1998‑2007年的旧版,2010年之后的需要另想办法。我曾遇到过,学校图书馆只更新到2009年,后几年的数据只能靠导师向统计局申请。
如果你不在高校,或者学校没有购买,那就只能走“野路子”。网上流传的版本里,比较有名的是 Brandt 等(2012)整理的版本,他们把1998‑2007年的数据清洗并匹配好,口碑不错,很多论文都用它。你可以在 Google Scholar 上搜索“Brandt China Industrial Enterprise Database”,一般能找到作者的个人页面并下载压缩包。不过,服务器在国外,下载速度可能较慢。国内的学术论坛如“经管之家”也有热心网友分享,但下载前一定要看评论,确认文件没有病毒、没有损坏。我有个师弟省事从百度网盘下了个所谓的“完整版”,结果解压密码错误,折腾了一个星期才找到正确密码。
下载完只是第一步,真正的挑战在后面。这个数据库的数据格式相当“乱”。不同年份的变量名不统一,有的叫“总资产”,有的叫“资产总计”,还有的叫“期末资产”。更头疼的是,数据里夹杂大量缺失值和异常值。比如,有些企业的员工数是零,显然是录入错误;还有企业的销售额为负数,要么是亏损记错,要么是统计口径问题。若不做清洗直接回归,结果很可能把你带进沟里。我见过一篇论文使用原始数据,回归系数全是相反的,审稿人直接骂得狗血淋头。所以,下载后别急着用,先花时间做数据清洗:删除重复记录、统一变量名、处理缺失值,这些步骤缺一不可。
数据清洗的另一个难点是跨年份的匹配。中国工业企业数据库按年发布,不同年份的企业 ID 并不统一。比如,同一家企业,2000 年的 ID 是“12345”,2001 年可能就变成了“67890”。这主要是统计局系统升级导致的。想要追踪企业连续几年的表现,就得自己动手匹配。常用的方法是依据企业名称和法人代表,但中文名称有时有错别字或简称,匹配起来特别费劲。我认识一位博士,为了匹配 1998‑2007 年的数据,写了整整一个月的代码,匹配率才到 80%。因此,如果不是必须做面板数据,建议先挑一年做横截面分析,省下不少力气。
说到这儿,还得提一个现实问题:版权和合规。中国工业企业数据库是统计局的数据,虽然学术圈里大家都在用,但严格来说它并非完全公开。部分高校在购买时签了协议,禁止学生私自传播。网上的“民间版”实际上游走在灰色地带。我曾在论坛看到有人把整包数据挂到 GitHub,结果不到几天就被要求撤下。所以,下载和使用时最好低调。尤其是发表论文时,别在致谢里写“数据来源于某网站”,万一被查出来,论文可能被撤,甚至涉及法律风险。建议能从学校官方渠道下载的,尽量走正规路径;实在只能使用民间版本时,注明“数据来源于公开渠道”,但不要写具体来源。
我想说的是,别把下载本身当成目的。很多初学者花了一个月找数据、下数据、洗数据,最后发现研究问题根本不合适。中国工业企业数据库虽然好,却只覆盖规模以上企业,即年主营业务收入在 2000 万以上的企业。这意味着大量小微企业被排除在外。如果你研究的是中小企业融资问题,用这个数据库就会产生偏差。另外,数据库的更新速度很慢,最新版公开数据只到 2013 年。如果需要 2014 年之后的数据,只能等统计局发布,或寻找其他替代数据源,如“全国税收调查数据”或“上市公司数据”。因此,在花时间下载之前,先问自己一句:这个数据库真的能回答我的问题吗?如果答案是否定的,那不如换个方向,省得白费力气。


