前两天一个朋友在微信上问我,说他写论文要查OECD国家的教育支出数据,翻了一下午Excel表格,头都大了。我说:“你干嘛不直接用OECD的数据库?”他愣了一下,说那个东西打开过,全是英文,界面看着像天书,点两下就退出来了。这让我想起,很多做研究、写报告的人其实都知道OECD数据库是个好东西,却不知道怎么下手。今天我就跟你聊聊,这个看起来高冷的数据库到底该怎么用。

先说最简单的入口。打开浏览器,直接搜索“OECD iLibrary”或“OECD Data”,点进去第一个链接就行。别被满屏英文吓到,OECD网站这些年做了不少本地化工作,首页右上角有语言切换按钮,可以直接选中文。不过说实话,中文界面翻译得不太彻底,很多专业术语还是英文的。我的建议是硬着头皮用英文界面,因为等你真正开始检索数据时,中英文混着看反而更乱。比如想查“失业率”,英文是“Unemployment rate”,中文界面里有时翻译成“失业率”,有时又变成“失业人数比重”,你自己都搞不清楚到底哪个是哪个。
那怎么找数据呢?OECD数据库的检索逻辑跟百度不太一样。百度是输入关键词,它给你一堆网页链接;而OECD的数据是按主题分类的,有点像图书馆的索引系统。进入网站后,先看顶部的导航栏,有“主题”“国家”“指标”这几个大类。如果想要某个国家的数据,比如日本,就点“国家”,选Japan,进去后能看到一大堆指标,从GDP到教育支出到环境排放,应有尽有。但如果想要某个具体指标,比如“基尼系数”,就点“指标”,在搜索框里输入“Gini”,系统会列出所有与收入不平等相关的数据表。
这里有个坑要提醒你。OECD的数据库里,同一个指标可能有好几个版本的表格。比如“基尼系数”,有按年份分的、按地区分的、按收入来源分的。你点开一个表格,发现里面数据不全,别急着骂网站,很可能是选错了表。正确的做法是先看表格旁边的说明文档,英文叫“Metadata”,里面会写清楚数据是怎么收集的,覆盖哪些年份和地区。虽然读起来有点枯燥,但能帮你省掉很多试错的时间。
数据找到了,怎么下载呢?这是很多人的痛点。打开一个数据表,看到密密麻麻的数字,旁边有“Download”按钮,点一下会弹出一堆选项,像Excel、CSV、PDF,还有“TSV”这种不常见的格式。我建议直接选CSV,因为Excel 有时会因为字符编码问题出现乱码。CSV 文件小,处理起来快,而且大多数数据分析软件都支持。如果你不会用 CSV,那就选 Excel 格式,但记得另存为“CSV UTF-8”,这样乱码的概率会小很多。
下载完数据后,你打开表格,发现第一行是英文标题,第二行是年份,第三行才是数字。这时候别急着复制粘贴,先弄清楚每一列的含义。OECD 的表格通常是:第一列是国家名称,第二列是指标代码,第三列是年份,第四列是数值。有时还会多出几列,比如“单位”“备注”。建议先把不需要的列删掉,只保留国家、年份、数值这三列,这样数据才干净。如果表格里出现“N/A”或“..”之类的符号,那是缺失值,别手动填 0,否则分析结果会失真。
说到缺失值,我得再啰嗦一句。OECD 的数据质量在全球算是最高的之一,但毕竟来源不同,有些国家某些年份的数据本来就没有。比如 2008 年金融危机那年,有些国家没及时更新失业率,表格里就会空着。看到这种情况不要以为数据库有毛病,这是正常现象。处理缺失值的方法有很多,比如用相邻年份的平均值填补,或者直接剔除那些年份,具体怎么选要看你的研究目的。
除了直接下载表格,OECD 还有个实用的功能叫“数据可视化”。打开某个指标的数据表,页面顶部有“Chart”按钮,点一下就能自动生成折线图、柱状图或散点图。这个功能特别适合做初步的探索性分析,比如想看看过去十年各国 GDP 增速的变化趋势,直接点“Chart”,选“Line chart”,系统就会把每个国家画成一条线,走势一目了然。而且这些图表可以导出为 PNG 图片或 PDF 文件,直接粘到 PPT 里,省去了自己绘图的时间。
不过,可视化功能也有局限。它只能展示当前选中的几个国家或年份的数据,如果想同时对比 20 个国家的 30 年数据,图表会变得非常拥挤,根本看不清。这时还是需要下载原始数据,用 Excel 或 Python 自己绘图。但作为快速了解数据情况的工具,它已经足够好用了。
说一个很多人不知道的窍门。OECD 有一个“数据探索器”,英文叫 “Data Explorer”,可以把它理解成高级版的搜索工具。在这个工具里,你可以自由组合国家、指标、年份,生成一张定制化的数据表。比如想知道“德国、法国、意大利 2010 年到 2020 年的研发支出占 GDP 比重”,就把国家选成这三个,指标选 “Gross domestic spending on R&D”,年份选 2010 到 2020,点 “Generate table”,几秒钟就能得到一个干净整洁的表格。这个功能比逐个翻主题高效得多,强烈推荐使用。
写这篇文章时,我又想起了那个朋友。后来他按我说的步骤试了一遍,半天之内就把数据整理好了。他跟我说,原来不是 OECD 数据库难用,而是他之前根本没用对方法。其实很多工具都是这样,看起来门槛高,只要找到那个“把手”,门一下就推开了。OECD 数据库不是什么神秘的东西,它就是一个装满数字的大仓库,你需要的只是学会怎么开锁、怎么翻箱倒柜、怎么把有用的东西搬出来。下次再遇到数据需求,别急着抱怨,打开网站试一试,也许会发现它比想象的好用得多。


