照片: Alex Robbins

Less than a minute(0 words) Read

数据爆炸为我们提供了理解经济的新途径——不仅改变了经济的衡量方式,更改变了衡量内容

我们眼里的世界并非其本来面目,而是我们自身的投射。在数据领域,经济学家需要重新思考:应使用何种信息来描绘真实状况,也应重新构想自己希望记录怎样的真相。这个领域的人长期受“职业定式”的束缚,习惯于从熟悉的“小数据”时代视角来观察经济。但在“大数据”的背景下,当数据源(以及有待衡量的特征)的种类、更新频率和细致度呈指数级增长时,人们需要建立一种全新的思维方式。

若想体会这种“信息激增”与“传统思维”碰撞产生的火花,不妨回顾医疗领域的一段历史。

1990年,通用电气公司为其用于医疗扫描的Signa磁共振成像(MRI)设备发布了软件更新。之前,工程师们发现原系统在压缩显示含脂肪组织时存在缺陷。然而,更精确的图像问世却引发了许多放射科医生的反对。他们不习惯看效果更好的扫描图像,反而觉得评估旧图像更得心应手,还担心新图像会导致误诊。通用电气被迫为MRI设备增加了一项功能,让放射科医生可以看到旧图像,并将其标注为“经典版”,这无疑是对几年前“新可口可乐”上市惨败的隐晦呼应。

MRI扫描可呈现图像、提供信息,但它并非所扫描的事物本身。从这个角度看,它有点类似于经济增长、失业、通胀之类的经济数据。上世纪90年代的放射科医生之所以偏爱精确度较低的信息,是因为已经习惯了使用压缩扫描图像;他们的技能很大程度上是在这种有限的条件下磨练出来的,因此,他们抗拒更高清的图像。那么,当今的经济学家是否也有可能陷入同样的思维陷阱呢?

数据星河

如今,数据和人工智能遍及我们生活的各个角落,宛如一片全新的“星河”。而25年前,生活中的大多数事物还没有计算机芯片,也未接入网络。在过去那个年代,人们通过纸质书信交流,用地铁代币乘车,使用旅行闹钟安排日程;信用卡交易要先经过压卡机(俗称“咔嚓机”)处理,再在复写纸表格上签名;手表无法追踪睡眠与运动数据;无绳电话不能识别人脸;银行也不通过声纹验证身份;汽车没有卫星导航系统,驾驶员只能靠着布满折痕的纸质地图行进。但不要对过去念念不忘:关键在于,社会的数字化意味着许多原来难以转化为数据的活动,如今都能轻松实现数据化。

这让我们能够以更精确、更能反映客观实际(即衡量对象本身)的方式来理解经济。数据报告速度更快,近乎实时,且呈现的粒度更为细致,可细化至微小群体甚至个体层面,这是旧有方法无法企及的——它们就像1990年以前MRI扫描图像一样,把信息压缩得很粗糙。至此,数据的精确性、速度和细节均全面提升。更重要的是,衡量对象本身亦可发生改变,从而催生理解世界的新方式,并有望推动世界进步。

然而,负责汇总这些信息的实体将来自私人部门,因为数据正是在其运营过程中产生的。例如,卫星图像可用于跟踪农作物产量;招聘网站能够识别出哪些城市区域的发展速度更快;而房屋销售网站则可显示哪些区域正在衰落。在许多情况下,企业往往身处他人运营所产生的数据流之中。薪资处理公司ADP的服务覆盖了美国六分之一的劳动者:其月度就业报告被经济学家们用来补充美国劳工统计局的数据。

替代指标

这类替代指标(或称“替代数据”)的编制方法可能不如国家统计机构严格的学术性方法那般规范。要想有效利用这些数据,当今的从业者或许需要转变思维,重新界定自身职责,从单纯生成信息转向与私人部门合作以增强并验证数据的完整性,从而使其能够服务于更广泛的目的。这正呼应了统计学的起源。

“统计学”一词源于德语“Statistik”,后者诞生于18世纪中叶,意为“国家之学”。此类度量指标可以推断为基础:对易于衡量的事物进行归纳概况,进而对难以获知的情况得出结论。由于直接统计事物本身往往成本高昂或无法实现,当时接受的做法是寻找替代指标并进行推算。这种方法正是统计学早期阶段的典型特征。17世纪80年代,威廉·配第(William Petty)在一篇旨在估算人口的“政治算术”论文开篇写道:“爱尔兰都柏林市的烟囱数量似乎比布里斯托尔的烟囱数量多,故而人口也应更多。”

时至今日,发达经济体每年花费数十亿美元来编制可靠的经济和社会指标。对于官方统计指标的高级守护者们来说,这是一项神圣的使命,是文明的标志。“知识就是力量:统计就是民主”,1979年至1992年担任芬兰统计局局长的奥拉维·尼塔莫(Olavi Niitamo)曾有此名言。

数据不过是其对所要量化、定性并记录的事物的一种模拟。它是一种抽象表现,绝非事物本身,正如地图并非实际领土本身,而天气模拟也不会打湿你的衣衫。数据只含有它所描述对象的一部分信息。随着世界变化,社会科学家用以衡量人类活动的统计方法也必须改变。尽管世俗哲学家们曾采用更为严谨的方法来奠定这门沉闷的科学,但非正式的替代指标和推算法至今仍在使用。

轶事数据

1987年至2006年担任美联储主席的艾伦·格林斯潘(Alan Greenspan)以青睐“轶事数据”(介于轶事和数据之间的混合体)而著称,他认为,相比官方指标,这种数据让他能够更早洞察经济趋势。年轻时,他曾以经济学视角深入研究过男士内衣的销售数据。在他看来,该数据是一个经济晴雨表:代表了人们在银根紧缩时会率先削减的支出。

他在美联储的继任者们也沿袭了这一思路。2008年金融危机伊始,雷曼兄弟倒闭仅数日后,时任旧金山联邦储备银行行长的珍妮特·耶伦(Janet Yellen)就曾在联邦公开市场委员会的一场会议上警告经济将严重下滑。根据五年后公布的会议记录,她当时汇报称:“东湾地区的整形外科医生和牙医注意到患者正在推迟非必要治疗,许多高端餐厅已不再需要提前预订。”她的话引得同事们大笑。

官方统计机构当时的表现如何呢?2008年第四季度,美国最初公布的GDP降幅为3.8%。一个月后,该数值迅速修订为下降6.2%。而在2011年7月发布的最终修订中,降幅重新计算为8.9%,创下史上最大下调记录,是最初报告的两倍以上。或许,当时若有替代性指标辅助,情况会有所不同。

这些新兴数据源可能会比现有指标更快速、更出色地完成监测任务,并提供更丰富的细节。例如,薪资处理公司ADP本可更早察觉到新增雇员的减少与薪资增涨的放缓。与购房相关的谷歌搜索量可能已急剧下降。同样,像领英和Indeed这样的专业招聘网站也能捕捉招聘广告的动态,包括新发布广告和撤回广告的情况。(这些数据被投资者使用,因其能作为企业运营动荡和分析师下调评级的早期预警指标,从而预示股价走势。)

Loading component...

提高透明度的工具

在危机期间,官方指标常因报告滞后而失去效用。新冠疫情暴发初期,替代数据迅速崛起。苹果和安卓手机中的GPS数据显示零售店客流量发生下滑,并揭示了哪些地方未遵守封锁令。同样,在2025年10月美国政府停摆期间,统计机构无法正常发布数据,而私人部门填补了这一空白。就业趋势数据由ADP公司及私募股权基金凯雷集团提供——后者旗下共277家公司,拥有73万名员工。

替代数据有助于督促政府承担责任。21世纪10年代初期,阿根廷官方通胀数据严重失实,《经济学人》杂志因此转而采用PriceStats公司的数据。该公司由哈佛商学院与麻省理工学院的两位经济学家共同创立,每日跟踪25个经济体中4,000万种商品的80万项价格变动。2025年8月,美国劳工统计局局长因一份负面就业报告遭总统唐纳德·特朗普(Donald Trump)解职,引发了对美国数据完整性的质疑。在此背景下,替代数据可成为提升透明度的独立工具。

就发展中国家而言,新兴数据源与技术的爆炸式增长尤为重要。这些国家往往在制度能力、资金、技能及政治意愿方面存在不足,难以收集、分析与报告统计数据。若能辅以创造性思维,私人部门的数据将产生变革性影响。例如,许多发展中国家无力在偏远地区广泛部署气象设备来监测降雨等天气事件,从而无法提前发布洪水预警。然而,移动运营商的通信信号塔遍布乡村。这些信号塔持续交换网络信息并切换通信流量,而信号强度在雨天会减弱,这一特性可用于测量降雨量。弥合贫困地区的数据鸿沟,需要更多此类创新思维。 

然而,若无法有效运用数据,创建再精准、再细致、再及时的指标也无甚意义可言。格林斯潘在2014年通过电子邮件接受笔者采访时曾表示:“除非我们能同步提升决策实施的速度,否则‘大数据’的效用将十分有限。” 

美丽新世界

更重要的是,其意义远不止于改进现有境况或填补已知空白。将从未被数据化的活动进行数据化,这为重新认识世界提供了独特机遇。社会正处在认知方式发生重大变革的起点。 

此变革的早期体现之一是领英的“经济图谱”,其记录了12亿名从业人员、6,700万家企业、1,500万个职位、4.1万项技能和13.3万所学校的工作活动。许多国家借助该图谱来解答以下问题:哪些技能需求增长最快?哪些地区就业岗位在增加或减少?职业生涯中期转行的难度如何?哪些行业和国家的女性高管比例更高?这类信息以往无法跟踪、分析和比较。

尽管对个人信息的深度分析可能看似对隐私构成了威胁,但这并非必然结果。联邦学习、同态加密、安全多方计算和差分隐私等先进数据处理技术有着“太空时代”的未来感名称,可让对加密数据进行分析成为可能,从而避免了数据处理方看到实际记录。因实现难度极高,这套体系仍处于发展初期。但企业与统计机构已开始进行相关实践。

当然,使用企业的“野生数据”也存在局限性。这类数据通常以“数据尾气”(企业在常规经营活动中产生的副产品)的形式存在。因此,其会带有所在环境下的偏见。凯雷集团旗下公司本身接受私募股权控股(故而数据记录的或许并非实力最强劲的企业);领英的用户群体中,专业人士可能多于蓝领阶层(因此数据可能偏向更富裕群体);ADP的数据则未涵盖保姆、保洁、洗车工等灰色经济(而这部分劳动力的规模或许更能反映真实的经济健康状况)。

此外,如果无法持续稳定地获取替代数据,便不能完全依赖它。例如,美国软件公司Intuit曾基于其QuickBooks会计软件的汇总数据编制小型企业指数。但该公司于2015年中止了该系列报告的发布——直到2023年才以一套不同的、更完善的统计方法重新启动。因此,未来的统计不会仅仅依赖于替代数据,而是将以官方与非官方数据源的互补为依托。尽管如此,这仍是一个“美丽新世界”。 

现代指标

这又将我们带回到MRI的例子。这项技术可追溯至1974年,当时纽约州立大学的雷蒙德·达马迪安(Raymond Damadian)申请专利,将其作为一种无创检测癌症的手段。同年,美国陷入了严峻的经济衰退,促使耶鲁大学经济学家、前白宫顾问阿瑟·奥肯(Arthur Okun)创建了一项新指标,用以衡量经济衰退对个体造成的实际损失,而非仅仅关注抽象的整体经济单位。 

他提出的经济不适指数(后来被戏称为“痛苦指数”)成为了美国政治中的一个经典指标。罗纳德·里根(Ronald Reagan)在1980年大选中曾借此成功击败时任总统吉米·卡特(Jimmy Carter)。然而,该指数实际上只是失业率和通胀率的简单相加。在人工智能时代,构想一个现代指标并非难事。

这个指标可汇聚人们表达痛苦的所有方式,例如,改变消费模式——不是减少购物那么简单(这一数字十分粗略),而是更具体的从吃牛排改成吃拉面;拖欠公用事业账单和车贷;乃至发生路怒事件、驾驶行为异常及小型车辆剐蹭——并非仅是加总统计,而是能精准跟踪至个人。苹果手表可以记录用户的睡眠质量和日间压力水平。遍布街道、商铺和办公室的闭路电视摄像头配备面部识别功能,可记录个体的情绪变化。装有生物传感器的马桶能够监测使用者体内皮质醇和肾上腺素等激素的水平——这些激素在焦虑时刻会急剧升高。

这些数据已无限接近真实状况。对于许多人来说,此类仿佛只会出现在科幻小说中的统计指标恐怕意味着真正的痛苦:即便数据在理论上可进行匿名化处理,其涉及的隐私风险依然令人不寒而栗。掌握了这些信息后,国家是否有责任采取干预措施,对个体予以帮助,为社会提供保障?诚如托马斯·斯特恩斯·艾略特(T. S. Eliot)的悲叹:“既知一切,何以谈恕?”

此类替代数据短期内难以广泛应用,甚至可能永无时日。老一辈退场了,新的范式才能上位。同时,随着公众对数据滥用日益警惕,以及早期互联网乐观主义的消退,“技术反弹”的浪潮正蓄势待发。理想情况下,当今的社会科学家应秉持审慎态度、恪守伦理道德并保持思维灵活,才能充分利用人工智能和大数据的优势,同时防范其弊端。毕竟,如今的放射科医生已不再需要MRI的“经典版”视图了。

肯尼思 • 库克耶(Kenneth Cukier)是《经济学人》杂志副执行主编,与他人合著了多部关于数据和社会的书籍。

文章和其他材料中所表达的观点均为作者个人观点,不一定反映IMF的政策。