ca88登录页面基于大数据方法的经济研究:前沿进展与研究综述

  随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义。本文梳理了近年来国内外基于大数据方法研究经济的文献,根据经济研究中使用大数据的目的将其大致归纳为3 类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、寻找建立经济变量间的联系。本文介绍了基于大数据方法处理海量非结构化数据并从中获取有效信息的一般方法和主要阶段特征:数据抓取和数据分析,介绍了目前经济学在大数据挖掘和分析方面的主流工具和算法,从经济预测和验证经济理论两方面阐述了目前基于大数据的经济研究的方向,提出了现阶段大数据研究面临的数据获取和数据处理困难、基于大数据的经济分析方法的某些理论基础尚不完善的问题,并在此基础上对我国基于大数据的经济研究进行了展望。本文清晰、全面地展示了目前基于大数据的经济研究的前沿进展和发展,为基于大数据研究经济夯实了基础工作,补缺了近年来国内在基于大数据方法的经济研究综述这一领域的空白。

  随着互联网、计算机、智能设备的高速发展,人类活动产生的记录数据呈爆炸性增长,数据成为一种重要资源,如何从不断增长的海量数据中挖掘、分析出传统数据和手段无法得到的信息成为国内外政府、企业、学术界近年来关注的热点。自1997年Cox和Ellsworth(1997)、Weiss和Indurkhya(1997)分别从存储和计算方面提出大数据概念以来,随着认识的不断加深,人们对大数据的理解一直在发展:Laney(2001)提出了“3V”,即大量(Volume)、高速(Velocity)、多样(Variety),后来拓展到“4V”,增加了价值(Value),Bello-Orgaz(2016)又提出“5V”,增加了真实(Veracity)。

  由于大数据和网络、传输、存储、计算的天然联系,起初大数据的发展和应用主要集中在计算机等自然科学领域,经济学实证研究仍然基于以传统统计理论为基础的计量经济方法和结构化统计数据。但随着技术的不断进步和成熟,大数据拥有的样本海量、实时、数据非结构化等传统统计调查数据无法比拟的特征的实现逐渐成为可能,经济学领域基于大数据方法开展的研究活跃起来,经济学家们在通过大数据分析建立新的或完善已有经济指标、利用实时数据建立现时预测模型、预警经济、分析政策影响、使用大数据验证经济理论等方面做了许多工作,如Akkitas等(2009)[1]用google搜索数据预测失业率,Bollen等(2011)[2]通过测量Twitter上文本内容蕴含的情感指标预测经济,Cavallo等(2013)[3]通过收集大型零售商网站的每日价格更新数据实时计算了阿根廷的通货膨胀率,Bok等(2017)[4]使用实时数据和动态因子模型建立了纽约联储银行现时预测模型以预测GDP增速。

  基于大数据方法的经济研究与传统计量经济研究方法相比有许多新的特征,由于大数据具有的“5V”特征,数据的采集、清洗、分析、使用等均有别于传统的方法。一是基于大数据方法的数据来源和渠道增多,涵盖了信息搜索数据、网络交易数据、网上信息发布、社交媒体数据、智能设备使用产生的数据如位置信息、交通流量监控、卫星灯光数据等,有主动产生的数据,也有被动留下的痕迹,一定程度上对经济学家依靠政府、组织、企业等机构发布数据、设计调查问卷获取数据的传统方法做了有力补充,极大拓展和方便了经济学家的数据来源;二是为处理海量的半结构化、非结构化数据,从茫茫数据中发现经济关系,基于大数据方法的经济学研究中使用了与传统计量统计回归不同的方法,人工智能、机器学习算法如决策树、支持向量机、神经网络、深度学习等算法被引入经济学中处理数据,经济学与计算机、网络、信息技术的联系空前紧密;三是从方的角度,基于大数据方法研究经济面临的样本数量和传统方法相比不在一个数量级上,某种程度上大数据方法是在总体范围上建立模型,而传统模型建立在抽样数据基础上,基于大数据方法将有别于传统方法的参数估计和假设检验。

  可以预见,任何基于数据分析的学科与大数据的联系将越来越紧密,经济学研究也不会例外。在目前阶段,虽然大数据概念已经提出二十多年,但经济学中真正意义上使用大数据不过是近10来年的事情,基于大数据方法研究经济在某种程度上仍然是较新的、非主流的领域,国内目前关于基于大数据研究经济的文献综述很少,本文系统地梳理了国内外主流文献中近年来基于大数据方法研究经济的文献,以形成脉络清晰的文献综述,并根据主要文献中采用的经济研究中大数据的获取、处理流程,归纳总结出目前基于大数据研究经济的一般方法和研究方向,提出了目前基于大数据研究经济面临的困难,并对大数据在经济学中的应用做了展望。

  数据是实证经济学的基础、是形成经济指标的背后因素,在宏观经济研究、政策制定、经济理论验证、企业应对市场发展、个人做出经济决策等各领域均有重要作用。如何利用大数据来源渠道丰富、样本海量、更新实时等优势,从用传统统计数据、计量经济方法难以甚至无法处理的数据中获取有用信息和价值,是经济学家们基于大数据方法研究经济的出发点。围绕基于大数据方法研究经济的中文文献目前仍较匮乏,外文文献较多,使用的数据来源极其广泛,包括网络搜索和电子商务、社交媒体、网站、论坛、银行等金融交易、政府纳税记录、城市监控等政府管理数据、GPS定位、卫星灯光图片、智能设备的使用痕迹数据等,数据经过信息提取和特征挖掘后建立经济模型,经过验证后可实时监测、预测、提供政策建议等。Schonberger等(2013)[5]认为大数据应用的核心是寻找变量间的相关关系做出预测,而不是因果关系。目前,有些关于大数据研究经济的文献按照大数据的来源划分为不同类别:搜索数据、社交媒体、网站信息、电子交易数据、政府管理数据等,有些文献按照大数据的内容和结构划分不同类别:网络内容、用户行为、网络结构等。虽然大数据来源、内容、处理方法不一样,但根据经济研究中使用大数据具有的传统数据不具备的特征和研究的目的可以大致归纳为3类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、建立经济变量间的联系,本文按此类别划分回顾了基于大数据方法研究经济的文献。

  在优化传统经济指标或者构建其先行指标方面,大数据有其天然的优势。现有的经济指标如GDP增长率、通货膨胀率、失业率等均由各国政府统计部门通过大量的统计调查、计算后得出,投入大、过程复杂、周期长,且发布往往存在滞后期,很多情况下真实性也难以保障,对政府实时监测经济运行、政策及时制定、企业及时决策、经济研究等均有影响。既然经济指标来自数据,拥有大数据的处理能力后,如何从数据中寻找到关系,利用大数据优化原有经济指标、或构建出有经济意义的新指标是众多经济学家研究的重要课题。Cavallo等(2016)[6]从2008年开始在麻省理工学院启动“十亿价格计划”,通过抓取900多个零售商的网站上1500多万种商品的在线价格,计算每日价格指数作为美国、阿根廷等20多个国家每日更新的通货膨胀指数,提供给各国央行和金融机构,并认为以这种方法构建的通货膨胀指数避免了政府在收集、计算和发布时的种种弊端,更接近真实水平,如阿根廷政府公布的2007—2011年的年平均通货膨胀率为8%,但通过在线价格数据计算的CPI超过了20%,远超政府官方数据,但和很多当地经济学家的判断、家庭调查数据的结果吻合。李凤岐等(2017)[7]提出了自动挖掘百度搜索查询指数与经济指标之间关系的搜索预测算法,筛选出具有代表性的查询数据预测经济指标,并以此作为先行指标对我国CPI等宏观经济指标进行了预测。Askitas和Zimmermann(2013)[8]从交通流量反映经济活跃程度的角度出发,用德国收费站记录的月度重型卡车越境数据建立了收费站指数,作为生产指数这一GNP指数先导指标的先行指标,用以现时预测商业周期,并实证了该指数能有效先行反映德国统计办公室官方发布的生产指数。Sutton等(2002)[9],Elvidge等(2007)[10],Henderson等(2012)[11],Mellander等(2013)[12],徐康宁等(2015)[13],范子英等(2016)[14],丁焕峰等(2017)[15]从NASA卫星拍摄的夜间灯光强度数据出发,寻找其与经济活动之间的关系,认为灯光强度可反映经济运行情况,特别是认为灯光亮度与GDP存在非常显著的正向关系,可在一定条件下作为GDP的替代量。Askitas和Zimmermann(2009)[1]通过检验德国月度失业数据和失业相关搜索数据的频率后,认为它们之间具有很强的相关性,网络搜索数据对预测失业率很有帮助。Edelman(2012)[16]利用职位的供应量和求职者的申请数量的变化预测失业率。Amuri和Marcucci(2010)[17],McLaren和Shanbhogue(2011)[18],Vicente等(2015)[19]均采用搜索数据预测了不同国家的失业率,实证验证均取得了较好效果。Kholodilin等(2009)认为由于google搜索数据指标由于数据更新快、覆盖群体广等原因,在预测经济衰退时期美国个人消费指数效果要优于传统指标。沈淑等(2015)[20]根据消费者的行为理论,提出了一种基于LASSO机器学习理论和KPLSR方法的网络大数据对消费信心指数的预测方法。

  在构建新的经济预测指标方面,由于大数据比传统数据来源范围广泛、更新及时、内容海量,经济学家得以构建许多具有经济意义的新指标,丰富并强化了对经济的预测能力。Chamberlain(2010)[21]研究发现网络搜索数据和产品零售量间具有正相关性,可通过搜索数据构建产品销售的预测指标。Mclaren(2011)等[18]认为可从网络搜索数据中建立现时经济活动指标,他们用Google Insights for Search数据建立了比政府官方发布更及时的英国住房市场和劳动力市场现时经济指标,并通过样本外检验验证了该系列指标的有效性。Dzielinski(2011)[22],Aastveit等(2013)[23],Iskyan(2016)分别基于Google搜索数据、含有“不确定性”相关词的文章数量测量并预测了宏观经济的不确定性指数。Wu和Brynjolfsson(2009)[24]使用Google搜索数据预测了房地产价格指数。姜文杰等(2016)以均衡价格理论为基础,使用搜索关键词频率百度指数,采用自回归移动平均模型和带搜索项的自回归分布滞后模型研究并预测了上海房价。Choi和Varian(2010)[25]强调Google趋势数据可用于预测当下,而不是预测未来,他们认为从表征用户行为特征的网络搜索数据中可以更早地发现经济变化,通过建立包含相应Google趋势变量的季节性AR模型预测了临近期的经济指标:美国汽车销量、旅行目的地行情、消费信心等,并验证了该方法比传统方法的准确度提高了5—20%。类似地,Artola等(2015)[26]分别使用传统的由TRAMO估计的最好ARIMA模型、增加了相关Google搜索指数的模型短期预测了由德国、英国和法国去西班牙旅游的人数,发现后者在2012以前的预测精度比前者高42%。许伟(2016)[27]通过结合Google搜索数据和网络新闻情感,构建了基于网络情感和搜索行为的数据挖掘集成模型,在其中加入房地产价格指数时间序列的滞后项,利用支持向量回归SVR模型,实现了对房地产价格指数的预测。Kim等(2015)用社会网络数据和机器学习算法建立了电影票房预测模型,并验证了该模型能有效提高预测水平。

  在建立经济变量间的联系方面,大数据覆盖广,各种关系隐藏在表面看似无关的变量数据中,如何通过相关性分析挖掘、建立经济变量间的联系是基于大数据方法经济研究最令人兴奋的主题,它往往能深刻地揭示事物间的内在联系和发展规律,在这一领域的发现往往令人激动,改变人们的传统观点,甚至改变已有理。


>ca88登录页面 上一篇:2024年安徽事业单位考试面试课程 下一篇:勇攀科技高峰 巾帼尽绽芳华——走近第十九届中国青年