“大案牍术”竟是大唐版“大数据”!?迷信家有话说
作者头像
  • 兰丽香
  • 2019-09-04 13:21:03 1

在最近的夏季,国剧迷们热议一部电视剧中的谜题——《长安十二时辰》中,大唐长安城中三百桶伏火雷背后的幕后黑手究竟是谁?

这部电视剧改编自马伯庸的小说《长安十二时辰》,其结局令人意想不到——幕后主谋竟是利用“大案牍术”试图挽救大唐的小吏徐宾。

徐宾的角色引起了广泛关注,有人甚至将其比作“大数据”的先驱。然而,真正的数据专家认为这只是个玩笑。尽管如此,徐宾在剧中所追求的目标,现代科学家们确实在逐步实现。

近期,《Physics Reports》发布的一篇综述论文《计算社会经济学》详细讨论了这一话题。

“大案牍术”与大数据相差甚远

在《长安十二时辰》中,虚构的情报中心靖安司设有一座巨大的库房,存放着长安城内各种卷宗,供徐宾随时查阅。他独创了一种算法——“大案牍术”,能够根据各类数字推断真相,预测未来。

在他眼中,这些数字不仅代表数据,更代表着百姓的生活和生计。大唐的租庸调之均税制,正是基于这些数据。

徐宾意识到,数据可以为国家制定宏观政策提供重要依据。不过,网友戏称“大案牍术”为“穿越版”的大数据技术。在成都电子科技大学大数据研究中心主任周涛看来,“大案牍术”与大数据相距甚远。

“它最多是对数据进行了分类和检索,而不是处理数据的工具。因此,它只能快速找到相关数据,而无法处理这些数据。”

尽管如此,靖安司的司丞李必仍然非常欣赏“大案牍术”。他相信“数据即真相”,这在当时显然是异想天开。

数千年来,政府一直试图通过收集信息来管理国民。然而,即使到了20世纪,传统的数据收集方法仍有许多局限性。周涛解释说,传统的数据收集主要依赖大规模的社会经济普查。

然而,普查数据的获取耗时费力,往往滞后很长时间。此外,许多经济欠发达的国家和地区,信息系统不完善,也无力支持大规模普查。

被誉为“大数据商业应用第一人”的维克托·迈尔-舍恩伯格在其著作《大数据时代》中提到,美国宪法规定每十年进行一次人口普查。1880年的人口普查耗时八年才完成,1890年的人口普查预计需要十三年。因此,许多数据都是过时的。

尽管人类发明了随机抽样方法,但大量来自问卷调查和自我报告的数据通常只包含少量样本,并且存在社会偏见。

从1920年代开始,经济学界就是否可以计算和预测经济展开了一场大辩论。反对者认为,真实的经济数据难以获取,人际关系的功能难以量化和比较。

实际上,包括经济学、社会学、法学、政治学在内的社会科学,都面临类似的问题——研究对象的复杂性和不确定性,使得这些学科难以从定性走向定量研究,从而缺乏预测未来的能力。

“计算社会经济学”的诞生

近年来,大数据和人工智能技术的发展,为社会科学特别是社会经济学研究带来了前所未有的机遇和变革。

周涛等人发表的《计算社会经济学》论文解释道,一方面,卫星遥感、手机通信、社交媒体等大规模社会经济数据的可用性提高,具有低成本、实时更新和高时空分辨率等优点;另一方面,机器学习、网络分析、文本挖掘等社会经济分析工具和计算方法的进步,有效提升了感知和预测社会经济的能力。

周涛团队注意到,遥感技术最初用于地球科学领域,近年来,高分辨率的遥感数据被用于提供有关经济活动的信息。例如,利用捕捉夜间光亮的卫星图像数据,结合全球人口动态统计分析数据库的人口数据,通过统计方法估计国家和区域的社会经济状况,从而绘制出全球贫困地图,提高对全球贫困问题的及时感知。

科学家还通过复杂系统物理建模分析产品出口数据,并将该模型应用于GDP预测。结果显示,该模型的预测准确性比国际货币基金组织的预测高出约25%,在全球范围内引起轰动。

此外,利用手机通话记录、社会通讯网络、移动轨迹等数据,可以建立预测个人支出的模型。科学家对卢旺达856名手机用户的家庭经济状况进行了详细调查,然后通过机器学习方法,建立了利用手机数据预测家庭经济状况的模型,从而能够以很高的精度预测卢旺达150多万家庭的经济状况。

再如,通过对超过2亿微博用户的注册数据进行分析,发现线上社交活跃度与经济发展状况高度相关。经济发展高于社交活跃度预期的城市,第二产业发达;反之,第三产业发达。

基于企业内部的在线互动平台数据,构建员工之间的社交和工作网络,可以计算员工在网络中的地位。研究表明,处于网络核心地位的员工更容易在未来升职,而处于网络边缘地位的员工更容易离职。因此,可以通过构建模型预测员工升职和离职的可能性。

周涛表示,这就是一个全新的交叉学科研究分支——计算社会经济学。它的研究内容可以涵盖三个层面:国家社会经济状况、区域/城市经济结构和个人社会经济属性,以及两个应用:应急和灾害管理、发展和升级策略。

在这篇长达83页的综述文章中,研究人员从不同期刊和跨多个学科的会议记录中寻找这一新兴研究领域的成果,并将这些成果汇集在一起。他们还根据研究对象和数据集的不同对代表性成果进行分类整理,从而全面展示计算社会经济学的应用全景。

数据科学家应对社会科学研究有所抱负

如今,计算社会经济学特别强调三个关键词:

一,“定量化”,强调用数值而非描述来描述问题和呈现结果;

二,“真实数据”,强调实际模型必须服从真实数据,以对真实数据的解释和预测能力为评价标准;

三,“大规模”,强调尽可能获取可以直接反映总体的数据样本,即整体尺度数据。

然而,他也提到,文章中介绍的许多重要方法和结论尚未被接受为社会经济学的一部分。实际上,从事计算社会经济学相关工作的研究人员目前分散在许多学科中,尚未被视为传统社会经济学方法论的挑战者。

“作为一个大数据专家,大数据以及人工智能带来了很大的变化,对科学的最大冲击,不是来自于计算机学科本身,很大程度上是来自于它们对社会学、经济学、管理学、心理学等社会科学的影响。”周涛认为,将原本只是半定量或定性分析的学科转变为定量学科将是一场剧变。“因此,数据科学家应该对社会科学研究有所抱负。”

计算社会经济学的不足

当然,论文也指出,作为新兴的交叉学科研究分支,计算社会经济学的研究还面临着一些方法论上的不足。

首先是数据质量,特别是真实性仍无法得到充分保障。尽管来自真实世界的数据是计算社会经济学的优势所在,但社交媒体数据的真实性仍然经常受到质疑。

其次,研究结果的适用范围和相关性有限。计算社会经济学使用的数据并不能完全覆盖所有人口。而且,社会经济问题受宗教、文化、政治等因素影响较大,某一地区的某一结论可能不适用于其他地区。

为此,研究人员提出了未来有待研究和解决的方向。尝试设计具有强大解释和预测能力的新目标;利用数据驱动的方法论,对传统社会经济学理论的正确性和适用性进行重新分析;发现因果关系,形成理论洞见;通过控制实验验证新理论成果;将理论和实证分析的方法与结果应用于实际。

    本文来源:图灵汇
责任编辑: : 兰丽香
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
案牍大唐迷信竟是话说数据
    下一篇