章邵增:用人类学视野做大数据分析
作者头像
  • 2020-08-06 08:19:47 0

在人工智能和大数据的背景下,各个学科都希望与“数据”和“定量分析”联系起来。然而,提起人类学,很多人可能会想到遥远的丛林部落中调查宗教仪式的场景,这似乎与“大数据”毫无关联。即使近年来兴起的网络民族志,人类学的定性研究方法如参与观察和深度访谈也与“大数据”相去甚远。事实果真如此吗?

在7月25日的“未来人类学家”田野营分享会上,美国俄勒冈州立大学人类学系助理教授章邵增带来了一场题为“用人类学研究方法革新大数据分析”的讲座。讲座由北京大学社会学系博士生熊志颖主持。

章邵增指出,人类学视角可以革新大数据分析。在认识论层面,可以通过考古学重新定义大数据;在方法论层面,人类学严格且系统的方法可以帮助重新审视数据的真实性问题。

大数据的真实性需要重新定义

章邵增从大数据的真实性入手,认为现有的数据处理方法需要反思。当前的大数据来自用户生成的数据和传感器,数量庞大且复杂。传统数据分析中,操作人员通常花费80%的时间在数据清理上。然而,章邵增认为我们忽视了数据清理的前提,即真假二元对立的假设。基于这种假设的操作往往粗糙且武断,有时操作人员无法判断数据的真假和实用性,便随意取舍,导致很多有价值的数据被遗漏。

但“假”数据真的没有价值吗?谁能定义什么是“真”和“有用”呢?章邵增用语言学的例子来说明,真与假、有用与无用之间并非简单的二元对立。在特定情境下,反讽的话语可能与字面意思完全相反。同样,在大数据中,考虑“人的因素”时,真假二元对立的假设常常站不住脚。

用考古学的视角看待大数据

章邵增提出了一个“考古学”式的定义:大数据是人类活动遗址的一部分。这一定义源于他对大数据和考古学之间共通之处的认识。首先,大数据和考古学的证据都不完整、不具备代表性。其次,考古学常用的方法是推理,而非严格的因果关系。大数据分析也倾向于发现相关性而非因果性。

考古学在其他领域也有广泛应用,例如“垃圾考古学”,即通过分析家庭丢弃的垃圾来推断他们的消费行为。在这个过程中,“垃圾”本身就是人类行为的遗址。

大数据和考古学的结合有助于更好地解释数据,将其置于特定情境中进行推理,从而揭示数据的历史,解读那些带有偏见的数据。

人类学为大数据提供了情境

章邵增认为,仅用考古学视角重新定义大数据是不够的,还需要引入人类学的其他方法来追溯和重建大数据产生的背景和应用情境,从而更有效地分析和解读大数据。

孤立地使用大数据往往会导致问题。章邵增用“路灯效应”来说明,这就像在路灯下寻找丢失的钥匙,虽然操作方便,但实际效果有限。人类学提供了一种严谨的方法,可以在情境中分析数据,例如通过民族志方法,将大数据视为一个新的研究领域,参与观察数据的形成过程,访谈生成、处理和使用数据的人。

民族志学者已经注意到大数据分析的问题,并提出人类学中的“小数据”或“深度数据”对于理解人类行为和社会文化至关重要。这些数据虽小,却因对情境的深入探究而显得更加丰富。

数据真实性与质量的重新定义

章邵增总结道,通过人类学(包括考古学和民族志)的方法,可以在情境中理解大数据,重新定义数据的真实性问题。不再将数据清理作为数据分析前的独立步骤,而是将所有数据纳入分析和解释过程中,处理数据的真实性和质量。

精灵宝可梦GO中的隐形成见

以《精灵宝可梦GO》为例,这是一款几年前流行的手游,玩家在游戏中捕捉精灵。游戏设计初衷是鼓励人们离开电脑桌,多在户外活动。然而,章邵增和他的团队在分析游戏数据库时发现,许多玩家采取了“地位恶搞”的行为,如使用网络机器人远程操作或用无人机捕捉精灵。这些行为被视为“作弊”,导致大量与实际位置不符的数据。

然而,章邵增认为这些数据有其潜在价值。他和他的团队结合地理信息系统(GIS)和大数据分析,融合人类学民族志的方法,亲身参与游戏并采访“恶搞者”,从而更有效地解读数据背后的动机和社会意义。

结果显示,“地位恶搞”反映了多种结构性问题,如城市间的资源分配不均,以及种族偏见。游戏公司在一些地区的精灵分布存在明显的地域差异和种族偏见。此外,商业元素也在游戏中扮演重要角色,如麦当劳与游戏公司的合作,导致了一些商业利益的冲突。

这些表面上的“假”数据实际上是真实的数据,因为它们源自人类的真实行为。它们也是有用的数据,可以协助商业公司调整战略,并促进人文地理学的研究。

结语

“未来人类学家”夏令营是由一群热衷于分享人类学知识和方法的年轻人组织的科普教育活动。该活动由法国社会科学高等研究院博士候选人王希言发起,并得到多位知名学者的支持。至今,“未来人类学家”夏令营已在北京、陕西省健康市等地举办多次活动。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
人类学数据分析视野邵增:
    下一篇