章邵增:用人类学视野做大数据分析

澎湃新闻记者 王芊霓 实习生 葛诗凡
2020-08-06 09:59
来源:澎湃新闻

在人工智能和大数据的浪潮下,每个学科都想跟“数据”沾上边,与“定量”挂上钩。

而一说起人类学,普通人脑中浮现的或许是,遥远的丛林部落中调查宗教仪式的图景,好像与“大数据”毫无关联。就算近年出现的网络民族志,人类学的参与观察和深度访谈等质性方法也与“大数据”相去甚远。但真是如此吗?

在7月25日的“未来人类学家”田野营分享会中,主办方请来了美国俄勒冈州立大学人类学系助理教授章邵增,举办了一期名为“用人类学研究方法来革新大数据分析”的讲座。讲座由北京大学社会学系的博士生熊志颖主持。北京大学副教授赖立里和在企业界工作的任珏博士参与了评议和讨论。

章邵增提出从人类学的视野出发来革新大数据分析。在认识论上,可以用考古学来重新定义大数据,而在方法论上,人类学完备又严谨的方法是大数据应该借鉴的,能帮助重新认识数据“真实性”问题。

在人工智能和大数据的浪潮下,每个学科都想跟“数据”沾上边。

大数据真实性需要重新定义

章邵增从大数据的真实性入手,认为传统的数据处理方法需要反思。如今的大数据来自于用户生成数据和传感器,量大且杂,在传统的数据分析中,操作人员将80%的时间都用在了数据清理中。

但是章邵增认为我们忽视了数据清理操作的前提,即真假二元对立的预设。而在此预设基础上的实际操作比简单的真假评判和取舍更为粗糙和武断,有时候操作人员搞不清楚数据真假、有用与否,就仓促取舍,往往只是把方便用的留下了。

但是“假”数据就一定“无用”吗?谁又能定义“真”和“有用”呢?

章邵增用语言学的例子来说明真和假、有用和无用之间的界限并不是简单的二元分野。当我们在一个具体的情境中讲了句反讽的话,表达的意思可能和字面意思完全相反。

在大数据中也一样有具体的“情境”,当我们在大数据中开始考虑“人的因素”,很快就会发现真假二元对立的预设往往是站不住脚的。

用考古学视野来看待大数据

搁置了大数据的真假二元对立,章邵增给了大数据一个“考古学”式的定义:大数据是人类活动遗迹的一部分。

之所以给出这样的定义,是因为章邵增觉得大数据和考古学有许多“同构”之处。其一,大数据和考古学的证据一样,往往不完整、不具有代表性。人类活动遗迹经过长期甚至数万年的沧海桑田,能留下一两个脚印、几片残砖就足以珍贵,很显然是不完整的。而大数据也只能代表一部分人的一部分行为,大数据再大也往往不是“全”数据。

其二,考古学最常用的方法是考古学推理。推理往往不能表示因果性,只能表示一种相关性。中肯地讲,大数据分析一般也不敢宣称因果性的推断,而只是从数据中发现相关性。当然,因其长期的科学传统,考古学的推理则要严谨得多。

“考古学”在其他领域也早有应用于考很近的“古”。章邵增举了“垃圾考古学”的例子,即从一户人家丢的垃圾包装袋、外卖盒子等垃圾中推断出那户人家的消费行为。在这个例子中,“垃圾”本身就是人类行为遗迹的一部分。

考古学和大数据也早有关联。90年代的时候就有学者认为互联网是一个巨大的数字墓地,要对网络数据进行拯救式的开发。在传媒研究中也借鉴了考古学的思路,即把网络数据当成文化制品。

章邵增总结了大数据和考古学结合的好处:重视数据解释性的价值,把数据放在情境当中去做推理,这样才能看到数据的历史,去解读那些有偏差、甚至是有偏见的数据。

人类学为大数据提供了情境

当然,仅用考古学的视野来重新定义大数据是不够的,章邵增还提出在这个新定义的基础上,再纳入人类学的其他方法来追溯和重建大数据的产生和使用的情境,从而更有效地分析和解读大数据。

为什么孤立地使用大数据往往成问题?章邵增用“路灯效应”来解释:好比在路灯下寻找丢失的钥匙,操作起来是很方便,但实际上是非常片面和局限的,找不找得着是很值得存疑的。

而人类学具有探索情境最谨慎和科学的方法,可以为大数据提供情境式的分析。拿人类学里最具代表性的“民族志”方法来说,我们可以把大数据看作人类学的一块新的民族志“田野”,去参与式地观察数据的形成过程,去访谈生成、处理和使用数据的人。

民族志学者也早已对大数据分析有所警惕和反思,并提出人类学的“小数据”或者说“深厚数据”——即来自于人类学民族志研究的“深描”(Deep Description)——对认识人类行为和社会文化是不可或缺的。人类学家的传统数据可能很小,来自于一个社区或者是一小群人,但是因为有了对情境的深入探索,这些数据的厚度远超过大数据。

章邵增总结道,我们可以纳入人类学(考古学加民族志)的方法来处理大数据,在情境当中去理解大数据。更重要的是重新定义大数据的真实性问题,不再把数据清理当作数据分析之前的一个独立的步骤,而是把所有数据都拿过来,在分析和解释的过程中去解决数据的真实性和质量这个问题。

精灵宝可梦GO是前几年大热的一款手机游戏。

精灵宝可梦GO中的隐形偏见

精灵宝可梦GO(Pokémon GO)是前几年大热的一款手机游戏。游戏公司把现实中的地图导入游戏之中,然后在街角和路口设置许多精灵,游戏玩家在这个真实世界和虚拟世界结合的空间中去寻获精灵。游戏公司表示此游戏旨在鼓励人们离开电脑桌,多多出门走动锻炼,与真实世界展开连结。

但是在章邵增和他的合作者对游戏的数据库进行分析时,发现许多人进行“位置恶搞”。有些人会使用网络机器人用远程方式虚拟地操作“抓精灵”,还有人会把手机绑在无人机或者宠物狗身上去难走的地方“抓精灵”。

这种“恶搞”会造成大量与实际位置不一样的数据,按传统的眼光来看,这些行为就属于“作弊”,这些数据也会被游戏公司定义为假数据而弃之不用。但是章邵增及其合作者认为这些数据有其背后的价值所在。

于是他们在地理信息系统(GIS)和大数据分析中融合了人类学民族志的方法,去亲自参与这个游戏并访谈那些“恶搞者”,从而更有效地解读数据背后的行为动机和社会意义。

结果证明,“定位恶搞”背后,确实反映了诸多结构性的问题。许多“恶搞者”反映游戏中精灵资源分布不平等,集中在大城市中心,而郊区和农村鲜有。章邵增及其合作者进一步分析了精灵的地理分布问题,结果发现在美国纽约,精灵集中在白人聚集区,极少在黑人居民区。游戏公司的精灵分布,背后隐藏了城乡不平等、种族偏见等问题。

章邵增和他的合作者还发现了游戏背后隐藏的商业因素。在日本东京,由于麦当劳和游戏公司达成了合作,游戏公司就在麦当劳门口设置精灵点,来帮助麦当劳吸引顾客。但是麦当劳代表的快餐文化违背了游戏公司宣传的健康生活理念——资本的虚伪可见一斑。很多进行“位置恶搞”的人恰是通过挑战精灵资源分布的不平等,和商业资本的虚伪来实现自己智力、技能、道德和情感上的满足。

因此,这些表面上的假数据,实则是真实的数据,因为他们都来自于人类真实的行为遗迹。而且是有用的数据:都能够帮助商业公司重构商业战略。再进一步说,这些数据可以用来研究人的游戏行为,还可以去开拓新的人文地理学的研究方向。

附:“未来人类学家”夏令营是由一群热爱及乐于分享人类学知识和方法的年轻人组织和筹办的系列科普教育活动。该活动由法国社会科学高等研究院博士候选人王希言发起,其后得到了许多知名学者的支持和帮助。截至目前,“未来人类学家”夏令营已在北京、陕西省安康市等地举办多次活动。

    责任编辑:陈诗怀
    校对:丁晓