人心可以计算吗?——人工智能与社会科学研究之关系

胡安宁
2018-02-10 18:13
来源:《南国学术》

随着大数据和机器学习算法的普及,社会科学的量化研究也逐渐试图采用以人工智能和数据挖掘为基础的新兴研究手段,来处理过去无法处理或者忽视了的研究议题。与传统以“诠释”为导向的统计分析相比,基于人工智能与机器学习算法的量化分析手段更加注重模型的预测能力。在此背景下,如何处理好人工智能技术与社会科学研究的关系就显得尤为重要。

解决这一带有方法论性质问题的途径有三条:

其一,基于现有的量化研究方法论文献,对“传统”的基于统计模型的量化研究范式与正在兴起的基于演算的量化研究范式进行对比,厘清“诠释”与“预测”所代表的不同研究范式。

其二,从计算科学的角度,对人工智能技术上的局限性进行讨论。不仅要指出人工智能的模式化分析方法在处理非模式化问题上的困境,而且要指出,基于人工智能算法的分析技术缺乏抽象思维的能力,以及它各自为战,缺乏整体性、系统性的思考能力。

其三,回到社会学家涂尔干的“神圣—世俗”二分法论述,从社会学理论思辨的角度对人工智能在社会科学研究中的预测分析进行评价。具体而言,世俗领域的指导原则是理性化原则,因此,世俗生活需要个体具有马克斯·韦伯所阐释的工具理性,这可以通过算法来预测。与之相比,神圣领域涉及超验的、永恒的、完美的存在。这种存在无法用理性来衡量,甚至只可意会不可言传。因此,以演算为基础的人工智能技术无法对超验的神圣领域进行模拟。唯有通过人类活生生的感受,才能够体验、理解,达到一种通感,而这恰恰是社会科学的重要任务之一。故而,基于人工智能的预测仅仅局限于世俗领域而非神圣领域,对人类理性计算的仿真和程序设计并不能够对超验的神圣价值提供指导。社会科学研究者在对新兴技术手段持开放态度和胸襟去接纳的同时,也要对人工智能在社会科学研究中的应用前景保持一种审慎的乐观态度。

在过去的几十年里,建基于统计模型的量化研究方法在社会科学的不同学科得到了广泛的应用。这些量化分析技术基本上是基于实验数据或者调查数据,利用比较成熟的统计模型,对所关心的总体特征(例如,某个参数)进行统计、估计和推论。学者们进一步对所估计出的系数进行诠释,由此产生了大量具有启发价值的经验研究成果。而随着大数据和机器学习算法的普及,社会科学的量化研究也逐渐开始试图采用以人工智能和数据挖掘为基础的新兴研究手段,来处理过去无法处理或者忽视了的研究议题。由于以演算和数据导向为基础的人工智能技术可以让社会科学研究变得具有预测性,因此被视为量化社会科学分析的一场划时代革命。在此背景下,一个随之而来的带有根本性的方法论问题是,人工智能技术与社会科学研究究竟是什么关系,如何处理?本文拟从多个角度对人工智能手段与社会科学研究之间的内在联系进行反思。

一、社会学量化统计模型的“解释”属性

关于传统统计模型在社会科学中的应用,现有的相关文献中已有论述。比较著名的是分类树算法的创始人布雷曼(L. Breiman,1928—2005)的讨论。他指出,传统的统计分析技术的核心在于理解和诠释。这是因为,在采用统计模型进行经验研究时,学者的关注点在于特定变量的解释力,而并非整个模型的预测力。很明显,这一分析范式也是社会科学量化研究的主流范式。例如,社会科学研究中最广泛采用的方法,就是线性回归模型。其中,“Y”代表了某一个因变量,而一系列的“X”则用来解释“Y”。对于大多数社会科学研究者而言,一个比较普遍的区分是将“X”分为两类:一类是人们关心的自变量,另外一类则是人们不关心但又不得不考虑的控制变量。以个体的工资水平分析为例,教育社会学家和教育经济学家最关心的可能是教育水平的作用。按照传统的“敏瑟模型”(Mincermodel),除了考虑个人的教育成就之外,还需要引入工作经验、性别、地区等控制因素;在中国,有时还要考虑工作部门、单位类型等等。此时,人们并不在意这些控制变量对于工资收入的影响,而是将关注点放在控制了这一系列因素之后,教育成就变量的纯效应上。这体现在教育成就变量的回归系数。研究者通常考察这一系数是否在统计上具有显著性。如果显著为正,人们便能够得出结论,在控制了一系列社会学—人口学背景因素之后,教育能够显著地提升个体的收入水平。如此,一个具体社会科学研究议题的经验分析便完成了。

与这一分析进路相比,基于演算的人工智能范式则不关心某一特定变量的解释力。按照布雷曼的观点,采用数据挖掘进路的研究者通常尽可能地纳入各种与被解释变量“Y”相关的因素,然后考察这些因素合并在一起,如何能够在新的环境下尽可能准确地预测“Y”。正因为如此,基于算法的研究往往将数据分为多个组进行交叉验证,以求得最优的模型形式进行预测分析(比较常见的是将数据分为十组,利用九组数据建立模型,然后利用第十组数据看前面九组数据所训练出来的模型是否能够有比较强的预测能力)。这方面比较典型的应用或许是客户分析。将大量的已有的用户数据登录,以此训练出一个具有比较强预测力的模型工具。之后,当新的用户出现时,这一使用者的某些信息便能够输入模型,并以此预测出用户的某些属性。例如,当人们在亚马逊网站上买书时,一旦输入社会学类书籍,网站会自动基于过往用户的购买习惯,向这一新的用户推荐一些其他书籍。诚然,如果这一新的用户是社会学专业的大学生,而亚马逊过往的演算是基于大量社会学专业大学生的购买习惯,这些新推荐的书籍很有可能正是新使用者所需要的,由此既给用户以便利,又提升了网站的营业额。

通过对比上述两个具体的例子,不难发现,至少到目前为止,社会科学中的量化研究方法主要还是布雷曼所谈到的第一种范式,即以诠释为导向的模型拟合:针对特定的“Y”,人们关心特定的“X”在控制一系列因素后如何影响其变化。通常而言,这也恰恰是社会科学理论产生的契机。比如,教育成就对于个体收入的积极效果被用来建立和完善人力资本理论、市场信号理论等等;如果一个国家的国内生产总值(GDP)提高以后,人们更加关注个人的情感和意见表达,则这一经验模式可以用于支持英格尔哈特(Ronald Inglehart)的后物质主义理论;如果同样的社会学—人口学背景下,女性的收入水平低于男性的收入水平,人们便有证据支持劳动力市场的性别歧视,等等。与这种“诠释”范式相比,人们很少见到社会科学家会基于自己的研究模型做出具体的预测(例如,很少有政治社会学家预测何时会发生社会运动)。鉴于此,当越来越多的研究者将基于演算的、以预测为目的的人工智能技术引入社会科学研究的时候,人们似乎见到了社会科学新的发展方向,甚至是社会科学研究的范式革命。但是,真的会如此吗?

二、“人心难测”:计算科学的视角

在计算科学中,人工智能是一个非常宽泛的领域,其中基于不同的应用方向有不同的分支学科。但究其根本,与社会科学密切相关的人工智能应用应当是机器学习。所谓机器学习,是通过提供给机器(亦即计算机)特定的数据,让计算机利用算法,寻找出这些数据背后的模式。之后,当新的数据出现以后,人们便能够用这些模式来套用数据,做出预测。虽然具体的机器学习算法有很多(例如,判定树,神经网络,等等),但基本的分析逻辑大致如此。

那么,如果用这套工具来试图理解人类社会,做社会科学的研究,是否可能呢?答案是:介于肯定与否定之间。之所以有肯定的一面,是因为人类的某些社会性行为具有高度模式化的特点。例如,在给定特定资源的情况下,一个理性选择的个人通常会做出利益最大化的决策(比如,在给定资金的情况下进行投资决策)。此时,机器可以对这种模式化的行为进行分析,甚至在立足于大量已有投资“经验”的基础上,“创造性”地通过演算给投资者指出一种常人可能忽略了的最优投资策略。从这个角度来看,人工智能的确可以帮助生物智能进行更为合理的判断,其在社会科学中的应用应当得到肯定。

但是,除了这一类模式化的研究之外,如果简单地认为人们可以利用人工智能技术完全预测个体行为,并建立预测性的社会科学,那就不免有些过于乐观了。正是因为这一点,上述问题的答案中又包含否定的一面。具体而言,利用人工智能技术进行社会性行为的分析会面临三个困境。

第一个困境,在于机器学习的模式化分析范式。正所谓成也萧何、败也萧何,人工智能虽然能够对于模式化的行为进行基于算法的预测和分析(例如,“阿尔法围棋”可以击败中国、韩国很多围棋高手),但是,一旦人们面对的问题不是模式化问题时,那么,人工智能就难以处理了。一个简单的例子是:如果问机器“1+1等于几”?机器会立刻回答“等于2”。但如果告诉机器,这里的“1”代表一堆沙子,那么,两堆沙子放在一起是什么呢?人们会说,还是一堆沙子。而机器却无法做出类似的回答。因为,两堆沙子混成一堆不再是一个数学化的模式问题,而是一个生活经验问题了。

这个例子也将人们带到了人工智能在处理社会问题时所面对的第二个困境,即缺乏抽象思维的能力。目前文本学习非常流行,其中有一些算法能够说明研究者分析一段文字所表达的作者情感。但是,这种分析到目前为止还比较机械,其背后的机制在于特定词汇的计算特征。因此,使用这种技术,人们所得到的信息也是非常初步的。换句话说,人们目前很难寄希望于人工智能能够读出字里行间的潜在意思。而对于社会科学而言,恰恰是一段文字的字里行间才能够反映出作者的真实想法。如果仅仅根据词频或者其他表面上的文字使用模式,人们很难区分作者的真实意思和反讽之间的区别。试想,这样的人工智能是否能够理解鲁迅(1881—1936)的著作,特别是他撰写的杂文呢?

最后一个困境是,人工智能在处理具体问题时往往各自为战,缺乏整体性、系统性的思考。2012年,有一部以棒球为题材的美国电影《点球成金》在全球公映,讲的是一个棒球队利用统计数据而不是个人经验来选择球员的故事。当然,这个故事的结局是基于数据的决策要优于基于经验的决策。但即使如此,电影中通过统计数据所展示出来的信息依然要汇总到一个活生生的个体那里,通过人脑的加工才能够形成最后的决策。而人脑在这里恰恰起到了一个统筹的功能。在将人工智能应用于体育领域时,通过算法和数据所提供的信息针对的是球场上特定位置的球员。例如,找到一个最好的后卫、一个最好的中锋等等;但是,这个最好的后卫或中锋能否与全队有效配合,产生化学效应,人工智能却难以判断。如果出现“一山不容二虎”的局面,两个最好的球员在一起所产生的效果可能反而不如两个普通球员在一起合作的效果好。而这些超越个体的整体性判断,则需要教练员与不同位置的球员进行“人与人”之间的沟通才能做出。显然,这些已经不是机器所能做到的了。对于社会科学而言,学者们感兴趣的恰恰是人与人之间的联系,以及这种联系所产生出来的,超越个体的简单加总所形成的具有独立存在意义的“社会”。

三、“人心难测”:社会学的理论解释

得出“人的社会性行为无法完全由演算来预测”这一结论,不仅已被计算科学研究所证实,而且也可以从社会学的经典理论中得到支持。从某种意义上说,能够经由算法来进行预测的人类行为往往是高度理性的行为。这种理性可以体现在多个方面。最为简单的理性行为就是简单重复劳动(例如,一个生产线上的某一道工序)。对于这种重复劳动,一些简单的算法便能够胜任,这在大量使用机器取代人工的工厂实践中可见一斑。当然,理性的行为和逻辑并不仅仅是重复工作,还包括大量的基于形式逻辑的高级推导与计算行为。这里比较具有代表性的,就是谷歌公司设计制作的“阿尔法围棋”在围棋上与各国顶尖棋手对弈时的“全胜”。

但是,人类的各种禀赋,尤其是那些构成人类社会本质特征的元素并不完全是理性化的行为。甚至可以说,人类社会之所以成为社会,恰恰是因为每个人不是像机器般“算计”,而是有着非理性的情感、思想和价值。在这方面,法国社会学家涂尔干(E. Durkheim,1858—1917,一译“迪尔凯姆”“杜尔克姆”)的理论具有启示价值。他在《宗教生活的基本形式》一书中,将人类社会区分为“神圣”与“世俗”两大领域。所谓的神圣领域,是指那些永恒的、完美的社会特征;而所谓的世俗领域,则指那些与人们日常生活息息相关的“柴米油盐酱醋茶”。在世俗领域,人们生活的指导原则是理性化原则。例如,如何养家糊口,如何完成某一个项目,等等。面对这些世俗活动,人们需要采用一种基本的取向,考虑如何采用特定手段来完成特定的任务。从这个角度来看,世俗生活需要人们有马克斯·韦伯(M.Weber,1864—1920)所阐释的工具理性。但是,人类社会之所以能够存在,生活于其中的个体之所以能够彼此团结起来而不至于一盘散沙,所依赖的并不是这种“精致的利己主义”。相反,人们需要的是一种超验的,在人们看来不那么善变的、完美的存在。这种存在无法用理性来衡量,甚至只可意会不可言传。由于这种存在超越人们的日常生活,人们才能够在彼此之间找到共同的社会属性,进而形成一个具有团结性的社会。人们坚持这种价值,便成就了韦伯意义上的价值理性。

这种世俗与神圣的区分,对于人们理解人类社会与社会科学研究的关系非常有价值。以算法为基础的人工智能技术或许对于预测世俗行为很有用,但却无法对超验的神圣领域进行模拟。对于后者,唯有通过人类活生生的感受,才能够体验、理解,做到一种通感,而这恰恰是社会科学的重要任务之一。例如,婚姻的形成过程往往涉及很多理性化的考虑。尤其是在今天,夫妻双方在最后走入婚姻殿堂之前可能在家庭义务、双方家庭的物质支持等方面已经有一系列的讨价还价。在这里,双方都在努力的做到利益的最大化,因此,理性化的原则通常会占上风。然而,这些思虑在一般人看来都是“俗”的,因为这里涉及的是斤斤计较和患得患失。但是,婚姻涉及的不仅仅是这些功利性的考虑,更重要的是双方的爱情基础。而爱情却是一种神圣性的存在,人们通常认为它是永恒的、完美的,不容讨价还价和妥协的。对于大多数的婚姻而言,世俗的元素与神圣的元素都是并存的。有些可能更加偏重对爱情的追求而不在意经济利益,而有些则将经济利益看的很重,不太重视爱情。但无论如何,一个基本的共识是,仅仅用理性计算来衡量婚姻是无法把握婚姻的本质的。通过这个例子,可以看到人工智能技术的应用点,但同时也看到了其局限性。很明显,在涉及理性计算时,人们完全可以采用算法来推理和预测个人的选择和倾向,但这种预测仅仅局限于世俗领域而非神圣领域。换句话说,对人类理性计算的仿真和程序设计并不能够对超验的神圣价值提供预测。那么,很自然的一个推论是,人们并不能够利用人工智能来完全理解婚姻行为。

按照涂尔干的理论,人们所关注的社会恰恰是一种个人无法直接感受的超个体存在。而一切事物的神圣性,恰恰来源于其社会性。因此,只要人们坚持认为社会具有超越个体的独立性,即一种社会唯实论的主张,便不能够认为人工智能算法能够解决“人心的预测”问题。对于社会科学家而言,更为适用的方法是直接的访谈和体验,或者最多是传统意义上的统计模型了。

总之,人工智能与社会科学研究的结合是近几年学术界的热点,但人工智能技术在社会科学研究中所出现的过度模式化、缺乏抽象能力和整体思考能力等问题却表明,人工智能的演算逻辑更多适用于涂尔干意义上的世俗世界,而神圣世界是难以用演算和逻辑进行研究的。对于新兴的技术手段,社会科学研究者应当具有开放的态度和胸襟去接纳,但对于人工智能在社会科学研究中的应用前景,则需要保持一种审慎的乐观态度。因为,如果变得技术之上,则有可能本末倒置;毕竟社会科学对于人类社会的主要贡献在于提供理解人类社会的新思想和新视角,与之相比,工具的重要性理应是第二位的。

(转载未收录原文注释,原文发表于《南国学术》2017年第4期第588—593页。)

胡安宁:2005年、2008年在复旦大学分别获得法学学士和法学硕士学位,2011年、2012年在普渡大学分别获得统计学硕士和社会学博士学位,2016年起受聘为复旦大学社会发展与公共政策学院教授、博士生导师,兼任Social Science Research、Chinese Sociological Review编委;主要从事文化与宗教社会学、教育社会学、社会不平等、社会科学量化方法研究,代表性著作有《宗教社会学:范式转型与中国经验》《社会科学因果推断的理论基础》等。

    责任编辑:韩少华
    校对:徐亦嘉