揭秘因果推断与机器学习的交汇点：新时代的社会学视角

2024-06-12 07:44

浙江

编者荐语：

本文回顾了社会学中因果推断的最新进展，包括因果效应识别与估计、因果效应异质性、因果中介效应和时空干扰等主题。文章指出，机器学习方法可以帮助估计因果效应，并结合传统因果推断方法，使研究人员能够更好地解决因果效应的潜在偏差。最后，文章强调了研究设计在因果推理中的重要性，并指出因果推理的基本问题仍存在。

因果推断与机器学习的最新进展

摘要:

本文回顾了与社会学相关的因果推断的最新进展。重点介绍了以下四个主题：一般的因果效应识别和估计，因果效应异质性（causal effect heterogeneity），因果中介效应（causal effect mediation），以及时空干扰（Temporal and spatial interference）。接着描述了如何将机器学习作为一种估计策略，有效地与传统上关注于识别的因果推断结合起来，从而使研究人员能够更好地解决估计因果效应的潜在偏差，并揭示异质的因果效应。揭示因果效应异质性的来源对于推广到研究之外的人群至关重要。尽管社会学长期以来强调了因果机制，历史和生命周期变化，以及涉及网络互动的社会环境的重要性，但最近的概念和计算进步促进了在这些设计下进行更有原则的因果效应估计，最后我们鼓励社会学家将这些见解纳入他们的实证研究中。

作者简介:

Jennie E. Brand，加州大学洛杉矶分校社会学系。

Xiang Zhou（周翔），哈佛大学社会学系。

Yu Xie（谢宇），普林斯顿大学社会学系。

编译来源:

Brand, J. E., Zhou, X., & Xie, Y. (2023). Recent Developments in Causal Inference and Machine Learning. Annual Review of Sociology, 49(Volume 49, 2023), 81–110. https://doi.org/10.1146/annurev-soc-030420-015345

从左至右依次为本文作者：Jennie E. Brand、Xiang Zhou和Yu Xi

一、引言

社会科学领域和日常生活中的许多重要问题都是因果问题。例如，我们想知道父母离婚如何影响孩子，上大学如何影响就业前景，或者搬到新社区如何影响孩子的学习成绩。由此，我们不难发出疑惑：如果个体经历过或没有经历过某件事，比如离婚或上大学，会发生什么?自从Winship&Morgan（1999）和Gangl（2010）对社会学的评论以来，关于因果推理的文献已经发展出了一些新的有前途的方向。一些最令人兴奋的发展领域在于因果推理与机器学习的交叉点。

本文强调四个主要原则。首先，不同研究设计和识别策略所依据假设的可信度会因应用而异。适用于因果任务的机器学习方法有助于估计，但它像其他估计工具一样，并不能确保准确识别因果效应。其次，因果效应的异质性是常态，它使得推断变得复杂。研究者可能会付出相当大的努力来建立一个具有较高内部效度（即因果效应估计量的可信度），但外部效度较低（即因果效应对其他人群的推广性有限）的模型。为此需要评估因果效应的异质性，以了解因果效应的总体分布。机器学习方法可以帮助识别对处理最敏感的子样本。第三，在评估社会学研究中的社会机制时，需要注意因果路径上的混杂。第四，社会环境中典型的时空干扰，使因果效应的定义、识别和估计复杂化。在社会学研究中，这些复杂性应更常规的被解决。

二、因果效应识别与估计

2.1实证研究

随机实验将个体随机分配到处理组和控制组，提供了一种解决混杂问题的策略。通过成功的随机化，实验在处理状态和两种潜在结果之间产生独立性。因此，我们可以可信地将处理组和对照组之间的平均结果差异归因于处理。

随机实验的最新发展包括用于评估最优处理分配的自适应设计。例如，考虑一个在线环境，其中处理按顺序分配给不同的单元，并且在处理分配后快速测量每个单元的结果。多臂老虎机根据在处理时学习的信息，分配处理条件，从而允许研究人员或政策制定者将更多单位分配给具有更高回报的条件。多臂老虎机的社会学应用仍然很少，但它是未来研究的一种有前途的方法。

2.2无混杂状态下的观察性研究

出于实际和道德原因，社会学家无法使用实验来回答许多有趣的社会问题。一些学者还就随机实验在科学证据的层次结构中应占据何种地位进行了讨论。但在大多数观察研究中，独立性条件可能不成立。研究人员可能假设，在调整一组前定变量X 后，没有其他混杂因素会影响处理状态和结果，即假设无混杂（也称为可忽略性、条件独立性或外生性）。

为了估计ATE，我们还假设存在正实性假设（positivity），即处理分配在总体中的所有协变量值上都是有概率的。正实性是一个强假设，因为它排除了处理状态在某些协变量值上没有变化（即在0或1处）。即使在总体中正实性成立，后者也可能出现偶然情况。此外，如果某些变量违背此假设（violations of positivity）即在某些协变量值下，只有很少接受处理/未处理的单位。可能导致对总体子样本的因果效应估计不稳定。

在无混杂和正实性假设下，研究人员利用各种方法来估计因果效应，例如回归插补、倾向得分匹配（PSM）和逆概率加权（IPW）。

回归插补、PSM和IPW涉及对数据分布的不同部分建模。回归插补依赖于正确指定的结果模型，而PSM和IPW则依赖于正确指定的倾向得分模型。然而，正确指定任何一个模型都是困难的，尤其是前定变量的向量 X 是高维的时。当结果或倾向得分模型被错误指定时，相应的回归插补、匹配或IPW估计可能存在偏差。错误指定可能是由于数据中存在许多潜在混杂因素与结果之间的关系，或对结果产生影响的函数形式持不可知态度。这两种情况在社会学研究中很常见。在第二种情况下可以尝试使用高阶和交互项。学者们还提倡使用灵活的机器学习方法来拟合结果或倾向得分模型。例如，使用分类回归树（classification and regression tree）和集成学习方法之一的随机森林。

然而，在每种情况下可能会面临一些复杂问题，因为这些方法通常并不是为因果推断而设计的。监督式机器学习方法旨在最小化预测误差，而不是估计因果效应。例如，对于结果的最小绝对收缩和选择算子（least absolute shrinkage and selection operator，LASSO）回归倾向于选择一组高度预测结果的协变量子集。然而，这样的子集可能不是估计ATE的最佳子集。此外，如果省略了与处理状态高度相关的协变量，即使它们与结果的相关性不大，处理效应也可能会出现重大偏差。同样，假设使用现成的机器学习方法来拟合匹配或 IPW 的倾向得分模型。在这种情况下，它将寻求可以最小化预测处理状态误差的一个模型，但该模型可能并不会产生最佳倾向得分估计值。

为了缓解与因果推断相关的这些和其他核心问题，研究人员已经改进了机器学习方法来估计因果参数。首先，为了将机器学习方法应用于回归插补方法，Belloni提出了一个双重选择过程，其拟合了两个LASSO回归，避免了单个LASSO回归出现的偏差。Künzel提出了一种元学习器（metalearner），可以使用任何监督学习算法来估计ATE。他们表明，使用随机森林和贝叶斯可加回归树（BART）作为基学习器（base learner）的X-learner同样表现出色。

其次，为了让机器学习适应IPW，McCaffrey建议使用梯度提升机（gradient boosting machine）拟合倾向得分模型。这种方法是关于校准倾向评分和平衡权重文献的先驱。

最后，当机器学习方法与所谓的ATE的双重稳健估计量相结合时，机器学习方法特别有吸引力。

在 SUTVA、无混杂性和正实性的假设下，如果结果模型或倾向得分模型中的任何一个被正确指定，但不一定两者兼而有之，则 ATE将是一致的。之所以出现双重稳健性，是因为ATE估计量的偏差由两个偏差项的乘积控制：拟合结果模型的偏差和拟合倾向得分模型的偏差。如果两个偏差中的一个收敛到零，则ATE双重稳健估计量的偏差将收敛为零。这一特性激发了Chernozhukov et al.（2018）所称的去偏双重机器学习（DML）ATE。

最后，研究人员应该经常考虑在放宽无混杂假设的情况下，结果会如何变化。一种常见的方法是通过从处理效应的点估计和置信区间中减去偏差项来进行敏感性分析。Cinelli & Hazlett （2020）提供了额外的测量和图形工具，用于评估对未观测混杂的敏感性。

2.3准实验设计

在研究人员认为无混杂假设不可信的情况下，可能会寻求使用准实验设计（例如工具变量或断点回归）来识别因果效应。IV 分析通常使用两阶段最小二乘法（2SLS）进行。在第一阶段，使用线性模型预测给定工具变量和一组前定变量X的处理状态。在第二阶段，结果Y对X和第一阶段W的拟合值进行回归，其系数代表了处理W对结果Y的因果效应。

IV允许存在混杂，但依赖于其他严格假设。首先，在前定变量X的条件下，工具必须是外生的（独立性假设）。其次，假设 IV 影响处理的可能性，即使它在很小的范围内（相关性假设）。第三，假设工具变量只通过处理间接影响结果（排除限制假设）。最后，考虑异质性处理效应，假设尽管该工具变量可能不会影响某些单位，但所有受影响的单位都在同一方向上受到影响（单调性假设）。有了这些假设，有关学者建议使用两阶段最小二乘法确定二元处理W的局部平均处理效应（LATE）。

此外，2SLS方法依赖于正确地指定处理和结果模型，当前定变量X 是高维时，这可能很难证明是合理的。Blandhol表明，正确指定工具变量与协变量（包括交互效应）之间关系的 2SLS ，对于研究人员将估计量解释为协变量特定LATE的平均值是必要的。Chernozhukov概述了用于估计LATE 的DML方法。与 2SLS 相比，DML 方法允许使用灵活的机器学习方法拟合所有这些模型，从而减少模型依赖性。这种方法为估计LATE提供了一种更具原则性的方法。

三、因果效应异质性

估计异质性处理效应可以深入了解稀缺的社会资源在不平等的社会中是如何分配的，以及事件如何对不同人群产生不同的影响。潜在结果框架从一开始就允许处理效应的普遍异质性，关注处理效应的异质性也有助于将研究结果外推到不同的人群和背景。

3.1估计异质性因果效应

研究人员倾向于根据理论，先验的决定在异质性分析中探索哪些子群体。例如，研究人员可能会按性别或种族进行分层，因为他们对社会人口的变化感兴趣。与这种方法相反，新兴的机器学习方法允许研究人员探索以前从未考虑的变化。例如可以通过调整变量选择算法（如LASSO）来搜索异质性，该算法会自动选择处理和协变量之间更具预测性的交互效应。社会科学家还采用了基于树的方法来揭示对处理的不同反应。决策树是一种广泛使用的机器学习方法，它递归地将数据分割为越来越小的子集，其中数据具有更大的相似性。决策树对社会研究很有吸引力，因为它们易于解释。因果树，即适用于因果推理的决策树，对数据进行分区以最大限度地减少叶内处理效果的异质性，这种方法允许研究人员通过在协变量的高维函数上发现没有预先指定的子群体。

单个决策树具有可解释性的优点，但可能不稳定，且不允许因果效应在协变量之间更平滑地变化。因果森林建立在因果树算法的基础上。原则上，每个个体都有一个独特的估计。使用这种策略，研究人员可以通过对个体处理效应进行排名，然后根据最高和最低排名类别的群体特征，来考虑处理效应异质性。最近的方法还将响应变量的监督学习与倾向评分的监督学习相结合，以估计处理效应异质性。

Semenova & Chernozhukov （2021）提出的 DML 方法补充了这些森林方法。这种方法不是从许多协变量中检测异质性，而是允许研究人员预先指定协变量的情况下直接估计条件平均处理效应。该方法在研究人员希望了解处理效果如何因选定特征（如性别、种族或社会阶层类别）而异的应用中很有帮助。与处理效果异质性密切相关的是关于政策学习的新兴文献。在这种情况下，研究人员以数据驱动的方式将处理分配给特定子群。因此，政策制定者可以针对那些处理效果最大的个体，在旨在优化昂贵处理设计的环境中，政策学习是有益的。

3.2异质性因果效应对外推的影响

如果每个个体的效应都相同，则很容易将处理效应从样本推广到总体。处理效应异质性使ATE的推广性变得复杂。研究人员在解释异质子群的处理效果时，应考虑总体。致力于最小化混杂的社会科学家可能会利用实验或准实验方法。然而，当研究人员试图从一组特定的研究对象推断或推广到总体时，由于成分差异，平均效果可能会有所不同。换句话说，研究人员经常面临内部有效性和外部有效性之间的权衡。

有几种方法可以帮助我们从子样本ATE推广到总体 ATE，例如偏差校正匹配、倾向得分加权、倾向得分子分类、熵加权、基于机器学习的异质性处理效果。机器学习方法可以自动检测协变量交互作用的处理。Kern表明，当观察到的协变量足以解释异质性处理效应时，贝叶斯可加回归树法（BART）在从样本外推到目标人群方面表现相当不错。

四、因果中介效应

虽然传统的社会学中介分析方法依赖于参数结构方程模型来定义和估计直接和间接效应，但因果推理文献中出现了大量的研究，这些研究解开了因果定义，识别和估计的任务。因果中介分析旨在通过量化因果效应的路径来揭示处理是否以及如何影响结果。

4.1估计直接和间接效应

评估因果中介效应的最常见方法是将 W 对 Y 的总效应分解为两个部分：一个是自然间接效应（Natural indirect effect, NIE），另一个自然直接效应（Natural direct effect, NDE）。

为了从观测数据中识别 ATE，我们调用了无混杂假设，该假设指出，在调整一组前定变量后，不存在影响处理状态和结果的其他混杂因素。我们可以使用多种策略来估计 NIE 和 NDE。Imai提出了一种回归模拟估计量（regression-simulation estimator）。最后，利用半参数理论，有关学者开发了三重稳健估计量，该估计量涉及拟合三个模型，由此生成的估计量具有三重稳健性，因为如果正确指定了三个模型中的任何两个，则该估计量是一致的。

此外，与 ATE 的双重稳健估计量一样，这种三重稳健估计量特别适合使用灵活的机器学习方法来估计其干扰函数。这一事实使其在高维环境中极具吸引力。只要任何涉及的因果关系存在未观测的混杂时，估计的 NIE 和 NDE 都可能存在偏差。

4.2处理引起的混杂因素

由处理引起的混杂因素给因果中介分析带来了两难境地。如果被忽略，中介变量对结果的估计将会出现偏差。然而，控制处理引起的混杂因素也是有问题的，因为它不仅阻断了因果路径，还可能打开了从处理到结果的非因果路径，导致对NIE和NDE的估计有偏。事实上，在存在由处理引起混杂因素的情况下，NIE和NDE并不是非参数的被识别。学者们提出了几种应对这一挑战的策略。

首先，如果我们强加一个额外的假设，即假设处理和中介变量对每个单位的结果都没有交互效应（INE），那么NIE和NDE可以在存在处理引起的混杂因素的情况下被识别出来。然而，这种假设在大多数应用中是不可信的，因为无交互假设必须适用于每个单元。为了克服这一局限性，这些学者又开发了敏感性分析方法，用于评估研究结果对可能违反无交互假设的稳健性。

第二，学者们提出了一种被称为干预直接效应（rNDE）和干预间接效应（rNIE）的估计量类别。与NIE和NDE不同，在存在由处理引起混杂因素的情况下，处理效应仍然可以非参数识别。第一组干预效应是“控制直接效应”（CDE），它衡量当中介变量固定在所有单位的给定值时，处理—结果关系的强度。因此，非零 CDE 意味着处理对结果的影响并不完全通过中介变量起作用。例如，在 Klein & Kühhirt （2021）的研究中，非零 CDE 意味着祖父母教育对孙子女认知能力的影响并不仅仅通过父母的认知能力起作用。

第二组干预效应估计量：rNDE 和 rNIE 类似于 NDE 和 NIE，不同之处在于，这些估计不是将中介变量设计为特定处理状态下每个单元的自然水平，而是将中介变量设置为给定处理状态下从其总体分布中随机抽取的值。因此，rNDE 和 rNIE 评估了处理对假定中介变量分布的影响。

研究人员可以通过几种替代方法来估计如CDE、rNDE和rNIE等干预效应，例如序贯g-估计方法（sequential g-estimation）和 IPW。最近，Zhou&Wodtke (2019)提出了残差回归（RWR）方法，该方法在代数上等同于特殊情况下的序贯g-估计法，但与后者不同的是，RWR 可以适应多种类型的调节效应。尽管如此，与序贯g-估计和 IPW 一样，RWR 以一组强大的建模假设为前提，如果违反这些假设，可能会导致有偏估计。学者们最近利用半参数理论来减少模型依赖性，并开发了更强大的干预直接和间接效应估计量。研究人员可以将这些估计量与机器学习相结合，以产生最优性能，比如用于ATE的双重稳健估计量和用于NDE和NIE的三重稳健估计量。

4.3具有多个中介的因果中介分析

在有多个中介变量的情况下，普遍的做法是将不同的中介变量视为因果独立（即假设它们不相互影响），然后分别估计每个中介变量的 NIE。然而，在许多应用中，中介变量可能是因果依赖的。因为，只要第一个中介变量受到处理的影响，那么它就是一个由处理引起的混杂因素，这使得在没有函数形式假设的情况下，第二个中介变量的NIE无法识别。在这种情况下，可以尝试通过额外的假设和敏感性分析来评估 NIE。

除此以外，在存在多个中介变量的情况下，仍然可以识别路径特定效应（PSE）。与NIE和NDE一样，研究人员可以通过回归模拟，回归插补，IPW或机器学习的多重稳健方法来估计这些PSE。

五、时空干扰

许多社会学问题都涉及研究随时间推移的影响或网络内部的相互作用。事实上，历史或生命周期的变化和网络交互是社会学研究的核心。但这些设计使因果效应的定义和识别变得复杂。正如研究时间变化或网络环境的社会学家应该考虑因果过程一样，因果推理学者也应该考虑处理和政策效应随时间变化以及研究单位之间的干扰所涉及的复杂性。SUTVA假设一个单位的结果不受人群中其他单位处理状态的影响。然而，我们经常面临时间或空间的干扰，使SUTVA假设站不住脚。

5.1存在时间干扰下的处理效应

在处理随时间变化的设计中，可能会出现时间干扰，即给定时间下的处理状态不仅具有同时效应（contemporaneous effects），而且还具有延滞效应（carry-over effects）。在因果分析中纳入时间干扰的一种常见策略是通过将潜在结果框架扩展到时变处理。

为了识别上述考虑的各种因果对比，确定每个处理序列的预期潜在结果就足够了。该量的一个关键识别假设是序贯可忽略性（sequential ignorability），它表明在过去处理和观测的混杂因素条件下，每个时间点的处理是无混杂的。尽管它不允许未观察到的混杂，但序贯可忽略性的假设允许延续效应和反馈效应。这些通常在固定效应模型中被假设为不存在。在序贯可忽略性下，可以通过各种参数和半参数方法估计预期的潜在结果。

一种常见的方法是边际结构模型(Marginal Structural Models) 的IPW估计。除了MSM，还可以通过结构嵌套均值模型(Structural Nested Mean Models)评估时变处理效果。为了减少模型依赖性，Bang & Robins（2005）提出了一个预期潜在结果的半参数估计量。该估计量具有多重稳健性。鉴于它减少了对模型规范的依赖以及与机器学习的互补性，我们鼓励社会学家在未来的研究中更广泛地使用这种半参数估计量及其变体。

5.2存在空间干扰下的处理效应

在所考虑的单元不是孤立的，而是通过共同的物理或社会空间（如学校、邻里和友谊网络）连接起来的环境中，可能会出现空间干扰，从而导致溢出效应。在这种情况下，一个单位的潜在结果不仅是其处理状态的函数，也是其他相关单位处理状态的函数。这种干扰在社交环境中很普遍。然而，忽视干扰可能会导致对因果效应的偏差估计和不正确的统计推断。

当干扰模式不受约束时，个体处理效应很难研究，因为（1）每个单元的反事实数量随着单元数量的增加呈指数级增长，导致许多因果对比难以非参数地估计，以及（2）不同单元的结果将会相互依赖，使统计推断变得复杂。如Hudgens&Halloran（2008）所示，个体处理效应和溢出效应可以使用两阶段随机化程序进行识别和无偏估计。为了在观察性研究中识别这些影响，需要调用群体层面的无混杂假设。在此假设下，研究人员可通过各种策略（例如IPW，回归插补和双重稳健法）估计个体平均处理效应和溢出效应，也可以将双重稳健方法与 DML 相结合，以产生最佳性能。

在许多社交环境中，人们通过多种渠道和网络相互交流，例如朋友、家人、邻居和其他人。重要的是要估计每个网络产生的溢出效应。然而，这些网络的交互效应往往没有被观察到，因此很难对溢出效应进行无偏估计。Egami开发了敏感性分析方法，用于评估未观测的网络对因果发现的潜在影响。与此相关的是，An强调了收集处理扩散数据的重要性，以正确测量处理干扰。

六、总结

在过去的三十年里，因果推断已经成为社会学及其相关学科如经济学、统计学、计算机科学和政治科学的一个活跃研究领域。虽然早期的因果分析形式，如路径分析和结构方程，主要在社会学中发展，然后输出到其他领域。但今天社会学方法论中的很大一部分因果推断已经大量借鉴了其他学科的知识。

正如我们所回顾的，识别和估计因果成分——社会学的一个长期目标——在反事实框架下并非易事。没有简单、放之四海而皆准的解决方案。使用观测数据（包括准实验数据）进行因果推断是特定于每个研究背景的命题。在应用新方法时，我们建议研究人员应彻底了解其基本假设和权衡，以审慎地应用它们。

过去关于因果推理的文献主要关注识别问题，而机器学习通常负责使用大型数据集执行大量计算。这两支文献的合并得益于我们在文章中讨论的一个长期被认识到的洞见：因果效应在不同单位之间可能是高度异质的。

考虑到未来计算能力的提高以及用于社会科学研究的大型行政、商业和数字跟踪数据（通常称为大数据）可用性的增加，机器学习方法将会特别有吸引力和可行性。然而，我们提醒读者，任何计算方法，包括机器学习方法，都无法解决Holland（1986）所说的“因果推理的基本问题”——即我们永远不会观测到反事实结果。好的研究设计是首要的，计算是有用的，但这只是次要的。因此，机器学习方法和因果推理之间的桥梁只有通过创新和适当的研究设计来解决社会科学上有意义的研究问题，才能富有成效。

编译 | 白景

审核 | 白景

终审 | 李晶晶

©Political理论志

本文内容仅供参考，不代表Political理论志观点

前沿追踪/理论方法/专家评论

ID: ThePoliticalReview

原标题：《揭秘因果推断与机器学习的交汇点：新时代的社会学视角 | Annual Review of Sociology》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。