跳转至

常用的因果推断方法

图源:https://zhuanlan.zhihu.com/p/652667154

基于试验的方法

RCT 方法

随机对照试验是因果推断的金标准。最理想的试验莫过于平行时空:同一个人在平行时空分别接受干预和不接受干预,一段时间之后来研究干预的效应。当然这是不可能实现的。

根据大数定律,样本量充足的时候随机对照试验也可以近似平行时空:实验组和对照组分布近似一致

RCT 中因果推断的方法就是统计推断,通过实验组和对照组的配对样本假设检验来判断因果是否存在。

不过 RCT 成本很高,很多时候我们会做准试验设计

  • 非随机分配:样本并不是被随机分配到处理组或对照组。
  • 前后测设计:通过在处理前后进行测量来评估处理的效果。
  • 匹配设计:将处理组和对照组的参与者按某些特征进行匹配,以减少混杂变量的影响。

以及不进行试验:

  • 观察设计:与实验设计不同,观察设计中研究者不干预或操控研究对象,而是通过观察和记录数据来分析和推断因果关系。

基于回归的方法

回归是统计学的老本行了,不过一般情况下回归分析只能提供相关性。想做因果分析需要做一些调整。

PSM 方法

参考:

Idea: 不过很多时候我们无法实施随机对照试验,例如吸烟致癌的问题,试验是不人道的。因此我们只能基于观测数据进行事后分析和归因。针对这种问题有一类方法是做数据的匹配:通过找到实验组和对照组之间相似的个体,从而达到近似平行时空的效果。

1983 年 Paul R. Rosenbaum 和 Donald Rubin 提出的 PSM 就是一种匹配方法,它基于 Propensity Score 来做匹配(定义为 P(接受干预 | 其他变量),一般使用 logistic 回归来估计),直观的想法就是寻找那些接受干预概率相近的人,从而消除这种倾向带来的偏差。

Procedure:(以吸烟是否致癌这个问题为例)

  • 收集数据,包括
    • Y: 是否接受了干预(是否吸烟)
    • X: 其他可能相关的变量(混杂变量, confounding variables:年龄、受教育程度、男女等等)
    • Z: 希望研究的效应(是否患癌症)
  • 计算 Propensity score
    • 逻辑回归: Y~sigmoid(a^T X)
  • 匹配
    • 可以有多种匹配方法,最简单的就是 K 近邻
  • 检验
    • 检验匹配完之后混杂变量的分布是否均匀了(例如吸烟和不吸烟的人群男女比例一致、年龄分布一致)
    • 如果不一致就重新进行匹配
  • 计算效应量
    • 使用匹配之后的癌症率差值作为干预效应的一个估计

Disadvantages:

  • 当然 PSM 也存在一些问题
  • 最显而易见的是,它只建模了观测到了混杂变量,没有考虑可能存在的隐变量

DID 方法

Idea: 如果我们在干预前后都有观测就可以考虑 DID 方法。DID 假设实验组和对照组发展趋势相同(平行时空!)。在 t=1 时刻,实验组实施干预。到了 t=2 时刻,计算实验组指标变化量和对照组指标变化量之间的差值(双重差分,也就是 DID)。按照假设,这个值应该和 0 接近。收集样本之后做假设检验即可,如果 DID 显著大于零,就说明干预对指标有正向的作用。

Procedure:

DID 可以用回归来计算,下面的回归系数中 beta_3 就是 DID 的估计值。

Disadvantages:

  • 不一定干预前后都有观测
  • 假设不一定成立

FEM 方法

如果可以观测到更多时间节点的数据,可以使用 FEM 方法。

固定效应模型(Fixed Effects Model,简称 FEM)又称固定效应回归模型,是一种用于面板数据分析的方法。面板数据(Panel Data,也称纵向数据)多了时间维度信息,不论是个体或是实体(如国家),所收集的数据都包含不同时间点至少两次以上的状态信息。

IV 方法

Idea: IV 方法主要是为了解决内生性的问题。所谓的内生性指的是回归变量和误差项存在相关性。例如 y~ X+e,一般来说这个回归要求 X 和随机误差 e 是独立的,至少是不相关的。这时候我们说误差是外生的;反之如果误差和回归变量相关,就说存在内生性。内生性的产生可能有很多原因,包括但不限于:

  • 变量选择偏差:例如上图中的受教育程度和工资之间,他们可能都收到个人能力的影响。
  • 样本选择偏差:样本在某个维度上有偏
  • 测量误差
  • 双向因果:例如考试前复习时间(X)考试成绩(Y)的影响。显然他们是互相影响的,复习时间长可能考试成绩就会好一些;反之,考试成绩好的人可能不需要复习特别长的时间。

我们就考虑图里受教育程度和工资之间的关系。由于缺少个人能力这个变量,如果我们直接做回归可能存在内生性的问题。所以我们可以使用 IV 方法:

Procedure:

  • 引入工具变量(和 X 相关但是和 Y 无关,例如出生的月份,玄学一点可以叫星座:Z)。星座和教育是有关系的,因为它会直接影响入学年份、从而导致大家上学的时候年龄是有差异的。并且星座和个人能力无关,并不会出现特定月份出生的人能力显著高的情况。
  • 两阶段最小二乘
    • 先回归工具变量和 X:OLS(X ~ Z)
    • 然后再用估计出的 X_hat 来回归 Y:OLS(Y ~ X_hat)
    • 这时候 X_hat 是用星座预测出来的,可以认为剔除了个人能力的影响。从而达到了消除内生性的目的。

SCM 方法

合成控制法适用于观察性研究,如比较案例研究(comparative case studies),其干预(treatment, intervention)是 binary 情况下的进行因果推断的统计模型。其我们通过对与干预组(treatment group)相似的其他若干组进行线性加权,构造出一个虚拟的对照组,用构造出来的虚拟对照组用来近似模拟干预组(treatment group)未接受到干预的情况。这个想法和 PSM 有些类似,但更加激进。不是做 Matching 而是直接做 Synthesizing。

基于图的方法

有向无环图(DAG)很适合用来表征因果关系。例如我们之前展示的:

因此派生了一些基于 DAG 的因果推断方法。例如贝叶斯网络、Do calculus。


最后更新: 2025-06-25 00:52:36
创建日期: 2025-06-25 00:52:36

广告

人要恰饭的嘛🤑🤑

评论