因果推理“三问”：是什么？为什么需要？如何使用？

因果推理统计学

2020/12/23 14:28

译者：AI研习社（听风1996）

双语原文链接：Causal Inference: What, Why, and How

作为一名经济学博士，我致力于寻找某些变量之间的因果关系，用来完成我的论文。因果关系强大到可以让人们有足够的信心去做决策、防止损失、求解最优解等。在本文中，我将讨论什么是因果关系，为什么需要发现因果关系，以及进行因果推理的常用技巧。

1. 什么是因果关系？

因果关系描述的是两个变量之间的关系，即一个变量如何诱发另一个变量的发生。它比相关关系要强得多，因为相关关系只是描述两个变量之间的共同运动模式。通过绘制散点图，可以很容易地观察到两个连续变量的相关性。对于分类变量，我们可以绘制柱状图来观察其关系。要知道两个连续变量之间的确切相关性，我们可以使用皮尔逊相关公式。皮尔逊（Pearson）的相关性介于-1和1之间，绝对值越大表示相关性越强。正相关意味着两个变量在同一方向共同运动，反之亦然。

但对于因果关系，要把握的关系就要复杂得多。为了知道变量A是否引起了变量B的发生，即干预A是否引起了结果B，我们需要保持所有其他变量不变，以隔离和量化干预的效果。我们需要控制的其他变量称为混杂变量，即与干预和结果都相关的变量：

因果推理“三问”：是什么？为什么需要？如何使用？

有关混淆变量的例子

在上图中，我举了一个混淆变量，其中年龄与戒烟率和致死率都是正相关的。年龄越大，死亡率越高，但吸烟率越低。如果我们在估计吸烟对死亡率的影响时没有控制年龄，我们可能会观察到吸烟会减少死亡率这样荒谬结果。我们不能在这里得出因果关系，因为我们没有控制所有混杂变量。关于这个例子的更多细节，你可以阅读我讨论 "辛普森悖论 "的文章：

所谓的“辛普森悖论”

在得出因果效应的结论时，我们需要记住的另一个因素是选择偏差。为了隔离治疗效果，我们需要确保治疗组单位是在人群中随机选择的。这样，我们在治疗后观察到的差异不是因为其他因素，而是因为治疗。举个例子，当一家超市想估计提供优惠券对提高整体销售额的影响时。如果超市只把优惠券传递给在店里购物的顾客（干预组），发现他们比没有收到优惠券的顾客（对照组）购买了更多的商品，那么市场由于选择偏差而无法在此处得出因果关系。没有将顾客随机选择到治疗组中。他们之所以在这里，是因为他们在超市购物，这表明与对照组相比，即使没有优惠券，他们也更可能从超市购买商品。比较来自治疗组和对照组的结果变量在这里将毫无意义。

为什么要估计因果关系？

得到因果关系是如此复杂的，何必还要呢？我们为什么不直接使用相关性呢？我们知道相关性在进行预测时是有用的。如果我们知道变量A与变量B有很强的相关性，那么知道变量A的值就可以帮助我们预测变量B的值。在业务环境中，我们可以利用相关性来预测给哪些客户群体做促销，这样我们就可以根据客户过去的行为和其他客户特征来提高转化率。但是，即使是最准确的预测模型，也不能得出结论，当你观察到客户转化率提高了，就是因为促销。我们需要设计实验或进行准实验研究，才能得出因果关系并量化干预效果。在这个例子中，因果推理可以告诉你，提供促销活动是否增加了客户转化率，以及增加了多少。因此，与相关性相比，因果关系能给决策者更多的指导和信心。

如何进行因果推断？

1、不同的干预效应

估计因果效应与估计你的利益结果变量的干预效应是一样的。根据具体的研究或业务问题，可以选择不同的治疗效果进行估计。假设Y是结果变量，其中Y⁰是没有干预的结果，Y¹是有干预的结果。T为虚拟变量，表示单位i是在干预组（T=1）还是对照组（T=0）：

平均干预效应（ATE）：

平均而言，干预组和对照组之间的结果变量有何不同？

因果推理“三问”：是什么？为什么需要？如何使用？

平均干预效应

平均干预效应（ATT）：

平均而言，干预组中的单位在接受和不接受干预的情况下，结果变量的差异是什么？

因果推理“三问”：是什么？为什么需要？如何使用？

平均干预效果

在这里，E(Y¹|T=1)是干预组单位的预期结果，它是可观察的。然而，E(Y⁰|T=1)是不可观察的，因为它是假设的。一个单位只能有Y⁰和Y¹这两种结果中的一种，这取决于这个单位所在的组别。如果这个单位已经接受了干预，我们可以观察Y¹，并使用不同的技术来估计Y⁰这个反事实变量。我将在后面讨论不同的技术。

条件平均干预效应（CATE）：

因果推理“三问”：是什么？为什么需要？如何使用？

条件平均干预效果

条件平均干预效果是应用某些条件x来估计ATE。在某些情况下，干预会对不同的子组产生不同的影响，并且ATE可以为零，因为这些效果被抵消了。CATE可以用于估计子组之间的异质效应。

个体干预效应（ITE）

因果推理“三问”：是什么？为什么需要？如何使用？

个体干预效果

个体干预效应与CATE相同，应用的条件是单位是单位 i。

2，假设

如上所述，在声明因果关系之前，需要采取许多措施。在进行因果推断时，请记住以下假设：

无选择偏差：每个单位都有同等可能被分配到干预组。
在估计干预效果时，没有未控制的混淆变量。
结果变量Y是可观察的，它可以用来估计干预后的干预效果。
SUTVA：稳定单位处理值假设。这个假设有两个方面。对于实验中的任何单位：

1、单位i接受干预不会影响其他单位的结果，即无网络效应。
2、如果单位i在干预组中，其接受的干预与干预组中的所有其他单位一样，即只有一个种干预类型。

3、工作流程

因果推理最大的挑战是，我们只能观察到每个单位i的Y¹或Y⁰，我们永远无法完美测量每个单位i的干预效果，为了应对这个问题，我们需要为干预组找到完美的对照组，使两组之间唯一的区别就是干预。这可以通过运行随机化实验或在随机化不切实际的情况下寻找匹配的干预组和对照组（准实验）来实现。以下是我认为有用的工作流程：

因果推理“三问”：是什么？为什么需要？如何使用？

随机对照试验（RCT）

如果总能随机分出干预组和对照组，生活就会轻松很多! 随机分配干预后，我们可以分别估计治疗组和对照组的结果变量，其差异就是平均治疗效果（ATE）。由于单位是随机选入干预组的，所以干预组和对照组的单位之间唯一的区别就是是否接受过干预。因此，结果变量的差异就是干预的效果。但是，有时由于网络效应或技术问题，无法将干预组和对照组随机化。或者把用户分成两组成本太高。例如，在估计促销活动的效果时，如果将部分用户排除在促销活动之外，会对用户的满意度产生负面影响。在这种情况下，我们可以进行准实验，也就是不依赖随机分配的实验。

差异（DID）：

DID通常是在对照组和干预组之间存在已存在差异时使用的。但是，我们认为干预组和对照组的结果变量增长趋势没有显著差异（平行趋势假设）。也就是说，按照下表的定义，两组在结果变量上的差异在治疗前后是相同的，d_post=d_pre：

因果推理“三问”：是什么？为什么需要？如何使用？

干预组的结果差异为d_t，定义为Y(1,1)-Y(1,0)，对照组的结果差异为d_c，定义为Y(0,1)-Y(0,0)。d_t和d_c之间的差值为DID，即干预效果，如下图所示。

因果推理“三问”：是什么？为什么需要？如何使用？

DID = d_t-d_c=(Y(1,1)-Y(1,0))-(Y(0,1)-Y(0,0))
平行趋势假设是一个很强的假设，当违背这个假设的时候，DID估计就会出现偏差。

匹配

尽管不可能进行随机实验，但我们可以找到完美匹配的干预组，在不进行干预的情况下量化结果变量。我们可以根据interests特征构建一个人工对照组。例如，我们可以在一个城市给予促销活动，并与其他没有促销活动的城市进行结果变量的比较。这些城市除了促销活动外，其他因素都是相似的。这就像一个横向比较。

我们可以使用的另一种方法是时间序列比较，这叫做switch-back检验。例如，我们可以选择一个城市，在一周内给出促销活动，然后将结果变量与最近一段时间没有促销活动的这个城市进行比较。差异将是促销的效果。

这些技术在面对网络效应时相当有用。使用横向比较或时间序列比较，我们不需要把一个市场分成不同的群体。因此，我们不需要担心同一市场中群体之间的溢出效应。在对整个市场进行比较时，必须确保对照组和干预组市场之间的唯一差异是干预。

内生性

当独立变量X(干预)与回归中的误差项相关，从而使估计结果(干预对结果变量Y的影响)产生偏差时，就会产生内生性。引起内生性的方式有三种：

遗漏变量:
当我们没有将混淆变量作为控制变量纳入回归，或无法量化混淆变量时。例如，如果我们想估计教育(干预)对未来收入(结果变量)的影响，就需要在回归中加入一个称为 "能力 "的混淆变量。作为一个混淆变量，"能力 "会增加接受高等教育的机会，增加获得高收入的机会。但是，由于我们无法轻易地量化 "能力"，所以很难将其纳入回归中。简单地用 "学历 "对 "收入 "进行回归，会使处理效果出现偏差。如果我们能够量化混淆变量，我们就可以将它们全部纳入回归中。如果不能，我们需要使用回归不连续或工具变量来进行随意推断。我将在后面讨论它们。
如果我们可以量化混杂变量，则可以将它们全部包含在回归中。如果不是，我们需要使用回归不连续性或工具变量来进行因果推断。稍后再讨论。

反向因果关系：
当X可以影响Y，Y也可以影响X时，就存在反向因果关系。例如，如果我们在超市给在这家超市购物的顾客发放优惠券。优惠券会增加收到优惠券的顾客的销售额，这些顾客会更多的出现在超市，也更有可能收到更多的优惠券。循环下去。在应对这个问题的时候，我们需要在中间引入一些随机化。比如，我们并不是给所有出现在超市的顾客发放优惠券，而是随机选择一些顾客发放优惠券，并估算出差异。引入一定程度的随机化会减少估计的偏差。

选择偏差：
如上所述，如果具有某些特征的单位更容易被选入干预组，那么我们就面临选择偏差。我们观察到的结果变量的差异不仅是由干预引起的，也是由于组间其他预先存在的差异。如果我们相信治疗组和对照组有平行的趋势，即它们之间的差异不会因为治疗或时间而改变，我们可以使用DID来估计治疗效果。否则，我们可以寻求其他解决方案。

处理内生性问题总是很麻烦。除了包括所有混淆变量和引入一些随机化外，回归不连续和工具变量是解决内生性问题的另外两种方法。

1、回归不连续

回归不连续是在一个分界点测量干预效果。用一个例子会更容易理解。假设我们想估计发放奖学金对学生成绩的影响。简单地估计有奖学金和没有奖学金的学生之间的成绩差异，会因为内生性而使估计结果出现偏差。获得奖学金的学生即使没有奖学金，也更有可能获得更好的成绩。如果我们有一个给奖学金的临接点，我们可以利用回归不连续来估计奖学金的效应。例如，如果我们给成绩高于80分的学生发放奖学金，那么我们就可以估计成绩接近80分的学生的成绩差异。这背后的直觉是，在影响成绩的其他特征方面，得到79分的学生很可能与得到81分的学生相似。对于成绩在79到81之间的学生来说，被分配到干预组（有奖学金）和对照组（没有奖学金）是大致随机的。因此，我们只能看这个子人群的成绩差异来估计治疗效果。更多详情请查看维基百科页面。

2、工具变量

工具变量指的是与自变量X高度相关，但与因变量Y不直接相关的变量，它们的关系就像下图。

因果推理“三问”：是什么？为什么需要？如何使用？

工具变量

由于工具变量与结果变量并不直接相关，如果改变工具变量引起结果变量的变化，那一定是干预变量的原因。例如，在估计教育对未来收入的影响时，常用的工具变量是父母的教育水平。父母的教育水平与孩子的教育水平高度相关，而与孩子的收入并不直接相关。为具体的研究问题寻找工具变量是很困难的，它需要对相关文献和领域知识有充分的了解。在得到工具变量后，我们可以用2SLS回归来检验这个工具变量是否好用，如果好用，处理效果如何。详情请参考维基百科页面。

这些就是因果推理的what、why和how。希望本文可以帮助你总结基本概念和技术，感谢您的阅读。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

因果推理“三问”：是什么？为什么需要？如何使用？