苗旺：因果推断，观察性研究和 2021 年诺贝尔经济学奖

喜欢

来源：互联网
|
2021-12-29
|
0 条评论
|
我要分享
|
T小字　 T大字

因果推断是当下人工智能、机器学习领域中的热门话题之一。在 11 月 26 日的青源 Talk 中，北京大学助理教授、青源会会员苗旺分享了题为「因果推断，观察性研究和 2021 年诺贝尔经济学奖」的报告。在本次报告中，苗旺老师首先介绍了 1989、2000、2021 三次诺贝尔经济学奖的背景，这三次诺奖得主的工作都与因果推理有着密切的关联。接着，苗旺老师回顾了统计学家对因果推理研究的贡献。在报告的第三部分中， 苗旺老师讨论了以「混杂因素调整」为代表的观察性数据因果推断研究的最新进展。最后，苗旺老师展望了因果推断未来的发展方向。

视频回放链接：https://hub.baai.ac.cn/live/?room_id=189

主讲丨苗旺

整理丨熊宇轩

审校丨李梦佳

1989、2000、2021 三次诺贝尔经济学奖

2021年诺贝尔经济学奖授予了 Card、Angrist、Imbens 三位经济学家，以表彰他们在经济学的实证研究和因果推断方法方面的贡献。其中，Card 因其在劳动经济学（经济学的分支之一，主要讨论人的收入与劳动力市场的供给需求等问题）的实证研究中做出的重要的贡献而获奖。Angrist 和 Imbens 因其在基于因果关系分析的经济学研究方法上做出的重要贡献获奖。上述三位获奖人都在使用观察性数据回答因果问题的方面做出了突出贡献。我们认为，探索事物之间的因果关系和因果作用是很多科学研究的重要目的。

举例而言，针对新冠病毒的传播，我们关心应该通过怎样的措施能够阻断或者延缓病毒的传播，这是一个因果问题。在劳动经济学领域中，有三个著名的百年难题：

（1）移民会对当地居民的就业和收入有何影响？

（2）设定最低工资标准，会不会造成更多人失业？

（3）对教育的投入能够对收入有何影响？

2 观察性研究

在人类文明过去的几千年中，哲学家和思想家也一直关注因果问题，有很多创造性的深刻想法。科学家们则进一步在实践中进行因果推断，发现因果关系。「观察性研究」是现代推断因果作用的主要数据来源。不同于「试验性研究」，我们在观察性研究中无法根据人的意志干预试验，无法采取有控制的实验，无法随机分配处理（treatment），只能根据经验观察推断因果作用。

如上图所示，观察性研究往往涉及两个具有挑战性的问题：

（1）混杂因素（内生性）：忽略某些同时影响处理和结果的背景因素导致因果推断的偏差和决策错误，甚至造成悖论

（2）选择偏差/缺失数据：观测数据不能代表我们关心的总体情况。

Simpson 悖论——混杂因素的作用

1975 年，统计学家 Bickel 在《Science》期刊上发表的论文讨论了 1973 年伯克利研究生入学考试中是否存在性别歧视。从录取的整体情况来看，男生、女生的录取率分别为 44%、35%；而如果分专业来看，则每个专业录取男生的比例都要低于或接近于女生的录取率。出现这种矛盾的情况是因为我们忽略了混杂因素，即男生普遍选择较容易录取的专业。

Berkson 悖论——选择偏差的作用

1946 年，统计学家 Berkson 曾针对医院内住院的病人研究糖尿病和胆囊炎之间的关系，他发现这些病人患胆囊炎和患糖尿病呈现出很强的相关性。然而，这一结论在一般人群中是不成立的，这说明这种在医院中选择样本的方式具有很强的选择偏差。1978 年，Roberts 等人关于医疗服务的调查也为 Berkson 悖论提供了支持。

工具变量——处理混杂因素

1928 年，经济学家 Wright 提出工具变量，用于处理混杂因素对因果推断带来的不利影响。工具变量需要满足三个条件：（1）工具变量对我们关心的结果没有直接的作用，只能通过我们关心的处理对结果产生影响（2）工具变量与未观测到的混杂因素相互独立（3）工具变量和我们关心的处理有一定的相关性。

举例而言，如果我们关心教育对收入的因果作用，人的能力可能是很难测量的混杂因素。一些研究使用人的出生季度作为工具变量。首先，出生的季度与收入之间没有直接的作用。但出生季度不同（如某一年的第一季度和第四季度出生）的人可能受教育的年限也有所不同。因此，出生季度与受教育年限有一定的相关性。此外，从自然界中整体的人群来看，出生季度是随机的，它与家庭背景、个人能力等混杂变量独立。此外，工具变量在生物信息、医学等领域也被广泛使用。然而，对于普遍的观察性研究因果推断问题而言，工具变量方法仍然具有一定的局限性，因为我们往往很确定到有效的工具变量，难以将该方法推广开来。

为此，今年的诺贝尔奖获得者 Card 与合作者使用一些自然试验分析劳动经济学中的一系列重要的因果问题。「自然试验」指的是不受研究者控制的、自然发生的，或宏观政策对研究的变量有类似于随机化试验影响的事件（例如：出生日期、基因突变、自然灾害等）。自然试验在劳动经济学中的成功运用促使工具变量、重差法等方法称为推断因果作用的普遍范式。

1994 年，Card 和 Krueger 使用重差法研究了新泽西州最低工资的提升对就业的影响。在 1992 年 2 月，美国的新泽西州将最低工资标准从 4.25 提升至 5.05，而邻近的宾夕法尼亚州并没有提高最低工资标准。他们在平行趋势假设（时间上和空间上的作用没有交互）下调查了上述两个周的 400 家快餐店在最低工资调整前后的就业情况，去除了混杂性，从而推断出因果作用。如上图所示，Y 表示就业人数，%u3B3 表示空间影响，%u3BB 表示时间影响，D 表示最低工资政策影响。

Angrist 和 Imbens 在工具变量的方法上做出了重要贡献，他们将潜在结果模型和工具变量方法结合在了一起。

此前，一些经济学家通常依靠结构方程模型使用工具变量来推断因果作用。然而，结构方程模型对于刻画因果关系需要的假定体现地十分隐晦，以至于人们很容易将其与表示相关关系的回归模型混为一谈，难以表示和验证其中的因果假定。

为此，Bollen 和 Peral 在 2013 年发表了相关论文讨论结构方程模型和回归模型的异同。此外，LaLonde 于 1986 年发现，通过随机化试验和观察性数据推算出的结果与使用结构方程推算出的因果作用差别很大，结构方程模型只有在设定正确的条件下才能推断出因果关系，否则推断出的参数没有任何的因果意义。

统计学家提出使用潜在结果模型定义因果作用，该模型的表示能力更强，可以直接、清晰地定义因果作用、表述因果假定。1923 年，著名的统计学家 Neyman 在其博士论文中首次用数学语言表述了潜在结果模型。随后，Rubin 在 1974 年将该模型推广到了观察性研究中。

如上图所示，Y 表示我们关心的结果，X 表示处理，U 表示未观测到的混杂因子。Y(x) 为潜在结果，即假设研究对象接收处理 x 后出现的结果，该情况可能与事实不同。此时，我们将因果作用定义为潜在结果的比较。

潜在结果模型可以直观、简洁地刻画因果作用及其需要的假定。但是由于我们无法同时观测到接受不同处理时的作用，存在数据缺失的现象，因此计算平均因果作用的统计推断过程较为困难。

Angrist、Imbens 等人将工具变量与潜在结果模型结合，使用潜在结果模型刻画工具变量假定和相应的统计模型，定义新的因果概念，发展了新的统计推断方法。

一些经济学家发现，使用工具变量计算出的处理对结果的作用有时比使用最小二乘法估计出的作用要大，而这种现象是难以解释的。Angrist 和 Imbens 等人认为这种现象是因为研究的人群存在异质性，并提出了重要概念「Local average treatment effect」（LATE）。

这一概念与结构方程模型的假定类似：（1）工具变量随机化的，独立于混杂因素（2）工具变量对结果没有直接的作用（3）工具变量与处理之间有强相关性（4）根据依从性将人群划分为四类，假定不存在对抗者。在上述假设下，Angrist、Imbens 等人证明过去对工具变量的估计只能计算对依从者的作用。

在 2021 年诺贝尔经济学奖之前，「计量经济学之父」Haavelmo 于 1989 年获得诺贝尔经济学奖的工作与 Heckman 在 2000 年获得诺贝尔经济学奖的工作都与因果研究密切相关。

3 统计学家对因果推断的贡献

我们可以将因果研究大致分为以下三个层面：

（1）什么是因果作用：经济学家、统计学家、计算机科学家分别提出了结构方程模型、潜在结果模型、因果图模型等方式来定义因果作用；

（2）如何推断因果作用：包括随机化试验、可忽略性、敏感性分析、断点回归、工具变量、合成对照、近端推断等方法；

（3）因果作用有什么用：探索因果作用在制定策略、作出预测、讨论最优处理方案，迁移学习等方面的应用价值。

因果作用的定义

Pearl 等人在 1998 年的一篇论文中指出，因果图模型、结构方程模型、潜在结果模型在数学上是等价的，这三种模型的三套假定可以对应起来，以上三种模型之间可以相互表示。

因果作用的推断

统计学家提出了一系列方法来推断因果作用，例如：Fisher 等人于 1937 年提出了随机性试验方法；Rubin 和 Rosenbaum 于 1983 年提出了可忽略性概念；流行病学家 Greenland、统计学家 VanderWeele 和北京大学耿直老师在混杂因素的定义方面做出了突出贡献；Pearl 等人提出了因果图模型，并推动了因果结构学习的发展，北京大学耿直老师等人在这一方面提出了基于主动学习、递归、分解学习的方法；Robins 等人在复杂纵向时间变化的因果问题上做出了重要贡献，提出了 A-learning 等方法。

在工具变量方面，Robins 等人于 1989 年提出使用工具变量，在不引入额外的假定下得到一个可以提供一定信息的界，Pearl 和 Balke 于 1997 年给出了最优的界；Angrist、Imbens、Rubin 等人提出了 LATE；Balke 和 Pearl 于 1997 年提出了工具变量不等式，可以在没有额外信息的条件下，检验或发现工具变量的重要工具；北京大学耿直老师、VanderWeele 等人对代理悖论/工具变量悖论进行了讨论。

4 观察性研究中混杂因素调整的前沿进展

尽管工具变量的研究获得了诺贝尔经济学奖，但是在大数据时代，此类方法面临着更多的挑战。例如，在生物统计的基因研究中，我们会经常遇到弱工具变量和无效工具变量等问题。如上图所示，Z 为表示基因变异的 SNPs，X 为基因表达，Y 为疾病。发生基因突变的位点在人所有的基因位点中只占一少部分，少数位点的突变可能对整体的基因表达的影响有限，此时 Z 和 X 的关系较弱。此外，基因突变可能具有多效性，上述原因都对因果作用的推断造成了很大的影响。Pearl 在《为什么》一书中也指出，如今大数据和人工智能技术蓬勃发展，但是混杂因素的问题还没有很好解决，这一问题的解决将是因果革命对人工智能的一大贡献。

近年来，研究人员提出了一系列新的混杂因素调整方法，包括：（1）基于分位数、不可分模型的新的工具变量方法（2）敏感性分析方法（3）合成对照（4）断点回归（5）代理推断/阴性对照（6）考虑多个处理的混杂因素

代理推断/阴性对照

苗旺老师认为，有些测量到的混杂因素/协变量存在一定误差，我们可以将测量到的混杂因素为三类：（1）Z——与处理的混杂因素密切相关（2）W——与结果的混杂因素密切相关（3）C——与处理和结果的混杂因素都相关。在流行病学中，我们将 Z 称为「negative control exposure」（NCE），将 W 称为「negative control outcome」（NCO）。其中，Z 与 Y 不相关，它只能通过 X 对Ｙ产生作用；Ｗ与混杂因素相关，但它不受 X 和 Z 的影响。我们可以将 Z 看做对工具变量的推广。

此外，在时间序列中，我们可以仅仅根据 X 和 Y 的观测来构造阴性对照变量/代理变量来进行因果推断。例如，我们关心的

为今天的空气污染状况，

为今天患病或死亡的人数，U 代表其它的未观测到的混杂因素。如果我们将 Z 构造为明天的空气污染情况，它显然与今天的空气污染有关系，但不会反过来影响今天患病的人数。在这种没有反馈作用的情况下，我们可以很容易地构造出辅助的代理变量，仅仅用对 X 和 Y 的观测就可以推断因果作用，无需其它的辅助变量。

最近，苗旺老师将此类方法推广到了复杂的纵向的研究中。其它的研究者也使用苗旺老师提出的代理推断方法学习最优的处理方案。

苗旺老师团队还将此类方法用到了合成对照中，讨论如何使用代理推断方法在没有完美对照个体的情形下构造虚拟的对照。他们将其中的一些对照当做 NCE，将另外一些对照作为 NCO 来估计权重，然后对有缺陷的对照个体加权得到虚拟对照，采用这样的虚拟对照能减少因果推断的偏差。

缺失数据/选择偏差方面的前沿工作

缺失机制是缺失数据研究中的重要概念，它由统计学家 Rubin 于1976年提出。缺失机制主要分为两大类：

（1）随机缺失——缺失状态 Y 本身和缺失值没有关系，缺失值仅仅依赖于完全观测到的 X。

（2）非随机缺失——缺失的值会影响缺失状态，比如在工资调查、艾滋病调查中，由于隐私保护等原因，结果会影响人的响应状态。

不可忽视的缺失数据分析

最近，苗旺老师团队采用了现代调查汇总广泛存在的「paradata」（调查并行数据）中的回调记录（callback）来调整非随机的缺失。这是因为现代调查的响应率越来越低，调查员需要多次进行回放，从而记录下没有响应的人。这种回调记录对于处理缺失数据、调整不响应是非常关键的。

5 因果推断在其它领域的应用

除了混杂因素观察性研究、缺失数据研究之外，因果推断还与其它诸多研究领域相关，例如：（1）干涉作用，比如打疫苗对自己和周围人群的保护作用有多大（2）中介分析和因果机制分析，这对于人工智能的可解释性十分关键（3）个性化治疗方案（4）数据融合。

比如说打疫苗不仅是对自己有保护作用，对周围的人也有保护作用，对自己和对周围人保护作用到底是有多大？这对于疫苗政策，我们人群当中到底是80%还是70%接种疫苗这个问题非常关键。

另外还有是关于因果机制的进一步的深入讨论，中介分析和因果机制的分析，吸烟到底是怎么影响肺癌的？是通过焦油还是通过尼古丁影响的？这在很多科学问题里面是非常重要的，也对于人工智能的可解释性也是很关键的，因果作用到底是怎么样产生的，这个机制是什么？

此外现在个性化医疗关注的问题，最优的治疗方案，个体化的治疗方案的问题，以及现在我们在大数据时代，我们关于同一个因果问题，其实有很多研究的，怎么样把不同的研究结合在一起，去得到更好的因果推论，数据融合的问题，也是因果推断在关心的。

数据融合

在数据融合方面，苗旺老师团队近年来讨论了如何在具有不同背景变量的数据集中进行因果推断，以及如何将历史上的对照数据与新的临床试验数据结合起来，进行因果推断。

因果推断和人工智能的研究

因果推断与人工智能的结合是目前备受瞩目的问题。Pearl 认为：要想制造真正的智能机器，就需要教会它们因果。Bengio和 LeCun 也指出：将因果与人工智能结合起来是十分重要的。具体而言，因果推断的数据融合、对缺失数据的研究与迁移学习、领域迁移、半监督学习相关；动态处理方案与强化学习相关；个体化治疗与机器学习中的分类问题十分相似；半参数统计和「double debiased」机器学习也有一定的联系。但是，目前因果推断研究和机器学习研究之间仍然存在巨大的鸿沟。

6 结语

Haavelmo、Heckman、Card、Angrist、Imbens 等人推动了经济学中的因果推断研究，鼓舞着我们继续发展因果推断。在工具变量研究和因果推断的整个领域中，统计学家做出了全方位、首屈一指的贡献。在大数据和人工智能时代，统计学家的贡献会越来越被认可和重视。混杂因素和缺失数据仍然是因果推断和观察性研究领域的重点问题。因果推断和机器学习、人工智能的研究有一些可以结合的地方，需要继续加大研究，强强结合，使其在更多的领域中为社会民生做出更重要的贡献。

GAIR 2021大会首日：18位Fellow的40年AI岁月，一场技术前沿的传承与激辩

2021-12-10

致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09

时间的力量——1991 人工智能大辩论 30 周年纪念：主义不再，共融互生｜GAIR 2021

2021-12-12

未来已来，元宇宙比你想象中来得更早丨GAIR 2021

2021-12-12

御女纨绔 http://www.cityruyi.com/lm-4/lm-1/2465.html

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186