面板数据的双重机器学习方法-原创手记-慕课网

看来看和平协议是怎样影响暴力程度的

点击这里访问来自Pixabay的图片网站：pixabay.com 或者更自然地说：“一个提供免费图片和视频的网站（pixabay.com）”，一个免费的图片和视频资源网站。更多内容请访问“一个免费的图片和视频资源网站”

我们经常听到和平协议被签署的消息，尤其是在暴力问题严重的国家，但这些协议实际上能在减少暴力方面起到多大作用呢？虽然领导人签署这些条约时希望结束暴力冲突，但这些协议在现实中产生的实际效果却很难量化。我们知道和平不是瞬间就能实现的——一些效果可能需要几个月甚至几年才能显现，而且很多因素都会影响暴力是否真的会减少。

在我攻读硕士学位期间，我和一位同事决定接受这样一个挑战：我们想测量和平协议对暴力的真正影响。为此，我们使用了双重机器学习法（DML）——一种利用机器学习来提高在数据中估计因果关系准确性的一种方法。我们的挑战在于使DML适应观察性面板数据。在这篇文章里，我会分享我们是如何克服这一挑战的，同时揭示和平协议对暴力的真正因果影响。如果你想查看我们的代码的话，这里是GitHub仓库。

揭秘因果关系的挑战

估计和平协议的实际影响并不容易。与实验室中的控制实验不同，现实世界的数据混乱且复杂。比如，如果和平协议后暴力减少了，我们怎么知道一定是协议起了作用？可能还有其他因素，比如国家经济改善或国际援助增加。这就是为什么在社会科学领域中弄清楚因果关系会如此棘手。

进入双重机器学习法（DML）

传统的因果推断方法有时处理这些复杂性会有些吃力，但现在有一种新工具叫双重机器学习（即DML），它结合了机器学习的强大之处和因果推断，能更好地区分相关和因果。这种方法受到Chernozhukov等人（2018）工作的启发，结合了机器学习处理庞大复杂数据集的能力与因果推断，以更准确地识别因果关系。简单来说，DML帮助我们更好地理解和平协议（即处理因素）真正的影响，而排除其他因素的干扰。

pixabay.com

分解方法

处理 📜：这就是和平协议本身——无论是否真的签署了和平协议。
结果 🎯：这就是我们关注的指标——衡量一个国家的暴力程度。
干扰因素 🌀：这些是其他因素，比如经济稳定或新闻报道中的舆论，它们可能同时影响和平协议的签订几率以及暴力的程度。

你知道DML是如何运作的吗？

混杂因素控制：首先，DML 使用机器学习来控制这些混杂因素。它帮助我们分离和平协议的真实效果，同时抑制其他影响因素的干扰✅。
正交化和交叉拟合：这两个关键步骤使得DML更加稳健。正交化消除了混杂变量的作用，而交叉拟合通过划分数据并分别测试来防止过拟合。这就像双重检查我们的结果以确保其可靠性✅✅。

我们对DML的特别看法：处理面板数据和固定效应的方法

所以，究竟是什么让我们的方法如此特别？为了这项研究，我们设计了一种专门的DML方法，用于解决面板数据分析中的问题，比如固定效应的处理和和平协议的时间滞后影响。

首先，我们先来谈谈面板数据到底是什么。面板数据是一种类型的数据，它在一段时间内追踪多个实体（如国家、公司或个人）的变化。基本上，它包含了每个实体在不同时间点上的多次测量。例如，面板数据可以显示多个国家在多年中的经济指标（如通胀），帮助我们研究国家之间的差异以及它们随时间的变化。

以下是一些示例面板数据，作者通过WorldBank API在Python中生成。

好的，这就是我们方法的独特之处：

面板数据中的固定效应处理：

面板数据的主要挑战之一是控制固定影响——这些是各国独有的、不变的、未被观察到的特性，但这些特性在时间上保持不变。这些可能是文化因素、历史背景或长期的政治环境，它们可能会影响和平协议的可能性以及暴力水平。

为解决这个问题，我们为每个国家使用了one-hot编码方法，引入了代表特定国家固定效应的“哑元”变量。这使我们能够在不直接观察它们的情况下，考虑到每个国家的独特特点，从而减少了因果估计中的偏误。

2. 滞后效应的会计考量 ⌛

我们知道和平协议往往不会即时产生影响。相反，为了更好地捕捉这种滞后效应，我们纳入了延迟变量来表示之前时间段中的和平协议的存在与否。通过这样做，这样，我们的模型就可以同时分析和平协议对暴力的短期和长期影响，从而更全面地展示这些协议如何随时间影响暴力水平。

数据：了解和平协议与暴力程度

为了衡量和平协议对暴力影响的情况，我们汇集了来自不同来源的数据集，使我们能够随时间分析定量和定性因素。以下是数据种类概览，我们使用了这些类型的数据。

和平协议资料：
我们还加入了来自PA-X和平协议数据库的数据，该数据库收录了1990年至2023年间签署的和平协议。其中包括每个协议的签署国家、签署日期和协议编号等详细信息。

折线图显示了每年签署的和平协议数量。

文本数据：
我们还使用了Mueller 和 Rauh (2022) 数据集中的编译数据。这些数据涵盖了超过六百万篇新闻文章，来自各种来源，时间跨度从1989年到现在。这些文本数据已利用自然语言处理（NLP）技术，尤其是潜在狄利克雷分配（LDA），进行了处理，以识别新闻文章中的主题。为了捕捉新闻周期对近期事件的突出报道，还应用了指数加权移动平均（EWMA）方法，使近期文章的权重更高。确保主题分布能够反映出最新的趋势。

上述图表显示了利比亚新闻话题的份额，你可以看到在第一个和平协议签署之后，政治话题出现了激增（实际上在签署之前就已经开始上升），而家庭与社会以及军事与行动则有所减少（在签署之后）。

致命事件数据：
为了捕捉暴力水平，我们使用了Uppsala冲突数据项目（UCDP）地理参考事件数据集（GED）。该数据集提供了全球暴力事件的月度数据，分类为：
- 战斗相关暴力： 即由组织间武装冲突引起的暴力。
- 单边暴力： 专门针对平民并造成死亡的事件。
- 非国家间的冲突暴力： 非国家行为者如叛乱或民族群体之间的冲突。
定义暴力强度作为目标变量：
我们的目标变量，暴力强度，首先将各个国家的伤亡人数按人口比例进行归一化处理。然后对这一测量值取对数形式，以减少数据分布的偏斜，从而得到更均匀的分布。

暴力事件记录

这使我们能够比较和平协议前后暴力的水平。这有助于揭示这些条约可能带来的任何影响。

分析平均暴力水平，我们可以看到一个模式显现，在和平协议签订前暴力水平上升，而在协议签订后下降。

我们的方法与实施

pixabay.com

好的，现在我们来谈谈项目的“核心内容”；我们专门为面板数据设计并实现的DML。下面是我们采取步骤的简要说明：

控制国家特定差异 🌍：
如前所述，我们为每个国家引入了虚拟变量，有效地捕捉并控制了国家特有的效应。这样我们就将每个国家置于同样的环境中。
包含滞后变量以捕捉滞后效应 ⏱️：
我们知道和平协议的影响可能不会立即显现——暴力水平的变化可能需要几个月的时间。这样我们就能同时观察到和平协议对暴力的即时效应和滞后效应。
我们创建了一个滞后变量来指示在协议签署前的12个时间段内是否存在和平协议，并且我们也为协变量（影响和平协议和暴力的其他因素）做了同样的处理。等等，这意味着我们需要为每个滞后处理变量运行DML模型？是的，我们为每个滞后变量都运行了模型。
拆分数据以获得可靠结果（交叉拟合） ✂️：
为了避免过拟合——模型在训练数据上表现良好但在新数据上表现不佳的情况，我们使用了交叉拟合这一技术，这是DML中的一个关键步骤。这涉及将数据拆分为不同的组或“折叠”。我们用一些分组来训练模型，并用其他分组来验证模型，确保模型没有使用相同的数据进行两步操作。
但是，如何在保持数据时间顺序的同时将数据拆分为不同的折叠？我们使用了一个名为PanelSplit的工具，有效地拆分数据同时保留了面板数据中的时间序列和截面依赖性。这是一个处理面板数据时非常有用的工具！以下是该GitHub仓库。
估计和平协议对暴力的真实因果效应 🔍：
在DML中，我们估计某些“辅助参数”以控制同时影响处理（和平协议）和结果（暴力）的因素。以下是分解步骤：
第1步 — 处理模型： 我们使用随机森林分类器来估算和平协议存在的概率，考虑其他影响因素。我们为每个滞后处理（确保仅使用相应的滞后混杂因素来预测处理）进行此操作。
第2步 — 结果模型： 然后我们使用随机森林回归器来估算暴力的强度，再次考虑各种因素。对于每个滞后时期，我们使用相应的滞后混杂变量和当前混杂变量。
第3步 — 回归残差：
首先，我们计算残差。什么是残差？这基本上是你预测值与实际值之间的差异。所以为了找到这一点，我们用实际值减去预测值。
其次，我们通过将结果残差回归到处理残差上来估计因果效应（我们基本上只是运行回归分析来找出变量之间的关系）。这一部分称为正交化。
平均结果以获得可靠的因果估计 📊：
最后，我们将所有折叠的结果进行平均，以获得和平协议对暴力影响的良好、稳定的估计。这一过程涉及多次运行模型并平均结果，确保我们的结论不会受到任何一部分数据的影响（是的，这个代码需要运行数小时）。