手记

面板数据的双重机器学习方法

看来看和平协议是怎样影响暴力程度的

点击这里访问来自Pixabay的图片网站:pixabay.com 或者更自然地说:“一个提供免费图片和视频的网站(pixabay.com)”,一个免费的图片和视频资源网站。 更多内容请访问“一个免费的图片和视频资源网站”

我们经常听到和平协议被签署的消息,尤其是在暴力问题严重的国家,但这些协议实际上能在减少暴力方面起到多大作用呢?虽然领导人签署这些条约时希望结束暴力冲突,但这些协议在现实中产生的实际效果却很难量化。我们知道和平不是瞬间就能实现的——一些效果可能需要几个月甚至几年才能显现,而且很多因素都会影响暴力是否真的会减少。

在我攻读硕士学位期间,我和一位同事决定接受这样一个挑战:我们想测量和平协议对暴力的真正影响。为此,我们使用了双重机器学习法(DML)——一种利用机器学习来提高在数据中估计因果关系准确性的一种方法。我们的挑战在于使DML适应观察性面板数据。在这篇文章里,我会分享我们是如何克服这一挑战的,同时揭示和平协议对暴力的真正因果影响。如果你想查看我们的代码的话,这里是GitHub仓库

揭秘因果关系的挑战

估计和平协议的实际影响并不容易。与实验室中的控制实验不同,现实世界的数据混乱且复杂。比如,如果和平协议后暴力减少了,我们怎么知道一定是协议起了作用?可能还有其他因素,比如国家经济改善或国际援助增加。这就是为什么在社会科学领域中弄清楚因果关系会如此棘手。

进入双重机器学习法(DML)

传统的因果推断方法有时处理这些复杂性会有些吃力,但现在有一种新工具叫双重机器学习(即DML),它结合了机器学习的强大之处和因果推断,能更好地区分相关和因果。这种方法受到Chernozhukov等人(2018)工作的启发,结合了机器学习处理庞大复杂数据集的能力与因果推断,以更准确地识别因果关系。简单来说,DML帮助我们更好地理解和平协议(即处理因素)真正的影响,而排除其他因素的干扰。

pixabay.com

分解方法
  1. 处理 📜:这就是和平协议本身——无论是否真的签署了和平协议。
  2. 结果 🎯:这就是我们关注的指标——衡量一个国家的暴力程度。
  3. 干扰因素 🌀:这些是其他因素,比如经济稳定或新闻报道中的舆论,它们可能同时影响和平协议的签订几率以及暴力的程度。
你知道DML是如何运作的吗?
  1. 混杂因素控制:首先,DML 使用机器学习来控制这些混杂因素。它帮助我们分离和平协议的真实效果,同时抑制其他影响因素的干扰✅。
  2. 正交化和交叉拟合:这两个关键步骤使得DML更加稳健。正交化消除了混杂变量的作用,而交叉拟合通过划分数据并分别测试来防止过拟合。这就像双重检查我们的结果以确保其可靠性✅✅。
我们对DML的特别看法:处理面板数据和固定效应的方法

所以,究竟是什么让我们的方法如此特别?为了这项研究,我们设计了一种专门的DML方法,用于解决面板数据分析中的问题,比如固定效应的处理和和平协议的时间滞后影响。

首先,我们先来谈谈面板数据到底是什么。面板数据是一种类型的数据,它在一段时间内追踪多个实体(如国家、公司或个人)的变化。基本上,它包含了每个实体在不同时间点上的多次测量。例如,面板数据可以显示多个国家在多年中的经济指标(如通胀),帮助我们研究国家之间的差异以及它们随时间的变化。

以下是一些示例面板数据,作者通过WorldBank API在Python中生成。

好的,这就是我们方法的独特之处:

面板数据中的固定效应处理:

面板数据的主要挑战之一是控制固定影响——这些是各国独有的、不变的、未被观察到的特性,但这些特性在时间上保持不变。这些可能是文化因素、历史背景或长期的政治环境,它们可能会影响和平协议的可能性以及暴力水平。

为解决这个问题,我们为每个国家使用了one-hot编码方法,引入了代表特定国家固定效应的“哑元”变量。这使我们能够在不直接观察它们的情况下,考虑到每个国家的独特特点,从而减少了因果估计中的偏误。

2. 滞后效应的会计考量

我们知道和平协议往往不会即时产生影响。相反,为了更好地捕捉这种滞后效应,我们纳入了延迟变量来表示之前时间段中的和平协议的存在与否。通过这样做,这样,我们的模型就可以同时分析和平协议对暴力的短期和长期影响,从而更全面地展示这些协议如何随时间影响暴力水平。

数据:了解和平协议与暴力程度

为了衡量和平协议对暴力影响的情况,我们汇集了来自不同来源的数据集,使我们能够随时间分析定量和定性因素。以下是数据种类概览,我们使用了这些类型的数据。

  • 和平协议资料:
    我们还加入了来自PA-X和平协议数据库的数据,该数据库收录了1990年至2023年间签署的和平协议。其中包括每个协议的签署国家、签署日期和协议编号等详细信息。

折线图显示了每年签署的和平协议数量。

  • 文本数据:
    我们还使用了Mueller 和 Rauh (2022) 数据集中的编译数据。这些数据涵盖了超过六百万篇新闻文章,来自各种来源,时间跨度从1989年到现在。这些文本数据已利用自然语言处理(NLP)技术,尤其是潜在狄利克雷分配(LDA),进行了处理,以识别新闻文章中的主题。为了捕捉新闻周期对近期事件的突出报道,还应用了指数加权移动平均(EWMA)方法,使近期文章的权重更高。确保主题分布能够反映出最新的趋势。

上述图表显示了利比亚新闻话题的份额,你可以看到在第一个和平协议签署之后,政治话题出现了激增(实际上在签署之前就已经开始上升),而家庭与社会以及军事与行动则有所减少(在签署之后)。

  • 致命事件数据:
    为了捕捉暴力水平,我们使用了Uppsala冲突数据项目(UCDP)地理参考事件数据集(GED)。该数据集提供了全球暴力事件的月度数据,分类为:
    - 战斗相关暴力: 即由组织间武装冲突引起的暴力。
    - 单边暴力: 专门针对平民并造成死亡的事件。
    - 非国家间的冲突暴力: 非国家行为者如叛乱或民族群体之间的冲突。

  • 定义暴力强度作为目标变量:
    我们的目标变量,暴力强度,首先将各个国家的伤亡人数按人口比例进行归一化处理。然后对这一测量值取对数形式,以减少数据分布的偏斜,从而得到更均匀的分布。

暴力事件记录

这使我们能够比较和平协议前后暴力的水平。这有助于揭示这些条约可能带来的任何影响。

分析平均暴力水平,我们可以看到一个模式显现,在和平协议签订前暴力水平上升,而在协议签订后下降。

我们的方法与实施

pixabay.com

好的,现在我们来谈谈项目的“核心内容”;我们专门为面板数据设计并实现的DML。下面是我们采取步骤的简要说明:

  1. 控制国家特定差异 🌍
    如前所述,我们为每个国家引入了虚拟变量,有效地捕捉并控制了国家特有的效应。这样我们就将每个国家置于同样的环境中。
  2. 包含滞后变量以捕捉滞后效应 ⏱️
    我们知道和平协议的影响可能不会立即显现——暴力水平的变化可能需要几个月的时间。这样我们就能同时观察到和平协议对暴力的即时效应和滞后效应。
    我们创建了一个滞后变量来指示在协议签署前的12个时间段内是否存在和平协议,并且我们也为协变量(影响和平协议和暴力的其他因素)做了同样的处理。等等,这意味着我们需要为每个滞后处理变量运行DML模型?是的,我们为每个滞后变量都运行了模型。
  3. 拆分数据以获得可靠结果(交叉拟合) ✂️
    为了避免过拟合——模型在训练数据上表现良好但在新数据上表现不佳的情况,我们使用了交叉拟合这一技术,这是DML中的一个关键步骤。这涉及将数据拆分为不同的组或“折叠”。我们用一些分组来训练模型,并用其他分组来验证模型,确保模型没有使用相同的数据进行两步操作。
    但是,如何在保持数据时间顺序的同时将数据拆分为不同的折叠?我们使用了一个名为PanelSplit的工具,有效地拆分数据同时保留了面板数据中的时间序列和截面依赖性。这是一个处理面板数据时非常有用的工具!以下是该GitHub仓库
  4. 估计和平协议对暴力的真实因果效应 🔍
    在DML中,我们估计某些“辅助参数”以控制同时影响处理(和平协议)和结果(暴力)的因素。以下是分解步骤:
    第1步 — 处理模型: 我们使用随机森林分类器来估算和平协议存在的概率,考虑其他影响因素。我们为每个滞后处理(确保仅使用相应的滞后混杂因素来预测处理)进行此操作。
    第2步 — 结果模型: 然后我们使用随机森林回归器来估算暴力的强度,再次考虑各种因素。对于每个滞后时期,我们使用相应的滞后混杂变量和当前混杂变量。
    第3步 — 回归残差:
    首先,我们计算残差。什么是残差?这基本上是你预测值与实际值之间的差异。所以为了找到这一点,我们用实际值减去预测值。
    其次,我们通过将结果残差回归到处理残差上来估计因果效应(我们基本上只是运行回归分析来找出变量之间的关系)。这一部分称为正交化
  5. 平均结果以获得可靠的因果估计 📊
    最后,我们将所有折叠的结果进行平均,以获得和平协议对暴力影响的良好、稳定的估计。这一过程涉及多次运行模型并平均结果,确保我们的结论不会受到任何一部分数据的影响(是的,这个代码需要运行数小时)。
关键技术包括:正交化技术和交叉验证
  • 正交化处理 减少了由混杂变量引起的偏倚。记得我们在这一部分进行残差回归。
  • 交叉拟合 将数据分割开来,以确保训练和验证使用不同的数据部分。
结果与最终感想

研究发现,和平协议不仅显著减少了暴力,而且随着时间的推移逐渐降低了暴力。我们查看了每次运行的系数。

  • 所有滞后中的负系数:所有滞后期,包括未滞后处理的,都产生了负系数,表明存在一致的负趋势。
  • 统计显著性:除了没有滞后的处理和最后一个滞后期之外,DML结果的置信区间均未包含零。这表明结果稳健,和平协议对暴力行为的负面影响随时间推移变得明显。

你可以看到每个滞后效应的估计值。很明显,除了0和12这两个以外的所有结果都位于零线以下,这意味着它们具有统计显著性。

鲁棒性检验:安慰剂检验

为了验证我们的结果并确保其可靠性,我们进行了敏感性分析,使用了“安慰剂式”的滞后变量。这意味着我们将处理变量提前滞后,也就是说我们是在研究“虚假”和平协议的因果关系。

结果都没有统计学上的显著性,所以这倒是个好消息!不过,在和平协议正式签署前的那段时间里,效果开始减弱,这可能表明在协议签署之前已经开始有一些变化被实施了。

探索前瞻性和延迟效应

从这些图来看,我们可以看出,和平协议并不能立即减少暴力;相反,它们的效果逐渐显现,这合情合理,因为和平协议的影响需要时间来落实(我们也知道政府办事通常很慢)。

这是我们希望通过建立分阶段治疗来进一步探索的内容——一个包含多个阶段的治疗过程。这样一来,我们可以将治疗视为一段较长的时间,而不仅仅是一个瞬间。

那么,我们从这一切中到底学到了什么?

pixabay.com

你终于看完了!好的,我们来总结一下——我们分享了一些关键点:

  1. DML 是一个非常强大的工具,特别适用于寻找因果效应,尤其是在处理复杂和混乱的数据时。
  2. 面板数据 只要小心地拆分数据,并通过适当的方法处理固定效应(例如,通过 one-hot 编码),就可以用 DML 来处理。
  3. 在控制所有混杂因素后,我们证明了和平协议导致暴力的显著减少。敏感性分析确认了结果并非随机偶然或噪音所致。
  4. 由于引入了滞后效应,我们观察到和平协议的效果会随着时间逐渐展开,这表明需要进一步研究以探讨“分阶段”的处理方式。

谢谢关注一下!

如果你觉得这篇文章对你有帮助,可以点个 👏 支持一下,并在 MediumLinkedIn 上与我联系。

0人推荐
随时随地看视频
慕课网APP