可解释的机器学奥山洋子习预测全球恐怖主义

Interpretable machine learning predicts terrorism worldwide Credit:浙江大学大约20年前，一系列协调一致的恐怖袭击在纽约世贸中心和五角大楼造成近3000人死亡。自那时以来，进行了大量研究，以更好地了解恐怖主义背后的机制，希望防止未来潜在的毁灭性恐怖行为。尽管为研究恐怖主义投入了大量努力，但定量研究主要开发和应用了旨在描述区域恐怖行为案例的方法，而没有提供决策者实施有针对性干预所需的地方一级可靠和准确的短期预测。建立一个模型，在精细的时空尺度上预测世界范围内的恐怖主义

浙江大学数据科学中心的安德烈Python博士领导的一个国际研究小组在科学进展发表文章，研究能够在精细的时空尺度上预测和解释全球合法战争之外的非国家行为者实施的恐怖主义(非国家恐怖主义)的机器学习算法。为了覆盖全球所有可能在很长一段时间内受到恐怖主义影响的地区，作者考虑了大约2100万个周单元，这些单元由26，551个网格单元组成，这些网格单元位于50公里× 50公里处，覆盖了2002年至2016年间795周内世界上有人居住的地区。将基于可解释树的机器学习算法与替代基准预测模型进行比较，以预测和解释全球每个周单元中恐怖事件(响应)发生的概率。根据恐怖主义理论，该模型包括20个结构特征——说明人均国内生产总值等影响的时不变变量——和14个程序特征——说明过去的恐怖主义活动影响未来恐怖主义风险的动态变量。领导这项研究的安德烈Python博士说，为了在精细的时空尺度上预测恐怖主义等复杂的社会现象，理论上知情的机器学习算法可能会优于仅使用程序特征的简约模型。预测模型中包含的特征的选择至关重要；模型输出和预测性能的相关性得益于对驱动恐怖主义的机制在预测规模上的坚实概念理解。

恐怖主义能被准确预测吗？

虽然机器学习算法的预测性能在受恐怖主义高度影响的地区相对较高，但预测长期没有经历恐怖主义的地区发生的事件仍然具有挑战性。即使在精细的空间和时间分辨率下，算法也可能显示出相对较好的总体精度。然而，几乎不可能预测“黑天鹅事件”——那些在很长一段时间内只发生一次的事件，Python说。在我们的全球研究中，恐怖事件发生在不到2%的周细胞中。数据不平衡降低了m模型的精度，m模型是遇到恐怖主义并被正确预测的周细胞数除以预测会遇到恐怖主义的周细胞总数。这意味着，为了防止在一个受恐怖主义影响不大的地区发生大部分恐怖事件，需要重要的资源来调查可能发生恐怖主义的大片地区。

Python表示，除了学者们对恐怖主义的定义存在分歧之外，关于恐怖主义及其潜在驱动因素的公开数据的可用性、时空覆盖面和质量仍然是在全球范围内以及在与政策相关的范围内准确预测恐怖主义的重要障碍。但是，恐怖主义数据和社会经济驱动因素正变得更加详细、全面和容易获取。此外，可解释机器学习算法的持续发展非常有希望，并将使这些强大的工具在未来几年更容易被研究团体和实践者所使用。

解释机器学习算法结果的重要作用

直到最近，模型的解释基本上保留给经典统计模型，该模型在特征和响应之间强加参数关系，就像线性回归模型一样，其中特征被假设为与响应线性相关，并且与每个特征相关联的系数可以根据现有的恐怖主义理论来估计和进一步解释。在这项研究中，研究人员使用可解释的机器学习算法来获得相对较高的预测性能，而不会损害结果的可解释性。

研究小组使用了一种梯度增强的树算法，他们根据该算法计算累积局部效应(ALE)图，该图突出了随着特征的增量变化，恐怖主义发生的预测概率的边际差异。Python表示，特征和恐怖主义发生之间的关系很可能是非线性的，无法通过标准统计模型来识别。ALE图是一个重要的解释工具。Python表示，它们可以捕捉到算法学习到的这些复杂关系。他补充说，在我们的研究中，我们评估了34个相关特征与全球13个地区发生的恐怖主义之间的关系。我们观察到，一些特征关系是稳定的，而其他特征关系在不同区域之间变化更大。这些结果使我们能够更好地理解恐怖主义主要驱动因素的区域异同。

Python表示，机器学习算法有可能以与政策制定者相关的规模捕捉到恐怖主义的本地和全球驱动因素的复杂关系。我们模型的可解释性有着超出其预测能力的重要好处。结果可以根据恐怖主义理论进行分析，因此有助于在建模者和从业者之间建立信任，这是使这些算法对整个研究社区有价值的关键一步。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/6992.html