手记

用ARIMA模型预测利物浦在英超联赛中的未来射门位置

数据在足球中帮助我们做出决策,但大多数数据主要用于赛后分析,评估球队和球员的表现。这意味着我们会回顾比赛并评估表现。这让我们了解球员在特定时间内的表现,或球队与对手的表现对比。

下一步是看看我们如何使用数据来预测某些事件。我们不仅能够展望未来的结果和情况,还能仔细看看特定的数据,或许可以依据历史数据来猜测未来事件会如何发展。

在这项分析中,我想研究赛季中的射门位置,并通过这样做从而预测下一场比赛中的射门可能出现在哪里。我们可以通过应用自回归积分移动平均(ARIMA)模型来做到这一点。

  1. ARIMA是什么?
  2. 我们为什么需要它?
  3. 数据集
  4. 方法
  5. 可视化展示
  6. 最后的想法
什么是自回归差分移动平均模型(ARIMA)?

ARIMA(自回归积分滑动平均) 是一种常用的时间序列预测模型,用来基于过去的数据来分析和预测未来的值。该模型包含了三个主要部分:自回归(AR)差分(I)滑动平均(MA)

  1. 自回归:这部分模型描述了观察值与其滞后值之间的关系。参数 p 表示考虑滞后项的数目。
  2. 差分:这一部分是差分处理,通过从当前值减去前一个值来使时间序列更平稳。参数 d 表示应用的差分次数,以稳定序列的平均值。
  3. 移动平均:这部分关注观察值与其滞后观察值中的残差误差之间的关系。参数 q 定义了包含的滞后误差数量。

ARIMA通常表示为 ARIMA(p, d, q),其中p、d和q的值决定了模型的复杂程度。通过这三部分的结合,ARIMA可以有效捕捉趋势、季节性和噪声,使其在时间序列预测中非常强大。

在足球的背景下,ARIMA 模型可以建模来自球场不同区域的射门频率,揭示射门趋势和模式。该模型可以识别哪些区域越来越成为射手们的选择。

背后的想法:创建传球进度得分(PPS)我总是对我们如何评价足球运动员以及我们赋予这些球员的价值感到着迷。 我们为什么需要这个呢?

所以为什么我们需要它呢?就像我之前说的,我们主要关注赛后的分析,回顾已经发生的情况。但是,数据也可以用于赛前分析,并且肯定也可以用来准备如何应对对手。教练分析每年都在增多,这可以在这些方面提供帮助。

通过这个指标或新数据,我们可以预测对手下一步的进攻方向,从而在防守上做好准备。这也可以帮助我们同时在进攻思维中最大化预期进球,确保我们充分利用这些机会,看看是否需要调整我们的进攻策略。

数据部分 (Data Section)

我们为此指标使用的数据来自Opta。射门位置来自Opta的事件数据,而预期进球值则来自我自己的模型。该模型会考虑不同变量以确保预期进球值的准确性。数据收集时间为2024年10月29日收集的数据。

数据将被处理和分类,以便符合我们研究的需求。更多细节将在方法部分详细说明。

主动防御 vs 被动防御得分:衡量防守者喜欢以何种方式参与防御……我最近在想,开发度量标准完全是基于偏见,因为制定这个度量标准的人有自己的偏见……marclamberts.medium.com
研究方法

为了得到正确结果,有几件事情我们必须做。首先,我们要收集所有数据,这些数据将作为我们数据库中的数据和计算的基础。

首先,我们将把球场划分成不同的区域。我们需要这些不同的区域来确定射门来自哪里,这可以帮助我们制定策略或预测射门的位置。球会来自中央区域吗?半场区域,边线区域还是球场的更深处?我们将其划分成18个区域,这样我们就能清楚地看到射门来自哪里。

现在,我将筛选数据,专注于这个特定的球队,即英超联赛利物浦队。我们将关注的赛季是2024/2025赛季的,并使用当前的历史数据来查看每个具体区域的射门次数。这样我们可以看到数据表现,从而为我们提供预测的起点。

然而,我发现这种方式并不适合这种情况,因为我想要更仔细地研究射击的聚集。虽然区域划分是个不错的选择,但其相对静态。这就是为什么我打算研究如何将那些射击集中起来。

从上面的射门地图(shotmap)可以看到,利物浦在2024–2025赛季目前为止的所有射门。这展示了利物浦的预期进球情况以及射门的位置。射门的距离和位置与预期进球之间存在关联。

下一步就是看看这些集群。

在上面的射门分布图中,我们将射门分为4个组。聚类是一种在机器学习和统计中使用的技术,用于根据数据点的相似性进行分组。目的是将数据分类,使每个组内的项目比其他组中的项目更相似。

现在我们的数据已经分好类了,我们已经可以看到利物浦目前为止的表现了。接下来我们要开始计算预测的部分了。

通过这样做,我们取赛季前9场比赛的平均射门次数,平均每场14次射门,以此来计算下一场接下来14次射门的位置。这会在Python代码里搞定。

根据前9场比赛,我们预测了下一场球赛的射门点。有了这些信息,我们可以得出一些具体的结论并采取行动。

可视化的

在上面的射击分布图中,我们看到了基于历史数据的预测。这些聚类虽然与历史数据中的有所不同,这给我们带来了一些启示。

  1. 看来利物浦将会主要从左侧射门,且xG较低。
  2. 大部分xG是由中路产生的,这意味着球员会正对球门。
  3. 左侧的射门角度较好,位置也比右侧更靠近球门内侧。

这是一个我们可以用来使其变得实用的分析。为什么需要使其具有操作性?这些是利用数据的预测,但最终,我们需要找到一种方法让这些预测对教练和分析师有用。

我们可以用以下两种方法在教练/训练框架中利用这个预测来获取优势:

  1. 进攻 — 利物浦可以了解他们是如何射门的以及射门的区域是从哪里来的,还要注意高xG位置。他们可以训练巩固这种现有的比赛方式,或者解释其他射门区域的位置,让对手措手不及。

  2. 防守 — 如果你对阵利物浦,这可以作为一种防守布置的方式。例如,利物浦很多射门来自右侧,你可以设法让他们往左边射。同时,尽量避免他们中路射门,因为中路射门产生的xG值最高。
最后的想法

这是今年年初我开始的一种利用数据进行赛前分析的方式。数据可以用于比赛的各个方面,但赛后分析比赛前更容易进行。例如,通过预测射门位置,这可以让训练更有效。

有不同的处理方式来应对这个问题,ARIMA模型只是其中一种方式,并且它并不是完美无缺。随着时间的进展,我打算制作一个2.0版本的预测射门位置的模型,让这个预测更加准确,考虑到射门结果、角度、左右脚、比赛情境、距离以及是否是助攻等因素。

我也研究了一些区域,所以下次我想在另一项研究中再深入研究一下。主要是看看这样的假设是否也合理。

总的来说,这给了我们更广阔的视角和经验来观察射门位置,并利用它在未来比赛中发挥优势。

想得到Python代码和xG值,你可以关注我的Patreon,这样你就可以读文章,还有文档。

https://www.patreon.com/posts/using-integrated-115015397

0人推荐
随时随地看视频
慕课网APP