使用滚动窗口准确检测数据帧中具有重复值（同头同尾）的序列

我有一个多熊猫数据框，每个数据框都有一个包含值的列，另一个具有相应的匹配时间。

即： [z,x,y,n,z,z,x 等] [1.234, 2.4467, 2.999, 6.432, 9.6764 等]

我想检测一个特定的模式（即 z,x,y,n,z）并创建一个新列，其中包含有关该值是否是序列一部分的信息（称为“seq_bool”，每个值的值为 True 或 False ）。然后看起来像这样：

0 1 seq_bool

z 1.234 True

x 2.4467 True

y 2.999 True

n 6.432 True

z 9.6764 True

x 10.111 False

y 11.344 False

z 12.33 True

x 14.33 True

y 15.66 True

n 19.198 True

z 20.222 True

[...]

然后我使用这些信息来计算相应时间点的一些统计数据，基本上只取序列的一部分值。

我已经通过以下代码获得了这个，来自已经在 stackoverflow 上找到的解决方案

def rolling_window(a, window):

shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)

strides = a.strides + (a.strides[-1],)

c = np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)

return c

arr = new_df[0].values

b = np.all(rolling_window(arr, N) == sequence_pattern, axis=1)

c = np.mgrid[0:len(b)][b]

d = [i for x in c for i in range(x, x + N)]

new_df['seq_bool'] = np.in1d(np.arange(len(arr)), d)

我的问题是这不能准确识别序列，因为序列以相同的字符开始和结束（即 'z' ）

具体来说，如果我的数据 [z, x, y, n, z, x, y, n, z] 中有以下值，该函数会识别出所有这些值都是序列的一部分（并且都是“真” ) 而事实上它们不是。只有一个正确的序列（即 [z, x, y, n, z]）。

我对 python 有点陌生，我不知道如何解决这个问题。有没有办法指定，当找到一个序列时，输出必要的变量，然后丢弃它并前进到列中的下一个值？以免误将前一个正确序列（即z）的尾部作为新序列的开始。

噜噜哒

浏览 199回答 2

2回答

婷婷同学_

在您已有的基础上，在使用它之前，您可以删除c与前一个值的距离小于 5 的所有值，确保在继续之前删除相关值。也就是说，如果c = np.array([0, 7, 11, 15])，我们将删除 11 但保留 15。现在，您可以根据需要对其中的部分进行矢量化，但除此之外，您要查找的内容可以归结为i = 0while i < len(c)-1:    if c[i+1] - c[i] < 5:        c = np.delete(c, i+1)    else:        i += 1

青春有我

我的方法是将其视为查找子字符串问题。如果你喜欢，看看这个：word = ''.join(df['0'].values)seq_bool = np.zeros(len(word)).astype(bool)start = 0while True:    idx = word.find('zxynz', start)    if idx < 0:        break    else:        start = idx + 5        seq_bool[idx:idx+5] =  Truedf['seq_bool'] = seq_bool编辑：假设至少有一个已知永远不会出现在中的字符df['0']，还有一种更短的方法：假设T指标工作没问题：word = ''.join(df['0'].values)new_word = word.replace('zxynz', 'TTTTT')df['seq_bool'] = np.array(list(new_word))=='T')

随时随地看视频慕课网APP