在超过100个不同的正则表达式上循环时，Python re模块的速度降低了20倍

Python为已编译的正则表达式保留内部缓存。每当您使用带有正则表达式的顶级函数之一时，Python都会首先编译该表达式，然后缓存该编译结果。猜猜缓存可以容纳多少个项目？>>> import re>>> re._MAXCACHE100一旦超过缓存大小，Python 2就会清除所有缓存的表达式，并从干净的缓存开始。Python 3将限制增加到512，但仍然完全清除。解决方法是让您自己缓存编译：compiled_expression = re.compile(r'(?i)User [_0-9A-z]+ is ')compiled_expression.sub(r"User .. is ", s)您可以functools.partial()将sub()呼叫与替换表达式捆绑在一起：from functools import partialcompiled_expression = re.compile(r'(?i)User [_0-9A-z]+ is ')ready_to_use_sub = partial(compiled_expression.sub, r"User .. is ")然后在以后使用ready_to_use_sub(s)时将已编译的正则表达式模式与特定的替换模式一起使用。

在超过100个不同的正则表达式上循环时，Python re模块的速度降低了20倍

1回答