我们有一个维护正则表达式存储库的系统,并根据这些正则表达式检查一些传入文本以用于某些过滤目的。我们正在尝试构建的正则表达式之一如下所述。由于生产限制,我正在寻找的解决方案严格基于正则表达式。
我有一个单词列表:word1、word2、word3、word4、word5、word6、word7、word8、word9、word10。我正在尝试编写一个匹配字符串的正则表达式,如果它包含 4 个或更多这些单词,在任何位置的任何位置。
"Abc word3 def word2 ghi word7 jkl word1 mno word5" 应该是匹配的,因为它在给定列表中包含超过 4 个单词。
"Abc word2 def ghi word8" 不应该匹配,因为它只有给定列表中的 2 个单词。
我有以下正则表达式,但它似乎没有做我需要的。
((?i)((word1)|(word2)|(word3)|(word4)|(word5)|(word6)|(word7)|(word8)|(word9)|(word10))\b){4,}
请用 Java 或 Python 表示法提出任何建议?
编辑:添加了一些背景信息。
千万里不及你
胡说叔叔
慕尼黑5688855
相关分类