在执行正则表达式模式匹配时,我们得到的是匹配的内容。如果我想要在内容中找到的模式怎么办?
请参阅以下示例:
>>> import re
>>> r = re.compile('ERP|Gap', re.I)
>>> string = 'ERP is integral part of GAP, so erp can never be ignored, ErP!'
>>> r.findall(string)
['ERP', 'GAP', 'erp', 'ErP']
但我希望输出看起来像这样:['ERP', 'Gap', 'ERP', 'ERP']
因为如果我对原始输出进行分组和求和,我会得到以下输出作为数据帧:
ERP 1
erp 1
ErP 1
GAP 1
gap 1
但是,如果我希望输出看起来像这样怎么办
ERP 3
Gap 2
与我正在搜索的关键字相提并论?
更多背景信息
我有一个这样的关键字列表:.我有一个这样的字符串:['ERP', 'Gap']"ERP, erp, ErP, GAP, gap"
我想计算每个关键字在字符串中出现的次数。现在,如果我进行模式匹配,我将得到以下输出:.[ERP, erp, ErP, GAP, gap]
现在,如果我想聚合并进行计数,我将获得以下数据帧:
ERP 1
erp 1
ErP 1
GAP 1
gap 1
虽然我希望输出如下所示:
ERP 3
Gap 2
UYOU
海绵宝宝撒
相关分类