从配置文件读取到正则表达式,但是读取之后的类型是字符串,也就不具有正则查找的效果了...
例如配置文件的内容是这样的:
pattern_dict = ['re.compile(.*?日历\(.*?\))', 're.compile(pattern[, flags]']
然后读出来是're.compile(.*?期货交易所交易日历\(.*?\))'
,类型是str...
原始需求:
从网上抓很多文章,但是包含特定字符的数据就不要了(例如标题包含“日历”),想到的方案是一个配置文件专门放正则表达式(正则表达式就类似“re.compile(.?日历(.?))”),然后每采集一篇文章,就读取一次配置文件,把里面的过滤条件都过一遍...
cc = importlib.import_module('robot.clear_data').pattern_dict for cs in cc: print('正则表达式=============' + str(cs)) if cs.search(item['title']) not in item['title']: #这里就使用正则表达式的Search,如果title能和正则匹配上,就判断一下 return item
慕妹3242003
阿晨1998
相关分类