有很多模块,例如lxml,Beautiful汤,nltk和pyenchant,可以正确过滤出正确的英语单词。但是,然后是什么最干净的最短方法,例如html2text,如果也可以取消降价促销(我写的时候,右边有很多类似的问题)可能有一个通用的正则表达式可以删除所有的html。标签?
def word_parse(f):
raw = nltk.clean_html(f) #f = url.content here, from "requests" module
regex = r'[a-zA-Z]+' # | ^[a-zA-Z]+\b'
match = re.compile(regex)
ls = []
for line in raw.split():
for mat in line.split():
try:
v = match.match(mat).group()
map(ls.append, v.split())
except AttributeError, e:
pass
有人可以建议一些好的代码片段吗?有人可以在这里建议更简洁,更优化的代码吗?
心有法竹
相关分类