我需要在清理数据时添加更多条件,包括删除停用词、星期几和月份。对于星期几和月份,我创建了一个单独的列表(我不知道 python 中是否有一些已经内置的包来包含它们)。对于数字,我会考虑 isdigit。所以像这样:
days=['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday']
# need to put into lower case
months=['January','February','March', 'April','May','June','July','August','September','October','November','December']
# need to put into lower case
cleaned = [w for w in remove_punc.split() if w.lower() not in stopwords.words('english')]
我怎样才能包含在上面的代码中?我知道这是需要考虑额外的 if 语句,但我正在努力解决这个问题。
慕运维8079593
相关分类