我有一个 pandas 数据框,其中包含一列数千条评论。我想遍历列中的每一行,检查评论是否包含我创建的单词列表中找到的任何单词,如果评论包含我的列表中的单词,我想将其标记为一个单独的列。到目前为止,这是我的代码中的内容:
retirement_words_list = ['match','matching','401k','retirement','retire','rsu','rrsp']
def word_checker(row):
for sentence in df['comments']:
if any(word in re.findall(r'\w+', sentence.lower()) for word in retirement_words_list):
return '401k/Retirement'
else:
return 'Other'
df['topic'] = df.apply(word_checker,axis=1)
该代码将我的数据框中的每一条评论标记为“其他”,即使我已经仔细检查许多评论包含我的列表中的一个或多个单词。关于如何纠正我的代码有什么想法吗?我非常感谢你的帮助。
米琪卡哇伊
FFIVE
相关分类