我正在尝试按类别对 10 个最常用的单词进行分组。我已经看到了这个答案,但我不能完全修改它以获得我想要的输出。
category | sentence
A cat runs over big dog
A dog runs over big cat
B random sentences include words
C including this one
所需的输出:
category | word/frequency
A runs, 2
cat: 2
dog: 2
over: 2
big: 2
B random: 1
C including: 1
由于我的数据框非常大,我只想获得前 10 个最常出现的词。我也看过这个答案
df.groupby('subreddit').agg(lambda x: nltk.FreqDist([w for wordlist in x for w in wordlist]))
但此方法也返回字母数。
元芳怎么了
相关分类