我有一个问题,如何获得我认为具有相似含义的单词的总和,所以我想算作同一个单词。
例如,我有这个数据集:
Word Frequency
0 game 52055
1 laura 24953
2 luke 21133
3 story 20739
4 dog 17054
5 like 12792
7 character 8845
9 play 8420
11 characters 8081
12 people 7933
16 good 6496
18 10 6309
19 gameplay6195
22 revenge 5922
25 bad 5331
26 end 5027
27 feel 4833
28 killed 4779
31 kill 4545
33 graphics4372
34 time 4272
35 cat 4244
44 great 3466
45 ending 3379
...
50 love 3059
51 never 2965
52 new 2963
53 killing 2955
这是一个包含两列的数据集:一列包含单词,另一列包含单词在文档中出现的频率。我需要将以下内容视为相同的词:
杀,杀,杀;
性格和性格;
结束,结束。
我认为这应该可以通过使用 portstemmer 轻松完成。但是,我还需要将它们的频率计算为总和。
所以,举例来说,
28 killed 4779
31 kill 4545
53 killing 2955
应该
31 kill 12279
不幸的是,我无法应用早期的词干提取,因为我收到的数据集如上所示。您能给我一些关于如何获得这笔钱的建议吗?
holdtom
相关分类