我有一个文件,我正在尝试对其进行词频列表,但我在列表和字符串方面遇到了问题。我将文件更改为字符串以从文件中删除数字,但这最终会弄乱标记化。预期的输出是我打开的文件的字数,不包括数字,但我得到的是以下内容:
Counter({'<_io.TextIOWrapper': 1, "name='german/test/polarity/negative/neg_word_list.txt'": 1, "mode='r'": 1, "encoding='cp'>": 1})
done
这是代码:
import re
from collections import Counter
def word_freq(file_tokens):
global count
for word in file_tokens:
count = Counter(file_tokens)
return count
f = open("german/test/polarity/negative/neg_word_list.txt")
clean = re.sub(r'[0-9]', '', str(f))
file_tokens = clean.split()
print(word_freq(file_tokens))
print("done")
f.close()
慕村225694
蝴蝶刀刀
相关分类