我拼凑了一些打开文本文件的工作 python,将其转换为小写,消除停用词,并输出文件中最常用词的列表:
from collections import Counter
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
stop_words = set(stopwords.words('english'))
file1 = open("ocr.txt")
line = file1.read()
words = line.split()
words = [word.lower() for word in words]
for r in words:
if not r in stop_words:
appendFile = open('cleaned_output.txt','a')
appendFile.write(" "+r)
appendFile.close()
with open("cleaned_output.txt") as input_file:
count = Counter(word for line in input_file
for word in line.split())
print(count.most_common(10), file=open('test.txt','a'))
我想修改它以对目录中的所有文件执行相同的操作,并将结果输出到唯一的文本文件或作为 csv 中的行。我知道这os.path可能可以在这里使用,但我不确定如何使用。我真的很感激一些帮助。先感谢您!
吃鸡游戏
达令说
相关分类