我已经将大约 40MB 的英文维基百科提取为纯文本。我会用它来构建带有 gensim 的 word2vec 模型。为此,我需要先将其分成句子。我怎样才能做到这一点?我试过:
from __future__ import unicode_literals, print_function
import spacy
from spacy.lang.en import English
nlp = spacy.load('en_core_web_sm')
nlp.max_length = 47084146
ftest = open("test_02", "r")
raw_test = ftest.read().replace("\n", " ")
sentences = [i for i in nlp(raw_test).sents]
f = open("sentences.txt", "w")
for sent in sentences:
f.write(str(sent)+"\n")
f.write("\n")
f.close()
但这失败了:MemoryError: Unable to allocate 34.8 GiB for an array with shape (9112793, 8, 64, 2) and data type float32
我不知道它为什么要使用这么多 RAM!
我怎样才能做到这一点?
四季花海
莫回无
相关分类