猿问

向量化新的文本数据

我已经Word2vec在“棕色语料库”上训练了一个模型。


我想将矢量化的单词应用于一个新的文本文档,然后我想通过方式将其句子聚类Affinity Propagation。


import gensim

import nltk

from nltk.corpus import brown


sentences = brown.sents()

model = gensim.models.Word2Vec(sentences, min_count=1)

model.save('brown_model')


model = gensim.models.Word2Vec.load('brown_model')

我的文本文档包含一个请求列表,例如:


"I want to go to the store"


"I want the president to help me"


"Clean up my house"

我的问题是:


我如何将矢量化Brown corpus应用于我自己的文本数据以进行后续聚类?


撒科打诨
浏览 165回答 1
1回答

守候你守候我

如果我理解得很好,后续聚类目的的问题可以解决如下:words = set(brown.words())print (len(words))...word_presented = words.intersection(model.vocab.keys())看看这篇文章
随时随地看视频慕课网APP

相关分类

Python
我要回答