假设我正在尝试使用 distances() 计算单词和文档之间的平均距离,或者使用 n_similarity() 计算两个文档之间的余弦相似度。但是,假设这些新文档包含原始模型没有的单词。gensim 如何处理这个问题?
我一直在阅读文档,找不到 gensim 对未找到的单词做了什么。
我宁愿 gensim 不计入平均值。因此,在 distances() 的情况下,它不应该返回任何东西,或者在我使用 numpy. 在 n_similarity 的情况下,gensim 当然必须自己做......
我之所以问,是因为我的程序必须分类的文档和单词在某些情况下会包含我不想在分类过程中考虑的未知单词、名称、品牌等。所以,我想知道我是否必须对我试图分类的每个文档进行预处理。
眼眸繁星
慕标琳琳
相关分类