Doc2Vec 预训练和推断向量

有了这样一个微小的数据集，我无法给出的答案不会像尝试一下看看它是否有效一样有用。50000 对于训练集来说很小，但一些有用的结果是基于类似的语料库。Doc2Vec与训练一样，向量推理将任意长度的文档简化为固定大小的向量。（但请注意：gensim默默地将提供给模型的任何文本限制为10000个令牌。2Vec但是，如果你已经在大约1000个单词的文档上训练了一个模型，那么尝试在10个单词的片段上进行推理，那么这些文档向量可能不如在更类似于训练集的文档上的推断向量有用或有用。但是您仍然需要尝试一下才能找到答案。（另请注意：在训练期间未学习的单词在推理过程中会被完全忽略，因此以后对具有许多/所有未知单词的文档的推断将是弱的或无意义的。您的推理文档是否属于这种情况 - 它们在大小和词汇量上与训练文档有很大不同？如果是这样，为什么？（你能用更具代表性的文件进行培训吗？如果在训练开始之前修复了 36000 个文档集，则将它们包含在无监督训练中也可能是有效/可辩护的。它们是数据，它们有助于学习领域术语，并且它们中没有任何形式的“正确”分类答案。Doc2Vec

Doc2Vec 预训练和推断向量

1回答