我有大约 20k 个 60 - 150 字的文档。在这 20K 个文档中,有 400 个文档已知类似文档。这 400 个文档作为我的测试数据。
我正在尝试使用 gensim doc2vec 为这 400 个数据集找到类似的文档。“句子和文档的分布式表示”一文说,“PV-DM 和 PV-DBOW 的组合通常效果更好(在 IMDB 中为 7.42%),因此被推荐。”
所以我想将这两种方法的向量结合起来,找到与所有训练文件的余弦相似度,并选择余弦距离最小的前 5 个。
那么结合这两种方法的向量的有效方法是什么:加法或平均或任何其他方法???
组合这两个向量后,我可以对每个向量进行归一化,然后找到余弦距离。
蛊毒传说
相关分类