背景 :
给定一个语料库,我想用 word2wec (Gensim) 的实现来训练它。
想了解 2 个标记之间的最终相似度是否取决于语料库中 A 和 B 的频率(保留所有上下文),还是不可知。
例子:(可能不理想,但用它来阐述问题陈述)
假设单词“A”在语料库中的 3 个不同上下文中使用:
Context 1 : 1000 times
Context 2 : 50000 times
Context 3 : 50000 times
'B' 用于 2 个不同的上下文:
Context 1 : 300 times
Context 5 : 1000 time
问题 :
如果我更改语料库中“A”的频率(确保没有上下文丢失,即“A”在所有上下文中仍像原始语料库一样至少使用一次),A 和 B 之间的相似性是是相同的 ?
'A' 跨上下文的新分布
Context 1 : 5 times
Context 2 : 10 times
Context 3 : 5000 times
任何线索表示赞赏
墨色风雨
明月笑刀无情
holdtom
相关分类