手记

学习笔记:使用Python可视化Word2vec会有什么结果

Word2vec绝对是我在自然语言处理研究中遇到的最有趣的概念。想象一下,有一种算法可以成功地模拟理解单词的含义及其在语言中的功能,它可以在不同的主题内来衡量单词之间的接近程度。

我认为可视化地表示word2vec向量会很有趣:本质上,我们可以获取国家或城市的向量,应用主成分分析来减少维度,并将它们放在二维图表上。然后,我们可以观察可视化的结果。

在本文中,我们将:

  • 从广义上讨论word2vec理论;

  • 下载原始的预训练向量;

  • 看看一些有趣的应用程序:比如对一些单词进行算术运算,比如著名的king-man+woman=queen等式

  • 根据word2vec向量看看我们能多精确地来绘制欧洲的首都。

word2vec的原始研究论文和预训练模型来自2013年,考虑到NLP文献的扩展速度,目前它是老技术。较新的方法包括GloVe(更快,可以在较小的语料库上训练)和fastText(能够处理字符级的n-gram)。


0人推荐
随时随地看视频
慕课网APP

热门评论

自然语言处理的核心概念之一是如何量化单词和表达式,以便能够在模型环境中使用它们。语言元素到数值表示的这种映射称为词嵌入。

Word2vec是一个词嵌入过程。这个概念相对简单:通过一个句子一个句子地在语料库中循环去拟合一个模型,根据预先定义的窗口中的相邻单词预测当前单词。


查看全部评论