TfidfVectorizer 的替代品

除了模块的TfidfVectorizer功能还有其他选择吗?sklearn.feature_extraction.text我听说过 fastText 和 GloVe,但找不到如何使用它来矢量化文本的很好的解释。

编辑:基本上我有一个叫做旁白的功能,它由英文句子组成。为了将其输入到任何 ML 算法中,我必须将其转换为数字矩阵表示。TfIdf 是一种方式。还有其他方法可以尝试吗?(可能在也可能不在 sklearn 下)


拉丁的传说
浏览 129回答 1
1回答

翻翻过去那场雪

您正在寻找的是所谓的文本嵌入,例如参见this。本质上,对于您的叙述功能,您希望将序列转换为向量,因此是 seq_to_vec。TfIdf 只是执行此操作的最简单方法之一,它会产生稀疏(更多的组件 =0,而不是)。我建议你在这里寻找一个好的起点。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python