我正在尝试计算大约 7000 个文档的语料库的 tfidf 值。在互联网上搜索,我找到了很多示例(当我尝试为每个文档创建唯一词矩阵时,其中许多示例被锁定)。唯一有效的似乎是下面的代码
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
tfidf = TfidfVectorizer()
x = tfidf.fit_transform(corpus)
df_tfidf = pd.DataFrame(x.toarray(), columns=tfidf.get_feature_names())
print(df_tfidf)
假设以下语料库
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?']
它产生了这样的输出:
这段代码也适用于我的情况,事实上它生成了一个包含 7180 行和 10390 列的矩阵。但我不确定这是否正确。您认为,这是计算一组文档的 tfidf 的有效解决方案吗?
ps:我可以插入我关注的指南链接吗?
慕田峪7331174
相关分类