我有一个数据集,其标题为产品名称、品牌、评级(1:5)、评论文本、评论帮助。我需要的是使用评论提出推荐算法。我必须在这里使用 python 进行编码。数据集为 .csv 格式。
为了识别数据集的性质,我需要在数据集上使用 kmeans。如何在这个数据集上使用 k 均值?
因此我做了以下操作,1.数据
预处理,
2.review 文本数据清理,
3.sentiment 分析,
4.根据他们获得的情绪值(由情绪分析给出)给情绪评分从 1 到 5,并将评论标记为非常消极,消极,中性,积极,非常积极。
在这些程序之后,我的数据集中有这些列,产品名称,品牌,评级(1:5),评论文本,评论帮助,情感价值,情感标签。这是数据集的链接https://drive.google.com/file/d/1YhCJNvV2BQk0T7PbPoR746DCL6tYmH7l/view?usp=sharing
我尝试使用以下代码获取 k 表示它运行时没有错误。但我不知道这是有用的东西,或者有没有其他方法可以在这个数据集上使用 kmeans 来获得其他有用的输出。要确定有关数据的更多信息,我应该如何在此数据集中使用 k 均值..
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
df.info()
X = np.array(df.drop(['sentiment_value'], 1).astype(float))
y = np.array(df['rating'])
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
random_state=None, tol=0.0001, verbose=0)
plt.show()
宝慕林4294392
千万里不及你
相关分类