猿问

用于聚类低密度差多维数据的最佳聚类算法是什么?

我目前正在做一个项目,我希望对多维数据进行聚类。我尝试了 K-Means 聚类和 DBSCAN 聚类,两者都是完全不同的算法。

K-Means模型返回了一个相当好的输出,它返回了5个聚类,但我读到过,当维度很大时,欧几里得距离会失败,所以我不知道我是否可以信任这个模型。

在尝试 DBSCAN 模型时,该模型生成了许多噪声点,并在一个聚类中聚类了大量点。我尝试了 KNN dist 绘图方法来找到模型的最佳 eps,但我似乎无法使模型正常工作。这导致了我的结论,也许绘制的点的密度非常高,也许这就是我在一个聚类中获得很多点的原因。

对于聚类分析,我使用 10 个不同的数据列。我应该更改我正在使用的算法吗?对于多维数据和密度变化较小的算法,什么是更好的算法?


一只斗牛犬
浏览 81回答 2
2回答

子衿沉夜

您可以先使用 PCA/LDA/t-sne 或自动编码器对数据集进行降维。然后运行一些标准的聚类分析算法。另一种方法是您可以使用花哨的深度聚类方法。这篇博客文章很好地解释了他们如何在高维数据集上应用深度聚类。

LEATH

也许这能给你一些启发:Scikit-learn聚类算法 我建议你尝试一些。希望有所帮助!
随时随地看视频慕课网APP

相关分类

Python
我要回答