对于DBSCAN python,是否必须同时进行标准化和规范化?

对于DBSCAN的实现,是否需要对所有特征列进行标准化和归一化?


例如


[[ 664.      ,  703.      , 2901.069079],  

[ 632.      ,  717.      , 2901.069079],  

[ 606.      ,  740.      , 4386.449399],    

[ 635.      ,  751.      , 4386.449399],   

[ 672.      ,  525.      , 4760.874001]]

如果我必须对此进行 DBSCAN,是否必须先对其进行标准化,然后再对其进行标准化?只是标准化吗?


此外,这些值如何决定 eps 的选择?


杨魅力
浏览 144回答 1
1回答

泛舟湖上清波郎朗

规范化或标准化数据可能会破坏数据集的重要属性。一些例子:您的数据是地理坐标。纬度和经度绝不能标准化你的数据是直方图。唯一有意义的归一化是使直方图的总和为 1。切勿变换单个变量!您的数据有一个有意义的零。例如,它是货币价值。不过,使用 sgn(x)*sqrt(abs(x)) 进行转换在某些领域可能会有所帮助。你的数据很稀疏。永远不要标准化。(如果没有负值,标准化可能是“好的”。)选择缩放不应该“因为它总是会完成”;但因为你拥有实际数据!选择它是因为它是正确的,而不是因为它是“默认”或在某些教程中。如果您诉诸归一化或标准化,您很可能不了解您的数据,也不了解如何测量距离或相似性;然后人们喜欢使用归一化作为最后的手段来获得“一些”结果;但你永远不知道结果是否有意义。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python