我必须使用决策树分类器对某些数据进行分类。但是,属性值是字符串,正如我在此处找到的那样,它说字符串不能用作输入。因此我对字符串使用了整数编码。
在这篇文章中,我发现传递整数编码的数据可能会导致错误的答案,因为 sklearn 假设数据之间有顺序。所以,唯一的出路是使用OneHotEncoder
模块。
使用OneHotEncoder
模块增加了特征的数量(例如,如果有一个带有值的属性“价格” ['high','med','low']
,单热编码将导致包含与实际属性“价格”相关的 3 个属性;这些可以解释为['price-high','price-med', 'price-low']
和属性值将是 1 或 0,具体取决于数据),这是我不想要的,因为我必须以某种格式打印决策树,这需要原始特征(例如,我需要“价格”)。
有没有办法解决这个问题?
精慕HU
相关分类