我面临以下问题。我有一个包含以下字段的 csv 文件
vendor, number_of_products, price, shipping_country
我正在尝试使用 sci-kit 中的 python 和 k-means 进行聚类。我的主要问题是处理分类数据的方式(更具体地说是shipping_country
包含国家字符串的字段)。我的目的是为该shipping_country
领域分配权重。我最初的想法是用 1-20 的数字代替每个国家(例如,1 表示“比 20 强” - 全球 --> 1 ,巴拿马 --> 20)。这种方法的问题在于它没有科学依据(或者至少我无法证明)。有人有什么建议吗?由于时间压力,我真的很感激一个编码示例(如果可能的话)!我正在使用蟒蛇。先感谢您!
小怪兽爱吃肉
相关分类