我需要将独立字段从字符串转换为算术符号。我正在使用 OneHotEncoder 进行转换。我的数据集有许多独立的列,其中一些是:
Country | Age
--------------------------
Germany | 23
Spain | 25
Germany | 24
Italy | 30
我必须对 Country 列进行编码
0 | 1 | 2 | 3
--------------------------------------
1 | 0 | 0 | 23
0 | 1 | 0 | 25
1 | 0 | 0 | 24
0 | 0 | 1 | 30
我成功地通过使用 OneHotEncoder 作为
#Encoding the categorical data
from sklearn.preprocessing import LabelEncoder
labelencoder_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0])
#we are dummy encoding as the machine learning algorithms will be
#confused with the values like Spain > Germany > France
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder(categorical_features=[0])
X = onehotencoder.fit_transform(X).toarray()
现在我收到了要使用的折旧消息categories='auto'。如果我这样做,将对所有独立列(如国家、年龄、工资等)进行转换。
如何仅在数据集第 0 列上实现转换?
月关宝盒
相关分类