如何使用大数据集将对象类型映射到 pandas.DataFrame 中的 int64

我有用于机器学习研究的数据,但我坚持使用这些字符串特征。我想将 ) 映射them(object到number(int64).


例如,在 feature 中workclass,制作一个map(dict)as {'private':0,'State-gov':1, etc}。


那么,如何在 DataFrame 中处理它,我是否应该编写一个 for 循环来查找特征中的 n 个不同类,并为每个对象特征进行 n 键映射?


# There are the code about data reading

import pandas as pd


df_trainFeatures = pd.read_csv('data/trainFeatures.csv')

object_features = ['workclass','education','Marital-status',

         'occupation','occupation','relationship','race','sex','native-country']

# list data type

for i in df_trainFeatures:

    print(df_trainFeatures[i].dtype,i)


//Printing

int64 age

object workclass

int64 fnlwgt

object education

int64 education-num

object Marital-status

object occupation

object relationship

object race

object sex

int64 capital-gain

int64 capital-loss

int64 hours-per-week

object native-country

子数据框如下:

http://img1.mukewang.com/60ed759500016c1c18900363.jpg

慕无忌1623718
浏览 186回答 1
1回答

眼眸繁星

pandas.get_dummies(data)它将分类变量转换为虚拟/指标变量。或者在你的情况下pandas.get_dummies(df_trainFeautres['workclass'])
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python