我有一个如下所示的数据框:
test = {"viral": "pos", "Status": "positive", "Age": 59, "score": 5}
test2 = {"viral": "neg"}
df = pd.DataFrame.from_dict([test, test2])
我想将字符列(病毒、状态)编码为序数,但不要管数值。所需的输出是具有相同列名的 numpy 数组。
如果我使用 sklearn 的 OrdinalEncoder,它不会处理 NaN 值。即使没有 NaN 值,它仍然会对数字列进行序数编码。我想在字符列中用 0 填充 NaN 值,但在数字列中保留 NaN。
什么是最简单的方法来做到这一点?
所需的输出(在 numpy 数组中):
Age Status score viral
0 59.0 1 5.0 1
1 NaN 0 NaN 0
谢谢!杰克
编辑:我还想要一个从编码值到原始值的映射,就像{i: dict(enumerate(v)) for i, v in enumerate(enc.categories_)}使用时一样enc=OrdinalEncoder()(参见Vectorize 2D character array column-wise)
慕工程0101907
相关分类