我有一个缺少值的数据框,其中可能的选项是 True 或 False,因为在 NaN 情况下,pandas 将该列作为浮点数,并且在输入该列并获取值之后:0、0.5 和 1
如何添加约束以仅获得 0 和 1?目前我正在使用 missingpy 库
from missingpy import MissForest
浏览 269回答 2
你介意用一些你使用的数据的例子和给你问题的代码来更新你的问题 - 它会让你得到更好的答案!从您的说法看来,适合的模型正在考虑您的目标变量是连续的而不是分类的(布尔值本质上是分类的 0 或 1)。MissForest 上的 API 文档说:第一步涉及用初始猜测填充剩余的非候选列的任何缺失值,这是表示数值变量的列的列平均值和表示分类变量的列的列模式。请注意,分类变量需要在 imputer 的 fit() 方法调用期间明确标识(有关更多信息,请参阅 API)。这意味着您应该cat_vars在拟合阶段指定:fit(self, X, y=None, cat_vars=None):在 X 上拟合 imputer。Parameters----------X : {array-like}, shape (n_samples, n_features) Input data, where ``n_samples`` is the number of samples and ``n_features`` is the number of features.cat_vars : int or array of ints, optional (default = None) An int or an array containing column indices of categorical variable(s)/feature(s) present in the dataset X. ``None`` if there are no categorical variables in the dataset.Returns-------self : object Returns self.参考这里。这意味着将使用类别而不是连续值进行估算。