sklearn 中的自定义转换器

我正在 sklearn 中构建一个转换器,它会删除相关系数低于指定阈值的特征。


它适用于训练集。但是,当我转换测试集时。测试集上的所有特征都消失了。我假设 Transformer 正在计算测试数据和训练标签之间的相关性,并且由于这些都是低的,因此它正在删除所有功能。我如何让它只计算训练集上的相关性并从转换的测试集中删除这些特征?


class CorrelatedFeatures(BaseEstimator, TransformerMixin): #Selects only features that have a correlation coefficient higher than threshold with the response label

    def __init__(self, response, threshold=0.1):

        self.threshold = threshold

        self.response = response

    def fit(self, X, y=None):

        return self

    def transform(self, X, y=None):

        df = pd.concat([X, self.response], axis=1)

        cols = df.columns[abs(df.corr()[df.columns[-1]]) > self.threshold].drop(self.response.columns)

        return X[cols]


DIEA
浏览 178回答 1
1回答

动漫人物

您计算并存储该相关性和要删除的列fit(),然后transform()只需转换这些列。像这样的东西:........def fit(self, X, y=None):    df = pd.concat([X, self.response], axis=1)    self.cols = df.columns[abs(df.corr()[df.columns[-1]]) > self.threshold].drop(self.response.columns)    return selfdef transform(self, X, y=None):    return X[self.cols]
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python