我应该使用一种热编码的特征选择吗?

我有一个困境,我正在使用一种热编码,我需要进行特征选择(对于分类和数字特征),我有一些并不真正重要的特征,但我不想使用某种算法来做到这一点,而不是手动。我的问题有两个 -

  • 我可以使用什么特征选择技术来做到这一点?

  • 我是在一次热编码之后还是之前进行的?


慕勒3428872
浏览 114回答 1
1回答

ABOUTYOU

如果您有许多特征,并且其中许多可能与模型无关,则特征选择将使您能够丢弃它们并将数据集限制为最相关的特征。以下是在这些情况下需要考虑的几个关键方面:维数诅咒当您处理大型数据集时,这通常是至关重要的一步。例如,盲目地对所有分类特征进行单热编码可能会导致大量数据帧,甚至可能无法存储到内存中,更不用说用于机器学习模型了。在这种情况下,您可能需要减少要编码的功能数量或研究其他分类编码器,例如贝叶斯编码器(请参阅答案的最后一部分)。特征重要性不进行特征选择的一个负面影响,在这里非常雄辩地提出,可能是我们有许多高度相关的特征,并且在分析特征重要性时,您获得的这些特征的重要性可能并不表明它们的实际相关性。回答问题的第二部分,如果您拥有的功能可能是相关的并且您已经完成了一些功能工程,那么您可以对它们进行编码,如果您最终拥有许多功能,那么您可以执行功能选择并减少功能的维度生成的数据集。有许多特征选择技术。您可以在特征选择中找到 scikit-learn 中可用的列表。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python