对于一个探索性学期项目,我试图使用生产过程中进行的各种测量来预测质量控制测量的结果值。对于该项目,我正在测试不同的算法(LinearRegression、RandomForestRegressor、GradientBoostingRegressor,...)。我通常得到相当低的 r2 值(大约 0.3),这可能是由于特征值的分散而不是我这里真正的问题。
最初,我有大约 100 个特征,我试图使用 RFE 和 LinearRegression() 作为估计器来减少这些特征。交叉验证表明,我应该将特征减少到仅 60 个。然而,当我这样做时,对于某些模型,R2 值会增加。这怎么可能?我的印象是,向模型添加变量总是会增加 R2,因此减少变量数量应该会导致 R2 值降低。
有人可以对此发表评论或提供解释吗?
提前致谢。
开满天机
相关分类