在 Python 中使用 XGboost_Regressor 会产生非常好的训练性能但预测效果不佳

这里的问题是过度拟合。您需要调整一些参数（Source）。如果数据大小较高（十万级），则将 n_estimators 设置为 80-200，如果数据大小为中低，则将 n_estimators 设置为 800-1200learning_rate：介于 0.1 和 0.01 之间子样本：介于 0.8 和 1 之间colsample_bytree：每棵树使用的列数。如果您有很多特征向量或列，则值为 0.3 到 0.8，如果您只有很少的特征向量或列，则值为 0.8 到 1。伽玛：0、1 或 5由于 max_depth 您已经取得很低，因此您可以尝试调整上述参数。此外，如果您的数据集非常小，那么训练和测试的差异是可以预料的。您需要检查在训练和测试数据中是否存在良好的数据分割。例如，在测试数据中，输出列的 Yes 和 No 的百分比是否几乎相等。您需要尝试各种选项。当然 xgboost 和随机森林会为较少的数据提供过拟合模型。你可以试试：-1.朴素贝叶斯。它适用于较少的数据集，但它认为所有特征向量的权重相同。逻辑回归 - 尝试调整正则化参数并查看您的召回分数最高的位置。这其中的其他事情是 calsss 重量 = 平衡。具有交叉验证的逻辑回归 - 这也适用于小数据。我之前说过的最后一件事，检查你的数据，看看它不偏向于一种结果。就像如果在 70 个案例中的 50 个案例中的结果是肯定的，它是高度有偏见的，您可能无法获得高准确度。

在 Python 中使用 XGboost_Regressor 会产生非常好的训练性能但预测效果不佳

2回答