猿问

Scikit-Learn 随机森林回归:混合两组真值 (y)

我正在用两组“真实”y 值(经验值)训练随机森林。我可以很容易地分辨出哪个更好。

但是,我想知道除了蛮力之外,是否有一种简单的方法可以从每个集合中获取可以产生最佳模型的值。换句话说,我想自动混合两个 y 集以产生一个新的理想集。

比如说,生物活性。不同的实验和不同的数据库提供不同的值。这是一个简单的示例,显示了第 3 列和第 4 列上两组不同的 y 值。

4a50,DQ7,47.6,45.4

3atu,ADP,47.7,30.7

5i9i,5HV,47.7,41.9

5jzn,GUI,47.7,34.2

4bjx,73B,48.0,44.0

4a6c,QG9,48.1,45.5

我知道第 3 列更好,因为我已经针对每个模型训练了不同的模型,还因为我检查了几篇文章以验证哪个值是正确的,3 比 4 正确。但是,我有数千行并且不能阅读数千篇论文。

所以我想知道是否有一种算法,例如,将使用 3 作为真实 y 值的基础,但是当模型通过这样做改进时会从 4 中选择值。

它会报告最后的 y 列并且能够使用超过 2 个,这将很有用,但我想我可以弄清楚。

现在的想法是找出是否已经有解决方案,这样我就不需要重新发明轮子了。

最好的事物,

米罗

注意:功能 (x) 位于不同的文件中。


红颜莎娜
浏览 223回答 2
2回答

慕仙森

问题是单独的算法不知道哪个标签更好。你可以做什么:在你知道正确的数据上训练一个分类器。使用分类器为每个数据点预测一个值。将此值与您已有的两个标签列表进行比较,然后选择更接近的标签。这个解决方案显然并不完美,因为结果取决于预测值的分类器的质量,并且您仍然需要足够的标记数据来训练分类器。此外,与您的两个标签列表相比,分类器本身也有可能预测出更好的值。

LEATH

选择第 3 列和第 4 列作为随机森林分类器模型拟合中的目标/预测/y 值 - 并用您的结果对其进行预测。因此,您的算法可以跟踪 Y 值及其与预测值的相关性。您的问题似乎是多输出分类问题,其中有您建议的多个目标/预测变量(多个 y - 值)。随机森林使用随机森林支持这种多输出分类。随机森林 fit(X,y) 方法支持 y 为类数组y : array-like, shape = [n_samples, n_outputs]
随时随地看视频慕课网APP

相关分类

Python
我要回答