我正在用两组“真实”y 值(经验值)训练随机森林。我可以很容易地分辨出哪个更好。
但是,我想知道除了蛮力之外,是否有一种简单的方法可以从每个集合中获取可以产生最佳模型的值。换句话说,我想自动混合两个 y 集以产生一个新的理想集。
比如说,生物活性。不同的实验和不同的数据库提供不同的值。这是一个简单的示例,显示了第 3 列和第 4 列上两组不同的 y 值。
4a50,DQ7,47.6,45.4
3atu,ADP,47.7,30.7
5i9i,5HV,47.7,41.9
5jzn,GUI,47.7,34.2
4bjx,73B,48.0,44.0
4a6c,QG9,48.1,45.5
我知道第 3 列更好,因为我已经针对每个模型训练了不同的模型,还因为我检查了几篇文章以验证哪个值是正确的,3 比 4 正确。但是,我有数千行并且不能阅读数千篇论文。
所以我想知道是否有一种算法,例如,将使用 3 作为真实 y 值的基础,但是当模型通过这样做改进时会从 4 中选择值。
它会报告最后的 y 列并且能够使用超过 2 个,这将很有用,但我想我可以弄清楚。
现在的想法是找出是否已经有解决方案,这样我就不需要重新发明轮子了。
最好的事物,
米罗
注意:功能 (x) 位于不同的文件中。
慕仙森
LEATH
相关分类