我有一个包含大约 20000 行和 98 个特征(所有特征都是数字)的数据框和一个具有二进制值的目标特征:0 和 1。基本上,有两个群体(目标值为 1 --50%-- 的第一个群体,第二个目标值为 0 -50%-平衡数据)。在一个分类问题中,我试图预测给定数据的目标值。所以,我已经植入了一个监督学习算法(例如,SVM)来预测目标值,并且可以以大约 0.95 的准确度获得非常好的结果。这个结果给了我一个观点,即特征之间存在相当大的差异。因此,在下一步中,我必须知道造成这种差异的重要特征是什么,以及量化这两组人口之间特征差异的最佳方法是什么。任何的想法?
富国沪深
繁花如伊
慕仙森
相关分类