我正在尝试构建一个机器学习模型,尽管答案相当简单,但结果确实很糟糕。我知道我做错了什么,但不确定在哪里。
以下是我正在做的事情:
我有一个公司财务数据集。
为了方便起见,我试图预测毛利润(总收入 - 收入成本)
为了使它更容易,我实际上正在自己将该值计算到熊猫列中df['grossProfit'] = df['totalRevenue'] - df['costOfRevenue']
为了使它有点挑战性,我有一个名为exchange的列,它是数字格式的类别(1,2,3等)。
我的目标是简单地预测总利润,我认为这很容易,因为100%的数据计算它在我的数据集中,但当我运行模型时,我得到高达6%的准确率。我预计它会接近100%,因为模型应该计算出总收入+收入成本=总利润。
这是我的数据:
grossProfit totalRevenue Exchange costOfRevenue
0 9.839200e+10 2.601740e+11 NASDAQ 1.617820e+11
1 9.839200e+10 2.601740e+11 NASDAQ 1.617820e+11
2 1.018390e+11 2.655950e+11 NASDAQ 1.637560e+11
3 1.018390e+11 2.655950e+11 NASDAQ 1.637560e+11
4 8.818600e+10 2.292340e+11 NASDAQ 1.410480e+11
... ... ... ... ...
186 4.224500e+10 9.113400e+10 NYSE 4.888900e+10
187 4.078900e+10 9.629300e+10 NYSE 5.550400e+10
188 3.748200e+10 8.913100e+10 NYSE 5.164900e+10
189 3.397500e+10 8.118600e+10 NYSE 4.721100e+10
190 3.597700e+10 8.586600e+10 NYSE 4.988900e+10
191 rows × 4 columns
慕少森
相关分类