如何在python的决策树中使用分类数据

我有一个数据集,我从中提取了 12 个特征,用于使用决策树的共指解析任务。这些功能的一些示例是:

  • distance_feature(): i 和 j 之间根据句子数的距离。输出:0 或 1

    • Ispronoun_feature():如果名词短语是代词,则此功能设置为 true。

    • appositive_feature():此功能检查是否j与 并列i

创建所有这些特征以从数据集中提取结果后,我不知道如何选择根节点或如何使用 sci-kit 学习决策树算法,因为数据不是结构化的并且是分类的。我读过的一篇论文提到了熵和信息增益,但这两个属性的所有示例都基于结构化数据集。


慕姐4208626
浏览 160回答 2
2回答

吃鸡游戏

如果您有不同类别的不同功能,并且不想花时间自己编码,我建议使用CatBoost框架,它也比树的标准 scikit 实现更快。检查这个kaggle的实现!

皈依舞

使用 one-hot 编码。df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])如果最终有太多列,您可以预处理您的列以删除不常见的值 - 例如小于 1% 以避免有太多列。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python