我有两个数据框,每个数据框都具有相同的变量和行长度,但是分类变量(对象列)有时在一个与另一个中具有不同的实现。
这就是我的意思。
Frame 1 | categorical_1 | categorical_2 ||| Frame 2 | categorical_1 | categorical_2
row 1 | blue | flakes ||| row 1 | blue | flakes
row 2 | red | cheerios ||| row 2 | red | flakes
row 3 | blue | cheerios ||| row 3 | green | flakes
正如您在上面的基本插图中所见,绿色仅出现在第二个数据框中,而cheerios 仅出现在我的第一个数据框中。
基本上,我需要一种方法来考虑两个数据帧(或更多)的“变量范围”来创建虚拟变量列,所以我不能只调用pd.get_dummies它们中的任何一个。
素胚勾勒不出你
相关分类