spark 怎么将离散变量处理为哑变量?

spark 怎么将离散变量处理为哑变量


扬帆大鱼
浏览 851回答 1
1回答

月关宝盒

在spss中打开数据,确定要设置哪个变量为哑变量以后,我们打开逻辑回归对话框,操作方法:analyse--regression--binary logistic将是否吸烟这个变量放到因变量中,将种族放到自变量中,如图所示选择变量进入方程的方法是enter,因为所有的哑变量必须是同时进入,否则就没有统计学意义了。接下来要设置哑变量了,点击categrio按钮,打开变量分类对话框将要设置哑变量的变量放入右侧窗口中到了最关键的部分,我们要选择哪个分类作为参考分类,设置参考分类必须使参考分类有意义,比如这个例子中,种族类别包括黑人、白人和其他种族,那么其他种族一般被设置为参考分类,那么你怎么知道参考分类是第一个还是最后一个呢,后面要设置last和first。下面一个步骤告诉你回到变量视图中,找到种族这个变量,在value中可以查看变量值,我们看到其他种族这个分类为3,上面那一步应该设置为last点击ok,开始输出统计结果输出了一大堆数据,我们不用管,因为这里要教大家如何分析哑变量,所以直奔主题,找到variables in the equation表,这个表中,你可以看到有race(1)和race(2)这两个变量,他们就是race的哑变量,B是系数,因为他们都是跟其他种族相比,图中的数据可以看到,白种人比其他种族的人更容以吸烟,黑种人比其他种族更容易吸烟,白种人和黑种人相比,黑种人可能比白种人更容易吸烟,但是需要进一步的检验。
打开App,查看更多内容
随时随地看视频慕课网APP