继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

R语言数据挖掘实践——Rattle模型评估案例实战

慕尼黑5497867
关注TA
已关注
手记 378
粉丝 23
获赞 77

R语言数据挖掘实践——Rattle模型评估案例实战

现在通过一个综合实例,完整地讲述模型的评估与选择。

数据介绍

这个案例选择的数据来源于Rattle程序包中关于审计的"audit.csv"数据集,在data选项中,单击“Execute”,这时会弹出是否加载默认数据集的提示,点击“是”,然后在“Filename”中选择“audit.csv”文件,再单击“Execute”,这时就将审计的数据集加载进来了。

R语言数据挖掘实践——Rattle模型评估案例实战

读入数据后,切换至Explore选项,对数据集进行描述性分析,选择“Summary”类型,单击“Execute”。

R语言数据挖掘实践——Rattle模型评估案例实战

执行结果列出了数据集中所包含的变量,以及变量的最小值、最大值、中位数、众数、均值、四分位数,对于定性变来那个,描述分析图中列出了每个类别的数量。

模型建立

对数据进行了简单分析之后,我们切换至Model选项,选择Forest建立随机森林模型,选择参数,建立500棵决策树,每一节点上利用的大专变量个数为3个,单击“Execute”。

R语言数据挖掘实践——Rattle模型评估案例实战

从执行结果我们可以看到,随机森林模型中含有1400个训练集样本,并利用随机森林模型原理对缺失值进行插值。模型利用数据集中的TARGET-Adjusted为响应变量。

模型结果分析

对随机森林模型的结果分析,主要有随机森林的重要值分析、模型之间的混淆矩阵对比分析和模型之间的风险图分析。

1、随机森林重要值分析

随机森林方法的一个重要特征是能够计算每个变量的重要值,Rattle提供两种基本的重要值,一种是采用精度平均减少值作为度量标准,另一种是采用节点不纯度的平均减少值作为度量标准。模型变量重要值的结果分析如下图:

R语言数据挖掘实践——Rattle模型评估案例实战

按照第一种标准(MeanDecreaseAccuracy)分析,自变量Marital对于模型的预测能力是最重要的,自变量Income在第一种标准下仅仅属于中等重要程度。然而在第二种判断标准(MeanDecreaseGini)下,自变量Income对于模型的预测能力时非常重要的,而自变量Marital的重要性仅排在第二位。

2、不同模型之间的混淆矩阵对比情况

模型之间的混淆矩阵对比如下图所示:

R语言数据挖掘实践——Rattle模型评估案例实战

从上图中可以知道:

决策树模型的预测误差为(6+9)/(71+6+9+14)=15%,即将6%的真实结果为0的样本错误地预测为1的类别,将9%的真实结果为1的样本错误地预测为0的类别;

随机森林模型的预测误差为17%,即将7%的真实结果为0的样本错误地预测为1的类别,将10%的真实结果为1的样本错误地预测为0的类别;

支持向量机模型的预测误差为17%,即将5%的真实结果为0的样本错误地预测为1的类别,将12%的真实结果为1的样本错误地预测为0的类别;

自适应选择模型的预测误差为18%,即将8%的真实结果为0的样本错误地预测为1的类别,将10%的真实结果为1的样本错误地预测为0的类别。

单纯从预测模型的混淆矩阵进行分析可以发现,自适应选择模型的预测能力最差,误差高达18%,支持向量机模型以及随机森林模型其次,预测误差为17%,而预测能力较强的模型为决策树模型,预测误差为15%。

3、不同模型之间的风险图分析

不同模型之间的风险图分析如下:

R语言数据挖掘实践——Rattle模型评估案例实战

从上图可以得知,图形下方面积最大的是根据自适应选择模型绘制的风险图,该图像中有90%的面积位于Target-Adjusted线的下方,而决策树模型的Target-Adjusted线下方的面积仅为85%,随机森林和支持向量机的线下方面积为88%。

综合分析来看,决策树模型在在混淆矩阵中展现的预测误差率是最低的,预测能力最强,而在风险图分析中,决策树模型的线下方面积所占比最小;与此相反,自适应模型呈现出另一个极端:混淆矩阵中预测能力最差,风险分析中线下面积所占比最大;支持向量机模型与随机森林模型表现中庸。我们暂且先选择随机森林模型来完成下一步的分析操作。

4、模型ROC图及相关图表

模型的ROC图及相关图表如下:

R语言数据挖掘实践——Rattle模型评估案例实战

ROC图绘制的是正确肯定判断率与错误肯定判断率之间的关系图。模型正确肯定判断率与错误肯定判断率呈现正比例关系变化,且在错误肯定判断率较低时正确肯定判断率的变化幅度较大;

精确度与敏感度图中,精确度与敏感度呈现反比例变动趋势,说明在获得模型精确度的同时将不得不牺牲模型的敏感度;

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP