继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

机器学习中的统计学基础

叶无道疯人院
关注TA
已关注
手记 97
粉丝 40
获赞 137

统计学:搜集数据、整理数据、分析数据,挖掘数据背后隐含的价值。

统计学核心三点:

  • 集中趋势

  • 离散程度

  • 分布形状

一、衡量一组数据集中趋势的指标包括(平均数、中位数、众数)

平均数:用于描述一组数据的整体平均水平,极值(极大值、极小值)会影响平均水平。计算公式 u=(x1+x2+x3+...+xn)/N。

中位数:一组数据从大到小(或者从小到大)排列后中间的那个数(偶数/奇数是不同的)。

众数:一组数据中出现最多的那个数。(数值/字符类型)。

使用R语言实现平均数、中位数、众数。

(1)平均数在R语言中的实现:

data<-c(5000,5500,8000,9000,12000,17000,18000)

mean(data)

(2)中位数在R语言中的实现:

median(data)

(3)众数在R语言中的实现:

 zhongshu<-function(x){return(as.numeric(names(table(x))[table(x) == max(table(x))]))}

zhongshu(data)

二、衡量一组数据离散程度的指标(极差、方差)

极差:一组数据的最大值-最小值。极差越小,观察值越集中。

方差(总体):((x1-x平均)^2+(x2-x平均)^2+...+(xn-x平均)^2))/N。方差越小,观察值越集中。

使用R语言实现极差、方差。

(1)极差

max(data)-min(data)

(2)方差

fangcha<-function(x){return (sum((x-mean(x))^2)/length(x))}

fangcha(data)

三、衡量一组数据分布形状的指标(偏态skewness、峰度kurtosis)

使用R语言实现偏态和峰度,需要提前引入moments包。

install.packages('moments')  安装moments包

偏态 skewness(data)

峰度 kurtosis(data) 


注:知道某一个概念的含义,以及如何去实现,不必钻牛角尖。例如:众数的函数实现、方差的函数实现,直接copy使用即可。



打开App,阅读手记
1人推荐
发表评论
随时随地看视频慕课网APP