统计学:搜集数据、整理数据、分析数据,挖掘数据背后隐含的价值。
统计学核心三点:
集中趋势
离散程度
分布形状
一、衡量一组数据集中趋势的指标包括(平均数、中位数、众数)
平均数:用于描述一组数据的整体平均水平,极值(极大值、极小值)会影响平均水平。计算公式 u=(x1+x2+x3+...+xn)/N。
中位数:一组数据从大到小(或者从小到大)排列后中间的那个数(偶数/奇数是不同的)。
众数:一组数据中出现最多的那个数。(数值/字符类型)。
使用R语言实现平均数、中位数、众数。
(1)平均数在R语言中的实现:
data<-c(5000,5500,8000,9000,12000,17000,18000)
mean(data)
(2)中位数在R语言中的实现:
median(data)
(3)众数在R语言中的实现:
zhongshu<-function(x){return(as.numeric(names(table(x))[table(x) == max(table(x))]))}
zhongshu(data)
二、衡量一组数据离散程度的指标(极差、方差)
极差:一组数据的最大值-最小值。极差越小,观察值越集中。
方差(总体):((x1-x平均)^2+(x2-x平均)^2+...+(xn-x平均)^2))/N。方差越小,观察值越集中。
使用R语言实现极差、方差。
(1)极差
max(data)-min(data)
(2)方差
fangcha<-function(x){return (sum((x-mean(x))^2)/length(x))}
fangcha(data)
三、衡量一组数据分布形状的指标(偏态skewness、峰度kurtosis)
使用R语言实现偏态和峰度,需要提前引入moments包。
install.packages('moments') 安装moments包
偏态 skewness(data)
峰度 kurtosis(data)
注:知道某一个概念的含义,以及如何去实现,不必钻牛角尖。例如:众数的函数实现、方差的函数实现,直接copy使用即可。