2-2数值变量的特征和可视化
集中趋势
分散趋势
x<-c(1,9,2,8,3,9,4,5,7,6)
mean(x)
median(x)
var(x)
sd(x)
summary(x)
稳健统计量(robust statistics):中位数、四分位差(受极端值影响小)
一个变量的可视化:
柱状图(histogram)、点图(dot plot)(分布)、箱图(box plot)(中位数、分位点、极端值)
两个变量的关系:
散点图(scatter plot):方向、形状、强度、极端值
两个边线的含义不是值域。是Q1-1.5IQR
Q3+1.5IQR。
竖线外是极端值。⭕️异常值
正负(方向)
形状(两变量之间是线性关系还是非线性)
看散点图的时候要注意看是否有极端值的存在
箱图(中位数,分位点,极端值)
左偏分布,正态分布(单峰),右偏分布
点图的一个点表示出现一次,当对一个变量特别感兴趣时用点图
对于非稳健统计量一定要看一下其是否含有极端值
median()中间值
var()方差
sd()标准差
summary()最大值 25%分位点对应的数值 中间值 平均值 75%分位点对应的数值 最大值
数据分散趋势的测量
数据的集中趋势测量
两个数值变量的关系:散点图(注意方向、形状、强度、极端值)
方向说明两个变量是否为正(负)相关,形状说明是否为线性关系,点散说明两个变量的相关系数低(即强度小)
数据 1)集中趋势的测量:均值,中位数,众数;2)分散趋势的测量:值域,方差,标准差,四分位距
稳健统计量受极端值影响小(如中位数和四分位差,而均值、标准差、值域则不是)
一个(数值)变量的可视化:柱状图(横坐标代表观测值,纵坐标代表频率)、点图、箱图(中位数、分位点、极端值)
四分位距(IQR):75%分位点数据与25%分位点数据差的绝对值
Q1表示25%分位点,Q3表示75%分位点,箱图中的最左(右)侧线可以帮助我们界定是否为极端值,一般来说箱图是竖着放的
虚线以内的不是极端值
整个图记一下
箱图——极端值判断
稳健统计量
数值变量特征——分散趋势
值域
方差
标准差
四分位距
数值变量特征——集中趋势
均值——mean
中位数——median
众数——mode
x <- c(1.2,3,4,5,6) mean(x) #均值 median(x) #中位数 var(x) #方差 sd(x) #标准差 summary(x) #
稳健统计量 robust statistics
数值变量可视化:
一个变量:柱状图、点图(dot plot)、箱图
两个变量:散点图(scatter plot)