4-7总结数据信息
head(airquality)(airquality的前6行)
head(airquality,10)(airquality的前10行)
tail(airquality)(airquality的后6行)
summary(airquality的变量的描述统计)
str(airquality)(把airquality进行了总结)
table(airquality$Ozone,useNA="ifany")(如果有缺失值就总结出来)
table(airquality$Month,airquality$Day)(得到二维的表)
any(is.na(airquality$Ozone))(如果返回的是TRUE,就说明一定有缺失值)
sum(is.na(airquality$Ozone))(臭氧含量中有多少缺失值)
all(airquality$Month<12)(是不是所有的月份都小于12)
titanic<-as.data.frame(Titanic)
head(Titanic)
dim(Titanic)(维度)
summary(Titanic)
x<-xtabs(Freq~Class+Age,data=titanic)(Class+Age的交叉频率,)
ftable(x)(与上面类似 结果更扁平化)
object.size(airquality)(数据的大小)
print(object.size(airquality),units="kb")
head(x,n) #输出数据的前n行 tail(x) #输出数据的最后6行
summary(x) #对x的数据总体分析 str(x) #对x的数据进行总结
table(x) #表格输出 table(x,useNA="ifany") #表格输出x,统计缺失值
table(x,y) #生成关系x,y的二维表格
any(is.na(x)) #x中有缺失值返回TRUE,否则返回FALSE
x<-xtabs(Freq~Class + Age,data = titanic) #生成交叉表
print(object.size(airquality),units="kb") #将大小转换为Kb
了解数据大小
object.size()(单位是bytes)
print(object.size(),units="kb")
ftable
交叉表
xtabs(Freq~Class+Age,data=Titanic)
Freq(频率)~Class+Age(想要交叉),data=Titanic(数据)
在一等舱有6个孩子319个大人
all(x$Month<12)是不是month这一列所有的数据都小于十二
any(is.na())若为true则说明里面含有缺失值
sum(is.na())用于总结含有多少缺失值
table对两个变量进行总结,得出一个二维的表
table(x$Ozone,useNA="ifany")若臭氧中含有缺失值需要用useNA="ifany"表示对缺失值进行总结
str以简洁的方式对x的数据进行总结
head(x,10)看x的前十行,默认前六行
summary()用于对数据的整体把握
object.size(函数)可以查看函数大小,返回结果的单位是字节。
print(object.size(函数),units="Kb")可以将结果的单位变成Kb
交叉表函数xtabs(Freq~变量1+变量2,数据)可以查看满足变量1和2的结果数,ftable()使结果变得扁平化
any(is.na())返回逻辑元素,表示是否存在缺失值,sum(is.na())总结缺失值数量
all(条件)表示判断条件是否正确,返回逻辑元素
table(条件,useNA="ifany")表示可以显示缺失值,该函数还可以对两个变量进行总结,返回结果是一个二维的列表
str(数据框)以一种简洁的方式总结数据,包括变量数,记录数,变量名称及其类型,以及前面几个取值
head(数据框)表示看该数据框的前六行内容,head(数据框,10)表示看该数据框的前10行内容;tail表示看后六行内容
summary(数据框)返回每个变量的最小值,最大值,25%的分位点,75%的分位点,中位数,均值,以及是否存在缺失值(如果有,有几个),该函数使得我们对数据分布有一个整体把握
#还能进行统计
all(airquality$Month < 12)#返回的也是true或false
#更多例子
titanic <- as.data.frame(Titanic)#把Titanic函数强制转换成数字框形式,并传入"titanic".
#查询titanic中的信息
head(titanic)
tail(titanic)
dim(titanic)#查维度
summary(titanic)
xtabs(Freq ~ Class+Age,data=titanic)
x <- xtabs(Freq ~ Class+Age,data=titanic)#计算class和age两个条件的频率,数据来自titanic
ftable(x)
#查询数据大小
object.size(titanic)
print(object.size(titanic),units = "Kb")#把单位设置为kb。
> head(airquality)#默认查取前六行的数据
Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 67 5 1
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
4 18 313 11.5 62 5 4
5 NA NA 14.3 56 5 5
6 28 NA 14.9 66 5 6
> tail(airquality)#默认查询后六行的数据
Ozone Solar.R Wind Temp Month Day
148 14 20 16.6 63 9 25
149 30 193 6.9 70 9 26
150 NA 145 13.2 77 9 27
151 14 191 14.3 75 9 28
152 18 131 8.0 76 9 29
153 20 223 11.5 68 9 30
> head(airquality, 10)
Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 67 5 1
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
4 18 313 11.5 62 5 4
5 NA NA 14.3 56 5 5
6 28 NA 14.9 66 5 6
7 23 299 8.6 65 5 7
8 19 99 13.8 59 5 8
9 8 19 20.1 61 5 9
10 NA 194 8.6 69 5 10
> summarize(airquality)
Error in summarize(airquality) : could not find function "summarize"
> summary(airquality)
Ozone Solar.R Wind Temp
Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00
1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00
Median : 31.50 Median :205.0 Median : 9.700 Median :79.00
Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88
3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00
Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00
NA's :37 NA's :7
Month Day
Min. :5.000 Min. : 1.0
1st Qu.:6.000 1st Qu.: 8.0
Median :7.000 Median :16.0
Mean :6.993 Mean :15.8
3rd Qu.:8.000 3rd Qu.:23.0
Max. :9.000 Max. :31.0
> str(airquality)
'data.frame': 153 obs. of 6 variables:
$ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ...
$ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ...
$ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
$ Temp : int 67 72 74 62 56 66 65 59 61 69 ...
$ Month : int 5 5 5 5 5 5 5 5 5 5 ...
$ Day : int 1 2 3 4 5 6 7 8 9 10 ...
> stable(airquality$Month)
Error in stable(airquality$Month) : could not find function "stable"
> table(airquality$Month)
5 6 7 8 9
31 30 31 31 30
> table(airquality$Ozone)
1 4 6 7 8 9 10 11 12 13 14 16 18 19 20 21 22 23 24
1 1 1 3 1 3 1 3 2 4 4 4 4 1 4 4 1 6 2
27 28 29 30 31 32 34 35 36 37 39 40 41 44 45 46 47 48 49
1 3 1 2 1 3 1 2 2 2 2 1 1 3 2 1 1 1 1
50 52 59 61 63 64 65 66 71 73 76 77 78 79 80 82 84 85 89
1 1 2 1 1 2 1 1 1 2 1 1 2 1 1 1 1 2 1
91 96 97 108 110 115 118 122 135 168
1 1 2 1 1 1 1 1 1 1
> table(airquality$Ozone, useNA = "ifany")
1 4 6 7 8 9 10 11 12 13 14 16 18 19 20
1 1 1 3 1 3 1 3 2 4 4 4 4 1 4
21 22 23 24 27 28 29 30 31 32 34 35 36 37 39
4 1 6 2 1 3 1 2 1 3 1 2 2 2 2
40 41 44 45 46 47 48 49 50 52 59 61 63 64 65
1 1 3 2 1 1 1 1 1 1 2 1 1 2 1
66 71 73 76 77 78 79 80 82 84 85 89 91 96 97
1 1 2 1 1 2 1 1 1 1 2 1 1 1 2
108 110 115 118 122 135 168 <NA>
1 1 1 1 1 1 1 37
> table(airquality$Ozone, useNA = "ifany")#可显示出NA值
1 4 6 7 8 9 10 11 12 13 14 16 18 19 20
1 1 1 3 1 3 1 3 2 4 4 4 4 1 4
21 22 23 24 27 28 29 30 31 32 34 35 36 37 39
4 1 6 2 1 3 1 2 1 3 1 2 2 2 2
40 41 44 45 46 47 48 49 50 52 59 61 63 64 65
1 1 3 2 1 1 1 1 1 1 2 1 1 2 1
66 71 73 76 77 78 79 80 82 84 85 89 91 96 97
1 1 2 1 1 2 1 1 1 1 2 1 1 1 2
108 110 115 118 122 135 168 <NA>
1 1 1 1 1 1 1 37
> table(airquality$Month,airquality$Day)#会查询得到一个二维的结果显示某月某天的数据
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
6 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
7 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
28 29 30 31
5 1 1 1 1
6 1 1 1 0
7 1 1 1 1
8 1 1 1 1
9 1 1 1 0
>
> any(is.na(airquality$Ozone)#查询臭氧记录中是否有缺失值,返回的是“TRUE、FALSE”
+ sum(is.na(airquality$Ozone)#查询臭氧记录中缺失值的个数是多少
Error: unexpected symbol in:
"any(is.na(airquality$Ozone)#查询臭氧记录中是否有缺失值,返回的是“TRUE、FALSE”
sum"
>
> #还能进行统计
> all(airquality$Month < 12)
[1] TRUE
> any(is.na(airquality$Ozone))#查询臭氧记录中是否有缺失值,返回的是“TRUE、FALSE”
[1] TRUE
> sum(is.na(airquality$Ozone))
[1] 37
#summarize data
head(airquality)#默认查取前六行的数据
tail(airquality)#默认查询后六行的数据
head(airquality, 10)#可以通过后面设置参数查看前十行的数据,tail也是一样
summary(airquality)#会对airquality的所有基本信息进行总结汇总:中位数、max、min、mean、第25%分位点、第75%分位点、缺失值信息等。
str(airquality)#以一种简洁的方式对airquality进行了总结。
table(airquality$Month)#对airquality中的月份信息进行统计
table(airquality$Ozone)#不显示缺失值
table(airquality$Ozone, useNA = "ifany")#可显示出NA值
table(airquality$Month,airquality$Day)#会查询得到一个二维的结果显示某月某天的数据
any(is.na(airquality$Ozone))#查询臭氧记录中是否有缺失值,返回的是“TRUE、FALSE”
sum(is.na(airquality$Ozone))#查询臭氧记录中缺失值的个数是多少
#还能进行统计
all(airquality$Month < 12)#返回的也是true或false
summary(数据名称):包括最大值最小值、25%、50%、75%分位数,缺失值个数,相关统计数据等等;
str(数据名称):以简洁的方式总结数据;
table( ,useNA = "ifany"), 其还可以对两个变量进行总结;
any(is.na());
sum(is.na());
all(airquality$Month<12);
交叉表xtabs(Freq~Class+Age,data=titanic):计算两个数据交叉起来的频率;
ftable():使排版变得更加扁平化;
了解数据有多大:
object.size(数据);
print(object.size(数据),units="Kb")将单位转化为Kb;
//了解数据有多大
object.size(数据)
print(object.size(数据),units="Kb")
交叉表
xtabs(Freq~Class+Age,data=titanic)//计算哪两个数据交叉起来的频率
ftable()//使排版变得更加扁平化
smmary(数据名称)//包括最大值最小值、25%、50%、75%位点,空值个数
str()//总结数据,变量个数、记录数、变量名称
table(airquality$Ozone,useNA="ifany")//将缺失值总结出来
is.na()//求缺失值
#总结数据信息
head(airquality) tail(airquality)head(airquality,10)#看前面十行summary(airquality)#返回了airquality中各个变量的最小值,最大值。。。str(airquality)table(airquality$Month)#使用table函数查看元素的内容,但会忽略缺失值table(airquality$Ozone,useNA = "ifany")#使用table函数查看元素的内容,加入了忽略略的缺失值table(airquality$Month,airquality$Day)any(is.na(airquality$Ozone))#使用函数查看是否具有缺失值sum(is.na(airquality$Ozone))#使用函数查看具有多少缺失值all(airquality$Month<12)#查看月份是否都小于12titanic<-as.data.frame(Titanic)head(titanic)tail(titanic)dim(titanic)summary(titanic)xtabs(Freq~Class+Age,data = titanic)#查看Class与Age交叉部分的数据x<-xtabs(Freq~Class+Age,data = titanic)#查看Class与Age交叉部分的数据ftable(x)#得到和上一条命令相同的内容,但是数据的排版变得更加扁平化了object.size(airquality)#查看数据的大小print(object.size(airquality),units = "Kb")#使用Kb为单位查看数据的大小
summarize data
head(airquality,10) #默认值是6
tail(airquality)
summary(airquality) #返回每一个值中最大最小,25%分为点 ,75%分为点,中位数,均值,缺失值存在个数个数
summary函数让我们对数据的分布有一个整体的把握
table(airquality$Ozone,useNA="ifany") #如果有缺失值,要总结出信息
table(airquality$Month, airquality$Day) #table可以对两个变量进行总结, 得到一个二维表,月份是行,日期是列,内容是出现记录的次数
any(is.na(airquality $ Ozone )) # 如果返回值是TRUE,说明一定有缺失值
sum(is.na(airquality $ Ozone)) # 缺失值的总数
all(airquality$Month<12) #判断是否所有月份都小于12
#泰坦尼克表
titanic<-as.data.frame(Titanic)
head(titanic)
dim(titanic)
summary(titanic)
交叉:
x<- xtabs(Freq ~ Class + Age, data=titanic)
ftable(x) #排版更加扁平化
object.size(airquality)
print(object.size(airquality), units="Kb")
> object.size(airquality) 5632 bytes > print(object.size(airquality),units = "Kb") 5.5 Kb
总结数据信息:#默认前六行或者后六行 head(airquality, 10)#查看前10行 tail(airquality, 10)#查看后10行 summary(airquality)#总结,数据分布整体把握 str(airquality)#以简洁方式对数据总结 table(airquality$Month)#对列进行频数统计 table(airquality$Ozone, useNA = "ifany")#将Ozone中NA的数值统计出来 any(is.na(airquality$Ozone))#判断是否有缺失值,true是有缺失值 sum(is.na(airquality$Ozone))#统计缺失值数量 all(airquality$Month < 12)#查看是不是所有的月份都小于12 #将Titanic强制转换为数据框 t <- as.data.frame(Titanic) x <- xtabs(Freq ~ Class + Age, data = t)#按照Class和Age生成交叉表 ftable(x)#扁平化显示 object.size(airquality)#查看对象大小 print(object.size(airquality),units="Kb")#按照kb显示大小