定义缺失值。np.nan是Numpy缺失的一个表示
计数值,
len来计数
apply函数遍历每一列
df.iloc[指定的行数开头:指定的行数结尾,指定的列数] unique函数看这一个特征有多少个不同的值
找0值
df.iloc[:,0:3] ==0 会返回每一个值是否是0的一个数组True或者False np.sum对数组取和(True当作1,False当作0)算出有多少个True
1.统计指标示例-计数类
##1.Basic Analysis##
# (1)Missing Value 缺失值
missSet = [np.nan, 9999999999, -999999] # np.nan是numpy中缺失值的表示,后面两个数是分析得到的缺失值
# (2)Count distinct 统计值出现多少
len(df.iloc[:, 0].unique()) # df.iloc[:, 0]取第一列,unique()看这一列哪些不同的值,返回一个类似数组,然后len看有多少个
count_un = df.iloc[:, 0:3].apply(lambda x: len(x.unique())) # df.iloc[:, 0:3]取前三列,apply用于遍历,看看前三列每一列有多少个不同的值
# (3)Zero Value 看看每一列有多少个值为0
np.sum(df.iloc[:, 0] == 0) # 第一列==0,返回True或False的数组
count_zero = df.iloc[:, 0:3].apply(lambda x: np.sum(x == 0))
1.统计指标示例-计数类
##1.Basic Analysis##
# (1)Missing Value
missSet = [np.nan, 9999999999, -999999] # np.nan是numpy中缺失值的表示,后面两个数是分析得到的缺失值
# (2)Count distinct
len(df.iloc[:, 0].unique()) # df.iloc[:, 0]取第一列,unique()看这一列哪些不同的值,返回一个类似数组,然后len看有多少个
count_un = df.iloc[:, 0:3].apply(lambda x: len(x.unique())) # df.iloc[:, 0:3]取前三列,apply用于遍历,看看前三列每一列有多少个不同的值
# (3)Zero Value 看看每一列有多少个值为0
np.sum(df.iloc[:, 0] == 0)
count_zero = df.iloc[:, 0:3].apply(lambda x: np.sum(x == 0))
基本描述统计:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999) (#获取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())
(#对异常值的计数,[:,0]表示所有列的第一列开始,然后找到不同值,再计数)
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))
(#如果是多列采用这个形式:apply 函数遍历每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)
(#还是以第一列为例,找到等于0的,然后将true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))
(#还是对多列中等于0的加和)
基本描述统计:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999) (#获取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())
(#对异常值的计数,[:,0]表示所有列的第一列开始,然后找到不同值,再计数)
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))
(#如果是多列采用这个形式:apply 函数遍历每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)
(#还是以第一列为例,找到等于0的,然后将true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))
(#还是对多列中等于0的加和)
基本描述统计