手记

Python Pandas 基础总结

Pandas 基于NumPy,为数据清理提供捷径

数据结构

序列Series,类似于numpy中的一维数组,不过Series带索引

数据框DataFrame,类似于Numpy中的二维数组

Series

创建series两种方式

series  = pd.Series([1,2,3,4],index=['a','b','c','d']) # index缺省时候,就是一维数组了print(series)

dic = {'zhangsan':18,'lisi':20}
series2 = pd.Series(dic)print(series2)

DataFrame

dic = {    'name': ['zhangsan', 'lisi', 'ww'],    'age': [20, 18, 21],    'gender': ['m', 'f', 'm']
}
data = pd.DataFrame(dic, columns=['name', 'age', 'gender'], index=['1', '2', '3'])
print(data)"""
       name  age gender
1  zhangsan   20      m
2      lisi   18      f
3        ww   21      m
"""

基本属性

函数返回值
values元素
index索引
columns列名
ndim维度数
shape数据形状,行列数目
dtypes类型
size元素个数

增删改查

dic = {    'name': ['zhangsan', 'lisi', 'ww'],    'age': [20, 18, 21],    'gender': ['m', 'f', 'm']
}
data = pd.DataFrame(dic, columns=['name', 'age', 'gender'], index=['1', '2', '3'])print(data[['name', 'age']]['1': '2'])#%%
       name  age
1  zhangsan   20
2      lisi   18#%%# DataFrame.loc[行索引名称或条件,列索引名称]# DataFrame.iloc[行索引位置,列索引位置]print(data.loc['1':'2','name':'gender'])print(data.iloc[:2,0:3])#%%
       name  age gender
1  zhangsan   20      m
2      lisi   18      f
       name  age gender
1  zhangsan   20      m
2      lisi   18      f#%%# loc,iloc 访问方式可以传入表达式,返回满足表达式的所有值print(data.loc[data['age']>18,['name','age']])#%%
       name  age
1  zhangsan   20
3        ww   21#%%
  • 更改DataFrame中的数据

data['age'] = 20
data.loc[:,'age']  = 20
data.iloc[:,1] = 20# 使用series赋值val  =  pd.Series([20,20,20], index = '1,2,3')
data['age'] = val
  • 添加数据

data['class'] = '1604'
  • 删除数据

data.drop('class', axis=1,inplace=True) # 删除class 列数据,并对源数据生效# axis = 0 ,删除列# inplace = false ,对原数据不生效

索引重建

series.reindex(['a','b','c'])
data.reindex(['0','1','2'])

读写数据

  • 读取数据库

  • 文本读取
    read_table(), read_csv()

  • Excel
    read_excel



作者:Rengao
链接:https://www.jianshu.com/p/49f3245de8f3


0人推荐
随时随地看视频
慕课网APP