初期的时候,可能会先从实例入手,而不是先把所有先备命令学一遍,但下面这几个命令还是经常用的,如果被很长的tutorial吓跑,可以先敲一遍这些命令。
import pandas as pdimport numpy as npimport matplotlib.pyplot as plt
用dict建立Dataframe
# DataFrame by dictdf2 = pd.DataFrame({'A' : 1., 'B' : pd.Timestamp('20130102'), 'C' : pd.Series(1, index=list(range(4)), dtype='float32'), 'D' : np.array([3]*4, dtype='int32'), 'E' : pd.Categorical(["test", "train", "test", "train"]), 'F' : 'foo'}) df2
生成随机数的矩阵 np.random.randn(6,4)
df = pd.DataFrame(np.random.randn(6,4), index = dates, columns = list('ABCD')) df
对某一列降序排列
df.sort_values(by=['B'], ascending=False)
按index范围取某几行
print df['2013-01-01':'2013-01-04']print datesprint df.loc[dates[1]]
取某几行几列
df.loc['20130101':'20130103' , ['A','B']]
选择符合某条件的行列
df[df.A>0]
对Null值进行 查找,删除,替换
df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E']) df1.loc[dates[0]:dates[1], 'E'] = 1df1
DataFrame减去序列
# 每一行减去同样的值print dfprint s df.sub(s, axis='index')
# 每一列减去同样的值print df df.sub([1,2,3,4], axis='columns')
Apply:对数据应用函数
# 每一列 最大值-最小值df.apply(lambda x: x.max()-x.min())