DataFrame有多种初始化方法,主要分为以下几种情况:
通过Object初始化
通过文件初始化
通过SQL查询结果初始化
通过NoSQL数据库查询结果初始化
下面分别介绍:
通过object初始化
这又分为以下几种方式
Dict of 1D ndarrays, lists, dicts, or Series
2-D numpy.ndarray
Structured or record ndarray
A Series
Another DataFrame
通过list
通过1D data series初始化的时候,如果有多列,那么需要等长
# columns参数是通过一个list参数来指定column labelsdf = pd.DataFrame([['a1', 1], ['a2', 4]], columns=['uid', 'score']) In [477]: df Out[477]: uid score 0 a1 1 1 a2 4
通过Dict of 1D ndarray
In [298]: df = pd.DataFrame({'col1': np.arange(3), 'col2': np.arange(5, 8)}) In [299]: df Out[299]: col1 col2 0 0 5 1 1 6 2 2 7
通过Dict of lists
In [294]: df = pd.DataFrame({'col1': [1, 2, 3, 4], 'col2': ['a', 'b', 'c', 'd']}) In [295]: df Out[295]: col1 col2 0 1 a 1 2 b 2 3 c 3 4 d
通过list of dicts
注意与上边的dict of lists区分,如果最外层是dict,那么key值默认是column label。
而在list of dicts中,每个dict都是一个record,或者说一行
# 可以不等长,缺失值自动设为NaNIn [49]: data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}] In [50]: pd.DataFrame(data2) Out[50]: a b c 0 1 2 NaN 1 5 10 20.0 In [51]: pd.DataFrame(data2, index=['first', 'second']) Out[51]: a b c first 1 2 NaN second 5 10 20.0 In [52]: pd.DataFrame(data2, columns=['a', 'b']) Out[52]: a b 0 1 2 1 5 10
通过Dict of Series
In [314]: s = pd.Series(range(5)) In [315]: s Out[315]: 0 0 1 1 2 2 3 3 4 4 dtype: int64 In [316]: p = pd.Series(range(8, 13)) In [317]: p Out[317]: 0 8 1 9 2 10 3 11 4 12 dtype: int64 In [318]: df = pd.DataFrame({'a': s, 'b': p}) In [319]: df Out[319]: a b 0 0 8 1 1 9 2 2 10 3 3 11 4 4 12
通过2-D numpy.ndarray
In [289]: df = pd.DataFrame(np.arange(16).reshape((4,4)), columns=['one', 'two', 'three', ...: 'four'], index=['a', 'b', 'c','d']) In [290]: df Out[290]: one two three four a 0 1 2 3 b 4 5 6 7 c 8 9 10 11 d 12 13 14 15
通过文件初始化
pandas通过各种数据文件也可以初始化,比如csv文件,excel文件,json文件,html文件等,详见下图
IO Tools
下面以read_csv
详细解释下读取csv文件以及初始化的过程read_csv
的完整文档参考read_csv api,下面通过示例对常用的parameter进行解释:
csv_path = "./test.csv"columns = ['id', 'name', 'age'] dtype = {'id': int, 'name': object, 'age': int} pd.read_csv(csv_path, header=None, names=columns, dtype=dtype)
filepath_or_buffer, 这个是最基本的参数,用以指明文件的路径(路径可以是字符串,也可以是各种path对象,详见文档)或者文件对象(也可以接收类文件对象, 即提供read method, 如StringIO对象)。另外,这个参数也可以是一个URL,而这个URL可以http, ftp, 或者s3的url.
对于没有权限限制的url,直接使用read_csv可以大大简化代码,但是通过我们的数据不会放置到公开的url地址上,因此这就涉及权限的问题,通常还是通过其它手段将文件下载到本地后再读取。
header, 这个参数用于设置第几行为column names, 默认是'infer',即Pandas会自动推断哪一行是column names。当文件中没有column names时,相当于设定header=0。很多时候想要忽略原始的column names而自己设定column names,那么可以将这个参数设置为None, 然后通过names参数来设定column names
names, 用于设定column names
dtype, 用于设定每一列对应的数据类型,需要注意的是对string类型需要设置为object
nrows, 要读取多少行,通过这个参数我们可以部分读取文件
usecols, 用于选定列,即指定哪些列load进DataFrame中,通过这个参数可以只读取我们需要的数据,从而减少内存占用,加快load速度。
通过SQL查询结果初始化
import pandas.io.sql as sql# conn是数据库的连接对象sql.read_frame('select * from test', conn)
NoSQL查询结果初始化
这里以MongoDB为例
# 从MongoDB中查询年龄大于20岁的用户,查询返回一个cursor对象user_results = user.find({"age": {"$gt": 20}})# 将cursor对象转化为list,然后初始化# columns可以用于选取相应的field的数据,只有在这个列表中的field才会被load进DataFrame对象当中,如果没有对应的数据,会被填入NaNdf = pd.DataFrame(list(user_results), columns=['id', 'age', 'name']
这里需要注意的是如果不指定columns参数,有可能导致某些为空的field没有对应的列,如果指定了列名称,则如果相对应的域没有数据的话,就会自动置为nan
作者:geekpy
链接:https://www.jianshu.com/p/b2dcb66595fe