手记

Python保存工作空间的数据(pickle your data)

[toc]

通用方法

pickle

  • python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。python数据持久存储:pickle模块的基本使用

基本接口: 
pickle.dump(obj, file, [,protocol])
注解:将对象obj保存到文件file中去。
  protocol为序列化使用的协议版本,0:ASCII协议,所序列化的对象使用可打印的ASCII码表示;1:老式的二进制协议;2:2.3版本引入的新二进制协议,较以前的更高效。其中协议0和1兼容老版本的python。protocol默认值为0。
  file:对象保存到的类文件对象。file必须有write()接口, file可以是一个以'w'方式打开的文件或者一个StringIO对象或者其他任何实现write()接口的对象。如果protocol>=1,文件对象需要是二进制模式打开的。
  pickle.load(file)
  注解:从file中读取一个字符串,并将它重构为原来的python对象。
  file:类文件对象,有read()和readline()接口。

#使用pickle模块将数据对象保存到文件import pickle

data1 = {'a': [1, 2.0, 3, 4+6j],         'b': ('string', u'Unicode string'),         'c': None}

selfref_list = [1, 2, 3]
selfref_list.append(selfref_list)

output = open('data.pkl', 'wb')# Pickle dictionary using protocol 0.pickle.dump(data1, output)# Pickle the list using the highest protocol available.pickle.dump(selfref_list, output, -1)

output.close()
#使用pickle模块从文件中重构python对象import pprint, pickle

pkl_file = open('data.pkl', 'rb')

data1 = pickle.load(pkl_file)
pprint.pprint(data1)

data2 = pickle.load(pkl_file)
pprint.pprint(data2)

pkl_file.close()

joblib.pickle

  • example:

from sklearn.cluster import KMeans

km = KMeans(n_clusters=num_clusters)
km.fit(some_data)from sklearn.externals import joblib# dump to picklejoblib.dump(km, 'model.pkl')# and reload from picklekm = joblib.load('model.pkl')

pandas.HDFStore

  • 不能存整个session的数据,example:

backup = pd.HDFStore('backup.h5')
backup['var1'] = var1
backup.close()
backup = pd.HDFStore('backup.h5')
var1 = backup['var1']

jupyter notebook

ipycache

  • 只能cache一个cell而不是整个notebook

caching magic

  • save the results of individual cells

%%cache longcalc.pkl var1 var2 var3
var1 = longcalculation()
....

When rerunning the notebook, the contents of this cell is loaded from the cache.



作者:星星有情绪
链接:https://www.jianshu.com/p/dcc2065091cc

0人推荐
随时随地看视频
慕课网APP