我试图创建一个函数来更新存储在PyTable中的Pandas DataFrame,并使用来自Pandas DataFrame的新数据进行更新。我想检查特定的DatetimeIndexes(值是NaN或可用的新时间戳)在PyTable中是否缺少某些数据,将其替换为给定熊猫DataFrame中的新值,并将其附加到Pytable中。基本上,只需更新一个Pytable。我可以在Pandas中使用Combine_first方法获取组合的DataFrame。在Pytable下方使用伪数据创建:
import pandas as pd
import numpy as np
import datetime as dt
index = pd.DatetimeIndex(start = dt.datetime(2001,1,1,0,0), periods = 20000,freq='10T')
data_in_pytable = pd.DataFrame(index=index,data=np.random.randn(20000,2),columns=['value_1','value_2'])
data.to_hdf(r'C:\pytable.h5','test',mode='r+',append=True,complevel=9,complib='zlib')
这样就创建了pytable。假设我有另一个要更新Pytable的dataFrame:
new_index = pd.DatetimeIndex(start = dt.datetime(2001,5,1,0,0), periods = 10000,freq='10T')
data_to_update=pd.DataFrame(index=new_index,data=np.random.randn(10000,2),columns=['value_1','value_2'])
store=pd.HDFStore(r'C:\pytable.h5',mode='r+',complevel=9,complib='zlib')
store.append('test',store.select('test').combine_first(data_to_update))
store.close()
问题在于PyTable保留原始值,而不更新现有值。我现在有重复的条目(按索引),因为原始值没有被覆盖。
如何使用另一个DataFrame更新PyTable?
BIG阳
慕少森
相关分类