我正在编写一些代码,需要将一个非常大的 numpy 数组保存到内存中。numpy 数组实际上太大了,以至于我无法一次将其全部加载到内存中。但我可以分块计算数组。即我的代码看起来像:
for i in np.arange(numberOfChunks):
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation
由于我不能myArray一次全部加载到内存中,我想一次将它保存到一个“块”的文件中。即我想做这样的事情:
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)
我知道这可以做到,h5py但我有点困惑如何做到这一点。我目前的理解是我可以这样做:
import h5py
# Make the file
h5py_file = h5py.File(filename, "a")
# Tell it we are going to store a dataset
myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")
for i in np.arange(numberOfChunks):
myArrayChunk = #... do some calculation to obtain chunk
myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk
但这就是我变得有点困惑的地方。我已经读过,如果你h5py像我写的那样索引一个数据类型myArray[(i*chunkSize):(i*(chunkSize+1)),:,:],那么这部分myArray现在已经被读入内存。所以可以肯定的是,在我上面的循环结束时,我现在还没有全部myArray记住吗?这如何拯救了我的记忆?
同样,稍后,我想一次将一个块读入我的文件,做进一步的计算。即我想做类似的事情:
import h5py
# Read in the file
h5py_file = h5py.File(filename, "a")
# Read in myArray
myArray = h5py_file['myArray']
for i in np.arange(numberOfChunks):
# Read in chunk
myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]
# ... Do some calculation on myArrayChunk
但是到这个循环结束时,整个myArray现在都在记忆中了吗?我对何时myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]在内存中以及何时不在内存中感到有些困惑。请有人解释一下。
GCT1015
相关分类