我编写了这个函数来分块加载我的数据,它工作正常,它为我提供了我的数据的形状,但是当我尝试将它分配给一个变量以便我能够清理我的数据并对其进行处理时,它显示它是一种无类型
def show(df):
start = time()
c=0
for chuck in pd.read_csv('../input/{}.csv'.format(df), chunksize=50000):
if c==0:
df=chuck
c+=1
else:
df=df.append(chuck, ignore_index=True)
c+=1
print (c)
print('used {:.2f} s'.format(time()-start))
print(df.shape)
df.head()
我的数据最初有 307511 行和 212 列。还有其他数据集我仍然需要加载数百万行。我的 RAM 无法处理这么多数据,因此我请求对此提供帮助
我也尝试过这种加载数据的方式,但我无法获取所有数据,只能获取其中的一部分。我想在合并和拟合数据时使用我的所有数据
df = pd.read_csv('../input/application_train.csv', iterator=True, chunksize=10**6, engine='python')
这有效,但我没有从中获取所有数据
df = df.get_chunk(300000)
相关分类