我正在尝试使用如下所示的 Pandas 导入 csv 文件:
文件 1:
Date;Time;Value
2019-03-07;20:43;0.051
2019-03-07;20:44;0.048
...
2019-03-07;22:55;0.095
2019-03-07;22:56;0.098
文件2:
Date;Time;Value
2019-03-07;22:55;0.095
2019-03-07;22:56;0.098
...
2019-03-08;09:10;0.024
2019-03-08;09:11;0.022
目前我正在导入这样的数据:
data = pd.concat([pd.read_csv(open(file),sep=';') for file in files])
data.index = pd.to_datetime(data['Date'] + ' ' + data['Time'])
显然,现在我在导入的数据框中有两次测量数据的重叠部分,绘制如下:
由于我需要评估大量 csv 文件,因此我对处理这种情况的最有效方法很感兴趣。
我想到了这两个选项:
在循环内导入文件,并且对于每个文件,仅使用file[i] > file[i-1]
.
像我现在一样导入文件并在附加步骤中删除重复项。
这些选项中哪个更有效,是否有我现在没有想到的更有效的选择?
MMTTMM
相关分类