我们使用 Pandas 将 CSV 读入数据帧:
someDataframe = pandas.read_csv(
filepath_or_buffer=our_filepath_here,
error_bad_lines=False,
warn_bad_lines=True
)
由于我们允许跳过坏行,因此我们希望能够跟踪已跳过的行数并将其放入一个值中,以便我们可以对其进行度量。
为此,我正在考虑比较数据框中的行数与原始文件中的行数。
我认为这就是我想要的:
someDataframe = pandas.read_csv(
filepath_or_buffer=our_filepath_here,
error_bad_lines=False,
warn_bad_lines=True
)
initialRowCount = sum(1 for line in open('our_filepath_here'))
difference = initialRowCount - len(someDataframe.index))
但是运行这个的硬件是非常有限的,当我们已经通过 .read_csv 完成整个事情时,我宁愿不打开文件并迭代整个事情只是为了获得行数。有谁知道有更好的方法来获取 CSV 的成功处理计数和初始行数吗?
狐的传说
相关分类