Tabula 不识别表格

我有一个简单的 python 程序,它接收 pdf(带有表格)并使用 tabula 将数据保存到 csv 文件中:


import tabula


if __name__ == '__main__':

path = input('Filename: ')


pathSegments = path.split('/')


folder = ''


i = 0

while i < len(pathSegments)-1:

    folder += '/' + pathSegments[i]

    i += 1


name = pathSegments[len(pathSegments)-1].split('.')[0]

dest = folder + '/' + name + '.csv'

print(dest)


tabula.convert_into(path, dest, pages = "all", output_format = "csv")

我尝试了多种不同的 pdf,例如一张带有下图的 pdf:

http://img3.mukewang.com/643e55eb00019da205750368.jpg

然而,结果始终是一个空的 csv 文件,tabula 似乎无法识别表格



HUX布斯
浏览 148回答 1
1回答

当年话下

Tabula 在收拾桌子方面并不完美。我会考虑添加一个模板来为 tabula 提供更多指导。这些模板可以根据文档的不同特征动态生成。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python