问答详情
源自:5-5 python读取PDF文档(二)

读取PDF文档的目的是啥?

如题?

PDF下载好读取他的意义是什么?

提问者:慕粉3754966 2016-09-15 11:14

个回答

  • 秋名山车神
    2016-09-17 15:26:51

    比如说你想收集所有上市公司历年来资产负债,资产增长,股份变革等等这些情况,你不可能通过人工的方法来查找,因为单单深沪都有几千家公司,只能依靠程序来完成,但是这些信息大部分都是以PDF文件保存的,如果不读取PDF文件还有什么好的方法来完成呢?

    而且大部分的文件都是以PDF保存的,如果你想从这些文件里面查找信息,一两个文件可能还能人工去查找统计,如果是一百个,一万个文件,依靠人工不知道要到什么时候才能完成,而且还可能会统计错误。

  • 东围居士
    2016-09-15 12:41:52

    有些数据是被嵌套在PDF文档里面的,这时候就需要把它读取出来再处理

    还有就是将PDF文档中的内容转成文字(当然这个在13版的word里面也能做到)

    反正不管怎么说,读取PDF文档都是件吃力不讨好的事情。过程繁琐而且准确率也不是很高。如果不需要读取那是最好了