l123456TW
这是编码没有处理好吧
立新伟
麻烦说完整一点,这么点信息,也看不懂
慕数据8458121
慕神2257579
没看出来,好像说的是你的pdfparser.py这个文件报错了,但是这个文件是你下载下来的,应该不会出问题的。
海家上瘾
慕丝4088447
你可以使用全局的正则匹配来匹配整个字符串达到这个效果,提示你一下,匹配中文汉字的正则是
Eternal_Nirvana
你直接decode为utf-8不就行了
用户Leon
get_text()是为了获取文本的内容layout是获取了整个pdf文档,但需要out来逐条输出文档的内容,就需要get_text()
慕粉3498754
....
X文蔚
.....

慕粉3824845
类型错误吧
慕粉1642534408
那就不能解析了吧,不然加密也没有意义了
qq_大屎_0
resource = PDFResourceManager()# 创建PDF资源管理器
缺括号
慕沐8069539
from pdfminer.layout import LAParams
SuperDi
重新安装。我的也是2.7,这个一般都中文报的。
慕移动7343167
讲师的英文发音确实很多都不标准。但不影响这门课程的实际效用,课程讲解很细致透彻,感谢!
发音问题,懂得人自然不介意,但也希望英文发音不好的朋友不要借鉴。
慕用1463983
不知道怎么解决,先用个笨办法吧:可以把所有的内容拷贝出来,放到txt里面
慕粉4254989
device = PDFPageAggregator(resource,laparms=laparms);
你这条代码中laparms应该为laparams
慕粉0824577057
才发现...因为有的括号是 中文字符下的。。。改成英文输入法 重新输下就行了
帅猫呢呢
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
慕粉1247228863
傻宝3
发现是自己写错的。。。太粗心了
慕粉1257044316
应该是你那里的编码格式没有转换对
原来我叫小土慕课网给我改了名字
WARNING:pdfminer.converter:undefined:
i try this, and it works.
import logging logging.Logger.propagate = False logging.getLogger().setLevel(logging.ERROR)
however , i don't know why !
-------------------------------------------------------------------------------------------------------------------------------------------
it sets the root logger to level Error. This will stop PDFMiner warn logging, since it logs to the root logger, but not your own logging.
I needed to set propagation to False, because after PDFMiner usage, I had duplicate logging entries. This was caused by the root logger.
from: http://stackoverflow.com/questions/29762706/warnings-on-pdfminer
慕粉1180023
慕粉3754966
比如说你想收集所有上市公司历年来资产负债,资产增长,股份变革等等这些情况,你不可能通过人工的方法来查找,因为单单深沪都有几千家公司,只能依靠程序来完成,但是这些信息大部分都是以PDF文件保存的,如果不读取PDF文件还有什么好的方法来完成呢?
而且大部分的文件都是以PDF保存的,如果你想从这些文件里面查找信息,一两个文件可能还能人工去查找统计,如果是一百个,一万个文件,依靠人工不知道要到什么时候才能完成,而且还可能会统计错误。