问答详情
源自:2-5 封装多格式的文本信息抽取工具

提取doc与pdf所用的方法都是一个,唯一区别是文件改后缀吗?

看前两节发现提取doc与pdf没有啥区别,除了改后缀名的部分,这节主要程序判断也是判断后缀修改后缀,使用到指定的后缀,然后fnmatch判断后缀,为何不直接用.分割文件名称,判断后缀是否是doc docx pdf,然后截取后缀+1文件名+.txt不就可以了,搞得那么复杂干什么?

提问者:yuzhewo 2020-07-30 22:41

个回答

  • 慕丝8503628
    2020-12-14 09:39:37

    是的,就是前两节合成了这个