提取doc与pdf所用的方法都是一个,唯一区别是文件改后缀吗?

来源:2-5 封装多格式的文本信息抽取工具

yuzhewo

2020-07-30 22:41

看前两节发现提取doc与pdf没有啥区别,除了改后缀名的部分,这节主要程序判断也是判断后缀修改后缀,使用到指定的后缀,然后fnmatch判断后缀,为何不直接用.分割文件名称,判断后缀是否是doc docx pdf,然后截取后缀+1文件名+.txt不就可以了,搞得那么复杂干什么?

写回答 关注

1回答

  • 慕丝8503628
    2020-12-14 09:39:37

    是的,就是前两节合成了这个

Python数据预处理(一)一抽取多源数据文本信息

Python数据预处理---人工智能通用技术

15799 学习 · 40 问题

查看课程

相似问题