看前两节发现提取doc与pdf没有啥区别,除了改后缀名的部分,这节主要程序判断也是判断后缀修改后缀,使用到指定的后缀,然后fnmatch判断后缀,为何不直接用.分割文件名称,判断后缀是否是doc docx pdf,然后截取后缀+1文件名+.txt不就可以了,搞得那么复杂干什么?
是的,就是前两节合成了这个