在百度上下载呢
用专门处理word的库,读取的内容直接写入txt不会乱码
但是不知道怎么使用呀,有什么安装和使用文档之类的吗?因为我也是刚入门python的而已
源文件应该不是正常的文本格式文件
import os,fnmatch
from win32com import client as wc
from win32com.client import Dispatch
def wordtxt(filepath):
dirs,filename=os.path.split(filepath)
newname=''
if fnmatch.fnmatch(filename,'*.doc'):
newname=filename[:-4]+'.txt'
elif fnmatch.fnmatch(filename,'*.docx'):
newname=filename[:-5]+'.txt'
else:
print('文件格式不符合')
return
savepath=os.path.join(r'D:\数据处理文档\',newname)
wordapp=wc.Dispatch('Word.Application')
mytxt=wordapp.Documents.Open(filepath)
mytxt.SaveAs(savepath,4)
mytxt.close()
if __name__=='__main__':
filepath=os.path.abspath (r'C:/Users/Administrator/Desktop/行程.docx')
wordtxt(filepath)
print("当然可以")
filepath 是不是不对
你的文件路径写错了 请把紫色部分的斜杠换成反斜杠
我也没找到word文档,请指教
Ctrl+Shift+N(N:1-8)
例如:
Ctrl+Shift+2 左右分屏
Ctrl+Shift+8 上下分屏
备注:也可以使用pycharm,可以进行调试,或者其他py工具
这里借助office的win32插件处理的,mac电脑或者Linux系统可以使用Apache Tika toolkit工具。(参考文献:https://www.cnblogs.com/baiboy/p/tika.html)
这里借助office的win32插件处理的,mac电脑或者Linux系统可以使用Apache Tika toolkit工具。(参考文献:https://www.cnblogs.com/baiboy/p/tika.html)
可以,但是推荐直接安装anaconda,里边已经包含了pywin32的,很方便
总结与扩展部分链接如下:
网络爬虫技术 https://www.bilibili.com/video/av9784617?from=search&seid=4789969907129537329
excel转txt算法 https://www.cnblogs.com/hushaojun/p/7792521.html