从python中的MS word文件中提取文本

从python中的MS word文件中提取文本

为了在python中使用MS word文件,有python win32扩展,可以在windows中使用。我如何在linux中做同样的事情?有图书馆吗?



达令说
浏览 1258回答 3
3回答

侃侃无极

您可以对antiword进行子进程调用。Antiword是一个linux命令行实用程序,用于从单词doc中转储文本。适用于简单文档(显然它会丢失格式)。它可以通过apt,也可以作为RPM,或者你可以自己编译。

呼唤远方

使用本机Python docx模块。以下是如何从doc中提取所有文本:document = docx.Document(filename)docText = '\n\n'.join([     paragraph.text.encode('utf-8') for paragraph in document.paragraphs])print docText请参阅Python DocX站点还可以查看Textract,它可以拉出表格等。使用正则表达式解析XML会调用cthulu。不要这样做!
打开App,查看更多内容
随时随地看视频慕课网APP