猿问

阅读Word文档并获取每个标题的文本

我有一个Microsoft Word文档,我需要提取文本并将其按文档的每个部分结构化为数据框。文档的每个部分均以标题开头。标题在Word中的格式设置为“标题2”。例如:


这是第一节


这是第一部分的文本。


这是文档的第二部分


这是第二部分的内容。


我需要获取数据框中每个节的文本,其中在AI列中将具有节名称,在BI列中将具有节文本。


我是Python的新手,正在尝试docx打包,但是我唯一能做的就是根据我在stackoverflow中找到的函数获取全文


函数(readDocx):


#! python3

from docx import Document


def getText(filename):

    doc = Document(filename)

    fullText = []

    for para in doc.paragraphs:

        fullText.append(para.text)

    return '\n'.join(fullText)

获取文本的代码:


import readDocx


test = readDocx.getText('THE FILE.docx')

我能够找到标识标题的循环。问题是如何遍历文档并获取数据框中的每个标题和文本:


from docx import Document

from docx.shared import Inches



docs = Document("THE FILE.docx")


for paragraph in docs.paragraphs:

    if paragraph.style.name=='Heading 2':

        print (paragraph.text)


哈士奇WWW
浏览 352回答 2
2回答
随时随地看视频慕课网APP

相关分类

Python
我要回答