我有一个Microsoft Word文档,我需要提取文本并将其按文档的每个部分结构化为数据框。文档的每个部分均以标题开头。标题在Word中的格式设置为“标题2”。例如:
这是第一节
这是第一部分的文本。
这是文档的第二部分
这是第二部分的内容。
我需要获取数据框中每个节的文本,其中在AI列中将具有节名称,在BI列中将具有节文本。
我是Python的新手,正在尝试docx打包,但是我唯一能做的就是根据我在stackoverflow中找到的函数获取全文
函数(readDocx):
#! python3
from docx import Document
def getText(filename):
doc = Document(filename)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
return '\n'.join(fullText)
获取文本的代码:
import readDocx
test = readDocx.getText('THE FILE.docx')
我能够找到标识标题的循环。问题是如何遍历文档并获取数据框中的每个标题和文本:
from docx import Document
from docx.shared import Inches
docs = Document("THE FILE.docx")
for paragraph in docs.paragraphs:
if paragraph.style.name=='Heading 2':
print (paragraph.text)
相关分类