我正在处理 Outlook 电子邮件自动化任务,我将 Outlook 的 .msg 电子邮件文件存储在一个目录中。我的任务是从 .msg 文件中提取信息(电子邮件正文、附件文本等)并运行 NLP 对它们进行分类。到目前为止,我已经使用了来自https://pypi.org/project/extract-msg/和https://github.com/mattgwwalker/msg-extractor 的extract_msg 。我能够提取邮件正文,但我面临的下一个挑战是面对的是:
如何从pdf,文本文件等附件中提取文本?
如何阅读多部分电子邮件(带有回复痕迹的电子邮件)?
在编写自己的问题之前,我从多个线程中阅读了答案,但大多数答案都与直接从 Outlook.exe 中提取电子邮件有关,但是我不需要从 Outlook 中提取信息,而是将 Outlook 消息作为 .msg 存储在本地目录中文件。
到目前为止,我的进展是:
import extract_msg
import pandas as pd
import os
direct = os.getcwd() # directory object to be passed to the function for accessing emails
ext = '.msg' # type of files in the folder to be read
def DataImporter(directory, extension):
my_list = []
for i in os.listdir(direct):
if i.endswith(ext):
msg = extract_msg.Message(i)
my_list.append([msg.filename,msg.sender,msg.to, msg.date, msg.subject, msg.body])
global df
df = pd.DataFrame(my_list, columns = ['File Name','From','To','Date','Subject','MailBody Text'])
print(df.shape[0],' rows imported')
DataImporter(direct,ext)
要求是这样的:
邮件正文 = '这是一个示例电子邮件正文'。
附件 = 'Invoice123'
附件文本 = '您的发票已准备好处理'
像这样的东西,任何帮助将不胜感激,如果需要更多信息,请告诉我。
编辑:如果您知道任何其他可用于完成此任务的软件包,请发表评论。
GCT1015
森林海
九州编程
缥缈止盈
随时随地看视频慕课网APP
相关分类