使用 Python 从文本（CSV 文件中）提取数据

更新

你会在那里找到四个名字：Jenny White、Rose Burk、Kerry James、Henry Woods。

我意识到文本 CSV 文件并不像我想象的那么干净。评论或状态更改之间没有空格。尽管存在模式，但并不总是一致（仅名字与全名）。我更新了模式。导出为 CSV 后，您将看到以下内容

Henry 于 2020 年 9 月 22 日写道：已将表格分配给 Rose Burk Rose 于 2020 年 9 月 22 日写道：已发送介绍电子邮件。

成为

Henry 于 2020 年 9 月 22 日写道：已将表格分配给 Rose BurkRose 于 2020 年 9 月 22 日写道：已发送介绍电子邮件。

现在我还需要更多地清理数据。谢谢参观。

所以我想出了如何使用正则表达式来根据模式处理注释。下面的这个可以获取所有不同的日期和所有状态，因为它们都有“更改状态”部分，并且我可以将各个组与旧状态还是新状态进行匹配。regex = r"(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)\sto\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)"如果我只关注“领养”，这个就可以获取我需要的日期。regex = r"(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)\sto\sAdopted(?!\sElsewhere)另外，我不需要使用 for 循环。在关注采用日期的特定情况下，我可以使用以下命令将采用日期添加到 Jupyter 笔记本中的数据框中。df['Adopted']=df['Comments (inline)'].str.extract(r'(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s[A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?\sto\sAdopted(?!\sElsewhere)')这也意味着我可以只使用原始 CSV 文件。

使用 Python 从文本（CSV 文件中）提取数据

更新

1回答