如何用大写字母拆分 pandas 数据框中的字符串

pandas Series str.extract 方法就是您所寻找的。该正则表达式适用于您提出的所有情况，尽管可能还有一些其他边缘情况。df = pd.DataFrame({    "bad_col": ["Lamar JacksonL. Jackson BAL", "Patrick Mahomes IIP. Mahomes KC",                 "Dak PrescottD. Prescott DAL", "Josh AllenJ. Allen BUF",                 "Josh AllenJ. Allen SEA", "Anthony McFarland Jr.A. McFarland PIT"],})print(df)                                 bad_col0            Lamar JacksonL. Jackson BAL1        Patrick Mahomes IIP. Mahomes KC2            Dak PrescottD. Prescott DAL3                 Josh AllenJ. Allen BUF4                 Josh AllenJ. Allen SEA5  Anthony McFarland Jr.A. McFarland PITpattern = r"(?P<full_name>.+)(?=[A-Z]\.)(?P<short_name>[A-Z]\.\s.*)\s(?P<team>[A-Z]+)"new_df = df["bad_col"].str.extract(pattern, expand=True)print(new_df)               full_name    short_name team0          Lamar Jackson    L. Jackson  BAL1     Patrick Mahomes II    P. Mahomes   KC2           Dak Prescott   D. Prescott  DAL3             Josh Allen      J. Allen  BUF4             Josh Allen      J. Allen  SEA5  Anthony McFarland Jr.  A. McFarland  PIT分解该正则表达式：(?P<full_name>.+)(?=[A-Z]\.)(?P<short_name>[A-Z]\.\s.*)\s(?P<team>[A-Z]+)(?P<full_name>.+)(?=[A-Z]\.) 捕获任何字母，直到我们看到大写字母后跟句号/句号，我们使用前瞻 (?=...) 来不消耗大写字母和句号，因为字符串的这一部分属于短名称(?P<short_name>[A-Z]\.\s.*.)\s 捕获一个大写字母（玩家的第一个首字母），然后是句号（第一个首字母后面的句点），然后是一个空格（第一个首字母和姓氏之间），然后是所有字符，直到我们点击空格（玩家的姓氏））。该空间不包含在捕获组中。(?P<team>[A-Z]+) 捕获字符串中所有剩余的大写字母（最终成为玩家团队）您可能已经注意到，我使用了由 (?Ppattern) 结构表示的命名捕获组。在 pandas 中，捕获组的名称将成为列的名称，该组中捕获的任何内容将成为该列中的值。现在将新的数据框加入到我们原来的数据框中，完成一圈：df = df.join(new_df)print(df)                                 bad_col              full_name    short_name  \0            Lamar JacksonL. Jackson BAL          Lamar Jackson    L. Jackson   1        Patrick Mahomes IIP. Mahomes KC     Patrick Mahomes II    P. Mahomes   2            Dak PrescottD. Prescott DAL           Dak Prescott   D. Prescott   3                 Josh AllenJ. Allen BUF             Josh Allen      J. Allen   4                 Josh AllenJ. Allen SEA             Josh Allen      J. Allen   5  Anthony McFarland Jr.A. McFarland PIT  Anthony McFarland Jr.  A. McFarland     team  0  BAL  1   KC  2  DAL  3  BUF  4  SEA  5  PIT  

如何用大写字母拆分 pandas 数据框中的字符串

4回答