猿问

Python:从列表创建数据框,其中每个新行都从特定的列表索引开始

我有一个列表,其中“SUMMARY”元素和下一个元素之间的项目数不固定


list = ['SUMMARY - Dec 2013', 'Person1', 'None', 'None', '10', 'SUMMARY - Dec 2013', 'Person2', '20', 'SUMMARY - Jan 2014', 'Person3', 'None']

我想要实现的是将列表转换为数据框,其中每一行都以“SUMMARY”元素开头。


我用过


match = []

match.append([n for n, l in enumerate(list) if l.startswith('SUMMARY')])

使用输出[[0, 5, 8]]获取包含“SUMMARY”的项目的索引,我希望我的数据框的每一行都以其索引包含在match. 在这种情况下,匹配有 3 个元素,所以我希望我的数据框有 3 行和以下结构:


'SUMMARY - Dec 2013', 'Person1', 'None', 'None', '10'

'SUMMARY - Dec 2013', 'Person2', '20',   NA,    NA

'SUMMARY - Jan 2014', 'Person3', 'None', NA,    NA

基本上,当特定行的项目数小于最大列数时,其余部分将填充 NA/NaN。


阿晨1998
浏览 125回答 1
1回答

芜湖不芜

如果您从单个系列开始,则更容易解决这个问题。您可以根据“摘要”是否存在对数据行进行分组,然后使用它来跨列聚合和重新分解数据。s = pd.Series(your_list)pd.DataFrame(s.groupby(s.str.contains('summary', case=False).cumsum())              .agg(list)              .tolist())                                                                       0        1     2     3     40  SUMMARY - Dec 2013  Person1  None  None    101  SUMMARY - Dec 2013  Person2    20  None  None2  SUMMARY - Jan 2014  Person3  None  None  None感谢@Shubham Sharma 提出迭代组的建议:pd.DataFrame([g.tolist() for k, g in s.groupby(    s.str.contains('summary', case=False).cumsum())])                    0        1     2     3     40  SUMMARY - Dec 2013  Person1  None  None    101  SUMMARY - Dec 2013  Person2    20  None  None2  SUMMARY - Jan 2014  Person3  None  None  None
随时随地看视频慕课网APP

相关分类

Python
我要回答