Dask Series 或 DataFrame 列上的 SQL 样式爆炸

我有一个 Dask 系列,其中包含一个带有值列表的列。我想执行 SQL 样式的爆炸,为每个索引值和相应的列表元素创建一个新行。对于这个特定问题,列表的长度都相同。


单行示例:


索引          列

123 [value1, value2, value3]


期望的转变:


索引          列

123 value1

123 value2

123 value3


任何关于如何实现这一目标的建议将不胜感激。


慕码人8056858
浏览 98回答 1
1回答

精慕HU

在熊猫数据框上,这看起来像df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True)要对 Dask 数据帧执行此操作,您需要使用map_partitions对数据的每个分区执行完全相同的操作:def func(df):    return df.column.apply(pd.Series, 1).stack().reset_index(level=1, drop=True)df.map_partitions(func)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python