我有一个以名称 (person_name)、日期和颜色 (shirt_color) 作为列的数据集。
每个人在特定的一天都穿着某种颜色的衬衫。天数可以是任意的。
例如输入:
name day color
----------------
John 1 White
John 2 White
John 3 Blue
John 4 Blue
John 5 White
Tom 2 White
Tom 3 Blue
Tom 4 Blue
Tom 5 Black
Jerry 1 Black
Jerry 2 Black
Jerry 4 Black
Jerry 5 White
我需要找到每个人最常用的颜色。
例如结果:
name color
-------------
Jerry Black
John White
Tom Blue
我正在执行以下操作来获取结果,效果很好,但是速度很慢:
most_frquent_list = [[name, group.color.mode()[0]]
for name, group in data.groupby('name')]
most_frquent_df = pd.DataFrame(most_frquent_list, columns=['name', 'color'])
现在假设我有一个包含 500 万个唯一名称的数据集。进行上述操作的最佳/最快方法是什么?
一只斗牛犬
米琪卡哇伊
相关分类