我有一个包含两列的数据集:在第一列中,是文件的完整目录路径。在第二列中,文件的最后修改日期。我试图计算每个上层文件夹(“狗”、“猫科动物”、“老鼠”、“食蚁兽”)中最后修改时间晚于 2004 年 6 月 23 日的文件数。最终,我想要这样的东西:
这是我的数据集:
import pandas as pd
data = {'FullName': ["dog\cat\cow\rover.doc","feline\cat\cow\digger.doc","dog\cat\cow\whatamess.doc","mouse\cat\mouse\jude.doc","anteater\cat\mouse\sam.doc","dog\cat\owl\audrey.doc",
], 'LastWriteTime': ['2003-01-02', '2004-01-02', '2005-01-02','2006-01-02','2007-01-02','2008-01-02']}
df1 = pd.DataFrame(data)
我可以计算上层文件夹在数据集中重复出现的次数:
df2 = (df1['FullName'].apply(lambda x: x.split('\\')[0]).value_counts()
我还可以计算日期大于“2004-06-23”的文件在数据集中重复出现的次数:
df3 = df1['LastWriteTime'].apply(lambda x: pd.to_datetime((x),yearfirst=True) > pd.to_datetime('2004-06-23',yearfirst=True)).value_counts()
我尝试将它们组合如下:
df2 = (df1['FullName'].apply(lambda x: x.split('\\')[0]) & pd.to_datetime((x),yearfirst=True) > pd.to_datetime('2004-06-23',yearfirst=True)).value_counts()
但我得到错误代码:x is not defined
有谁知道如何组合它们?
有只小跳蛙
相关分类