我有一组带有Date、Amount、Description和Source的金融交易,我想找到金额相同、日期在一天内但来源不同的交易。来源应该不同,因为交易是从许多来源导入的,并且每个来源都有唯一的条目。
例如,我想发现第 1 行和第 3 行是重复的:
'date','amount','description','source'
1/5/2018, 5.28, 'McDonalds', 'BankOfAmerica'
1/6/2018, 8.44, 'Starbucks', 'BankOfAmerica'
1/5/2018, 5.28, 'McDonalds Rest', 'BoA'
2/10/2018, 22.72, 'Chipolte', 'Chase'
3/10/2018, 4.58, 'Wendys', 'BoA'
我在 Python 中尝试过,我可以找到重复项:
df_no_dups = df.drop_duplicates(subset=['amount','dates'])
df_dups = df[~df.isin(df_no_dups)].dropna()
但这是一个精确的日期匹配,然后我必须运行另一个脚本以确保来源不同。
我还尝试对数量进行分组,然后在其中进行迭代以查找日期接近且来源不同的位置,但我无法弄清楚组的详细信息。
其他方法可能是使用 SQL 或在交易所在的电子表格 (google) 中。
ITMISS
HUX布斯
相关分类