我有 3gb csv 文件以及如何计算重复的 URL 和百分比
是计算百分比的总和?
import pandas as pd
df = pd.read_csv("/Users/url_all/auguesturl.csv",names=['URL','Count'])
dd = df.groupby(
df.columns.tolist(),
as_index=False
).size().sort_values(ascending=False).apply(lambda r: r/r.sum(),axis=1)
# percentage
# ss = df.groupby('Count').size() / df.groupby('Count').size().sum()
print(dd)
我的输出是:
setup.iclo.com:443 8354271
da.ds-int.net:443 7278819
我喜欢这样的输出
URL Count Percentage
googleads.g.doubl.net:443 1,314,530 2.1
s.yimg.com:443 986,275 1.6
相关分类