如何从熊猫的csv文件中计数和百分比

我有 3gb csv 文件以及如何计算重复的 URL 和百分比


是计算百分比的总和?


import pandas as pd

df = pd.read_csv("/Users/url_all/auguesturl.csv",names=['URL','Count'])

dd = df.groupby(

    df.columns.tolist(),

    as_index=False

).size().sort_values(ascending=False).apply(lambda r: r/r.sum(),axis=1)

# percentage

# ss = df.groupby('Count').size() / df.groupby('Count').size().sum()

print(dd)

我的输出是:


setup.iclo.com:443  8354271

da.ds-int.net:443   7278819

我喜欢这样的输出


URL                          Count      Percentage

googleads.g.doubl.net:443   1,314,530   2.1 

s.yimg.com:443              986,275     1.6 


萧十郎
浏览 178回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python