你好,我正在使用 python 对一些数据进行分类:
Articles Filename
A New Marine Ascomycete from Brunei. Invasive Species.csv
A new genus and four new species Forestry.csv
A new genus and four new species Invasive Species.csv
我想知道每个“文件名”有多少个独特的“文章”。
所以我想要的输出是这样的:
Filename Count_Unique
Invasive Species.csv 1
Forestry.csv 0
另一件事,我也想得到这个输出:
Filename1 Filename2 Count_Common articles
Forestry.csv Invasive Species.csv 1
我连接了数据集并最终计算了每个“文件名”中存在的元素。
有谁愿意帮忙吗?我已经尝试过unique(), drop_duplicates()等,但似乎我无法得到我想要的输出。
无论如何,这是我的代码的最后几行:
concatenated = pd.concat(data, ignore_index =True)
concatenatedconcatenated.groupby(['Title','Filename']).count().reset_index()
res = {col:concatenated[col].value_counts() for col in concatenated.columns}
res ['Filename']
胡说叔叔
相关分类