我之前创建了一个创建作者索引的 python 脚本。
为了省去细节,(因为从 pdf 中提取文本非常困难)我创建了一个最小的可重现示例。我目前的状态是我为每个作者换了一行,并以逗号分隔的作者出现的页面列表。但是我想以升序方式对页面列表进行排序。
import pandas as pd
import csv
words = ["Autor1","Max Mustermann","Max Mustermann","Autor1","Bertha Musterfrau","Author2"]
pages = [15,13,5,1,17,20]
str_pages = list(map(str, pages))
df = pd.DataFrame({"Autor":words,"Pages":str_pages})
df = df.drop_duplicates().sort_values(by="Autor").reset_index(drop=True)
df = df.groupby("Autor")['Pages'].apply(lambda x: ','.join(x)).reset_index()
df
这会产生所需的输出(页面排序除外)。
Autor Pages
0 Author2 20
1 Autor1 15,1
2 Bertha Musterfrau 17
3 Max Mustermann 13,5
我尝试将Pages列矢量化为字符串,用逗号分隔并应用一个 lambda 函数,该函数应该对结果列表进行排序。
df["Pages"] = df["Pages"].str.split(",").apply(lambda x: sorted(x))
df
然而,这只适用于Autor1但不适用于Max Mustermann. 我似乎无法弄清楚为什么会这样
Autor Pages
0 Author2 [20]
1 Autor1 [1, 15]
2 Bertha Musterfrau [17]
3 Max Mustermann [13, 5]
慕娘9325324
qq_遁去的一_1
相关分类