我有一个具有分类列的 Pandas DataFrame:
df = pd.DataFrame({'Source': ['Coronavirus','Sars','sars','coronavirus',
'CoronaVirus','Sars']})
df["Source"] = df["Source"].astype('category')
print(df)
Source
0 Coronavirus
1 Sars
2 sars
3 coronavirus
4 CoronaVirus
5 Sars
请注意文本书写方式的差异,例如(冠状病毒与冠状病毒与冠状病毒)。我希望实现的是转换所有相同的文本,即冠状病毒和sars,但不管它是如何写的(首字母大写等),并将它们统一起来。所以所需的输出将是:
Source
0 Coronavirus
1 Sars
2 Sars
3 Coronavirus
4 Coronavirus
5 Sars
最终结果是如何产生的(冠状病毒或冠状病毒)并不重要。
梵蒂冈之花
相关分类