我试图找到每行的 2 个单元格之间的差异,并提取差异和 2 个新列的共同点。
这是 DataFrame 的示例
df = pd.DataFrame({'ID': [1,2,3,4,5],'Tag1':["English,French",'Hindi,English','Kannada','French','German'],'Tag2':['Kannada','English,Hindi', 'Kannada,Hindi','French,English','Kannada,German']})
ID Tag1 Tag2
1 English,French Kannada
2 Hindi,English English,Hindi
3 Kannada Kannada,Hindi
4 French French,English
5 German Kannada,German
我想通过将 Tag1 中的新列“差异”和 Tag1 和 Tag2 之间的所有共同点作为“共同点”添加到新列中来找到添加 Tag2 的所有新的不同语言
我需要得到的最终输出或结果:
ID Tag1 Tag2 Difference Common
1 English,French Kannada Kannada NaN
2 Hindi,English English,Hindi NaN Hindi,English
3 Kannada Kannada,Hindi Hindi Kannada
4 French French,English English French
5 German Kannada,German Kannada German
注意:这只是我拥有的庞大数据集的一小部分数据,它有超过 300 000 行,列 Tag1 和 Tag2 有超过 5 种语言。
我已经尝试过一周内可以在线获得的几乎所有内容,但找不到最佳方法。
繁星coding
动漫人物
相关分类