在我的 Pandas 字符串数据框中,在一列中我有一个大字符串,我想将其拆分为单独的字符串,每个字符串都有自己的行一个新的数据框。第二列是一个标签,相同的标签应该出现在每个字符串组件上。
起点和终点分割点应由一组字符串确定。每个组件字符串将从遇到该集合中的一个字符串开始。每个字符串的起点应该在它自己的行的列中,而不应该在拆分的字符串中。
这是一个例子
我有一组这些字符串
listStrings = {
'\nIntroduction' , '\nCase' ,
'\nLiterature' , '\nBackground', '\nRelated' ,
'\nMethods' , '\nMethod',
'\nTechniques', '\nMethodology',
'\nResults', '\nResult', '\nExperimental',
'\nExperiments', '\nExperiment',
'\nDiscussion' , '\nLimitations',
'\nConclusion' , '\nConclusions',
'\nConcluding' ,
'Introduction\n' , 'Case\n' ,
'Literature\n' , 'Background\n', 'Related\n' ,
'Methods\n' , 'Method\n',
'Techniques\n', 'Methodology\n',
'Results\n', 'Result\n', 'Experimental\n',
'Experiments\n', 'Experiment\n',
'Discussion\n' , 'Limitations\n',
'Conclusion\n' , 'Conclusions\n',
'Concluding\n' ,
'INTRODUCTION' , 'CASE' ,
'LITERATURE' , 'BACKGROUND', 'RELATED' ,
'METHODS' , 'METHOD',
'TECHNIQUES', 'METHODOLOGY',
'RESULTS', 'RESULT', 'EXPERIMENTAL',
'EXPERIMENTS', 'EXPERIMENT',
'DISCUSSION' , 'LIMITATIONS',
'CONCLUSION' , 'CONCLUSIONS',
'CONCLUDING' ,
'Introduction:' , 'Case:' ,
'Literature:' , 'Background:', 'Related:' ,
'Methods:' , 'Method:',
'Techniques:', 'Methodology:',
'Results:', 'Result:', 'Experimental:',
'Experiments:', 'Experiment:',
'Discussion:' , 'Limitations:',
'Conclusion:' , 'Conclusions:',
'Concluding:' ,
}
在 A 列中的字符串到达 中的字符串之一之前listStrings,不要保存任何内容。一旦它到达 中的一个字符串listStrings,将该listStrings字符串作为它自己的单独列放在新数据框的一行中。然后将那个listStrings字符串之后的所有内容放在一个新行中,直到该段到达另一个字符串listStrings。然后重复该过程:将该字符串放在一个新列中,并为新段创建一个新行,依此类推。
大话西游666
相关分类