我有一个带有标题(用“>”表示)的文件,下一行是文本。我需要捕获标题中包含相同数字的组。在下面的示例文本中,我想将前四行(两个标题都包含“4471”)打印到一个文件,将最后四行(标题包含“4527”)打印到另一个文件。
>VUSY-4471
AAAGTAATTCAGGATGAAGAGAGACTGCT
>XFJG-4471
AATGTTATTCAAGATGAAGATAGGTTGCTGGCTGCA
>Ambtr-4527
GAGGAGCGGGTGATTGCCTTGGTCGTTGGTGGTGG
>Arath-4527
GAAGAGAGAGTGAATGTTCTTGTA
在文本编辑器中测试时,以下正则表达式成功捕获了文本组(见屏幕截图),但我似乎无法使其在 python 脚本中工作。任何帮助将不胜感激!!
>.+?-(\d+)[\S\s]+>.+-\1\n.+
捕获的文本示例
holdtom
眼眸繁星
相关分类