对基因组文件的文件操作

我有一个以下格式的基因组文件(大小:~840 MB 和 13801301 行)('genome.txt')


>SL3.0ch00

AATAATAATAATAATAATAATAATAAATAAATAAATAAATAATAATAATAATAATAATAA

TAAATAAATAAATAAATAAATAAATAAATAAATAATAATAATAATAATAATAATAATAAT

AATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAAT

AATAATAATAATAATAATAATAATAATAAAAATAATAATAATAATAATAATAATAATAAT

>SL3.0ch01

TAGAGGATCTTGGAGGAGGTTCATTGCTGCAGATATTCCATTCATCCGATTTCCTCCAAG

ATGTACCGCGATTTGAGAGAGGTATATTGGTGGGAAGGCAAAGAGAGAGATATTGTTGCC

AAGTACCTGAGTTGCCAACAAGTGAAAGTAGAGCACCAAAGTCCTGGAGGTTTGGCTCAA

ACTTTAGAACTTCTTGAATGGAAGTGGAGATAAATAACATGGACTTTATCACAGGTTTGC

>SL3.0ch02

ATGTACCGCGATTTGAGAGAGGTATATTGGTGGGAAGGCAAAGAGAGAGATATTGTTGCC

AAGTACCTGAGTTGCCAACAAGTGAAAGTAGAGCACCAAAGTCCTGGAGGTTTGGCTCAA

ACTTTAGAACTTCTTGAATGGAAGTGGAGATAAATAACATGGACTTTATCACAGGTTTGC

AAAGATCTCGAAGGCAACATGACTCTAGGTGATTTTCGATAGAATGACAAAGTCATCCCT

我想删除换行符和所有标签 '>SL3.0ch00' 以便我在文件中有一个统一的字母字符串(没有任何空格/换行符/标签)。任何帮助表示赞赏。


芜湖不芜
浏览 132回答 2
2回答

紫衣仙女

使用grep和tr:grep -v '>' file | tr -d '\n'

慕后森

awk 'BEGIN{ORS=""}; !/>/{print}' test.txtORS 是输出记录分隔符变量。设置为“”,它删除\n!/>/ 选择不包含 > 的行
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python