在aaa大于300的fasta文件中选择序列,并且“ C”出现至少4次

我有一个包含蛋白质序列的fasta文件。我想选择具有300多个氨基酸的序列,而半胱氨酸(C)氨基酸出现的次数超过4倍。


我已经使用此命令来选择具有超过300 aa的序列:


 cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 

一些序列示例:


  >jgi|Triasp1|216614|CE216613_3477

 MPSLYLTSALGLLSLLPAAQAGWNPNSKDNIVVYWGQDAGSIGQNRLSYYCENAPDVDVI

 NISFLVGITDLNLNLANVGNNCTAFAQDPNLLDCPQVAADIVECQQTYGKTIMMSLFGST

 YTESGFSSSSTAVSAAQEIWAMFGPVQSGNSTPRPFGNAVIDGFDFDLEDPIENNMEPFA

 AELRSLTSAATSKKFYLSAAPQCVYPDASDESFLQGEVAFDWLNIQFYNNGCGTSYYPSG

 YNYATWDNWAKTVSANPNTKLLVGTPASVHAVNFANYFPTNDQLAGAISSSKSYDSFAGV

 MLWDMAQLFGNPGYLDLIVADLGGASTPPPPASTTLSTVTRSSTASTGPTSPPPSGGSVP

 QWGQCGGQGYTGPTQCQSPYTCVVESQWWSSCQ* 


慕婉清6462132
浏览 319回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP