猿问

用数据库处理大量纯文本

我本职是研究结构生物学的,经常需要写脚本程序来处理大量纯文本,
对于同一个蛋白质,有很多种格式的数据,比如:
pdb格式
ATOM1NMET144.017-3.1949.239
ATOM2CAMET143.506-1.8299.263
ATOM3CMET142.074-1.8399.749
ATOM4OMET141.422-2.8489.638
ATOM5CBMET143.723-1.2157.865
fasta格式
>./3odiA165
MVNPTVFFDIAVDGEPLGRVSFELFADKVPKTAENFRALSTGEKGFGYKGSCFHRIIPGFMCQGGDFTRHNGTGGKSIYG
EKFEDENFILKHTGPGILSMANAGPNTNGSQFFICTAKTEWLDGKHVVFGKVKEGMNIVEAMERFGSRNGKTSKKITIAD
CGQLE
我通常通过后缀名来分辨,比如3odiA.pdb和3odiA.fasta.但bash或者python脚本写起来需要考虑文件路径,十分繁琐.
我想数据库应该可以很好地解决我的问题,比如用3odiA作key,文本中的strings作value,但是要具体实现起来确实没什么经验(非cs出身).
各位可否给一些建议?比如,用什么数据库?有什么类似的解决方案可供参考的?
MM们
浏览 437回答 2
2回答

ABOUTYOU

据我所知,生物学都是perl党,perl虽然有点晦涩,但确实是玩纯文本最溜的语言不如说至今通行的正则还叫pcre=兼容perl的正则表达式
随时随地看视频慕课网APP

相关分类

JavaScript
我要回答