我试图在 DNA 序列中找到最长的连续重复 DNA 核苷酸链。DNA序列是一个字符串。因此,例如,如果我有"AGA"
,我想知道链中最长的连续重复链的长度"AGA"
。
我正在考虑使用正则表达式来提取核苷酸的所有重复链并将它们存储在列表中(使用re.findall()
)。然后简单地从它们中找出最长的链,取其长度并将其除以核苷酸序列的长度。
我可以为此写什么正则表达式?例如[AGA]+
,我在想,但它会识别带有 A或G或A 的子字符串。我想要类似的东西,以便它识别"AGA"
并重复。
注意:如果序列为AATGAGAAGAAGATCCTAGAAGAAGAAGAAGACGAT
,则有两条连续的链"AGA"
,一条长度为3,另一条长度为5。因此最长的链长度为5。
皈依舞
慕少森
智慧大石
相关分类