我再次发布,因为我没有运气使以下脚本更有效。更多详情,请查看我之前的帖子,但基本情况如下。
我写了一个脚本来计算一个分数,以及一个基因谱列表的频率。
此处的遗传图谱由 SNP 的组合组成。每个 SNP 有两个等位基因。因此,3 个 SNP 的输入文件如下所示,其中显示了所有三个 SNP 的所有等位基因的所有可能组合。该表是在另一个脚本中使用 itertool 的产品生成的:
AA CC TT
AT CC TT
TT CC TT
AA CG TT
AT CG TT
TT CG TT
AA GG TT
AT GG TT
TT GG TT
AA CC TA
AT CC TA
TT CC TA
AA CG TA
AT CG TA
TT CG TA
AA GG TA
AT GG TA
TT GG TA
AA CC AA
AT CC AA
TT CC AA
AA CG AA
AT CG AA
TT CG AA
AA GG AA
AT GG AA
TT GG AA
然后我有另一个文件,其中包含一个包含三个 SNP 的权重和频率的表格,如下所示:
SNP1 A T 1.25 0.223143551314 0.97273
SNP2 C G 1.07 0.0676586484738 0.3
SNP3 T A 1.08 0.0769610411361 0.1136
列是 SNP ID、风险等位基因、参考等位基因、OR、log(OR) 和群体频率。权重用于风险等位基因。
主脚本采用这两个文件,并根据每个遗传谱的每个 SNP 中每个风险等位基因的对数优势比的总和以及基于等位基因频率相乘的频率(假设 Hardy Weinberg 平衡)计算一个分数。
相关分类