继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

GATK4 Mutect2 call Short Variant

幕布斯6054654
关注TA
已关注
手记 1264
粉丝 219
获赞 1011

GATK4 Mutect2 call Short Variant

先来看一下GATK 官网对Short Variant的定义:

Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.

Mutect2

Call somatic SNVs and indels via local assembly of haplotypes

Mutect2有两种模式:

(i) somatic mode:分析中,一个肿瘤样本与正常样本相匹配;

(ii) tumor-only mode: 分析中, 只有一个肿瘤数据比对结果;

(i) Tumor with matched normal

利用提供的正常样本数据,Mutect2 只会找出那些体细胞变异;而在种系中普遍存在的变异会被Mutect2 忽略掉。对于那些在种系中无法很好界定的变异,Mutect2 会保留下来进行后续分析。

调用gatk Mutect2

gatk Mutect2 \   -R reference.fa \   -I tumor.bam \   -tumor tumor_sample_name \   -I normal.bam \   -normal normal_sample_name \   --germline-resource af-only-gnomad.vcf.gz \   --af-of-alleles-not-in-resource 0.00003125 \ #变异不存在于种系中的期望值   --panel-of-normals pon.vcf.gz \   -O somatic.vcf.gz

Mutect2不需要运算 a germline resource和a panel of normals (PoN) ;只是利用这两个数据来过滤等位的变异位点。

种群等位位点频率格式如下:

  #CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
      1       10067   .       T       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC      30.35   PASS    AC=3;AF=7.384E-5
      1       10108   .       CAACCCT C       46514.32        PASS    AC=6;AF=1.525E-4
      1       10109   .       AACCCTAACCCT    AAACCCT,*       89837.27        PASS    AC=48,5;AF=0.001223,1.273E-4
      1       10114   .       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA  *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T      36728.97        PASS    AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
      1       10119   .       CT      C,*     251.23  PASS    AC=5,1;AF=1.249E-4,2.498E-5
      1       10120   .       TA      CA,*    14928.74        PASS    AC=10,6;AF=2.5E-4,1.5E-4
      1       10128   .       ACCCTAACCCTAACCCTAAC    A,*     285.71  PASS    AC=3,1;AF=7.58E-5,2.527E-5
      1       10131   .       CT      C,*     378.93  PASS    AC=7,5;AF=1.765E-4,1.261E-4
      1       10132   .       TAACCC  *,T     18025.11        PASS    AC=12,2;AF=3.03E-4,5.049E-5

(ii) Tumor-only mode

单个样本时,使用CreateSomaticPanelOfNormals 生成a panel of normals;

CreateSequenceDictionary 是Picard中一个功能,利用参考序列生成参考序列的索引(.dict).

调用CreateSequenceDictionary

java -jar picard.jar CreateSequenceDictionary \ 
      R=reference.fasta \ # .fasta 或 .fasta.gz
      O=reference.dict

调用gatk Mutect2

 gatk Mutect2 \   -R reference.fa \   -I sample.bam \   -tumor sample_name \   -O single_sample.vcf.gz

Mutect2 必须设定的参数:

--input  -I  :BAM/SAM/CRAM文件

--output  -O :写入变异信息的加过文件

--reference  -R :参考序列

--tumor-sample  -tumor : 肿瘤样品名




作者:_eason_
链接:https://www.jianshu.com/p/6a689d4a09b6


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP