GATK4 Mutect2 call Short Variant
先来看一下GATK 官网对Short Variant的定义:
Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.
Mutect2
Call somatic SNVs and indels via local assembly of haplotypes
Mutect2有两种模式:
(i) somatic mode:分析中,一个肿瘤样本与正常样本相匹配;
(ii) tumor-only mode: 分析中, 只有一个肿瘤数据比对结果;
(i) Tumor with matched normal
利用提供的正常样本数据,Mutect2 只会找出那些体细胞变异;而在种系中普遍存在的变异会被Mutect2 忽略掉。对于那些在种系中无法很好界定的变异,Mutect2 会保留下来进行后续分析。
调用gatk Mutect2
gatk Mutect2 \ -R reference.fa \ -I tumor.bam \ -tumor tumor_sample_name \ -I normal.bam \ -normal normal_sample_name \ --germline-resource af-only-gnomad.vcf.gz \ --af-of-alleles-not-in-resource 0.00003125 \ #变异不存在于种系中的期望值 --panel-of-normals pon.vcf.gz \ -O somatic.vcf.gz
Mutect2不需要运算 a germline resource和a panel of normals (PoN) ;只是利用这两个数据来过滤等位的变异位点。
种群等位位点频率格式如下:
#CHROM POS ID REF ALT QUAL FILTER INFO 1 10067 . T TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC 30.35 PASS AC=3;AF=7.384E-5 1 10108 . CAACCCT C 46514.32 PASS AC=6;AF=1.525E-4 1 10109 . AACCCTAACCCT AAACCCT,* 89837.27 PASS AC=48,5;AF=0.001223,1.273E-4 1 10114 . TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T 36728.97 PASS AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5 1 10119 . CT C,* 251.23 PASS AC=5,1;AF=1.249E-4,2.498E-5 1 10120 . TA CA,* 14928.74 PASS AC=10,6;AF=2.5E-4,1.5E-4 1 10128 . ACCCTAACCCTAACCCTAAC A,* 285.71 PASS AC=3,1;AF=7.58E-5,2.527E-5 1 10131 . CT C,* 378.93 PASS AC=7,5;AF=1.765E-4,1.261E-4 1 10132 . TAACCC *,T 18025.11 PASS AC=12,2;AF=3.03E-4,5.049E-5
(ii) Tumor-only mode
单个样本时,使用CreateSomaticPanelOfNormals 生成a panel of normals;
CreateSequenceDictionary 是Picard中一个功能,利用参考序列生成参考序列的索引(.dict).
调用CreateSequenceDictionary
java -jar picard.jar CreateSequenceDictionary \ R=reference.fasta \ # .fasta 或 .fasta.gz O=reference.dict
调用gatk Mutect2
gatk Mutect2 \ -R reference.fa \ -I sample.bam \ -tumor sample_name \ -O single_sample.vcf.gz
Mutect2 必须设定的参数:
--input -I :BAM/SAM/CRAM文件
--output -O :写入变异信息的加过文件
--reference -R :参考序列
--tumor-sample -tumor : 肿瘤样品名
作者:_eason_
链接:https://www.jianshu.com/p/6a689d4a09b6