表达定量
1. 处理原始比对文件
利用 picard / samtools
将 sam 格式转换为 bam 格式
对 bam 文件进行排序
去除比对得分较低的序列
如果需要,可以去除重复 reads
2. STAR + RSEM (先比对,再定量,耗时长)
输出结果可以选择转录本定量或者基因定量
定量单位包括 feature count, FPKM, TPM
操作相对复杂
3. STAR + HTSeq (先比对,再定量,耗时长)
输出结果为原始 read count
结果可用于差异表达分析
操作相对简单
#htseq-counthtseq-count -r pos -m union -f bam -s no \ -q 03align_out/sample2Aligned.sortedByCoord.out.bam > 05htseq_out/sample2.htseq.out
4. Kallisto (free-alignment) (只定量,不比对)
速度快,省内存
基于转录本定量
不产生 bam 文件,不方便其他后续分析
5. STAR + RSEM 实例演示
准备定量分析所需文件
# rsem prepare reference:建立参照基因组rsem-prepare-reference --gtf 00ref/Araport11_GFF3_genes_transposons.201606.gtf \ 00ref/TAIR10_Chr.all.fasta \ arab_RSEM/arab_rsem
利用STAR结果进行分析定量
rsem-calculate-expression --paired-end --no-bam-output \ --alignments -p 5 \ -q 03align_out/sample2Aligned.toTranscriptome.out.bam \ arab_RSEM/arab_rsem \04rsem_out/sample2_rsem
6. Kallisto 演示
利用转录本参考序列文件构建索引
mkdir arab_kallistocd arab_kallisto kallisto index -i arab_kallisto ../arab_RSEM/arab_rsem.transcripts.fa
kallisto运行结果:产生了54.4 million 个k-mer
进行无比对定量分析
#定量:quant: 定量模式;-i:index文件;-o:输出文件kallisto quant -i arab_kallisto/arab_kallisto -o 05kallisto_out/sample2 \ 02clean_data/sample2_paired_clean_R1.fastq.gz 02clean_data/sample2_paired_clean_R2.fastq.gz #输入文件,即原始数据,不需bam格式
运行结果
作者:posLight
链接:https://www.jianshu.com/p/410dbfed5558