Mapping文件是分析过程中频繁使用到的一个文件,你的分析过程的难易程度在一定程度上取决于你的Mapping文件。OTU table只提供了不同样本的OTU数目,而Mapping文件用来描述样本信息的,比如样本的分组情况。在分析过程中,除了SampleID以外,你可以对其不断进行修改。Qiime1和Qiime2对Mapping文件的格式要求有所不同,具体的请参见Qiime1和Qiime2的官网,今天我们介绍Qiime1要求的Mapping文件。
Mapping文件的格式
#SampleID
:每一个样本的唯一识别号,SampleID前面需要添加#,注意一定只能用“.”和字母数字组成。其他的符合包括“_”都不可以使用。BarcodeSequence
:在建库时,每个样本被分配到的唯一的由12个核苷酸组成的Barcode序列LinkerPrimerSequnce
:与Barcode序列相连的,测序时用到的通用引物。Description
:每一个Mapping文件的最后一列,可以输入任何与样本相关的信息。但是每个样本也必须要唯一。
上述四列是一个最基本、最简单的Mapping文件所需要具备的。除此之外,我们可以添加其他与样本相关的信息,比如样本的类型、样本的性别、年龄等等,但是要注意的是最后一列一定是Description。下面来看一个Mapping文件的例子。
#SampleID | BarcodeSequence | LinkerPrimerSequence | SampleType | Description |
---|---|---|---|---|
L1S8 | ATCGATCGATCG | CCGGACTAC | gut | 1_Fece_10_28_2008 |
L1S140 | ATCGATCGATCC | CCGGACTAC | gut | 2_Fece_10_28_2008 |
L1S57 | ATCGATCGATCA | CCGGACTAC | gut | 1_Fece_1_20_2009 |
L1S208 | ATCGATCGATCT | CCGGACTAC | gut | 2_Fece_1_20_2009 |
L1S76 | ATCGATCGATAT | CCGGACTAC | gut | 1_Fece_2_17_2009 |
很多人拿到的测序结果已经是公司去除了BarcodeSequence和LinkerPrimerSequence的分好样的数据,这个时候只需要将BarcodeSequence和LinkerPrimerSequence的数据空着即可(在对Mapping检验时会发出警告,忽略即可)。同时,在后续也不需要分样的操作。
方法1:Qiime1检验Mapping文件
为了保证你的mapping文件没有错误,Qiime1提供了validate_mapping_file.py
对mapping文件进行检查。具体如下:
# Check for errors in mapping file validate_mapping_file.py \ -m mapping_file.txt \ -o validate_map/
查看输出结果中的网页,对错误的地方进行修改再次验证直至生成正确的mapping文件。
方法2:Keemei工具
除了Qiime1提供的validate_mapping_file.py
,我们还可以利用Google Sheets提供的Keemei工具。Keemei工具还可以检验Qiime2的mapping文件。
https://keemei.qiime2.org/
Keemei工具
作者:jlyq617
链接:https://www.jianshu.com/p/32c96357dab4
x