前言

做深度学习目标检测方面的同学怎么都会接触到PASCAL VOC这个数据集。也许很少用到整个数据集，但是一般都会按照它的格式准备自己的数据集。所以这里就来详细的记录一下PASCAL VOC的格式，包括目录构成以及各个文件夹的内容格式，方便以后自己按照VOC的标准格式制作自己的数据集。

正文

VOCdevkit文件夹

数据集下载后解压得到一个名为VOCdevkit的文件夹，该文件夹结构如下：

.└── VOCdevkit    └── VOC2012        ├── Annotations        ├── ImageSets        │   ├── Action        │   ├── Layout        │   ├── Main        │   └── Segmentation        ├── JPEGImages        ├── SegmentationClass        └── SegmentationObject123456789101112

这里大概介绍一下各个文件夹的内容，更细节的介绍将在后文给出：
- Annotation文件夹存放的是xml文件，该文件是对图片的解释，每张图片都对于一个同名的xml文件。
- ImageSets文件夹存放的是txt文件，这些txt将数据集的图片分成了各种集合。如Main下的train.txt中记录的是用于训练的图片集合
- JPEGImages文件夹存放的是数据集的原图片
- SegmentationClass以及SegmentationObject文件夹存放的都是图片，且都是图像分割结果图（楼主没用过，所以不清楚）

Annotation文件夹

Annotation文件夹的内容如下：
这里写图片描述
其中xml主要介绍了对应图片的基本信息，如来自那个文件夹、文件名、来源、图像尺寸以及图像中包含哪些目标以及目标的信息等等，内容如下：

<annotation>
    <folder>VOC2012</folder>
    <filename>2007_000027.jpg</filename>
    <source>
        <database>The VOC2007 Database</database>
        <annotation>PASCAL VOC2007</annotation>
        <image>flickr</image>
    </source>
    <size>
        <width>486</width>
        <height>500</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>person</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>174</xmin>
            <ymin>101</ymin>
            <xmax>349</xmax>
            <ymax>351</ymax>
        </bndbox>
        <part>
            <name>head</name>
            <bndbox>
                <xmin>169</xmin>
                <ymin>104</ymin>
                <xmax>209</xmax>
                <ymax>146</ymax>
            </bndbox>
        </part>
        <part>
            <name>hand</name>
            <bndbox>
                <xmin>278</xmin>
                <ymin>210</ymin>
                <xmax>297</xmax>
                <ymax>233</ymax>
            </bndbox>
        </part>
        <part>
            <name>foot</name>
            <bndbox>
                <xmin>273</xmin>
                <ymin>333</ymin>
                <xmax>297</xmax>
                <ymax>354</ymax>
            </bndbox>
        </part>
        <part>
            <name>foot</name>
            <bndbox>
                <xmin>319</xmin>
                <ymin>307</ymin>
                <xmax>340</xmax>
                <ymax>326</ymax>
            </bndbox>
        </part>
    </object></annotation>

ImageSets文件夹

ImageSets包含如下四个子文件夹：
这里写图片描述
各个文件夹中存放的是各种用途的TXT文件。例如在Main文件夹下有名为aeroplane_train.txt的文件，顾名思义是用于飞机类别的训练数据。该txt的具体内容如下，其中±1应该表示的是正负样本的含义（没有具体研究）：

2008_000008 -1
2008_000015 -1
2008_000019 -1
2008_000023 -1
2008_000028 -1
2008_000033  1
2008_000036 -1
2008_000037  1
2008_000041 -1
2008_000045 -1

其中包含的train.txt以及trainval.txt等文件内容与上面类似。不过博主发现train.txt和trainval.txt内容中光有图片的名字，末尾没有标注正负1.

JEPGImages文件夹

该文件夹存放的是数据集的所有源图片，内容如下：
这里写图片描述

SegmentationClass文件夹

还没有涉及图像分割领域，不太清楚该文件夹下图片的用处，截图贴上来吧：
这里写图片描述

SegmentationObject文件夹

同上，把内容截图上传：
这里写图片描述

原文出处

Pascal Voc数据集详细分析

前言

正文