手记

目标检测YOLO、SSD、RetinaNet、Faster RCNN、Mask RCNN(1)

Necessary Prerequisite

1. 准确率判断

分对的正反例样本数 / 样本总数
用于评估模型的全局准确程度,因为包含的信息有限,一般不用于评估模型的性能

2. 精确率与召回率

image

一些相关的定义。假设现在有这样一个测试集,测试集中的图片只由大雁和飞机两种图片组成,假设你的分类系统最终的目的是:能取出测试集中所有飞机的图片,而不是大雁的图片。

True positives : 正样本被正确识别为正样本,飞机的图片被正确的识别成了飞机。
True negatives: 负样本被正确识别为负样本,大雁的图片没有被识别出来,系统正确地认为它们是大雁。
False positives: 假的正样本,即负样本被错误识别为正样本,大雁的图片被错误地识别成了飞机。
False negatives: 假的负样本,即正样本被错误识别为负样本,飞机的图片没有被识别出来,系统错误地认为它们是大雁。
Precision其实就是在识别出来的图片中,True positives所占的比率。也就是本假设中,所有被识别出来的飞机中,真正的飞机所占的比例。

Recall 是测试集中所有正样本样例中,被正确识别为正样本的比例。也就是本假设中,被正确识别出来的飞机个数与测试集中所有真实飞机的个数的比值。

Precision-recall 曲线:改变识别阈值,使得系统依次能够识别前K张图片,阈值的变化同时会导致Precision与Recall值发生变化,从而得到曲线。

如果一个分类器的性能比较好,那么它应该有如下的表现:在Recall值增长的同时,Precision的值保持在一个很高的水平。而性能比较差的分类器可能会损失很多Precision值才能换来Recall值的提高。通常情况下,文章中都会使用Precision-recall曲线,来显示出分类器在Precision与Recall之间的权衡。
以下面的pr图为例,我们可以看到PR曲线C是包含于A和B,那么我们可以认为A和B的性能是优于C。


image

3. 平均精度AP 与 多类别平均精度mAP

AP就是Precision-recall 曲线下面的面积,通常来说一个越好的分类器,AP值越高。
mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求平均,得到的就是mAP的值,mAP的大小一定在[0,1]区间,越大越好。该指标是目标检测算法中最重要的一个。

4. IoU

IoU这一值,可以理解为系统预测出来的框与原来图片中标记的框的重合程度。 计算方法即检测结果Detection Result与 Ground Truth 的交集比上它们的并集,即为检测的准确率。
IoU正是表达这种bounding box和groundtruth的差异的指标:


image

5. 非极大值抑制(NMS)

Non-Maximum Suppression就是需要根据score矩阵和region的坐标信息,从中找到置信度比较高的bounding box。对于有重叠在一起的预测框,只保留得分最高的那个。

(1)NMS计算出每一个bounding box的面积,然后根据score进行排序,把score最大的bounding box作为队列中首个要比较的对象。

(2)计算其余bounding box与当前最大score与box的IoU,去除IoU大于设定的阈值的bounding box,保留小的IoU得预测框。

(3)然后重复上面的过程,直至候选bounding box为空。

最终,检测了bounding box的过程中有两个阈值,一个就是IoU,另一个是在过程之后,从候选的bounding box中剔除score小于阈值的bounding box。需要注意的是:Non-Maximum Suppression一次处理一个类别,如果有N个类别,Non-Maximum Suppression就需要执行N次。

6. 卷积神经网络

卷积神经网络仿造生物的视知觉(visual perception)机制构建,可以进行监督学习非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程(feature engineering)要求。
关于这块我打算在下一篇文章给大家做一个详细的介绍,从最初用于手写字符识别的LeNet到历届ImageNet中那些夺魁的网络设计AlexNet、Vgg、NIN、GoogleNet、ResNet、DenseNet。并给出相应的代码实现和训练结果展示。

One Stage & Two Stage

目标检测模型目的是自动定位出图像中的各类物体,不仅可以给出物体的类别判定,也可以给出物体的定位。目前主流的研究分为两类:One Stage 和 Two stage, 前者是图像经过网络的计算图,直接预测出图中物体的类别和位置;后者则先提取出物体的候选位置(Region Proposal),然后再对物体进行分类,当然这个时候一般也会对筛选出来的目标做一次定位的精修,达到更加准确的目的。
YOLOV3,SSD,RetinaNet都属于one stage类型的网络,这类网络的特点是训练和识别速度快,但是精度欠佳。
Faster RCNN和Mask RCNN属于two stage类型的网络,相比于one stage,识别精度上有所提升,但是训练和识别速度比不上one stage类型的网络。
之前用draw.io画过框架图,实在是丑,画出来的图感觉并不能清晰的表达整个框架的意图,为了让读者可以看得爽一点,下面的框架我都是从网上搞来的一些高清好图。

YOLOV3

这张图选自CSDN博主木盏yolo系列之yolo v3【深度解析】

image


DBL: 卷积层conv + 批标准化层BN + Leaky Relu
res(n): n代表这个res_block内含有多少个res_unit,这点借鉴了ResNet的残差结构,使用这种结构的目的是为了加深网络深度
concat: 将DarkNet中的某一层与之前的某层的上采样()
流程如下:

  1. 调整输入图像的大小为416 × 416(32的倍数)

  2. 图像向前传播的过程中经过一个1个DBL层和5个res_block,每经过一个res_block,图像的size都要减半,此时图像的size为416 / 32(2的5次方) = 13 * 13

  3. 下图是一张DarkNet-53的结构图,然而YOLOV3经过前面的res_block后不是继续采用接下来的Avgpool平均池化层,Connected,全连接层,而是继续经过5个DBL层。


    image

  4. 接下来有两步操作:
    (1)、经过一个 DBL层和卷积层conv得到输出y1(13 * 13 * 255),这里的255是9 / 3 * (4 + 1 + 80)。对这几个数字的说明如下:
     9是anchors的数量,这里的anchor的数量是通过聚类得到的
     除以3是因为最终的输出的特征图有3个scale(13,26,52),13 * 13对应的是9个anchors里top3大的锚框
     4代表的每个锚框中心的横坐标x,纵坐标y,宽度w,高度h
     1和80分别表示背景和80目标种类的概率
    (2)、 通过一个DBL和一个上采样层和res_block4的输出连接起来,然后经过5个DBL层

  5. 步骤4-2的结果也有两步操作
    (1)、经过一个 DBL层和卷积层conv得到输出y2(26 * 26 * 255),26是因为res_block4的输出特征图大小为26,而步骤4-1的输入经过上采样的操作后特征图大小也从13变成了26
    (2)、 通过一个DBL和一个上采样层和res_block3的输出连接起来,然后经过5个DBL层

  6. 将步骤5-2的结果经过一个DBL层和一个上采样层与res_block3的输出连接起来,再经过6(5+1)个DBL层和一个卷积层conv得到y3(52 * 52 * 255)

loss

使用YOLO做预测,结果会给出图像中物体的中心点坐标(x,y),目标是否是一个物体的置信度C以及物体的类别,比如说person,car,ball等等。图像经过之前的计算图前向传播得到3个scale的输出y1(13),y2(26),y3(52),用yolo_outputs代表这3个变量。将原始图片(416 * 416)分别除以32,16,8得到与y1,y2,y3大小匹配的ground_truth,在源码中用y_true表示。
计算损失的时候需要把预测出来的结果与ground truth box之间的差距表现出来,下面是YOLOV1的loss function:

image


1. 坐标误差
λcoord 在 YOLO v1 中默认为5,因为目标的定位是最重要的部分,所以给定位损失一个比较高的权重。但是我在看代码的时候发现这个值变成了 2 - w * h(w, h 都归一化到[0,1]),应该是降低了一些权重,同时将物体的大小考虑进去,从公式中可以发现小的物体拥有更高的权重,因为对于小物体,几个像素的误差带来的影响是高于大的物体。
对于中心点坐标的(x,y)的计算也从MSE均方差误差变成了binary_crossentropy二分类交叉熵,为啥变成这个我觉得有点玄学在里面,反正对于坐标的损失计算我认为MSE是没问题的。
计算宽高的误差之前先看下下面这张图:

image


网络预测出来的中心点坐标和宽高分别为tx,ty,tw,th,通过计算得到边框的中心坐标bx,by,和边框的宽bw,高bh。cx,cy是位移偏差offset,σ()函数为logistic函数,将坐标归一化到[0,1]。最终得到的bx,by为归一化后的相对于grid cell的值。pw,ph为anchor的宽,高。实际在使用中,作者为了将bw,bh也归一化到[0,1],实际程序中的 pw,ph为anchor的宽,高和featuremap的宽,高的比值。最终得到的pw,ph为归一化后相对于anchor的值。

raw_true_wh = K.log(y_true[l][..., 2:4] / anchors[anchor_mask[l]] * input_shape[::-1])
raw_true_wh = K.switch(object_mask, raw_true_wh, K.zeros_like(raw_true_wh)) # avoid log(0)=-inf
......此处省略中间的一些代码,直接看w和h的误差计算
wh_loss = object_mask * box_loss_scale * 0.5 * K.square(raw_true_wh-raw_pred[...,2:4])

V3跟V1对于宽高的损失计算也有些区别,V1是(sqrt(w) - sqrt(w'))2;V3是(log(w) - log(w')))2,不过效果是一样的,都是提高对于小目标的预测敏感度。举个简单的例子,同样是10个像素的误差,一个大的目标真实的宽为100,预测出来为110;而一个小的目标真实宽度为10,预测出来是20,让我们来通过这个公式计算一下误差:
0.5 * (log(110) - log(100))2 = 0.00085667719
0.5 * (log(20) - log(10))2 = 0.04530952914
可以看出对于小的物体,对于同样像素大小的误差,惩罚比较大
2. IOU误差
对于有边界框的物体,计算出置信度和1之间的差值;对于背景,我们需要计算出置信度与0之间的差值,当然距离计算公式还是用二分类交叉熵。λnoobj在源码中没有找到这个参数,V1是设置来减少正反例分布不均匀带来的误差的,作者为什么要这么做,我百度谷歌了半天没找到原因。我的猜测是对于这种分布不均衡问题我们没有必要去干预它,顺其自然就好。
3. 分类误差
这个就比较直观了

class_loss = object_mask * K.binary_crossentropy(true_class_probs, raw_pred[...,5:], from_logits=True)

detect

借助Opencv,keras-yolov3可以实现影像的目标检测:

image


当然也可以进行图片的目标检测:



作者:油腻小年轻
链接:https://www.jianshu.com/p/3efeb56bd0ab


0人推荐
随时随地看视频
慕课网APP