简介

一、relu层
1、前向传播
2、反向传播
二、dropout层
1、dropout工作原理
2、在哪里使用dropout
3、dropout的实现
4、dropout的功效
5、python实现dropout的前向传播
6、python实现dropout的反向传播
三、卷积层
1 Im2col
2前向传播
3反向
4小案例
四、池化层
1、python实现池化层的前向传播
2、python实现池化层的反向传播

relu层

如何在Python中实现ReLU层？

简而言之，relu层就是输入张量通过一个非线性的relu函数，得到输出，而不改变其空间或者深度信息

image

从上图可以看出，所有大于0的保持不变，而小于零的变为零。此外，空间信息和深度也是相同的

relu函数作为激活函数，具有以下功能：

易于计算（前向/反向传播），采用sigmoid函数作为激活函数时候（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相当大，而采用Relu激活函数，整个过程的计算量节省很多。
深度模型中受消失梯度的影响要小得多，对于深层网络，sigmoid函数反向传播时，很容易就出现梯度消失的情况（在sigmoid函数接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练。
如果你使用大的学习率，他们可能会不可逆转地死去，因为当一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了。这个神经元的梯度将一直都是0了。

1、前向传播

将所有小于0的数变成0，大于0的数保持不变，空间和深度信息保持不变。

python实现relu的前向传播：

2、反向传播

在前向传播的时候，我们对每个输入X=[x1,x2,x3]应用了max(0,x)函数，所以在反向传播的时候，小于0的元素,梯度dx等于0：

python实现relu 反向传播：

Dropout层

Dropout是一种用于防止神经网络过度拟合的技术，你还可以使用L2正则化防止过拟合。

image

下面是分类的错误率，可以发现使用了dropout之后错误率更低：

image

和其他正则化技术一样，使用dropout会使得训练损失稍稍恶化，但是模型的泛化能力却更好，因为如果我们的模型过于复杂（更多层或者更多神经元），模型就很可能过拟合，下面是训练和验证集上的损失情况，以及他们中有无dropout情况。

image

1、dropout工作原理

在训练期间，随机的选择一定比例的神经元，让它停止工作，如下图所示，这样泛化能力更好，因为你的网络层的不同的神经元会学习相同的“概念”。在测试阶段，不需要使用dropout.

2、在哪里使用dropout

通常会在全连接层使用dropout，但也可以在最大池化后使用dropout,从而产生某种图像噪声增强。

3、dropout的实现

为了实现某个神经元的失活，我们在前向传播过程中创建一个掩码(0和1)，此掩码应用于训练期间的层的输出，并缓存以供以后在反向传播中使用。如前所述，这个dropout掩码只在训练中使用。

在反向传播中，我们对被激活的神经元感兴趣(我们需要将掩码保存为前向传播)，这些被选中的神经元中，使用反向传播，失活的神经元没有可学习的参数，仅仅是输入x，反向传播返回dx。

4、dropout的功效

Dropout背后理念和集成模型很相似。在Drpout层，不同的神经元组合被关闭，这代表了一种不同的结构，所有这些不同的结构使用一个的子数据集并行地带权重训练，而权重总和为1。

如果Dropout层有 n 个神经元，那么会形成2^n个不同的子结构。在预测时，相当于集成这些模型并取均值。这种结构化的模型正则化技术有利于避免过拟合。

Dropout有效的另外一个视点是：由于神经元是随机选择的，所以可以减少神经元之间的相互依赖，从而确保提取出相互独立的重要特征。

5、python实现dropout的前向传播

作者：机器学习算法工程师
链接：https://www.jianshu.com/p/efa807c256ae

DNN模块的前向传播与反向传播

简 介

relu层

Dropout层

简介