手记

DNN模块的前向传播与反向传播

简  介

一、relu层
1、前向传播
2、反向传播
二、dropout层
1、dropout工作原理
2、在哪里使用dropout
3、dropout的实现
4、dropout的功效
5、python实现dropout的前向传播
6、python实现dropout的反向传播
三、卷积层
1 Im2col
2前向传播
3反向
4小案例
四、池化层
1、python实现池化层的前向传播
2、python实现池化层的反向传播

relu层

如何在Python中实现ReLU层?

简而言之,relu层就是输入张量通过一个非线性的relu函数,得到输出,而不改变其空间或者深度信息

image

从上图可以看出,所有大于0的保持不变,而小于零的变为零。此外,空间信息和深度也是相同的

relu函数作为激活函数,具有以下功能:

  1. 易于计算(前向/反向传播),采用sigmoid函数作为激活函数时候(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相当大,而采用Relu激活函数,整个过程的计算量节省很多。

  2. 深度模型中受消失梯度的影响要小得多,对于深层网络,sigmoid函数反向传播时,很容易就出现梯度消失的情况(在sigmoid函数接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失),从而无法完成深层网络的训练。

  3. 如果你使用大的学习率,他们可能会不可逆转地死去,因为当一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了。这个神经元的梯度将一直都是0了。

1、前向传播

将所有小于0的数变成0,大于0的数保持不变,空间和深度信息保持不变。

python实现relu的前向传播:

2、反向传播

在前向传播的时候,我们对每个输入X=[x1,x2,x3]应用了max(0,x)函数,所以在反向传播的时候,小于0的元素,梯度dx等于0:

python实现relu 反向传播:

02

Dropout层

Dropout是一种用于防止神经网络过度拟合的技术,你还可以使用L2正则化防止过拟合。

image

下面是分类的错误率,可以发现使用了dropout之后错误率更低:

image

和其他正则化技术一样,使用dropout会使得训练损失稍稍恶化,但是模型的泛化能力却更好,因为如果我们的模型过于复杂(更多层或者更多神经元),模型就很可能过拟合,下面是训练和验证集上的损失情况,以及他们中有无dropout情况。

image

1、dropout工作原理

在训练期间,随机的选择一定比例的神经元,让它停止工作,如下图所示,这样泛化能力更好,因为你的网络层的不同的神经元会学习相同的“概念”。在测试阶段,不需要使用dropout.

2、在哪里使用dropout

通常会在全连接层使用dropout,但也可以在最大池化后使用dropout,从而产生某种图像噪声增强。

3、dropout的实现

为了实现某个神经元的失活,我们在前向传播过程中创建一个掩码(0和1),此掩码应用于训练期间的层的输出,并缓存以供以后在反向传播中使用。如前所述,这个dropout掩码只在训练中使用。

在反向传播中,我们对被激活的神经元感兴趣(我们需要将掩码保存为前向传播),这些被选中的神经元中,使用反向传播,失活的神经元没有可学习的参数,仅仅是输入x,反向传播返回dx。

4、dropout的功效

Dropout背后理念和集成模型很相似。在Drpout层,不同的神经元组合被关闭,这代表了一种不同的结构,所有这些不同的结构使用一个的子数据集并行地带权重训练,而权重总和为1。

如果Dropout层有 n 个神经元,那么会形成2^n个不同的子结构。在预测时,相当于集成这些模型并取均值。这种结构化的模型正则化技术有利于避免过拟合。

Dropout有效的另外一个视点是:由于神经元是随机选择的,所以可以减少神经元之间的相互依赖,从而确保提取出相互独立的重要特征。

5、python实现dropout的前向传播



作者:机器学习算法工程师
链接:https://www.jianshu.com/p/efa807c256ae


0人推荐
随时随地看视频
慕课网APP