Skip to content

DeepLearning笔记(8)——ResNet

1. Shortcut Connection

随着网络层次的越来越深,就容易出现梯度消失或者梯度爆炸的问题,因此网络层数无法很深。残差网络(Residual Network)的出现很好的解决了这个问题。相关论文可以参考Deep Residual Learning for Image Recognition

ResNet的主要思想是跳远连接(shortcut connection),其基本组成是残差块(building block)。残差块的结构如下:

z[l+1]=W[l+1]a[l]+b[l+1]a[l+1]=g(z[l+1])z[l+2]=W[l+2]a[l+1]+b[l+2]a[l+2]=g(z[l+2]+a[l])

可以跳过一个或多个网络层,上图示例是跳过了一个网络层。通过一个个残差块堆叠在一起,可以训练更深的神经网络。

2. Identity Shortcut & Projection Shortcut

  • Identity Shortcut:a[l+2]a[l] 的维度一致,即 a[l+2]=g(z[l+2]+a[l])
  • Projection Shortcut:a[l+2]a[l] 的维度不一致,此时 a[l+2]=g(z[l+2]+Wsa[l])

如下图所示,最右边即为ResNet34的结构。其中实线连接的为identity shortcut,虚线连接的为projection shortcut。

3. Bottleneck

在上面的ResNet34结构图中,可以看到,每个building block都是两层 3×3 的卷积。我们通过把每个 builiding block 替换成三层分别为 1×1,3×3,1×1 的卷积,即可以得到ResNet50。这就是Bottleneck结构,如图所示:

Bottleneck的主要思想是先使用 1×1 的卷积降低维度,最后再使用 1×1 的卷积来提升维度。这样做可以有效减少参数数量,从而构建更深的网络。

例如上图右边的结构,如果使用两层的 3×3 的卷积,则参数数量为 3×3×256×256×2=1179648,而使用了bottleneck结构后,参数数量只有 1×1×256×64+3×3×64×64+1×1×64×256=69632