DeepLearning笔记(9)—

1. 论文

2. V1

Inception V1主要就是将不同的CONV和POOL堆叠在一起，一方面增加了网络的宽度，一方面提高了尺寸的自适应性，即不需要人为确定应该使用什么尺寸的filter，而是让网络来自己学习。

如上图(a)所示，左边就是一个简单的Inception module，对输入层分别使用 $1 \times 1, 3 \times 3, 5 \times 5$ 的卷积以及 $3 \times 3$ 的池化，然后将这些结果堆叠起来作为下一层。具体操作如下图所示：

对于其中 $5 \times 5$ 的卷积，一共需要的乘法计算次数为 $(5 \times 5 \times 192) \times (28 \times 28 \times 32) = 120, 422, 400$ ，这个计算成本是巨大的。因此往往会先通过 $1 \times 1$ 的卷积缩减维度，从而降低计算成本，如第一幅图中的(b)所示。降维操作如下图所示：

此时计算量为 $(1 \times 1 \times 192) \times (28 \times 28 \times 16) + (5 \times 5 \times 16) \times (28 \times 28 \times 32) = 12, 443, 648$ ，是原来的差不多十分之一。