DeepLearning笔记(3)——深度学习建议

1. 训练/开发/测试集

（1）划分比例：

（2）数据分布

不同数据集应该遵循同样的数据分布。例如图片识别，一部分图片是从网上抓取的，一部分是自己实际拍摄的。那么各个数据集都应当包含这两种图片，并且比例大致相同。

偏差（bias）和方差（variance）用于衡量模型对数据的拟合程度。主要和训练集误差与开发集误差相关联。

在高偏差情况下，通常为欠拟合，此时可以：

在高方差情况下，通常为过拟合，此时可以：

正则化用于避免过拟合。

（1）L2正则化

对于逻辑回归，令 $J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)}, y^{(i)}) + \frac{λ}{2 m} ∣∣ w ∣ ∣^{2}$ 。

对于神经网络，令 $J = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)}, y^{(i)}) + \frac{λ}{2 m} \sum_{l = 1}^{L} ∣∣ W^{[l]} ∣ ∣_{F}^{2}$ 。

（2）Dropout

Dropout即随机失活，是另一种正则化方法。如上图所示，左边为原始的网络结构，在训练过程中，让一部分节点随机失活，得到右边更为简单的网络结构。

最常用的方法为反向随时失活（Inverted Dropout）：

定义一个数值 $k e e p - p r o b$ ，表示节点保留的概率。如0.8
定义 $d^{[l]} = n p . r a n d o m . r a n d (* a^{[l]} . s h a p e) < k e e p - p r o b$
$a^{[l]} = a^{[l]} * d^{[l]}$
$a^{[l]} = a^{[l]} \div k e e p - p r o b$

上述步骤在训练阶段使用，在测试阶段则不执行dropout。

（3）数据扩增（Data augmentation）

例如对图片进行翻转、旋转、裁剪，对文字进行适当的扭曲，从而得到更多的训练数据。

（4）Early stopping

在执行梯度下降过程中，通过观察训练集误差和开发集误差的变化趋势，在过拟合之前就停止，如下图所示：

如果输入特征的分布不一致，则通过归一化输入可以提高训练效率。归一化输入分为两步：

零均值化
- $μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)}$
- $x := x - μ$
方差归一化
- $σ^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)})^{2}$
- $x := \frac{x}{σ^{2}}$