DeepLearning笔记(2)—

1. 前向传播

如上图，左边为一个简单的神经网络结构，右边为每一个神经单元的计算过程。

对于一个样本：

\begin{matrix} a^{[0]} = x \\ z^{[1]} = W^{[1]} a^{[0]} + b^{[1]} \\ a^{[1]} = σ (z^{[1]}) \\ z^{[2]} = W^{[2]} a^{[1]} + b^{[2]} \\ a^{[2]} = σ (z^{[2]}) \end{matrix}

其中：

\begin{matrix} W^{[1]} \in R^{4 \times 3} \\ b^{[1]} \in R^{4 \times 1} \\ W^{[2]} \in R^{1 \times 4} \\ b^{[2]} \in R^{1 \times 1} \end{matrix}

一般来说，令：

则对于多个样本向量化：

\begin{matrix} X \in R^{n^{[0]} \times m} \\ W^{[l]} \in R^{n^{[l]} \times n^{[l - 1]}} \\ b^{[l]} \in R^{n^{[l]} \times 1} \\ A^{[0]} = X \\ Z^{[l]} = W^{[l]} A^{[l - 1]} + b^{[l]} \\ A^{[l]} = g^{[l]} (Z^{[l]}) \end{matrix}

常用的激活函数有：

\begin{matrix} sigmoid : & a = g (z) = \frac{1}{1 + e^{- z}} \\ tanh : & a = g (z) = \frac{e^{z} - e^{- z}}{e^{z} + e^{- z}} \\ ReLU : & a = g (z) = max (0, z) \\ leaky ReLU : & a = g (z) = max (0.01 z, z) \end{matrix}

它们的导数分别为：

\begin{matrix} sigmoid : & g^{'} (z) = a (1 - a) \\ tanh : & g^{'} (z) = 1 - a^{2} \\ ReLU : & g^{'} (z) = {\begin{cases} 0, & if z < 0 \\ 1, & if z > 0 \end{cases} \\ leaky ReLU : & g^{'} (z) = {\begin{cases} 0.01, & if z < 0 \\ 1, & if z > 0 \end{cases} \end{matrix}

在前向传播过程中，针对每一层，输入为 $A^{[l - 1]}$ ，输出为 $A^{[l]}$ ：

\begin{matrix} Z^{[l]} = W^{[l]} A^{[l - 1]} + b^{[l]} \\ A^{[l]} = g^{[l]} (Z^{[l]}) \end{matrix}

在反向传播过程中，针对每一层，输入为 $d A^{[l]}$ ，输出为 $d A^{[l - 1]}$ ， $d W^{[l]}$ ， $d b^{[l]}$ ：

\begin{matrix} d Z^{[l]} = d A^{[l]} * g^{[l]}^{'} (Z^{[l]}) \\ d W^{[l]} = \frac{1}{m} d Z^{[l]} A^{[l - 1] T} \\ d b^{[l]} = \frac{1}{m} \sum_{i = 1}^{m} d Z^{[l] (i)} \\ d A^{[l - 1]} = W^{[l] T} d Z^{[l]} \end{matrix}

在逻辑回归中，参数 $w$ 和 $b$ 可以都初始化为0，但是在神经网络中，如果这样做的话，则每一层所有的神经单元都是在做着同样的计算。因此需要进行随机初始化。

初始化的参数值通常会很小。如果比较大，在使用了sigmoid或者tanh激活函数的时候，计算值就容易落到函数值较大的区域，从而梯度很小，导致反向传播过程进行的很慢。

参数：

超参数：

超参数决定了最终训练好的参数 $W$ 和 $b$ 的值，即超参数是控制参数的参数。