Stanford机器学习笔记—

1. 正态分布（高斯分布）

假设对于一组数据 $x \in R$ ，如果它们满足正态分布，且平均数为 $μ$ ，方差为 $σ^{2}$ ，则记作：

x \sim N (μ, σ^{2})

概率密度函数为：

p (x; μ, σ^{2}) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}

图像如下：

如果 $μ = 0, σ = 1$ ，则为标准正态分布。

假设有 $m$ 个样本，每个样本有 $n$ 个特征。在每个特征符合独立的正态分布的情况下，首先计算：

\begin{matrix} μ_{j} = \frac{1}{m} \sum_{i = 1}^{m} x_{j}^{(i)} \\ σ_{j}^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x_{j}^{(i)} - μ_{j})^{2} \end{matrix}

则：

p (x) = \prod_{j = 1}^{n} p (x_{j}; μ_{j}, σ_{j}^{2}) = \prod_{j = 1}^{n} \frac{1}{\sqrt{2 π} σ_{j}} e^{- \frac{(x_{j} - μ_{j})^{2}}{2 σ_{j}^{2}}}

若 $p (x) < ε$ （其中 $ε$ 是一个给定的较小的值），则认为该样本属于异常点。

如果一个特征不符合正态分布的话，需要做一些处理，使其基本符合正态分布。比如：

\begin{matrix} x_{j} \leftarrow l o g (x_{j} + c) \\ x_{j} \leftarrow x_{j}^{c} \\ . . . \end{matrix}

上面的方法是假设所有的特征都符合相对独立的正态分布。如图所示：

然而事实上，许多情况下，不同特征之间是有着一定的关系的，并不是完全独立，因此上面的方法不再适用。如下图所示：

如果按照特征相对独立的方式来检测异常，将会是红色的圈，那么检测不到红色的点为异常。然而实际上应该是绿色的圈，这样才能检测到红色的点为异常。

此时需要计算协方差。即：

\begin{matrix} μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} \\ Σ = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T} \end{matrix}

然后：

p (x) = \frac{1}{(2 π)^{\frac{n}{2}} | Σ |^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}