Stanford机器学习笔记—

1. 优化目标

SVM 即支持向量机（Support Vector Machines），是一种大间距分类算法。

回顾在逻辑回归中，一个样本的损失函数为：

C o s t (h_{θ} (x), y) = - y l o g (h_{θ} (x)) - (1 - y) l o g (1 - h_{θ} (x))

即：

C o s t (x, y) = - y l o g \frac{1}{1 + e^{- θ^{T} x}} - (1 - y) l o g (1 - \frac{1}{1 + e^{- θ^{T} x}})

当 $y = 1$ 时： $C o s t (x, y) = - l o g \frac{1}{1 + e^{- θ^{T} x}}$
当 $y = 0$ 时： $C o s t (x, y) = - l o g (1 - \frac{1}{1 + e^{- θ^{T} x}})$

函数图像如下：

回顾在逻辑回归中：

当 $y = 1$ 时，需要 $θ^{T} x \geq 0$
当 $y = 0$ 时，需要 $θ^{T} x < 0$

现在我们用另一个图像来近似拟合上面的损失函数，来得到一个更加严格的约束：

因此：

当 $y = 1$ 时，需要 $θ^{T} x \geq 1$
当 $y = 0$ 时，需要 $θ^{T} x \leq - 1$

我们记 $y = 1$ 的损失函数为 $c o s t_{1}$ ，记 $y = 0$ 的损失函数为 $c o s t_{0}$ 。令 SVM 的优化目标为：

\underset{θ}{m i n} C \sum_{i = 1}^{m} [y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)})] + \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}

假设将 $C$ 设置的比较大，那么我们希望：

\sum_{i = 1}^{m} [y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)})] = 0

因此我们的优化目标为：

\underset{θ}{m i n} \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}

2. 大间距分类

SVM 能够很好地进行大间距分类。如图：

图中，三条线都能够将两类分开，但是很明显，实线比另外两条虚线划分的更好。因为两个类别的样本到实线的距离相对较大，而到虚线的距离相对较小，因此容易误判。

在数学上，两个向量点乘：

\vec{u} \cdot \vec{v} = {\vec{u}}^{T} \vec{v} = p ‖ \vec{v} ‖

其中：

$p$ 表示向量 $\vec{u}$ 在向量 $\vec{v}$ 方向上投影的长度
$‖ \vec{v} ‖$ 表示向量 $\vec{v}$ 的长度

因此：

θ^{T} x = p ‖ θ ‖

其中 $p$ 表示 $x$ 在 $θ$ 方向的投影长度。我们知道 $θ$ 为分界线的法向量反向，因此 $p$ 可以在一定程度上反映 $x$ 到分割线的距离。因此我们希望 $p$ 尽量大，也就是 $‖ θ ‖$ 尽量小。而： $‖ θ ‖^{2} = \sum_{j = 1}^{n} θ_{j}^{2}$ ，因此这也就与前面的优化目标相一致了。

3. Gaussian Kernel

上面的分析我们假设都是线性可分的，然而实际上许多情况并非是线性可分。在这种情况下，我们可以通过将样本特征通过一定的函数映射，转化为线性可分。这里以高斯核为例。

将样本的 $n$ 个特征映射为新的 $k$ 个特征 $f_{1}, f_{2}, . . ., f_{k}$ 。首先我们先选择 $k$ 个点 $l^{(1)}, l^{(2)}, . . ., l^{(k)}$ ，定义：

f_{i} = s i m i l a r i t y (x, l^{(i)}) = e^{- \frac{‖ x - l^{(i)} ‖^{2}}{2 σ^{2}}} = e^{- \frac{\sum_{j = 1}^{n} (x_{j} - l_{j}^{(i)})^{2}}{2 σ^{2}}}

若 $x \approx l^{(i)}$ ，则 $f_{i} \approx 1$
若 $x$ 离 $l^{(i)}$ 很远，则 $f_{i} \approx 0$

下面是当 $l^{(1)} = [\begin{matrix} 3 \\ 5 \end{matrix}]$ 时， $f_{1}$ 的图像：

在得到这些新的特征后，我们对这些新的特征使用 SVM。

在实际过程中，如何选择参照点 $l^{(i)}$ 呢？实际上，可以直接将 $m$ 个样本点作为 $m$ 个参照点，即：

l^{(1)} = x^{(1)}, l^{(2)} = x^{(2)}, . . ., l^{(m)} = x^{(m)}

Stanford机器学习笔记——SVM

1. 优化目标 ​

2. 大间距分类 ​

3. Gaussian Kernel ​

1. 优化目标

2. 大间距分类

3. Gaussian Kernel