支持向量机

支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题。
支持向量机学习方法包含构建由简至繁的模型：

当训练数据线性可分时，通过硬间隔最大化（hard margin maximization），学习一个线性的分类器，即线性可分支持向量机。
当训练数据近似线性可分时，通过软间隔最大化（soft margin maximization），也学习一个线性的分类器，即线性支持向量机。
当训练数据线性不可分时，通过使用核技巧（kernel trick）及软间隔最大化，学习非线性支持向量机。

间隔与支持向量

给定训练样本集$D={(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2),…,(\boldsymbol{x_m},y_m)}, y_m\in{-1,+1}$，分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。

能将两类训练样本分开的超平面有很多，应该找两类训练样本正中间的划分超平面，因为该划分超平面对训练样本局部扰动的容忍性最好，产生的分类结果是最鲁棒的，对未见实例的泛化能力最强。
在样本空间中，划分超平面可通过如下线性方程来描述：

$$
\begin{aligned}
\boldsymbol{w^{T}x}+b=0
\end{aligned}\tag{1}
$$
其中$\boldsymbol{w}=(w_1;w_2;…;w_d)$为法向量，决定了超平面的方向，b为位移项，决定了超平面与原点之间的距离。划分超平面可被法向量$\boldsymbol{w}$和位移b确定，下面将其记为$(\boldsymbol{w},b)$。样本空间中任意点$\boldsymbol{x}$到超平面$(\boldsymbol{w},b)$的距离可写为

$$
\begin{aligned}
r=\frac{|\boldsymbol{w^Tx}+b|}{||\boldsymbol{w}||}
\end{aligned}\tag{2}
$$
假设超平面$(\boldsymbol{w},b)$能将训练样本正确分类，即对于$(\boldsymbol{x_i},y_i)\in D$，若$y_i=+1$，则有$\boldsymbol{w^Tx_i}+b>0$；若$y_i=-1$，则有$\boldsymbol{w^Tx_i}+b<0$。令

$$
\begin{cases}
\boldsymbol{w^Tx_i}+b \geqslant +1, & y_i=+1; \\
\boldsymbol{w^Tx_i}+b \leqslant -1, & y_i=-1.
\end{cases}\tag{3}
$$
如下图所示，距离超平面最近的这几个训练样本点使式(3)等号成立，它们被称为支持向量（support vector），这两类支持向量到超平面的距离之和为

$$
\begin{aligned}
\gamma=\frac{2}{||\boldsymbol{w}||}
\end{aligned}\tag{4}
$$
它被称为间隔（margin）。

要找到具有最大间隔（maximum margin）的划分超平面，也就是要找到能满足式(3)中约束的参数$\boldsymbol{w}$和$b$，使得$\gamma$最大，即

$$
\begin{aligned}
& \max_{\boldsymbol{w},b}\frac{2}{||\boldsymbol{w}||} \\
& s.t. \ y_i(\boldsymbol{w^Tx_i}+b) \geqslant 1, \quad i=1,2,…,m.
\end{aligned}\tag{5}
$$
为了最大化间隔，需最大化$||\boldsymbol{w}||^{-1}$，等价于最小化$||\boldsymbol{w}||^2$。因此，式(5)可写为

$$
\begin{aligned}
& \min_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^2 \\
& s.t. \ y_i(\boldsymbol{w^Tx_i}+b) \geqslant 1, \quad i=1,2,…,m.
\end{aligned}\tag{6}
$$
这就是支持向量机（Support Vector Machine）的基本型。

对偶问题

式(6)是一个凸二次规划（convex quadratic programming）问题，能直接用现成的优化计算包求解，但还有更高效的办法。对式(6)使用拉格朗日乘子法可得到其对偶问题（dual problem）。对式(6)的每条约束添加拉格朗日乘子$\alpha_i\geqslant0$，则该问题的拉格朗日函数可写为

$$
\begin{aligned}
L(\boldsymbol{w},b,\boldsymbol{\alpha})=\frac{1}{2}||\boldsymbol{w}||^2+\sum_{i=1}^m\alpha_i(1-y_i(\boldsymbol{w^Tx_i}+b)),
\end{aligned}\tag{7}
$$
其中$\boldsymbol{\alpha}=(\alpha_1;\alpha_2;…;\alpha_m)$。令$L(\boldsymbol{w},b,\boldsymbol{\alpha})$对$\boldsymbol{w}$和$b$的偏导为零可得

$$
\begin{eqnarray}
\boldsymbol{w} &=& \sum_{i=1}^m\alpha_iy_ix_i, \tag{8} \\
0 &=& \sum_{i=1}^m\alpha_iy_i. \tag{9}
\end{eqnarray}
$$
将式(8)代入(7)，即可将$L(\boldsymbol{w},b,\boldsymbol{\alpha})$中的$\boldsymbol{w}$和$b$消去，再考虑式(9)的约束，就得到式(6)的对偶问题

$$
\begin{aligned}
& \max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\boldsymbol{x_i^Tx_j} \\
& s.t. \ \sum_{i=1}^m\alpha_iy_i=0, \\
& \alpha_i \geqslant 0, \qquad i=1,2,…,m.
\end{aligned}\tag{10}
$$
解出$\alpha$后，求出$\boldsymbol{w}$与$b$即可得到模型

$$
\begin{aligned}
f(x)&=\boldsymbol{w^Tx}+b \\
&=\sum_{i=1}^m\alpha_iy_i\boldsymbol{x_i^Tx}+b
\end{aligned}\tag{11}
$$
从对偶问题(10)解出的$\alpha_i$是式(7)中的拉格朗日乘子，它对应着训练样本$(\boldsymbol{x_i},y_i)$。注意到式(6)中有不等式约束，因此上述过程需满足KKT（Karush-Kuhn-Tucker）条件，即要求

$$
\begin{cases}
\alpha_i\geqslant 0; \\
y_if(x_i)-1\geqslant 0; \\
\alpha_i(y_if(x_i)-1)=0.
\end{cases}\tag{12}
$$
于是，对任意训练样本$(\boldsymbol{x_i},y_i)$，总有$\alpha_i=0$或$y_if(\boldsymbol{x_i})=1$。若$\alpha_i=0$，则该样本不会在式(11)的求和中出现，也就不会对$f(x)$有任何影响；若$\alpha_i>0$，则必有$y_if(\boldsymbol{x_i})=1$，所对应的样本点位于最大间隔边界上，是一个支持向量。支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。
式(10)是一个二次规划问题，可以用通用的二次规划算法求解，但是该问题的规模正比于训练样本数，人们通过利用问题本身的特性，提出了很多高效算法，SMO（Sequential Minimal Optimization）是最流行的一种。
SMO的思想是每次选取两个变量$\alpha_i$和$\alpha_j$，并固定其他的参数$\alpha_k$，求解式(10)获得更新后的$\alpha_i$和$\alpha_j$，不断迭代直至收敛。SMO采用了一个启发式：使选取的两变量所对应样本之间的间隔最大。仅考虑$\alpha_i$和$\alpha_j$时，式(10)中的约束可重写为：

$$
\begin{aligned}
\alpha_iy_i+\alpha_jy_j=-\sum_{k\neq i,j}\alpha_ky_k=c
\end{aligned}\tag{13}
$$
消去式(10)中的变量$\alpha_j$，则得到一个关于$\alpha_i$的单变量二次规划问题，仅有的约束是$\alpha_i\geqslant0$。这样的二次规划具有闭式解，不必调用数值优化算法即可高效地计算出更新后的$\alpha_i$和$\alpha_j$。
根据式(8)可求出$\boldsymbol{w}$，对于$b$，可以用任意一个支持向量的性质$y_s(\boldsymbol{w^Tx_s}+b)=1$来计算。当然现实任务中采用更鲁棒的做法，使用所有支持向量求解的平均值。

软间隔支持向量机

基础型的SVM的假设所有样本在样本空间是线性可分的（硬间隔），但现实中的情况通常不满足这种特性。为此，要引入软间隔（soft margin）的概念。

允许某些样本不满足约束 $y_i(\boldsymbol{w^Tx_i}+b)\geqslant1$，当然，在最大化间隔的同时，不满足约束的样本应尽可能少。

核函数

前面的讨论中，假设的训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类。然而现实任务中，原始样本空间内也许并不存在能正确划分两类样本的超平面。

这样的问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。令$\phi(\boldsymbol{x})$表示将$\boldsymbol{x}$映射后的特征向量，在特征空间中划分超平面所对应的模型可表示为

$$
\begin{aligned}
f(\boldsymbol{x})=\boldsymbol{w^T}\phi(\boldsymbol{x})+b
\end{aligned}\tag{14}
$$
其中$\boldsymbol{w}$和$b$是模型参数，间隔最大化类似式(6)

$$
\begin{aligned}
& \min_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^2 \\
& s.t. \ y_i(\boldsymbol{w^T}\phi(\boldsymbol{x_i})+b)\geqslant1, \quad i=1,2,…,m.
\end{aligned}\tag{15}
$$
其对偶问题是

$$
\begin{aligned}
& \max_{\alpha}\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(\boldsymbol{x_i})\cdot\phi(\boldsymbol{x_j}) \\
& s.t. \ \sum_{i=1}^m\alpha_iy_i=0, \\
& \alpha_i\geqslant0, \quad i=1,2,…,m.
\end{aligned}\tag{16}
$$
式中$\phi(\boldsymbol{x_i})\cdot\phi(\boldsymbol{x_j})$为$\phi(\boldsymbol{x_i})$和$\phi(\boldsymbol{x_j})$的内积。
核函数的定义： 设$\mathcal{X}$是输入空间（欧式空间$\boldsymbol{R^n}$的子集或离散集合），又设$\mathcal{H}$为特征空间，如果存在一个从$\mathcal{X}$到$\mathcal{H}$的映射

$$
\phi(\boldsymbol{x}):\mathcal{X} \to \mathcal{H}
$$
使得对所有$\boldsymbol{x_i,x_j}\in\mathcal{X}$，函数$K(\boldsymbol{x_i,x_j})$满足条件

$$
K(\boldsymbol{x_i,x_j})=\phi(\boldsymbol{x_i})\cdot\phi(\boldsymbol{x_j})
$$
则称$K(\boldsymbol{x_i,x_j})$为核函数，$\phi(\boldsymbol{x})$为映射函数。
核技巧的想法是，在学习与预测中只定义核函数$K(\boldsymbol{x_i,x_j})$，而不显式定义映射函数。通常，直接计算核函数比较容易，计算映射函数的内积很困难，因为特征空间的维数可能很高，甚至是无穷维。

reference
《机器学习》
《统计学习方法》