机器学习三要素
三要素是模型,学习准则和优化算法
模型
- 样本空间 $X \times Y$
- 输入 $X$
- 输出 $Y$
xy之间可以通过一个未知的真是映射函数或者真实条件概率分布描述.
根据经验假设出一个假设空间,观察其特性找出一个假设.
这个假设空间一般为参数化的函数族:
$$F={f(x;\theta)|\theta \in \R^{D}}$$
其中$f(x;\theta)$ 是参数为$\theta$的函数,又称为模型.
D为参数的数量.
常见的假设空间可以分为线性和非线性两种.
线性模型
即:$f(x:\theta)=\omega^Tx+b$
其$\theta$包含 权重向量$\omega$和偏置$b$
非线性模型
可以写作多个非线性基函数$\phi(x)$的线性组合:
$f(x;\theta)=\omega^T \phi(x)+b$
其$\phi(x)=[\phi_1(x),\phi_2(x),\dots,\phi_K(x)]^T$为$K$个非线性基函数组成的向量,参数$\theta$包含了权重向量$\omega$和偏置$b$
神经网络模型是这样一种基函数:
$\phi(x)$本身是可以学习的基函数,如:
$\phi_K(x)=h(\omega^T_k\phi^,(x)+b_k),\forall 1 \leq k \leq K$
其中$h$为非线性函数,$\phi^,$是另一组基函数.
学习准则
令训练集为独立同分布样本组成,模型通过学习应当尽可能趋近真实映射函数,或者与真实概率分布一致.
模型好坏可以通过期望风险衡量:
$R(\theta)=E_{(x,y) \sim P_r(x,y)}[L(y,f(x;\theta)]$
其中$L$为损失函数,损失函数是非负实数函数.
几种损失函数
- 01损失函数
- 平方损失函数
- 交叉熵损失函数(负对数似然函数)
- Hinge损失函数
风险最小化准则
因为真正的分布和映射不知道,所以其实不能算$R(\theta)$,对于给定训练集$D$,
我们可以计算经验风险(Rmpirical Risk):
$R^{emp}D=\frac{1}{N}\sum^N{n=1}L(y^{(n)},f(x^{(n)};\theta))$
经验风险最小化准则
由上文,有一个切实的学习准则是经验风险最小化(ERM)准则,即:
找到一组参数$\theta^*$:
$\theta^*=arg_\theta min R_D^{emp}(\theta)$
结构风险最小化准则
由于过拟合问题,需要使用正则化限制模型能力,使其不要过分最小化经验风险,这即结构风险最小化(SRM)准则
优化算法
找到最优模型的过程,即为最优化(optimization)问题.
- 梯度下降
- 提前停止
- SGD
- Mini-Batch Gradient Descent