0%

机器学习三要素

机器学习三要素

三要素是模型,学习准则和优化算法

模型

  • 样本空间 $X \times Y$
    • 输入 $X$
    • 输出 $Y$

xy之间可以通过一个未知的真是映射函数或者真实条件概率分布描述.
根据经验假设出一个假设空间,观察其特性找出一个假设.
这个假设空间一般为参数化的函数族:
$$F={f(x;\theta)|\theta \in \R^{D}}$$
其中$f(x;\theta)$ 是参数为$\theta$的函数,又称为模型.
D为参数的数量.
常见的假设空间可以分为线性和非线性两种.

线性模型

即:$f(x:\theta)=\omega^Tx+b$
其$\theta$包含 权重向量$\omega$和偏置$b$

非线性模型

可以写作多个非线性基函数$\phi(x)$的线性组合:
$f(x;\theta)=\omega^T \phi(x)+b$

其$\phi(x)=[\phi_1(x),\phi_2(x),\dots,\phi_K(x)]^T$为$K$个非线性基函数组成的向量,参数$\theta$包含了权重向量$\omega$和偏置$b$

神经网络模型是这样一种基函数:

$\phi(x)$本身是可以学习的基函数,如:

$\phi_K(x)=h(\omega^T_k\phi^,(x)+b_k),\forall 1 \leq k \leq K$

其中$h$为非线性函数,$\phi^,$是另一组基函数.

学习准则

令训练集为独立同分布样本组成,模型通过学习应当尽可能趋近真实映射函数,或者与真实概率分布一致.

模型好坏可以通过期望风险衡量:

$R(\theta)=E_{(x,y) \sim P_r(x,y)}[L(y,f(x;\theta)]$

其中$L$为损失函数,损失函数是非负实数函数.

几种损失函数

  • 01损失函数
  • 平方损失函数
  • 交叉熵损失函数(负对数似然函数)
  • Hinge损失函数

风险最小化准则

因为真正的分布和映射不知道,所以其实不能算$R(\theta)$,对于给定训练集$D$,

我们可以计算经验风险(Rmpirical Risk):

$R^{emp}D=\frac{1}{N}\sum^N{n=1}L(y^{(n)},f(x^{(n)};\theta))$

经验风险最小化准则

由上文,有一个切实的学习准则是经验风险最小化(ERM)准则,即:

找到一组参数$\theta^*$:

$\theta^*=arg_\theta min R_D^{emp}(\theta)$

结构风险最小化准则

由于过拟合问题,需要使用正则化限制模型能力,使其不要过分最小化经验风险,这即结构风险最小化(SRM)准则

优化算法

找到最优模型的过程,即为最优化(optimization)问题.

  • 梯度下降
  • 提前停止
  • SGD
  • Mini-Batch Gradient Descent