经典机器学习系列(十四)PAC-Learning_人工智能

文章目录

- PAC学习模型
  - - 定义 Generalization error ：
    - 定义 Empirical error ：
- Learning axisaligned rectangles
- PAC learning
- Guarantees for finite hypothesis sets — consistent case
- Guarantees for finite hypothesis sets — inconsistent case
- Generalities
- 参考

当在设计一个算法的时候：

怎么样才能学习地更有效率？
什么样的问题天生很难学？
需要多少样本才能学好？
所学出来的model泛化能力好吗？

PAC学习模型

这就是PAC要做的事情，解决上述疑问。PAC英文全程Probably Approximately Correct。在开始介绍这个framework之前需要定义一些notation：

$X$ ：examples或称为instances的集合，有时也代表输入空间。
$Y$ ：labels或者称为target的集合。
$X \to Y$ ：称之为一个概念(concept)，由于是一个二分类问题，所以可以被定义为 $X$ 中label全为1的一个子集。
$C$ : 所有的概念(concept)组成concept class，是需要去learn的。

考虑一个binary classi cation问题，之后扩展到更一般的情形。假设样本是独立地满足一个固定但是未知的分布 $\mathcal{D}$ 。从 $\mathcal{D}$ 中sample一些样本 $S = (x_{1}, \dots, x_{m})$ 和它的标签 $(c (x_{1}), \dots, c (x_{m}))$ ，之后基于这些带label的样本选择hypothesis $h_{S} \in H$ ，使得其泛化误差(generalization error)最小。

定义 Generalization error ：

给定hypothesis $h \in H$ ，target concept $c \in C$ 和一个潜在distribution $D$ ，generalization error或者的risk被定义为：
经典机器学习系列(十四)PAC-Learning 可以看出某个hypothesis的generalization error并不是全部由learner所导致的，与distribution 和 target concept $c$ 都有关系。

定义 Empirical error ：

给定一个hypothesis $h \in H$ ，一个target concept $c \in C$ ，一个sample $S = (x_{1}, \dots, x_{m})$ ，empirical risk被定义为：
经典机器学习系列(十四)PAC-Learning 可以看出empirical risk是sample下的平均error，而generalization error是在distribution $D$ 下的expected error。对于一个固定的 $h \in H$ ，基于独立同分布采样得到的期望empirical error与generalization error是相等的：
经典机器学习系列(十四)PAC-Learning

Learning axisaligned rectangles

考虑这样一种情况，样本是平面上的一些点， $X \in R^{2}$ ，概念类(concept class)是 $R^{2}$ 中所有的与轴平行的矩形，因此每个concept $c$ 是轴平行矩形中的点，矩形内部为1，外部为2。要学习的问题就是基于有label的训练数据确定能够最小error的轴平行矩形框：
如上图所示表示目标axisaligned rectangles， $R^{'}$ 是hypothesis。如上图所示误差主要来自两部分：

false negatives：在矩形内，但是不在矩形 $R^{'}$ 内。也就是实际label为1的被 $R^{'}$ 标记为0。

false positives：在矩形 $R^{'}$ 内，但是不在矩形内。也就是实际label为0的被 $R^{'}$ 标记为1。

有这样一个算法 $A$ ，给一些被标记的样本 $S$ ，算法会返回一个最紧的轴平行矩形(tightest axis-aligned rectangle) $R^{'} = R_{s}$ ，包含了label为1的样本，如下图2.2所示：
依据定义可知， $_{s}$ 中不包含任何false postives，因此 $R_{s}$ 错误的区域(region)被包含在中。记 $R \in C$ 为target concept。固定 $ε > 0$ 。 $P [R]$ 被定义为随机从分布 $D$ 中采一个点，落入到 $R$ 内的概率。因为由算法所导致的误差的点只会落入到 $R$ 内，所以假设 $P [R] > ε$ 。定义好了 $P [R] > ε$ 之后，再定义四个延边矩形 $r_{1}, r_{2}, r_{3}, r_{4}$ ，每个的概率至少都是 $ε / 4$ 。这些region可以从整个矩形 $R$ 开始构造，然后移动其中的一条边，使其尽可能地小，但是要保证其distribution mass至少都是 $ε / 4$ ，即 $P [r_{i}] \geq ε / 4$ 。如下图所示：
令，，和是四个真实的值，定义为： $R = [l, r] \times [b, t]$ 。那对于左边的 $r_{4}$ 区域可以被定义成 $r_{4} = [l, s_{4}] \times [b, t]$ ，其中 $s_{4} = inf {s : P [[l, s] \times [b, t]] \geq 1 / 4}$ 。如果 $R_{S}$ 与四个沿边矩形 $r_{i}$ 都有交集，因为其是矩形，所有每个region $r_{i}$ 中都有 $R_{S}$ 的一条边，也就是 $R_{S}$ 一定在矩形内，即 $R (R_{S}) \leq ε$ 。相反，如果 $R (R_{S}) > ε$ ，那至少有一个region $R_{S}$ 没有边相交。可以写成：
经典机器学习系列(十四)PAC-Learning 也就是没有样本点在沿边矩形 $r_{i}$ 的内部或者边上。上式中我们使用了一个通用的不等式 $1 - x \leq e^{- x}$ ，对于任意 $δ > 0$ ，要使得

要注意的是这里的hypothesis set $H$ 是无限的。上述证明PAC-learnable用了矩形的几何关系，是整个证明的key，上述的证明过程泛化能力并不是很强。之后会在finite hypothesis set下证明更一般的情形。

PAC learning

在开始证明之前，我们需要先来了解一下这个PAC-learning定义：
PAC learning 如果存在一个算法 $A$ 和一个多项式函数 $p l o t (\cdot, \cdot, \cdot, \cdot)$ ，对于任意的 $ε > 0$ 和 $δ > 0$ ，对 $X$ 上所有的分布 $D$ 和任意一个target concept $c \in C$ ，当样本 $m \geq p l o y (1 / ε, 1 / δ, n, s i z e (c))$ 时，有：
经典机器学习系列(十四)PAC-Learning 也就是在很大概率( $1 - δ$ )上是近似正确的(误差为)。有一些关键知识点：

PAC框架是与分布 $D$ 无关的，因为其没有对分布做任何假设。
样本是从相同的分布 $D$ 中采样得到的。
PAC框架处理的是概念类(concept class) $C$ (is known to the algorithm)，而不是目标类(target concept) $c \in C$ (is unknown)。

Guarantees for finite hypothesis sets — consistent case

在axis-aligned rectangles的例子中，算法给出的hypothesis $h_{S}$ 总是consistent，也就是说在training sample 上是没有error的。针对consistent hypotheses情形来证generalization bound，假定target concept 在 $H$ 中。

定理(Learning bound有限 $H$ ，consistent情况下)： $H$ 是 $X$ 到的一个有限集合。 $A$ 是一个从任意target concept ，样本满足独立同分布，的一个学习算法，返回一个consistent hypothesis $R^_{S} (h_{S}) = 0$ 。对任意的 $δ > 0$ ，如果

经典机器学习系列(十四)PAC-Learning 用generalization bound来描述：对于任意 $δ$ ，至少以概率 $1 - δ$ ：
Proof：固定 $ε > 0$ ，定义 $R (h) \geq ε}$ (泛化误差的含义是对随机一个样本，预测错误的概率。)，对于 $h \in H_{E}$ ，它在training sample 下的consistent(每个样本误差为0的情况)可表示为：
经典机器学习系列(十四)PAC-Learning 又有(事件的包含关系，左边事情发生，则右边事情一定发生)：
令等式右边等于 $δ$ 即可得证。

Guarantees for finite hypothesis sets — inconsistent case

上一小节的证明是在consistent情况下的证明，然而在大多数情况下是达不到这样一种情况的。更一般的假设可以采用Hoeffding inequality来得到generalization error和empirical error之间的关系。

Corollary(推论)：固定 $ε > 0$ ，对于任意hypothesis $X \to {0, 1}$ ，有以下inequalities：

经典机器学习系列(十四)PAC-Learning Theorem(learning bound - finite $H$ , inconsistent case)： $H$ 是一个finite hypothesis 集合。对于任意 $δ > 0$ ，有概率至少 $1 - δ$ 以下式子成立：
Proof： $h_{1}, \dots, h_{H}$ 是 $H$ 中的elements。采用corollary将其union在一起得到：
经典机器学习系列(十四)PAC-Learning 令右边等于得证。consistent在上述等式下也是成立的，这是一个更加松的bound。从这里就可以得到hypothesis的大小，样本大小和误差之间的关系。

Generalities

更一般的情况，输出的label是输入数据的一个概率，比如说输入身高和体重预测这个人的性别这种问题。也就是说label是一个概率分布这样。

定义 Agnostic PAC learning：

Agnostic PAC learning 如果label可以被某个function $X \to Y$ 独一无二地确定下来，将其称为deterministic，会存在某个target function使得generalization error $R (h) = 0$ ，在stochastic情形下就不存在说会使得某个hypothesis下的error为0：

定义(Bayes error)：给定distribution $D$ ，Bayes error $R^{*}$ 被定义为measurable function $X \to Y$ 的误差下界：

经典机器学习系列(十四)PAC-Learning hypothesis with $R (h) = R^{*}$ 被称作Bayes hypothesis或者是Bayes classi er。通过定义可知，在deterministic的情况下 $R^{*} = 0$ ，但是在stochastic的情况下 $R^{*} \neq = 0$ 。 Bayes classi er $_{B a y e s}$ 可以被定义成以下条件概率的情形：
经典机器学习系列(十四)PAC-Learning

   The average error made hy h Bayes​ on x∈X is thus min {P[0∣x],P[1∣x]}，and this is the minimum possible error. This leads to the following definition of noise。 

参考

Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018).Foundations of machine learning. MIT press.
https://zhuanlan.zhihu.com/p/66799567