文章目录
- PAC学习模型
- 定义 Generalization error :
- 定义 Empirical error :
- Learning axisaligned rectangles
- PAC learning
- Guarantees for finite hypothesis sets — consistent case
- Guarantees for finite hypothesis sets — inconsistent case
- Generalities
- 参考
- PAC学习模型
当在设计一个算法的时候:
- 怎么样才能学习地更有效率?
- 什么样的问题天生很难学?
- 需要多少样本才能学好?
- 所学出来的
model
泛化能力好吗?
PAC学习模型
这就是PAC
要做的事情,解决上述疑问。PAC
英文全程Probably Approximately Correct
。在开始介绍这个framework
之前需要定义一些notation
:
- X:
examples
或称为instances
的集合,有时也代表输入空间。 - Y:
labels
或者称为target
的集合。 - c :X→Y:称之为一个概念(
concept
),由于是一个二分类问题,所以c 可以被定义为X中label
全为1
的一个子集。 - C: 所有的概念(
concept
)组成concept class
,是需要去learn
的。
考虑一个binary classi cation
问题,之后扩展到更一般的情形。假设样本是独立地满足一个固定但是未知的分布D \mathcal{D}D。 从D \mathcal{D}D中sample
一些样本S=(x1,⋯,xm)和它的标签(c(x1),⋯,c(xm)),之后基于这些带label
的样本选择hypothesis
hS∈H,使得其泛化误差(generalization error
)最小。
定义 Generalization error :
给定hypothesis
h∈H,target concept
c∈C和一个潜在distribution
D,generalization error
或者h 的risk
被定义为:
可以看出某个hypothesis
的generalization error
并不是全部由learner
所导致的,与distribution
D D和 target concept
c cc 都有关系。
定义 Empirical error :
给定一个hypothesis
h∈H,一个target concept
c∈C,一个sample
S=(x1,⋯,xm),empirical risk
被定义为:
可以看出empirical risk
是sample
下的平均error
,而generalization error
是在distribution
D下的
expected error
。 对于一个固定的h∈H,基于独立同分布采样得到的期望empirical error
与generalization error
是相等的:
Learning axisaligned rectangles
考虑这样一种情况,样本是平面上的一些点,X∈R2,概念类(concept class
)是R2中所有的与轴平行的矩形,因此每个concept
c 是轴平行矩形中的点,矩形内部为1
,外部为2
。要学习的问题就是基于有label
的训练数据确定能够最小error
的轴平行矩形框:
如上图所示R 表示目标axisaligned rectangles
,R′是hypothesis。如上图所示误差主要来自两部分:
false negatives
:在矩形R 内,但是不在矩形R′内。也就是实际label
为1
的被R′标记为0
。
false positives
:在矩形R′内,但是不在矩形R 内。也就是实际label
为0
的被R′标记为1
。
有这样一个算法A,给一些被标记的样本S,算法会返回一个最紧的轴平行矩形(tightest axis-aligned rectangle
) R′=Rs ,包含了label
为1
的样本,如下图2.2
所示:
依据定义可知,Rs中不包含任何false postives
,因此Rs错误的区域(region
)被包含在R 中。 记R∈C为target concept
。固定ε>0。P[R]被定义为随机从分布D中采一个点,落入到R内的概率。因为由算法所导致的误差的点只会落入到R内,所以假设P[R]>ε。 定义好了P[R]>ε之后,再定义四个延边矩形r1,r2,r3,r4,每个的概率至少都是ε/4。这些region
可以从整个矩形R RR开始构造,然后移动其中的一条边,使其尽可能地小,但是要保证其distribution mass
至少都是ε/4,即P[ri]≥ε/4。如下图所示:
令l ,r ,b 和t 是四个真实的值,R 定义为:R=[l,r]×[b,t]。那对于左边的r4区域可以被定义成r4=[l,s4]×[b,t],其中s4=inf{s:P[[l,s]×[b,t]]≥1/4}。 如果RS与四个沿边矩形ri都有交集,因为其是矩形,所有每个region
ri中都有RS的一条边,也就是RS一定在矩形R 内,即R(RS)≤ε。相反,如果R(RS)>ε,那至少有一个region
RS没有边相交。可以写成:
也就是没有样本点在沿边矩形ri的内部或者边上。上式中我们使用了一个通用的不等式1−x≤e−x,对于任意δ>0,要使得
要注意的是这里的hypothesis set
H是无限的。上述证明PAC-learnable
用了矩形的几何关系,是整个证明的key
,上述的证明过程泛化能力并不是很强。之后会在finite hypothesis set
下证明更一般的情形。
PAC learning
在开始证明之前,我们需要先来了解一下这个PAC-learning
定义:
如果存在一个算法A和一个多项式函数plot(⋅,⋅,⋅,⋅),对于任意的ε>0和δ>0,对X上所有的分布D和任意一个target concept
c∈C,当样本m≥ploy(1/ε,1/δ,n,size(c))时,有:
也就是在很大概率(1−δ)上是近似正确的(误差为ε )。 有一些关键知识点:
PAC
框架是与分布D无关的,因为其没有对分布做任何假设。- 样本是从相同的分布D中采样得到的。
PAC
框架处理的是概念类(concept class
) C(is known to the algorithm
),而不是目标类(target concept
) c∈C (is unknown
)。
Guarantees for finite hypothesis sets — consistent case
在axis-aligned rectangles
的例子中,算法给出的hypothesis
hS总是consistent
,也就是说在training sample
S 上是没有error
的。针对consistent hypotheses
情形来证generalization bound
,假定target concept
c 在H中。
- 定理(
Learning bound
有限H,consistent
情况下):H是X到Y的一个有限集合。A是一个从任意target concept
c ∈ H ,样本S 满足独立同分布,的一个学习算法,返回一个consistent hypothesis
h S : R^S(hS)=0。对任意的ε , δ>0,如果
用generalization bound
来描述:对于任意ε , δ,至少以概率1−δ:
Proof:固定ε>0,定义H :R(h)≥ε}(泛化误差的含义是对随机一个样本,预测错误的概率。),对于h∈HE,它在training sample
S 下的consistent
(每个样本误差为0
的情况)可表示为:
又有(事件的包含关系,左边事情发生,则右边事情一定发生):
令等式右边等于δ即可得证。
Guarantees for finite hypothesis sets — inconsistent case
上一小节的证明是在consistent
情况下的证明,然而在大多数情况下是达不到这样一种情况的。更一般的假设可以采用Hoeffding inequality
来得到generalization error
和empirical error
之间的关系。
Corollary
(推论):固定ε>0,对于任意hypothesis
h:X→{0,1},有以下inequalities
:
Theorem(learning bound - finite
H, inconsistent case
):H是一个finite hypothesis
集合。对于任意δ>0,有概率至少1−δ以下式子成立:
Proof
:h1,⋯,hH是H中的elements
。采用corollary
将其union
在一起得到:
令右边等于δ 得证。consistent
在上述等式下也是成立的,这是一个更加松的bound
。从这里就可以得到hypothesis
的大小,样本大小和误差之间的关系。
Generalities
更一般的情况,输出的label
是输入数据的一个概率,比如说输入身高和体重预测这个人的性别这种问题。也就是说label是一个概率分布这样。
- 定义
Agnostic PAC learning
:
如果label
可以被某个function
f : X→Y 独一无二地确定下来,将其称为deterministic
,会存在某个target function
使得generalization error
R(h)=0,在stochastic
情形下就不存在说会使得某个hypothesis
下的error
为0
:
- 定义(
Bayes error
):给定distribution D,Bayes error R∗被定义为measurable function h : X→Y的误差下界:
hypothesis
h withR(h)=R∗被称作Bayes hypothesis
或者是Bayes classi er
。通过定义可知,在deterministic
的情况下R∗=0,但是在stochastic
的情况下R∗=0。 Bayes classi er
h Bayes可以被定义成以下条件概率的情形:
参考
- Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018).Foundations of machine learning. MIT press.
- https://zhuanlan.zhihu.com/p/66799567