机器学习理论

时间:2019-08-08 15:30:46   收藏:0   阅读:117

机器学习模型

流程

技术分享图片

  1. 未知输入分布P(x)产生的输入{x~1~,x~2~,...,x~N~}放入到未知目标分布P(y | x)中产生训练样本D(包含输入x,输出y),D={(x~1~,y~1~),(x~2~,y~2~),?,(x~n~,y~n~)}
  2. 学习算法根据误差测量E~in~从假设集H中挑选出最优的假设式h作为最终假设式g
  3. 利用最终假设式来对样本D之外的数据进行预测

细节

机器学习的可行性

存在未知目标函数 f:x->y

和样本集 D={(x~1~,y~1~),(x~2~,y~2~),?,(x~n~,y~n~)}

能否通过学习算法和样本集在假设空间H中找到一个假设h足够靠近目标函数f

箱子实验1(\(\mu\)\(\nu\))

有一个箱子其中装了有限个数个石头(红色,绿色两种),每次从中取出一个石头并记录颜色然后放回,如此重复N次得到一个样本

从箱子中红色石头的占比是\(\mu\),样本中红色石头占比是\(\nu\)

那么\(\mu\)\(\nu\)有什么联系?

技术分享图片

引入霍夫丁不等式

P[|\(\nu-\mu\)|>\(\epsilon\)]\(\le2e^{-2\epsilon^2N}\)

P[坏事情]\(\le\)容忍度

霍夫丁不等式描述了\(\mu\)\(\nu\)的关系

实际应用中\(\mu\)往往是未知且不变的,知道的只有从样本得来的\(\nu\),当N越大,\(\mu\)\(\nu\)偏差超出容忍范围的概率就越小,\(\nu\)接近于\(\mu\)(\(\mu\)影响\(\nu\),而并非\(\nu\)影响\(\mu\))

应用过程中这与话往往反着说,即\(\mu\)接近于\(\nu\)

箱子实验2(E~in~(h)和E~out~(h))

在箱子实验1的基础上将每个石头外涂成灰色(这样就不清楚每个石头的实际颜色),使用一个假设式h(一种不依靠外部颜色鉴别石头颜色的方法)来对箱子内和样本的每个石头进行颜色辨认,并且涂上认为正确的颜色

完成后将外部颜色擦去,检查内外颜色是否一致

E~in~(h)=\(\frac{1}{N}\sum^N_{n=1}[[h(x_n)\neq f(x_n)]]\)

E~out~(h)=\(P[h(x)\neq f(x)]\)

P[|\(E_{in}(h)-E_{out}(h)\)|>\(\epsilon\)]\(\le2e^{-2\epsilon^2N}\)

箱子实验3(联合边界)

当使用多个假设式h~1~,h~2~,...,h~M~依次做箱子实验2(每个假设式做过之后将所有石头重新涂为灰色)

将最精准判断石头颜色(E~in~最接近E~out~)的假设式重命名为g

技术分享图片

霍夫丁不等式最对于一个假设式h成立,但现在目标多个假设式中的最好的一个假设式g的概率,所以霍夫丁不等式提供的保证变得淡化

  1. 如果(A\(\in\)B),那么P[A]\(\le\)P[B]
  2. P[A~1~ or A~2~ or ... or A~M~]\(\le\)P[A~1~]+P[A~2~]+...+P[A~M~]

将上式应用的当前情形(g\(\in\)H={h})

P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le\)P[ |\(E_{in}(h_1)-E_{out}(h_1)\)|>\(\epsilon\)

? or |\(E_{in}(h_2)-E_{out}(h_2)\)|>\(\epsilon\)

? ...

? or |\(E_{in}(h_M)-E_{out}(h_M)\)|>\(\epsilon\)]

? \(\le\sum^M_{m=1}\)P[|\(E_{in}(h_m)-E_{out}(h_m)\)|>\(\epsilon\)]

P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le2Me^{-2\epsilon^2N}\)

当假设式数量增加,概率变大,E~in~和E~out~联系减少,学习可行性降低

泛化边界

P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le2Me^{-2\epsilon^2N}\)

当我们给定一个容忍度\(\delta\)(坏事情发生的概率),那么至少有(1-\(\delta\))的概率(好事情发生的概率)使得

E~out~(g)\(\le\)E~in~(g)+\(\sqrt{\frac{1}{2N}ln\frac{2M}{\delta}}\)

E~out~(g)\(\ge\)E~in~(g)-\(\sqrt{\frac{1}{2N}ln\frac{2M}{\delta}}\)

这就是泛化边界

泛化理论(仅讨论二分类{+1,-1})

在机器学习应用中假设集H往往是无穷大的,即有无穷个假设式h,即联合边界产生的M是无穷大,导致泛化边界下上限太大而无用

成长函数正是要解决这个问题,来替代M

实际机器学习应用中,假设式之间的相似度较大,概率的重叠比较严重,导致联合边界极为松散

P[B~1~ or B~2~ or ... or B~M~]\(\le\)P[B~1~]+P[B~2~]+...+P[B~M~]

技术分享图片

m~H~(N)\(\le\)B(N,k)\(\le\sum_{i=0}^{d_{vc}(H)}(^N_i)\)\(\le2^N\)

使用成长函数替代

P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le2m_H(N)e^{-2\epsilon^2N}\)

vapnik-chervonenkis不等式

P[|\(E_{in}(g)-E_{out}(g)\)|>\(\epsilon\)]\(\le4m_H(2N)e^{-\frac{1}{8}\epsilon^2N}\)

只要存在断点,当N变大,样本内外的联系就越紧密

小结

以上来自及其视频

理论确是有助于理解实践中的做法,水平有限,复杂证明就不写了(我也不是很理解)

原文:https://www.cnblogs.com/redo19990701/p/11321315.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!