本文共 731 字,大约阅读时间需要 2 分钟。
今天开始读统计学习方法,昨天看到关于联合概率分布和条件概率分布竟然忘记完了,上午看了下,下午接着继续阅读,看了12页,即将看到正则化合交叉检验来避免过拟合的现象。我现在合上课本把我能能想到的也就是印象最深的复习下吧没做个备忘:
1:统计学习三要素:模型、策略和算法。模型分两种条件概率的形式另外一个是决策函数,因为是监督学习最终是为了预测,所以个人感觉就是找到一个合适的数学表达式可以用来做后续的预测;策略就是如何按照什么样子的思想来约束这个表达式,让表达式更为准确的预测。这个上面遇到几个概念我觉得很有意义,一会把引申出来的几个词语数一下,算法就是如何来求在这个策略下的表达式的精确表达。
2:期望误差,经验误差,正则化、泛化。
这里面有个过拟合的东东,我就不说了太简单了。期望误差就是根据样本求得值以及和真实值之间的误差与他们的概率的乘积之和再除以样本个数,也就是概率论上定义的期望。
经验误差是根据样本利用模型求得的值与真实值之间的误差之和的平均值,也就是中学学习到的期望。
正则化:正则化也叫做结构风险误差最小化,因为用经验误差来衡量求得的模型的时候,往往会出现过拟合的现象,为了避免这个过拟合的现象就在经验风险最小化或者期望风险最小够添加一个关于模型复杂度的项来一起约束这个模型,来保证求得的最终的模型不会出现过拟合现象。
泛化:就是对数据的预测能力。
3:模型的复杂程度与训练误差成反比,和测试误差的关系式:模型越复杂在一定范围内测试误差越小,但是随着测试数据的增多误差会越来越大,所以模型的复杂度不一定是越大越好的。
PS:训练误差:训练样本中,根据样本得到的值和实际样本的值之间的差。测试误差:用来测试新数据(预测数据)和真实数据的值之间的误差。
转载地址:http://nmini.baihongyu.com/