机器学习——正则化

作者 : 开心源码 本文共1111个字,预计阅读时间需要3分钟 发布时间: 2022-05-12 共73人阅读

问题:过拟合

算法训练结束后可能会产生两种让人不想面对的结果,一种是欠拟合,一种是过拟合。需要注意二者针对的对象都是训练数据,再结合名字就非常容易了解这两个名字的意思了。
欠拟合:即便是在训练数据上都存在较大的误差。
过拟合:在训练数据上误差非常小甚至没有误差,过度的拟合了训练数据以至于失去了数据整体上的趋势不能很好的使用在真实数据上。
过拟合产生的起因主要有两个,过多的特征参数,过少的训练数据。
过多的特征参数:选择的参数中存在少量对结果没有什么贡献,捣乱居多的特征。(例如房价预测中的3阶和4阶项)
过少的训练数据:在特征参数选择过多的情况下训练数据还少了,训练起来就抓不住主要方向了就开始乱搞了。

处理方法也主要是针对这两个起因来的,其中效果又好操作起来又简单的就是添加更多高质量的训练数据了,Google不是有句话叫做”更多的数据胜过更好的算法“吗?自己感觉训练数据的添加也是现在AI技术逐渐走入生活的起因,由于互联网的发展为算法提供了海量的数据作为养料。但是训练数据的获取也不是那么的容易的,特别是高质量的训练数据。
所以大佬们瞄向了另外一个起因双管齐下,就不信它还过拟合。对症下药乱七八糟的特征多了那就去掉少量没什么使用的特征,具体的方法是课程中提到的Model selection algorithm。之后会学那就之后再来升级吧。直接舍弃少量特征简单粗暴,但是按照吴老师的话来说在你舍弃少量特征的同时也舍弃了一部分信息,而且这些特征收集起来也不容易舍不得怎样办。这个时候就轮到正则化方法(regularization)登场了。

方法之一:正则化

当参数太多的情况下由于搞不清楚哪个参数和结果的关联度比较小,所以正则化缩小每一个参数θ,这样得到的模型更为简单平滑。为什么参数θ小模型就布局平滑呢?平滑的模型其导数的绝对值一般来说较小,过拟合的模型一般来说比较曲折如下图所示:

[图片上传失败…(image-e8ac7e-1535340829748)]

而对于线性模型y=Wx来说导数就是模型的参数本身,因而,减小参数绝对值即可以达到减小导数绝对值的效果,就可达到平滑模型、防止过拟合的效果。最终课程中得到的代价函数如下所示:

J(θ)=\frac{1}{2m}[\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})^2+λ\sum_{i=1}^nθ_j^2] \tag{1}

公式右边的即为正则项,这个公式中用的是L_2范数作为正则项,既然有L_2那么一定就会有L_0L_1了,具体的含义和区别可以参考参考资料[1]中的高票答复。除了L_p范数可以作为正则项,还存在其余的正则项,但是目前还不理解,学习了之后再升级吧。
参考资料:
机器学习中常常提到的正则化是什么意思? [1]
了解正则化项L1和L2的区别[2]

博客原文:https://blog.yinaoxiong.cn/2018/08/03/机器学习-正则化.html

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 机器学习——正则化

发表回复