强化学习 10: 实践中的少量技巧

作者 : 开心源码 本文共754个字,预计阅读时间需要2分钟 发布时间: 2022-05-12 共121人阅读

在实践中有时候为了达到更好的效果需要用少量技巧。

Practical Reinforcement Learning

1. 我们知道在交叉熵方法中,例如进行一百次试验,那么只要要选择其中最好的25次。这样的采样其实是效率很低的。

所以可以用少量小窍门来让它执行得更高效少量。例如可以重新利用一下过去的3到5次迭代中的样本,即不需要每次都采样几百次几千次,也许可以只采样20次,而后剩下的80次是利用之前的样本。

2. 交叉熵方法还有一个问题是,有些时候会陷入局部最优的情况。例如有少量神经网络结构会导致它产生梯度爆炸,那么 agent 就很大可能不会遇见零概率的情况。

在强化学习中这个问题是很糟糕的,由于假如没有概率为零的 action,就意味着 agent 会错过某些 action 和 state,由于素来没有采取过这个 action,即可能导致遇见的只是一个局部最优解,真正的最优解还没有机会遇见。有一种最简单的处理方法是对熵做正规化。

3. 对于交叉熵方法,很容易应用并行算法。例如我们要对视频游戏采样1000次,即可以并行地进行采样。

4. 还有一个情况是,假如我们不想仅仅依赖于当前的观察,可以用少量神经网络结构来记忆存储,存储前面的少量有用的信息,这个会在后面学习。


学习资料:

Practical Reinforcement Learning

推荐阅读历史技术博文链接汇总

http://www.songma.com/p/28f02bb59fe5

也许可以找到你想要的:

[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言解决][聊天机器人]


Hello World !

This is不会停的蜗牛Alice !

?? 要开始连载强化学习系列啦!

今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

上一篇 目录 已是最后

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 强化学习 10: 实践中的少量技巧

发表回复