近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

互联网 2021/10/12 11:14:45

近端策略优化算法(Proximal Policy Optimization Algorithms, PPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. Advances in …

近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

    这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. Advances in Neural Information Processing Systems, 2017.的阅读笔记,用来介绍PPO优化方法及其一些公式的推导。文中给出了三种优化方法,其中第三种是第一种的拓展,这两种使用广泛,第二种实验验证效果不好,但也是一个小技巧。阅读本文,需要事先了解信赖域策略优化(Trust Region Policy Optimization, TRPO),从Proximal这个词汇中,可以联想到一类涉及矩阵范数的优化问题中的软阈值算子(soft thresholding/shrinkage operator)以及图Lasso求逆协方差矩阵(Graphical Lasso for inverse covariance matrix)中使用近端梯度下降(Proximal Gradient Descent, PGD)求解Lasso问题。

1. 前提知识

2. 方法一:Clipped Surrogate Objective

3. 方法二:Adaptive KL Penalty Coefficient

4. 方法三:Actor-Critic-Style Algorithm

5. 参考文献

[1] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. Advances in Neural Information Processing Systems, 2017.
[2] Proximal Policy Optimization — Spinning Up documentation https://spinningup.openai.com/en/latest/algorithms/ppo.html
[3] V. Mnih, A.Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, K. Kavukcuoglu. Asynchronous Methods for Deep Reinforcement Learning. ICML, 2016.
[4] Proximal Policy Optimization Algorithms, slides, https://dvl.in.tum.de/slides/automl-ss19/01_stadler_ppo.pdf

随时随地学软件编程-关注百度小程序和微信小程序
关于找一找教程网

本站文章仅代表作者观点,不代表本站立场,所有文章非营利性免费分享。
本站提供了软件编程、网站开发技术、服务器运维、人工智能等等IT技术文章,希望广大程序员努力学习,让我们用科技改变世界。
[近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)]http://www.zyiz.net/tech/detail-240334.html

上一篇:golang引用第三方包的报错:no required module provides package [完美解决]

下一篇:Go包管理

赞(0)
关注微信小程序
程序员编程王-随时随地学编程

扫描二维码或查找【程序员编程王】

可以随时随地学编程啦!

技术文章导航 更多>
扫一扫关注最新编程教程