强化学习中REINFORCE算法详细介绍

撰写于：2023-05-20 浏览：2094 次分类：深度强化学习技术分享

REINFORCE介绍

强化学习中的策略优化主要有两类：基于价值的方法和基于策略的方法（当然两者的结合产生了 Actor-Critic 等算法）。基于值函数的方法主要是学习值函数，然后根据值函数导出一个策略，学习过程中并不存在一个显式的策略；而基于策略的方法则是直接显式地学习一个目标策略。基于价值的方法主要有DQN，而基于策略的方法有REINFORCE，它是策略梯度方法中最早提出的，也是最简单、最基本的方法。

REINFORCE算法

REINFORCE算法仅使用一个网络，我们可以称之为策略网络。我们使用智能体网络与环境进行一个回合的交互，同时收集所有的轨迹信息，最后使用一个回合所有的交互信息更新策略网络。算法如下：

如需评论，请填写表单。

关注公众号，感悟技术与人生

飞燕网

一个踏实、严谨的网站！

专注于PyTorch、强化学习和大模型技术

强化学习中REINFORCE算法详细介绍

REINFORCE介绍

REINFORCE算法

分类

最新文章

热门文章

最新评论

友情链接