value-based和policy-based的区别是什么？

强化学习中的策略优化主要有两类：基于value价值的方法和基于policy策略的方法（当然两者的结合产生了 Actor-Critic 等算法）。基于值函数的方法主要是学习值函数，然后根据值函数导出一个策略，学习过程中并不存在一个显式的策略；而基于策略的方法则是直接显式地学习一个目标策略。

value-based方法是先通过计算出值函数，然后再求策略；policy-based方法则是直接计算策略，更加直接，收敛速度更快，但是也更容易达到局部最优。

value-based方法方差小，但偏差大，而policy-based方法无偏差，但方差大。

value-based方法一般用来解决离散动作问题，policy-based方法一般用于解决连续动作问题。

value-based方法常见的有：sarsa、q-learning、DQN

policy-based方法常见的有：policy-gradient思想下属的REINFORCE算法，它是策略梯度方法中最早提出的，也是最简单、最基本的方法。