1、封面介绍

book.jpg

2、出版时间

2020年3月

3、推荐理由

《深入浅出强化学习:编程实战》是《深入浅出强化学习:原理入门》的姐妹篇。

1 实战性强:以编程实战为主线,旨在帮助读者通过实战更清晰地理解算法并快速应用。

2 系统全面:在马尔可夫理论框架下,介绍了最基本的算法,涵盖了基于值函数的算法,直接策略搜索方法,基于模型的强化学习方法等。

3 前沿技术分析:剖析了AlphaZero强大技术背后的深度强化学习原理,并介绍了它在五子棋上的具体实现。

4 操作性强:读者可根据书中的代码直接上手,并通过修改程序中的超参数,亲自体会算法原理。

《深入浅出强化学习:编程实战》是《深入浅出强化学习:原理入门》的姊妹篇,写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。

本书首先介绍马尔可夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分3 篇介绍了目前强化学习算法中最基本的算法。第1 篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。第2 篇讲解直接策略搜索方法,介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。第3 篇讲解基于模型的强化学习方法,介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。建议读者根据书中的代码亲自动手编程,并修改程序中的超参数,根据运行结果不断体会算法原理。

4、下载链接

见文末网站公告。