分类 强化学习电子书 下的文章


撰写于:  浏览:1828 次  分类:强化学习电子书
REINFORCE介绍强化学习中的策略优化主要有两类:基于价值的方法和基于策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。基于价值的方法主要有DQN,而基于策略的方法有REINFORC[...]

撰写于:  浏览:2594 次  分类:强化学习电子书
强化学习中的策略优化主要有两类:基于value价值的方法和基于policy策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。value-based方法是先通过计算出值函数,然后再求策略;[...]

撰写于:  浏览:1212 次  分类:强化学习电子书
马尔可夫决策过程简介马尔可夫决策过程(Markov Decision Processes,MDP)是对强化学习中环境的形式化的描述,或者说是对于智能体所处的环境的一个建模。在强化学习中,几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。本文以Frozen Lake游戏为例,介绍一下马尔可夫决策过程。Frozen Lake 游戏介绍Frozen[...]

撰写于:  浏览:1853 次  分类:强化学习电子书
当我们使用gym创建环境的时候:env = gym.make('CartPole-v0')返回的env其实并非CartPole类本身,而是一个经过包装的环境。包装的过程可以看这里:def make(self, path, **kwargs): spec = self.spec(path) env = spec.m[...]

撰写于:  浏览:3083 次  分类:强化学习电子书
MuJoCo 简介MuJoCo全称为Multi-Joint dynamics with Contact,主要由华盛顿大学的Emo Todorov教授开发,应用于最优控制、状态估计、系统辨识等领域,在机器人动态多点接触的应用场合(如多指灵巧手操作)有明显优势。MuJoCo 现状介绍MuJoCo最初由华盛顿大学运动控制实验室主任、神经科学家Emo To[...]

撰写于:  浏览:1151 次  分类:强化学习电子书
SC2Env入门介绍SC2Env是星际争霸的环境,继承自environment.BaseSC2Env基本用法from pysc2.env import run_loop, sc2_env from pysc2.agents import random_agent from absl import app def main(args): [...]

撰写于:  浏览:2504 次  分类:强化学习电子书
1、episode的感性理解强化学习中,episode是个重要的术语。那么episode应该如何理解呢?An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in [...]

撰写于:  浏览:2478 次  分类:强化学习电子书
batch_size即批大小,如果把全部数据放入内存后再加载到显存中,空间显然不够的;如果一个一个数据加载训练并更新模型参数,效率极低。所以考虑一批一批地加载数据,每次送进去的数量就是batch_size,这样可以加快速度。用minibatch方法时会定义batch_size,即把整个数据集分几份后,每份的大小就是batch-size。假设把100[...]

撰写于:  浏览:1419 次  分类:强化学习电子书
RLlib入门介绍RLlib是一个用于强化学习的开源库,为生产级、高度分布式应用环境提供强化学习技术支持。RLlib已经被许多不同垂直领域的行业领导者用于生产,如气候控制、工业控制、制造和物流、金融、游戏、汽车、机器人、船舶设计等。RLlib原生支持Tensorflow和PyTorch,但其内部与这些框架无关。RLlib官网文档https://do[...]

撰写于:  浏览:1857 次  分类:强化学习电子书
SUMO简介SUMO,全称Simulation of Urban Mobility,是开源、微观、多模态的交通仿真软件。它纯粹是微观的,可以针对每辆车进行单独控制,因此非常适合交通控制模型的开发。SUMO最大的优点是可以利用TraCI((Traffic Control Interface))接口用Python语言实现模型开发学习SUMO是一个趋势,[...]

撰写于:  浏览:5030 次  分类:强化学习电子书
1、封面介绍2、出版时间2021年8月3、推荐理由本书从工业界一线算法工作者的视角,对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式,转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法,动作空间、状态空间和回报函数设计的理念,训练调试和[...]

撰写于:  浏览:2320 次  分类:强化学习电子书
1、封面介绍2、出版时间2021年6月3、推荐理由深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。本书分为三大部分,覆盖深度强化学习的全部内容。第一部分介绍深度学习和强化学习的入门知识、一些[...]

撰写于:  浏览:2985 次  分类:强化学习电子书
1、封面介绍2、出版时间2018年7月3、推荐理由本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学[...]

撰写于:  浏览:2276 次  分类:强化学习电子书
1、封面介绍2、出版时间2018年1月3、推荐理由《深入浅出强化学习:原理入门》针对初学者的需求,直接分析原理,并辅以编程实践。从解决问题的思路,层层剖析,普及了传统的强化学习基本方法和当前炙手可热的深度强化学习方法,直接将读者带入强化学习的殿堂。读完本书,读者能在熟练掌握原理的基础上,直接上手编程实践。《深入浅出强化学习:原理入门》用通俗易懂的语[...]

撰写于:  浏览:3220 次  分类:强化学习电子书
1、封面介绍2、出版时间2021年2月3、推荐理由《Python强化学习实战:使用OpenAI Gym、TensorFlow和Keras》带领读者深入强化学习算法的世界,并使用Python在不同用例中应用它们。书中涵盖了一些重要主题,例如策略梯度算法和Q学习算法,并使用了TensorFlow、Keras和OpenAIGym框架。  《Python强[...]

关注公众号,了解站长最新动态

    友情链接