分类 强化学习电子书 下的文章


撰写于:  浏览:286 次  分类:强化学习电子书
提示:本文更新于2025年12月17日在线学习和离线学习介绍在强化学习中,在线学习和离线学习代表了两种不同的数据使用范式。在线学习要求智能体通过与环境实时交互来收集数据,并立即用这些新数据更新策略。这种方法使智能体能够持续探索最新状态,但其“边交互边学习”的特性也容易导致策略更新不稳定——当新策略偏离旧策略过多时,可能引发性能的断崖式下降。以PPO[...]

撰写于:  浏览:223 次  分类:强化学习电子书
1、封面介绍 2、出版时间2025年5月3、内容介绍《强化学习基础、原理与应用》循序渐进地讲解了使用Python语言实现强化学习的核心算法开发的知识,内容涵盖了数据处理、算法、大模型等知识,并通过具体实例的实现过程演练了各个知识点的使用方法和使用流程。全书共分为17章,主要内容包括强化学习基础、马尔可夫决策过程、蒙特卡洛方法、Q-Iearni[...]

撰写于:  浏览:330 次  分类:强化学习电子书
1、封面介绍 2、出版时间2025年4月3、内容介绍本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不[...]

撰写于:  浏览:199 次  分类:强化学习电子书
1、封面介绍 2、出版时间2025年3月3、内容介绍本书是对强化学习算法的综合性讲解书籍,内容包括主要的强化学习算法的实现思路讲解,以及主要的优化方法的原理讲解。本书介绍的每个算法都分为原理讲解和代码实现两部分,代码实现是为了通过实验验证原理部分的可行性。通过本书的学习,读者可以快速地了解强化学习算法的设计原理,掌握强化学习算法的实现过程,并[...]

撰写于:  浏览:4049 次  分类:强化学习电子书
1、封面介绍2、出版时间2024年8月3、内容介绍本书系统介绍了基于强化学习的多智能体协同技术,涉及进化算法、纳什均衡等相关主题,讨论了基于强化学习的多智能体协同理论、一致性学习算法、基于协同Q学习算法的多智能体规划技术等,并给出了针对多机器人协同问题的应用实例。本书不仅包含多智能体强化学习协同研究的最新进展,而且提供了一种相对于传统方法更加高效的[...]

撰写于:  浏览:1071 次  分类:强化学习电子书
1、封面介绍2、出版时间2022年7月3、内容介绍本书系统介绍了基于强化学习的多智能体协同技术,涉及进化算法、纳什均衡等相关主题,讨论了基于强化学习的多智能体协同理论、一致性学习算法、基于协同Q学习算法的多智能体规划技术等,并给出了针对多机器人协同问题的应用实例。本书不仅包含多智能体强化学习协同研究的最新进展,而且提供了一种相对于传统方法更加高效的[...]

撰写于:  浏览:1592 次  分类:强化学习电子书
1、封面介绍2、出版时间2022年7月3、内容介绍我们在与环境交互的过程中进行学习,经历的奖励或惩罚将指导我们未来的行为。深度强化学习将该过程引入人工智能领域,通过分析结果来寻找最有效的前进方式。DRL智能体可提升营销效果、预测股票涨跌,甚至击败围棋高手和国际象棋大师。《深度强化学习图解》呈现生动示例,指导你构建深度学习体系。Python代码包含详[...]

撰写于:  浏览:6328 次  分类:强化学习电子书
1、Protobuf 简介Protocol Buffers(简称 Protobuf),是Google公司开发的一种数据描述语言,类似于XML能够将结构化数据序列化,可用于数据存储、数据交换、通信协议等方面。相比于它的前辈XML、Json,它的体量更小,解析速度更快,所以在业内获得了广泛的应用。在多智能体强化学习过程中,由于多个Agent位于不同的节[...]

撰写于:  浏览:1273 次  分类:强化学习电子书
马尔可夫决策过程简介马尔可夫决策过程(Markov Decision Processes,MDP)是对强化学习中环境的形式化的描述,或者说是对于智能体所处的环境的一个建模。在强化学习中,几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。本文以Frozen Lake游戏为例,介绍一下马尔可夫决策过程。Frozen Lake 游戏介绍Frozen[...]

撰写于:  浏览:1984 次  分类:强化学习电子书
当我们使用gym创建环境的时候:env = gym.make('CartPole-v0')返回的env其实并非CartPole类本身,而是一个经过包装的环境。包装的过程可以看这里:def make(self, path, **kwargs): spec = self.spec(path) env = spec.m[...]

撰写于:  浏览:3241 次  分类:强化学习电子书
MuJoCo 简介MuJoCo全称为Multi-Joint dynamics with Contact,主要由华盛顿大学的Emo Todorov教授开发,应用于最优控制、状态估计、系统辨识等领域,在机器人动态多点接触的应用场合(如多指灵巧手操作)有明显优势。MuJoCo 现状介绍MuJoCo最初由华盛顿大学运动控制实验室主任、神经科学家Emo To[...]

撰写于:  浏览:1198 次  分类:强化学习电子书
SC2Env入门介绍SC2Env是星际争霸的环境,继承自environment.BaseSC2Env基本用法from pysc2.env import run_loop, sc2_env from pysc2.agents import random_agent from absl import app def main(args): [...]

撰写于:  浏览:2661 次  分类:强化学习电子书
1、episode的感性理解强化学习中,episode是个重要的术语。那么episode应该如何理解呢?An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in [...]

撰写于:  浏览:2661 次  分类:强化学习电子书
batch_size即批大小,如果把全部数据放入内存后再加载到显存中,空间显然不够的;如果一个一个数据加载训练并更新模型参数,效率极低。所以考虑一批一批地加载数据,每次送进去的数量就是batch_size,这样可以加快速度。用minibatch方法时会定义batch_size,即把整个数据集分几份后,每份的大小就是batch-size。假设把100[...]

撰写于:  浏览:5187 次  分类:强化学习电子书
1、封面介绍2、出版时间2021年8月3、推荐理由本书从工业界一线算法工作者的视角,对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式,转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法,动作空间、状态空间和回报函数设计的理念,训练调试和[...]

关注公众号,感悟技术与人生

飞燕网
一个踏实、严谨的网站!

专注于PyTorch、强化学习和大模型技术

    友情链接