首页
PyTorch安装
PyTorch whl安装
CUDA安装
cuDNN安装
PyTorch官方入门
PyTorch API学习
PyG官方入门
PyTorch精品教程
Tensor维度详解
PyTorch计算图
梯度下降法
PyTorch Adam
梯度装饰器
电子书与软件
AI数学电子书
AI作图工具
LaTex入门教程
LaTex常用命令
LaTex在线编辑器
AI实习岗招聘
AI面试十大考点
AI实习内推社群
飞燕AI训练营
关于网站
分类
强化学习
下的文章
Pop-Art算法详细介绍
撰写于:
2024-07-14
浏览:88 次 分类:
强化学习
Pop与Art分别表示Preserving Outputs Percisely以及Adaptive Rescaling Target, 即在保障已历经样本输出不变的前提下自适应缩放target值的算法。这个算法来自文献:《Multi-task Deep Reinforcement Learning with popart》。PopArt这个算法本来[...]
强化学习基本原理
撰写于:
2023-07-01
浏览:685 次 分类:
强化学习
Q-learning 算法介绍
撰写于:
2023-06-29
浏览:694 次 分类:
强化学习
Q-Learning是强化学习中的最基础算法,它基于Q-Table来实现。这个表格的每一行都代表着一个状态(state),每一行的每一列都代表着一个动作(action),而每个值就代表着如果在该state下采取该action所能获取的最大的未来期望奖励。通过Q-Table就可以找到每个状态下的最优行为,进而通过找到所有的最优action来最终得到最[...]
深刻理解强化学习中的Q值和V值
撰写于:
2023-06-29
浏览:672 次 分类:
强化学习
在马尔可夫决策过程中,当智能体从一个状态S,选择动作A,会进入另外一个状态S'。同时,也会给智能体奖励R。 奖励既有正,也有负,正代表我们鼓励智能体在这个状态下继续这么做,负得话代表我们并不希望智能体这么做。 在强化学习中,我们会用奖励R作为智能体学习的引导,期望智能体获得尽可能多的奖励。需要注意的是:很多时候,我们并不能单纯通过R来衡量一个动作的[...]
protobuf 版本问题:Downgrade the protobuf package to 3.20.x or lower.
撰写于:
2023-05-22
浏览:3871 次 分类:
强化学习
1、Protobuf 简介Protocol Buffers(简称 Protobuf),是Google公司开发的一种数据描述语言,类似于XML能够将结构化数据序列化,可用于数据存储、数据交换、通信协议等方面。相比于它的前辈XML、Json,它的体量更小,解析速度更快,所以在业内获得了广泛的应用。在多智能体强化学习过程中,由于多个Agent位于不同的节[...]
分布式框架Ray详细介绍
撰写于:
2023-05-21
浏览:1198 次 分类:
强化学习
Ray简介Ray是一个开源的人工智能分布式框架,它的目标是让开发者仅需添加数行代码就能轻松转为适合于计算机集群运行的高性能分布式应用。今天的深度学习越来越需要计算资源,像笔记本电脑这样的单节点开发环境无法扩展以满足算力需求,Ray是将Python和AI应用程序从笔记本电脑扩展到集群的统一方法。使用Ray,您可以将相同的代码从笔记本电脑无缝扩展到集群[...]
强化学习中REINFORCE算法详细介绍
撰写于:
2023-05-20
浏览:734 次 分类:
强化学习
REINFORCE介绍强化学习中的策略优化主要有两类:基于价值的方法和基于策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。基于价值的方法主要有DQN,而基于策略的方法有REINFORC[...]
value-based和policy-based的区别是什么?
撰写于:
2023-05-20
浏览:1140 次 分类:
强化学习
强化学习中的策略优化主要有两类:基于value价值的方法和基于policy策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。value-based方法是先通过计算出值函数,然后再求策略;[...]
马尔可夫决策过程(MDP)是什么?
撰写于:
2023-05-19
浏览:543 次 分类:
强化学习
马尔可夫决策过程简介马尔可夫决策过程(Markov Decision Processes,MDP)是对强化学习中环境的形式化的描述,或者说是对于智能体所处的环境的一个建模。在强化学习中,几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。本文以Frozen Lake游戏为例,介绍一下马尔可夫决策过程。Frozen Lake 游戏介绍Frozen[...]
env.unwrapped 的作用
撰写于:
2023-05-18
浏览:716 次 分类:
强化学习
当我们使用gym创建环境的时候:env = gym.make('CartPole-v0')返回的env其实并非CartPole类本身,而是一个经过包装的环境。包装的过程可以看这里:def make(self, path, **kwargs): spec = self.spec(path) env = spec.m[...]
MuJoCo 简介
撰写于:
2023-03-18
浏览:1335 次 分类:
强化学习
MuJoCo 简介MuJoCo全称为Multi-Joint dynamics with Contact,主要由华盛顿大学的Emo Todorov教授开发,应用于最优控制、状态估计、系统辨识等领域,在机器人动态多点接触的应用场合(如多指灵巧手操作)有明显优势。MuJoCo 现状介绍MuJoCo最初由华盛顿大学运动控制实验室主任、神经科学家Emo To[...]
SC2Env入门介绍
撰写于:
2023-03-15
浏览:598 次 分类:
强化学习
SC2Env入门介绍SC2Env是星际争霸的环境,继承自environment.BaseSC2Env基本用法from pysc2.env import run_loop, sc2_env from pysc2.agents import random_agent from absl import app def main(args): [...]
强化学习中的episode如何理解和翻译?
撰写于:
2023-03-15
浏览:1181 次 分类:
强化学习
1、episode的感性理解强化学习中,episode是个重要的术语。那么episode应该如何理解呢?An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in [...]
强化学习中的 episode、epoch、batch-size、iteration
撰写于:
2023-03-15
浏览:931 次 分类:
强化学习
batch_size即批大小,如果把全部数据放入内存后再加载到显存中,空间显然不够的;如果一个一个数据加载训练并更新模型参数,效率极低。所以考虑一批一批地加载数据,每次送进去的数量就是batch_size,这样可以加快速度。用minibatch方法时会定义batch_size,即把整个数据集分几份后,每份的大小就是batch-size。假设把100[...]
RLlib入门介绍
撰写于:
2023-03-15
浏览:620 次 分类:
强化学习
RLlib入门介绍RLlib是一个用于强化学习的开源库,为生产级、高度分布式应用环境提供强化学习技术支持。RLlib已经被许多不同垂直领域的行业领导者用于生产,如气候控制、工业控制、制造和物流、金融、游戏、汽车、机器人、船舶设计等。RLlib原生支持Tensorflow和PyTorch,但其内部与这些框架无关。RLlib官网文档https://do[...]
1
2
飞燕网专注于AI实习
合作伙伴有100+企业
分类
默认分类
算法工程师经验分享
Python 教程
自然语言处理与推荐系统
计算机视觉
机器学习
强化学习
PyTorch 教程
数学电子书
数据结构与算法电子书
人工智能实习与内推
微积分
网站公告
图神经网络
飞燕AI训练营
多智能体与无人机
最新文章
计算机视觉之初学者入门指导
camera-ready...
Pytorch Tens...
PyTorch自动微分的...
PyTorch中GPU与...
PyTorch中.to(...
torch.nn.Dat...
飞燕经验之谈:AI数学基...
numpy.where(...
Pop-Art算法详细介绍
PyTorch全局设置当...
深入理解PyTorch中...
Xavier初始化(Xa...
飞燕AI公开课(2024...
淘天搜索算法工程师(视觉...
热门文章
《 百面深度学习》高清完整PDF版 下载
《深度学习推荐系统》全彩版 高清完整PDF版 下载
技术交流群-成员昵称-参考列表
《Python深度学习:基于PyTorch》中文版 高清完整PDF版 下载
《机器学习的数学》高清完整PDF版 下载
《优美的数学思维(原书第2版)》高清完整PDF版 下载
Keras怎么读?解读Keras英文发音
《数学之美 第三版》高清完整PDF版 下载
最新评论
xxxx
:
谢谢
安全科学家
:
请赐教,谢谢
matt
:
非常值得推荐
晒衣你
:
好书
半缘君
:
个人学习用,谢谢支持
xiaobai
:
大佬,可以麻烦您发我[...]
bodong
:
感谢分享
Ruozi
:
非常好的书
ddT
:
感谢分享
雨花石
:
好资源,认真学习
友情链接