撰写于:  浏览:2352 次  分类:默认分类
代价函数一般指损失函数。损失函数(loss function)或代价函数(cost function)在机器学习/深度学习中非常重要,因为训练模型的过程就是优化代价函数的过程。补充:代价函数与梯度的关系:代价函数对每个参数的偏导数就是梯度下降中提到的梯度。大多数深度学习算法都涉及某种函数形式的优化。优化指的是改变 x 以最小化或最大化某个函数 f([...]

撰写于:  浏览:6205 次  分类:强化学习电子书
1、Protobuf 简介Protocol Buffers(简称 Protobuf),是Google公司开发的一种数据描述语言,类似于XML能够将结构化数据序列化,可用于数据存储、数据交换、通信协议等方面。相比于它的前辈XML、Json,它的体量更小,解析速度更快,所以在业内获得了广泛的应用。在多智能体强化学习过程中,由于多个Agent位于不同的节[...]

撰写于:  浏览:2414 次  分类:强化学习电子书
Ray简介Ray是一个开源的人工智能分布式框架,它的目标是让开发者仅需添加数行代码就能轻松转为适合于计算机集群运行的高性能分布式应用。今天的深度学习越来越需要计算资源,像笔记本电脑这样的单节点开发环境无法扩展以满足算力需求,Ray是将Python和AI应用程序从笔记本电脑扩展到集群的统一方法。使用Ray,您可以将相同的代码从笔记本电脑无缝扩展到集群[...]

撰写于:  浏览:1862 次  分类:强化学习电子书
REINFORCE介绍强化学习中的策略优化主要有两类:基于价值的方法和基于策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。基于价值的方法主要有DQN,而基于策略的方法有REINFORC[...]

撰写于:  浏览:2623 次  分类:强化学习电子书
强化学习中的策略优化主要有两类:基于value价值的方法和基于policy策略的方法(当然两者的结合产生了 Actor-Critic 等算法)。基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。value-based方法是先通过计算出值函数,然后再求策略;[...]

撰写于:  浏览:2103 次  分类:默认分类
多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构,如下图: 从上图可以看到,多层感知机层与层之间是全连接的。多层感知机最底层是输入层,中间是隐藏层,最后是输出层。 需要注[...]

撰写于:  浏览:1223 次  分类:强化学习电子书
马尔可夫决策过程简介马尔可夫决策过程(Markov Decision Processes,MDP)是对强化学习中环境的形式化的描述,或者说是对于智能体所处的环境的一个建模。在强化学习中,几乎所有的问题都可以形式化地表示为一个马尔可夫决策过程。本文以Frozen Lake游戏为例,介绍一下马尔可夫决策过程。Frozen Lake 游戏介绍Frozen[...]

撰写于:  浏览:1888 次  分类:强化学习电子书
当我们使用gym创建环境的时候:env = gym.make('CartPole-v0')返回的env其实并非CartPole类本身,而是一个经过包装的环境。包装的过程可以看这里:def make(self, path, **kwargs): spec = self.spec(path) env = spec.m[...]

撰写于:  浏览:2121 次  分类:默认分类
AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,由谷歌(Google)旗下DeepMind公司开发。AlphaGo的辉煌战绩2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日[...]

撰写于:  浏览:2024 次  分类:默认分类
1、封面介绍2、出版时间2023年4月3、推荐理由人工智能(AI)时代已经来临,AIGC(人工智能生成内容)正在进一步激活人类的创造力。作为AIGC领域的标志性产品,ChatGPT问世即成为焦点,受到了市场广泛关注和赞誉。了解AI、AIGC,让我们从ChatGPT开始!本书从基础概念、技术原理、应用领域、未来展望四大维度深度阐述了ChatGPT“从[...]

撰写于:  浏览:2496 次  分类:默认分类
1、封面介绍2、出版时间2023年4月3、推荐理由AIGC带来的生产力变革与每个人都息息相关,本书适合所有人阅读,特别是文本、图片、音视频等各类内容创作者,以及科技行业、金融行业的从业者和对AI领域感兴趣的读者。AIGC是2023年的热点话题,现在已经有很多成熟的应用,ChatGPT是其中比较典型的应用,由此引发了人们对失业问题的担心。本书介绍了A[...]

撰写于:  浏览:2586 次  分类:默认分类
1、封面介绍2、出版时间2023年5月3、推荐理由本书面向对人工智能及ChatGPT感兴趣的读者,特别是想要全面了解ChatGPT的读者。无论是从应用角度还是从技术原理角度,读者都能从本书中获益。本书以通俗易懂的语言对ChatGPT进行全面讲解。本书分为10章。第1章对ChatGPT及ChatGPT的创造者OpenAI进行初步讲解。第2章讲解Cha[...]

撰写于:  浏览:2437 次  分类:默认分类
各位读者,大家好!本站是一个非盈利性网站,致力于给广大AI新人和爱好者提供学习资源。需要声明一点:本站所有的电子资源均是免费、公开分享,仅限于个人学习使用,请勿用于任何商业目的。想获取资源的读者,欢迎加入本站的技术社群。但是,为了避免不良用心的人或者电子书的二道贩子混入社群,所以先接受技术调查,请先回答下面几个问题,并发送给站长:(1)你的工作年限[...]

撰写于:  浏览:3116 次  分类:强化学习电子书
MuJoCo 简介MuJoCo全称为Multi-Joint dynamics with Contact,主要由华盛顿大学的Emo Todorov教授开发,应用于最优控制、状态估计、系统辨识等领域,在机器人动态多点接触的应用场合(如多指灵巧手操作)有明显优势。MuJoCo 现状介绍MuJoCo最初由华盛顿大学运动控制实验室主任、神经科学家Emo To[...]

撰写于:  浏览:1144 次  分类:PyTorch 教程
图神经网络简介图神经网络(Graph Neural Network,GNN)是指使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。图神经网络(Graph Neural Network,GNN)是近年来出现的一种利用深度学习直接对图结构数据进行学习的框架,其优异的性能引起了学[...]

关注公众号,了解站长最新动态

    友情链接