分类 微积分 下的文章


撰写于    浏览:356 次  分类: 微积分
哥尼斯堡(今俄罗斯加里宁格勒)是东普鲁士的首都,普莱格尔河横贯其中。十八世纪在这条河上建有七座桥,将河中间的两个岛和河岸联结起来。人们闲暇时经常在这上边散步,一天有人提出:能不能每座桥都只走一遍,最后又回到原来的位置。这个看起来很简单又很有趣的问题吸引了大家,很多人在尝试各种各样的走法,但谁也没有做到。看来要得到一个明确、理想的答案还不那么容易。 [...]

撰写于    浏览:323 次  分类: 微积分
拓扑学简介拓扑学是几何学的一个分支,但是这种几何学又和通常的平面几何、立体几何不同。通常的平面几何或立体几何研究的对象是点、线、面之间的位置关系以及它们的度量性质。拓扑学对于研究对象的长短、大小、面积、体积等度量性质和数量关系都无关。例如,欧拉在解决哥尼斯堡七桥问题的时候,他画的图形就不考虑它的大小、形状,仅考虑点和线的个数。拓扑等价拓扑等价是比较[...]

撰写于    浏览:311 次  分类: 微积分
微积分是微分和积分的总称。它是数学的一个基础学科,主要包括极限、微分学、积分学及其应用。如果将整个数学比作一棵大树,那么初等数学是树的根,名目繁多的数学分支是树枝,而树干的主要部分就是微积分。微积分堪称是人类智慧最伟大的成就之一。微积分的学习内容还是很多的,相对起来也比较难,所以心态很重要,千万不要把微积分当成是洪水猛兽。把心态放好来,正视自己在学[...]

撰写于    浏览:977 次  分类: 微积分
lr_scheduler 简介torch.optim.lr_scheduler模块提供了一些根据epoch训练次数来调整学习率(learning rate)的方法。一般情况下我们会设置随着epoch的增大而逐渐减小学习率从而达到更好的训练效果。为什么需要调整学习率在深度学习训练过程中,最重要的参数就是学习率,通常来说,在整个训练过层中,学习率不会一[...]

撰写于    浏览:958 次  分类: 微积分
学习率的作用在机器学习中,监督式学习通过定义一个模型,并根据训练集上的数据估计最优参数。梯度下降法是一个广泛被用来最小化模型误差的参数优化算法。梯度下降法通过多次迭代,并在每一步中最小化成本函数在迭代过程中会控制模型的学习进度。​在梯度下降法中,都是给定的统一的学习率,整个优化过程中都以确定的步长进行更新,在迭代优化的前期中,学习率较大,则前进的步[...]

撰写于    浏览:1189 次  分类: 微积分
1、什么是学习率?学习率是指导我们在梯度下降法中,如何使用损失函数的梯度调整网络权重的超参数。其数学表达式如下所:new_weight = old_weight - learning_rate * gradient2、学习率的数学本质如上述公式,我们可以看到,学习率类似于微积分中的dx,所以学习率也被称为步长。3、学习率对损失值甚至深度网络的影响?[...]

撰写于    浏览:815 次  分类: 微积分
AdaGrad算法是什么?AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。梯度下降算法、随机梯度下降算法(SGD)、小批量梯度下降算法(mini-batch SGD)、动量法(momentum)、Nesterov动量法有一个共同的特点是:对于每一个参数都用相同的学习率进行更新。但[...]

撰写于    浏览:888 次  分类: 微积分
AdaGrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。其公式如下:但是我们发现一个现象,本来应该是随着gradient的增大,我们的学习率是希望增大的,也就是图中的gt;但是与此同时随着gradient的增大,我们的分母是在逐渐增大,也就对整体学习率是减少的,这是为什么呢?这是因为随着我们更[...]

撰写于    浏览:740 次  分类: 微积分
Adam优化器是深度学习中最流行的优化器之一。它适用于很多种问题,包括带稀疏或带噪声梯度的模型。其易于精调的特性使得它能够快速获得很好的结果,实际上,默认的参数配置通常就能实现很好的效果。Adam 优化器结合了 AdaGrad 和 RMSProp 的优点。Adam 对每个参数使用相同的学习率,并随着学习的进行而独立地适应。此外,Adam 是基于动量[...]

撰写于    浏览:773 次  分类: 微积分
概述梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法。对于深度学习模型,基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理:目标函数关于参数的梯度将是目标函数上升最快的方向。对于最小化优化问题,只需要将参数沿着梯度相反的方向前进一个步长,就可以实现目标函数的下降。这个步长又称[...]

撰写于    浏览:1507 次  分类: 微积分
1、随机梯度下降是什么?随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,即: θ=θ−η⋅∇θJ(θ;xi;yi)2、随机梯度下降(SGD)算法的优势批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并且可以进[...]

撰写于    浏览:926 次  分类: 微积分
如何看待微分的意义,可以有不同的角度,最常用的两种是:(1)函数图像中,某点的切线的斜率(2)函数的变化率通常情况下都是单变量的微分,当一个函数有多个变量的时候,就有了多变量的微分,即分别对每个变量进行求微分。梯度实际上就是多变量微分的一般化。梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用<>包括起来,说明梯度其实一个向量。[...]

撰写于    浏览:794 次  分类: 微积分
梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来,找到山的最低点,也就是山谷。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方[...]

撰写于    浏览:936 次  分类: 微积分
丘成桐,国际数学大师,著名华人数学家。他囊括菲尔兹奖、沃尔夫奖、克拉福德奖等三个世界顶级大奖。尤其是菲尔兹奖,由于其获奖人数非常稀少,且获奖人的成就都非常突出,影响巨大,被誉为“数学界中的诺贝尔奖”。如此一位站在云端的数学大神,现今手撕华为大佬任正非引发众多吃瓜群众观摩,事情的起因是这样的。前段时间,任正非在多次采访中提到华为有700多个数学家,8[...]

撰写于    浏览:8153 次  分类: 微积分
备注:本文修改时间为2021年5月27日大家好,我是飞燕网的站长,本文给大家说一下梯度以及梯度的物理意义吧。对于“梯度”这个东西,很多初学者搞不清楚,就连知乎上的大V,也是独乐乐不能与众乐乐,洋洋散散说了半天,读者也是一头雾水。之所以大家对“梯度”一头雾水,这是因为大家没有一个明确的理解路线,站长对梯度的理解路线为:导数->偏导数->方[...]

飞燕网
专注于强化学习

    友情链接