撰写于    浏览:998 次  分类: 机器学习
计算机“看”不到图像的内容,对它而言,图像是巨大的数值,即数值矩阵,矩阵元素表示像素的颜色信息。例如,某幅图像分群率为1280 x 720,表示图像有1280 x 720个像素点,则存储为1280 x 720的矩阵。对于彩色图像,每个像素点有红、绿、蓝( RGB)3个颜色的通道值,每个值在0(黑)到255(白)之间。对于灰度图像,每个像素点有亮度1[...]

撰写于    浏览:885 次  分类: 机器学习
如果输人的数值属性具有非常大的比例差异,往往导致机器学习算法的性能表现不佳,当然也有极少数特例。案例中的房屋数据就是这样:房间总数的范围从6到39 320,而收入中位数的范围是0到15。注意,目标值通常不需要缩放。同比例缩放所有属性,常用的两种方法是:最小-最大缩放和标准化。最小-最大缩放,又叫作归一化,很简单:将值重新缩放使其最终范围归于0到1之[...]

撰写于    浏览:1107 次  分类: 微积分
自然界的物体运动都遵循牛顿三大定律,同样道理,人的思维也是一种物质,只要它是物质必然遵循着某种运动规律:任何人,做任何事情,70%的时间和精力都是用来试错的,这些付出并不能带来成功,而真正在正确的方向上努力的时间和精力占比不过30%。我之所以没有采用80%和20%的数字形式,而是为了避免与二八定理相混淆。因为上述规律的发现来自于:正态分布。世人公认[...]

撰写于    浏览:923 次  分类: 机器学习
解决非线性问题的另种技术是添加相似特征。这些特征经过相似函数计算得出,相似函数可以测量每个实例与一个特定地标之间的相似度。以前面提到过的一维数据集为例,在x=-2和x=1处添加两个地标。接下来,我们采用高斯径向基函数(RBF) 作为相似函数,y=0.3 高斯RBF这是一个从0 (离地标差得非常远)到1 (跟地标-样)变化的钟形函数。现在我们准备计算[...]

撰写于    浏览:861 次  分类: 机器学习
处理非线性数据集的方法之是添加更多特征, 比如多项式特征,某些情况下,这可能导致数据集变得线性可分离。下图是一个简单的数据集,只有一个特征x,可以看出,数据集线性不可分,但是如果添加第二个特征x2=(x1)2,生成的2D数据集则完全线性可分离。 一个简单的方法就是将每个特征的幕次方添加为一个新特征,然后在这个拓展过的特征集上训练线性模型。一般情况下[...]

撰写于    浏览:925 次  分类: 机器学习
处理缺失值主要有以下几种方法:(1)当某个变量的缺失值占比过大时,那么我们可以认为这一变量没有意义,可以直接删除。(2)缺失值可以用平均值、中值、分位数、众数、随机值等替代,但是效果一般,因为等于人为增加了噪声。(3)用其他变量做预测模型来算出缺失变量,效果比方法2略好,但有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果[...]

撰写于    浏览:831 次  分类: 机器学习
1、什么是特征?特征通常是建立在原始数据之上的特定表示,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。2、特征工程是什么?当你想要自己的预测模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息。这就是特征工程要做的事,它的目的就是获取[...]

撰写于    浏览:1034 次  分类: 微积分
数学是什么?在很多人的眼里,数学是公式。这个回答没有问题,对于一名中学生来说,对于一名大学生来说,这个回答一点问题都没有。但是世间万物在发展,人的年龄和阅历在增加,如果一个人一直还是这么认为,那么就有问题了。还是停留在书本上白纸黑字版本的数学概念、数学术语、数学公式层面,没有深化,没有升华,那肯定是有问题的。数学是公式,这是我对数学的第一阶段认识。[...]

撰写于    浏览:825 次  分类: 机器学习
模型,就是函数,模型通常分为下面三类:(1)线性模型(2)核模型(3)层次模型

撰写于    浏览:915 次  分类: 机器学习
1、什么是模型呢?简单的说,模型就是函数,就是数学公式。2、什么是拟合呢?经常看到一些复杂的公式,结构对称,身段优美,是某个天才晚上做梦想出来的吗?看下面这个公式:显然不太可能。那么它是怎么来的呢?我猜测:先画出来的,然后测算若干个x和y的关系,最后试出来的公式。这是一个根据数据不断猜和尝试的过程。上述的过程,就是拟合的过程。拟合,指的是对一些数据[...]

撰写于    浏览:1088 次  分类: 微积分
回归过去走过的路,风风雨雨十多年过去了,如果没有数学,我相信自己的命运不会这么顺利。知识改变命运,对我而言,是数学改变命运。如果不是数学,高考也好,考研也好,都难以有所突破。最后的突破往往都归结于数学给自己提升了不少分。在备考的过程中,我做了大量的数学习题,而且反复的做,做的滚瓜烂熟,在这个阶段,我认识到:数学就是公式,只有十分扎实和熟练的掌握数学[...]

撰写于    浏览:820 次  分类: 默认分类
网站公告自2019年6月1日起,本网站将推动三个方向的发展:(1)成为一个非盈利性组织。非盈利不代表没有营收项目。所有的营收归入:八月在线基金会。(2)以传播科学的学习方法为主,而不是工程技术问题。技术问题随时代变化、技术更替而变化,但是人的学习方法往往持久。(3)以分享机器学习,深度学习,AI技术等相关的资料为主,包括电子书,视频教程。

撰写于    浏览:1107 次  分类: Python 教程
备注:本文修订于2020年6月21日。1、windows环境变量的认识在windows安装程序要明白三点:(1)程序安装在哪里并不重要,最重要的是系统变量指向具体的安装路径,这样就能启动程序。(2)同一个程序可以安装多次,存放在不同的路径,通过修改环境变量的“指路标”,就能实现启动不同的程序,而这些程序也不会相互冲突。(3)也许你的系统已经安装了P[...]

撰写于    浏览:1055 次  分类: Python 教程
conda是一个包管理器,而anaconda是一个Python发行版。软件发行版是在系统上提前编译和配置好的软件包集合,装好了后就可以直接用。包管理器是自动化软件安装,更新,卸载的一种工具,也是一个可执行命令。conda有命令”conda install”, “conda update”, “conda remove”, 所以很明显, conda是[...]

撰写于    浏览:917 次  分类: Python 教程
备注:本文修订于2020年6月21日。1、Anaconda简介Anaconda 可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。2、Anaconda特点Anaconda具有如下特点:开源 安装过程简单 高性能使用Python和R语言 免费的社区支持[...]