分类机器学习电子书下的文章

撰写于：2019-06-11 浏览：1773 次分类：机器学习电子书

主成分可以用已有的一个或多个变量表示。比如，可以使用生素C这个变量来区分不同的食物。因为蔬菜含维生素C而肉类普遍缺乏，所以可以通过维生素C这个变量区分蔬菜和肉类，但是无法进步区分不同的肉类。为了进一步区分不同的肉类，可以选择把脂肪含量作为第2个变量，因为肉类含有脂肪，而大部分蔬菜则不然。由于脂肪和维生素C的计量单位不同，因此在组合之前，必须先对它[...]

简明机器学习教程10：K均值聚类的局限性

撰写于：2019-06-10 浏览：2237 次分类：机器学习电子书

尽管K均值聚类方法很有用，但是它有一定的局限：（1）每个数据点只能属于一个群组。然而，数据点可能恰好位于两个群组中间，无法通过k均值聚类方法确定它应该属于哪个群组（2）群组被假定是正圆形的。查找距离某个群组中心点最近的数据点，这一迭代过程类似于缩小群组的半径，因此最终得到的群组在形状上类似于正圆形。假设群组的实际形状是椭圆形，那么在应用k均值聚类方[...]

简明机器学习教程9：超参数和参数

撰写于：2019-06-09 浏览：1931 次分类：机器学习电子书

机器学习一般包含两类参数：超参数和参数。超参数的数目通常不多，在10以内。参数的数目可能很多，如卷积神经网络中有近千万个参数(权重)。曲线拟合中，方程的次数就是超参数，多项式的系数就是参数。这两种参数的调参方式不同，超参数取值一般是人工设定的，参数值是根据参数优化算法自动寻优的。超参数的取值对模型泛化性能有重大的影响，验证集就是用来决定最优超参数取值的。

简明机器学习教程8：图像的特征：计算机“看到”的图像是什么？

撰写于：2019-06-08 浏览：1951 次分类：机器学习电子书

计算机“看”不到图像的内容，对它而言，图像是巨大的数值，即数值矩阵，矩阵元素表示像素的颜色信息。例如，某幅图像分群率为1280 x 720，表示图像有1280 x 720个像素点，则存储为1280 x 720的矩阵。对于彩色图像，每个像素点有红、绿、蓝( RGB)3个颜色的通道值，每个值在0(黑)到255(白)之间。对于灰度图像，每个像素点有亮度1[...]

简明机器学习教程7：特征缩放

撰写于：2019-06-07 浏览：1850 次分类：机器学习电子书

如果输人的数值属性具有非常大的比例差异，往往导致机器学习算法的性能表现不佳，当然也有极少数特例。案例中的房屋数据就是这样：房间总数的范围从6到39 320，而收入中位数的范围是0到15。注意，目标值通常不需要缩放。同比例缩放所有属性，常用的两种方法是：最小-最大缩放和标准化。最小-最大缩放，又叫作归一化，很简单：将值重新缩放使其最终范围归于0到1之[...]

简明机器学习教程6：相似特征

撰写于：2019-06-06 浏览：1904 次分类：机器学习电子书

解决非线性问题的另种技术是添加相似特征。这些特征经过相似函数计算得出，相似函数可以测量每个实例与一个特定地标之间的相似度。以前面提到过的一维数据集为例，在x=-2和x=1处添加两个地标。接下来，我们采用高斯径向基函数(RBF) 作为相似函数，y=0.3 高斯RBF这是一个从0 (离地标差得非常远)到1 (跟地标-样)变化的钟形函数。现在我们准备计算[...]

简明机器学习教程5：多项式特征

撰写于：2019-06-05 浏览：1780 次分类：机器学习电子书

处理非线性数据集的方法之是添加更多特征，比如多项式特征，某些情况下，这可能导致数据集变得线性可分离。下图是一个简单的数据集，只有一个特征x，可以看出，数据集线性不可分，但是如果添加第二个特征x2=(x1)2，生成的2D数据集则完全线性可分离。一个简单的方法就是将每个特征的幕次方添加为一个新特征，然后在这个拓展过的特征集上训练线性模型。一般情况下[...]

简明机器学习教程4：特征工程之缺失数据的处理

撰写于：2019-06-04 浏览：1832 次分类：机器学习电子书

处理缺失值主要有以下几种方法：（1）当某个变量的缺失值占比过大时，那么我们可以认为这一变量没有意义，可以直接删除。（2）缺失值可以用平均值、中值、分位数、众数、随机值等替代，但是效果一般，因为等于人为增加了噪声。（3）用其他变量做预测模型来算出缺失变量，效果比方法2略好，但有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果[...]

简明机器学习教程3：特征工程

撰写于：2019-06-03 浏览：1823 次分类：机器学习电子书

1、什么是特征？特征通常是建立在原始数据之上的特定表示，通常用数据集中的列表示。对于一个通用的二维数据集，每个观测值由一行表示，每个特征由一列表示，对于每一个观测具有一个特定的值。2、特征工程是什么？当你想要自己的预测模型性能达到最佳时，你要做的不仅是要选取最好的算法，还要尽可能的从原始数据中获取更多的信息。这就是特征工程要做的事，它的目的就是获取[...]

简明机器学习教程2：模型的分类

撰写于：2019-06-02 浏览：1691 次分类：机器学习电子书

模型，就是函数，模型通常分为下面三类：（1）线性模型（2）核模型（3）层次模型

简明机器学习教程1：模型与拟合

撰写于：2019-06-01 浏览：1799 次分类：机器学习电子书

1、什么是模型呢？简单的说，模型就是函数，就是数学公式。2、什么是拟合呢？经常看到一些复杂的公式，结构对称，身段优美，是某个天才晚上做梦想出来的吗？看下面这个公式：显然不太可能。那么它是怎么来的呢？我猜测：先画出来的，然后测算若干个x和y的关系，最后试出来的公式。这是一个根据数据不断猜和尝试的过程。上述的过程，就是拟合的过程。拟合，指的是对一些数据[...]

关注公众号，感悟技术与人生

飞燕网

一个踏实、严谨的网站！

专注于PyTorch、强化学习和大模型技术

分类机器学习电子书下的文章

分类

最新文章

热门文章

最新评论

友情链接

分类 机器学习电子书 下的文章

分类

最新文章

热门文章

最新评论

友情链接

分类机器学习电子书下的文章