分类 机器学习 下的文章


撰写于    浏览:886 次  分类: 机器学习
主成分可以用已有的一个或多个变量表示。 比如,可以使用生素C这个变量来区分不同的食物。因为蔬菜含维生素C而肉类普遍缺乏,所以可以通过维生素C这个变量区分蔬菜和肉类,但是无法进步区分不同的肉类。为了进一步区分不同的肉类,可以选择把脂肪含量作为第2个变量,因为肉类含有脂肪,而大部分蔬菜则不然。由于脂肪和维生素C的计量单位不同,因此在组合之前,必须先对它[...]

撰写于    浏览:1142 次  分类: 机器学习
尽管K均值聚类方法很有用,但是它有一定的局限:(1)每个数据点只能属于一个群组。然而,数据点可能恰好位于两个群组中间,无法通过k均值聚类方法确定它应该属于哪个群组(2)群组被假定是正圆形的。查找距离某个群组中心点最近的数据点,这一迭代过程类似于缩小群组的半径,因此最终得到的群组在形状上类似于正圆形。假设群组的实际形状是椭圆形,那么在应用k均值聚类方[...]

撰写于    浏览:977 次  分类: 机器学习
机器学习一般包含两类参数:超参数和参数。超参数的数目通常不多,在10以内。参数的数目可能很多,如卷积神经网络中有近千万个参数(权重)。曲线拟合中,方程的次数就是超参数,多项式的系数就是参数。这两种参数的调参方式不同,超参数取值一般是人工设定的,参数值是根据参数优化算法自动寻优的。超参数的取值对模型泛化性能有重大的影响,验证集就是用来决定最优超参数取值的。

撰写于    浏览:987 次  分类: 机器学习
计算机“看”不到图像的内容,对它而言,图像是巨大的数值,即数值矩阵,矩阵元素表示像素的颜色信息。例如,某幅图像分群率为1280 x 720,表示图像有1280 x 720个像素点,则存储为1280 x 720的矩阵。对于彩色图像,每个像素点有红、绿、蓝( RGB)3个颜色的通道值,每个值在0(黑)到255(白)之间。对于灰度图像,每个像素点有亮度1[...]

撰写于    浏览:857 次  分类: 机器学习
如果输人的数值属性具有非常大的比例差异,往往导致机器学习算法的性能表现不佳,当然也有极少数特例。案例中的房屋数据就是这样:房间总数的范围从6到39 320,而收入中位数的范围是0到15。注意,目标值通常不需要缩放。同比例缩放所有属性,常用的两种方法是:最小-最大缩放和标准化。最小-最大缩放,又叫作归一化,很简单:将值重新缩放使其最终范围归于0到1之[...]

撰写于    浏览:914 次  分类: 机器学习
解决非线性问题的另种技术是添加相似特征。这些特征经过相似函数计算得出,相似函数可以测量每个实例与一个特定地标之间的相似度。以前面提到过的一维数据集为例,在x=-2和x=1处添加两个地标。接下来,我们采用高斯径向基函数(RBF) 作为相似函数,y=0.3 高斯RBF这是一个从0 (离地标差得非常远)到1 (跟地标-样)变化的钟形函数。现在我们准备计算[...]

撰写于    浏览:833 次  分类: 机器学习
处理非线性数据集的方法之是添加更多特征, 比如多项式特征,某些情况下,这可能导致数据集变得线性可分离。下图是一个简单的数据集,只有一个特征x,可以看出,数据集线性不可分,但是如果添加第二个特征x2=(x1)2,生成的2D数据集则完全线性可分离。 一个简单的方法就是将每个特征的幕次方添加为一个新特征,然后在这个拓展过的特征集上训练线性模型。一般情况下[...]

撰写于    浏览:918 次  分类: 机器学习
处理缺失值主要有以下几种方法:(1)当某个变量的缺失值占比过大时,那么我们可以认为这一变量没有意义,可以直接删除。(2)缺失值可以用平均值、中值、分位数、众数、随机值等替代,但是效果一般,因为等于人为增加了噪声。(3)用其他变量做预测模型来算出缺失变量,效果比方法2略好,但有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果[...]

撰写于    浏览:824 次  分类: 机器学习
1、什么是特征?特征通常是建立在原始数据之上的特定表示,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。2、特征工程是什么?当你想要自己的预测模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息。这就是特征工程要做的事,它的目的就是获取[...]

撰写于    浏览:816 次  分类: 机器学习
模型,就是函数,模型通常分为下面三类:(1)线性模型(2)核模型(3)层次模型

撰写于    浏览:909 次  分类: 机器学习
1、什么是模型呢?简单的说,模型就是函数,就是数学公式。2、什么是拟合呢?经常看到一些复杂的公式,结构对称,身段优美,是某个天才晚上做梦想出来的吗?看下面这个公式:显然不太可能。那么它是怎么来的呢?我猜测:先画出来的,然后测算若干个x和y的关系,最后试出来的公式。这是一个根据数据不断猜和尝试的过程。上述的过程,就是拟合的过程。拟合,指的是对一些数据[...]