撰写于:  浏览:1824 次  分类:默认分类
个性化推荐系统,简单来说就是根据每个人的偏好推荐他喜欢的物品。互联网发展到现在,推荐系统已经无处不在,在各行各业都得到普遍都应用。亚马逊号称 40% 的收入是来自个性化推荐系统的,淘宝的个性化推荐系统也带来非常大的收益,新闻媒体的个性化推荐系统典型的是今日头条。除此以外,直播平台给用户推荐喜欢的主播,金融网站给用户推荐需要的理财产品,社交网络给用户[...]

撰写于:  浏览:1754 次  分类:默认分类
在很多外行人眼中,算法工程师的工作应该是:拿到最近某大神新发的Paper,或者自己钻研理论推公式产出研究成果,通过并行编程实现大规模数据训练,然后打败现有模型,CTR提升200%,收入提高200%。然而实际情况往往并不是这样的。理想中的算法工程师:提出假设->收集数据->训练模型->产出成果。实际中的算法工程师:提出假设->[...]

撰写于:  浏览:1777 次  分类:默认分类
算法工程师可投递简历的工作岗位有:机器学习 | 数据挖掘 | 算法工程师 | 基础研究一面考察要点:(1)C/C++,Python等开发语言的语法问题,例如:C++里面const有什么作用,C++里面static的作用等,主要考察应试者的对开发语言的掌握程度。(2)除了基本的语法规则考察以外,还会考察一下算法和数据结构题目,例如:判断一个数字是否为[...]

撰写于:  浏览:1847 次  分类:机器学习电子书
建好模型之后,必须对它进行评价,我们经常会使用一些评价指标来比较模型的预测准确度。常用的评价指标有:预测准确率,混淆矩阵,均方根误差等。1、分类指标1.1、预测准确率简单的说,就是正确的预测所占的比例。虽然它很简单容易理解,但是我们无法通过它得知预测误差是如何产生的。1.2、混淆矩阵混淆矩阵可以进一步了解预测模型的优缺点。通过样本的采集,我们能够直[...]

撰写于:  浏览:1912 次  分类:机器学习电子书
常用指标有3个:(1){X}的支持度表示X项出现的频率,可以表示为P(X)(2){X→Y}的置信度表示当X项出现时Y项同时出现的频率,可以表示为:P(XY)/P(X)(3){X→Y}的提升度表示X项和Y项一同出现的频率,并且考虑每项各自出现的频率,可以表示为:P(XY)/P(X)P(Y)。公式看起来很容易理解,但是在实际问题中,我们常用被项集这个概[...]

撰写于:  浏览:1661 次  分类:机器学习电子书
主成分可以用已有的一个或多个变量表示。 比如,可以使用生素C这个变量来区分不同的食物。因为蔬菜含维生素C而肉类普遍缺乏,所以可以通过维生素C这个变量区分蔬菜和肉类,但是无法进步区分不同的肉类。为了进一步区分不同的肉类,可以选择把脂肪含量作为第2个变量,因为肉类含有脂肪,而大部分蔬菜则不然。由于脂肪和维生素C的计量单位不同,因此在组合之前,必须先对它[...]

撰写于:  浏览:2068 次  分类:机器学习电子书
尽管K均值聚类方法很有用,但是它有一定的局限:(1)每个数据点只能属于一个群组。然而,数据点可能恰好位于两个群组中间,无法通过k均值聚类方法确定它应该属于哪个群组(2)群组被假定是正圆形的。查找距离某个群组中心点最近的数据点,这一迭代过程类似于缩小群组的半径,因此最终得到的群组在形状上类似于正圆形。假设群组的实际形状是椭圆形,那么在应用k均值聚类方[...]

撰写于:  浏览:1764 次  分类:机器学习电子书
机器学习一般包含两类参数:超参数和参数。超参数的数目通常不多,在10以内。参数的数目可能很多,如卷积神经网络中有近千万个参数(权重)。曲线拟合中,方程的次数就是超参数,多项式的系数就是参数。这两种参数的调参方式不同,超参数取值一般是人工设定的,参数值是根据参数优化算法自动寻优的。超参数的取值对模型泛化性能有重大的影响,验证集就是用来决定最优超参数取值的。

撰写于:  浏览:1790 次  分类:机器学习电子书
计算机“看”不到图像的内容,对它而言,图像是巨大的数值,即数值矩阵,矩阵元素表示像素的颜色信息。例如,某幅图像分群率为1280 x 720,表示图像有1280 x 720个像素点,则存储为1280 x 720的矩阵。对于彩色图像,每个像素点有红、绿、蓝( RGB)3个颜色的通道值,每个值在0(黑)到255(白)之间。对于灰度图像,每个像素点有亮度1[...]

撰写于:  浏览:1737 次  分类:机器学习电子书
如果输人的数值属性具有非常大的比例差异,往往导致机器学习算法的性能表现不佳,当然也有极少数特例。案例中的房屋数据就是这样:房间总数的范围从6到39 320,而收入中位数的范围是0到15。注意,目标值通常不需要缩放。同比例缩放所有属性,常用的两种方法是:最小-最大缩放和标准化。最小-最大缩放,又叫作归一化,很简单:将值重新缩放使其最终范围归于0到1之[...]

撰写于:  浏览:1739 次  分类:机器学习电子书
解决非线性问题的另种技术是添加相似特征。这些特征经过相似函数计算得出,相似函数可以测量每个实例与一个特定地标之间的相似度。以前面提到过的一维数据集为例,在x=-2和x=1处添加两个地标。接下来,我们采用高斯径向基函数(RBF) 作为相似函数,y=0.3 高斯RBF这是一个从0 (离地标差得非常远)到1 (跟地标-样)变化的钟形函数。现在我们准备计算[...]

撰写于:  浏览:1662 次  分类:机器学习电子书
处理非线性数据集的方法之是添加更多特征, 比如多项式特征,某些情况下,这可能导致数据集变得线性可分离。下图是一个简单的数据集,只有一个特征x,可以看出,数据集线性不可分,但是如果添加第二个特征x2=(x1)2,生成的2D数据集则完全线性可分离。 一个简单的方法就是将每个特征的幕次方添加为一个新特征,然后在这个拓展过的特征集上训练线性模型。一般情况下[...]

撰写于:  浏览:1711 次  分类:机器学习电子书
处理缺失值主要有以下几种方法:(1)当某个变量的缺失值占比过大时,那么我们可以认为这一变量没有意义,可以直接删除。(2)缺失值可以用平均值、中值、分位数、众数、随机值等替代,但是效果一般,因为等于人为增加了噪声。(3)用其他变量做预测模型来算出缺失变量,效果比方法2略好,但有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果[...]

撰写于:  浏览:1701 次  分类:机器学习电子书
1、什么是特征?特征通常是建立在原始数据之上的特定表示,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。2、特征工程是什么?当你想要自己的预测模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息。这就是特征工程要做的事,它的目的就是获取[...]

撰写于:  浏览:1602 次  分类:机器学习电子书
模型,就是函数,模型通常分为下面三类:(1)线性模型(2)核模型(3)层次模型

关注公众号,感悟技术与人生

飞燕网
一个踏实、严谨的网站!

专注于PyTorch、强化学习和大模型技术

    友情链接