飞燕网 - 专注于PyTorch、强化学习和大模型技术

撰写于：2019-08-27 浏览：1824 次分类：默认分类

个性化推荐系统，简单来说就是根据每个人的偏好推荐他喜欢的物品。互联网发展到现在，推荐系统已经无处不在，在各行各业都得到普遍都应用。亚马逊号称 40% 的收入是来自个性化推荐系统的，淘宝的个性化推荐系统也带来非常大的收益，新闻媒体的个性化推荐系统典型的是今日头条。除此以外，直播平台给用户推荐喜欢的主播，金融网站给用户推荐需要的理财产品，社交网络给用户[...]

默认分类 NLP算法工程师日常工作

撰写于：2019-08-26 浏览：1754 次分类：默认分类

在很多外行人眼中，算法工程师的工作应该是：拿到最近某大神新发的Paper，或者自己钻研理论推公式产出研究成果，通过并行编程实现大规模数据训练，然后打败现有模型，CTR提升200%，收入提高200%。然而实际情况往往并不是这样的。理想中的算法工程师：提出假设->收集数据->训练模型->产出成果。实际中的算法工程师：提出假设->[...]

默认分类算法工程师找工作经验总结：三面的考察要点

撰写于：2019-08-24 浏览：1777 次分类：默认分类

算法工程师可投递简历的工作岗位有：机器学习 | 数据挖掘 | 算法工程师 | 基础研究一面考察要点：（1）C/C++，Python等开发语言的语法问题，例如：C++里面const有什么作用，C++里面static的作用等，主要考察应试者的对开发语言的掌握程度。（2）除了基本的语法规则考察以外，还会考察一下算法和数据结构题目，例如：判断一个数字是否为[...]

机器学习电子书简明机器学习教程13：评价模型

撰写于：2019-06-13 浏览：1847 次分类：机器学习电子书

建好模型之后，必须对它进行评价，我们经常会使用一些评价指标来比较模型的预测准确度。常用的评价指标有：预测准确率，混淆矩阵，均方根误差等。1、分类指标1.1、预测准确率简单的说，就是正确的预测所占的比例。虽然它很简单容易理解，但是我们无法通过它得知预测误差是如何产生的。1.2、混淆矩阵混淆矩阵可以进一步了解预测模型的优缺点。通过样本的采集，我们能够直[...]

机器学习电子书简明机器学习教程12：识别关联规则的常用指标

撰写于：2019-06-12 浏览：1912 次分类：机器学习电子书

常用指标有3个：（1）{X}的支持度表示X项出现的频率，可以表示为P(X)（2）{X→Y}的置信度表示当X项出现时Y项同时出现的频率，可以表示为：P(XY)/P(X)（3）{X→Y}的提升度表示X项和Y项一同出现的频率，并且考虑每项各自出现的频率，可以表示为：P(XY)/P(X)P(Y)。公式看起来很容易理解，但是在实际问题中，我们常用被项集这个概[...]

机器学习电子书简明机器学习教程11：主成分与标准化

撰写于：2019-06-11 浏览：1661 次分类：机器学习电子书

主成分可以用已有的一个或多个变量表示。比如，可以使用生素C这个变量来区分不同的食物。因为蔬菜含维生素C而肉类普遍缺乏，所以可以通过维生素C这个变量区分蔬菜和肉类，但是无法进步区分不同的肉类。为了进一步区分不同的肉类，可以选择把脂肪含量作为第2个变量，因为肉类含有脂肪，而大部分蔬菜则不然。由于脂肪和维生素C的计量单位不同，因此在组合之前，必须先对它[...]

机器学习电子书简明机器学习教程10：K均值聚类的局限性

撰写于：2019-06-10 浏览：2068 次分类：机器学习电子书

尽管K均值聚类方法很有用，但是它有一定的局限：（1）每个数据点只能属于一个群组。然而，数据点可能恰好位于两个群组中间，无法通过k均值聚类方法确定它应该属于哪个群组（2）群组被假定是正圆形的。查找距离某个群组中心点最近的数据点，这一迭代过程类似于缩小群组的半径，因此最终得到的群组在形状上类似于正圆形。假设群组的实际形状是椭圆形，那么在应用k均值聚类方[...]

机器学习电子书简明机器学习教程9：超参数和参数

撰写于：2019-06-09 浏览：1764 次分类：机器学习电子书

机器学习一般包含两类参数：超参数和参数。超参数的数目通常不多，在10以内。参数的数目可能很多，如卷积神经网络中有近千万个参数(权重)。曲线拟合中，方程的次数就是超参数，多项式的系数就是参数。这两种参数的调参方式不同，超参数取值一般是人工设定的，参数值是根据参数优化算法自动寻优的。超参数的取值对模型泛化性能有重大的影响，验证集就是用来决定最优超参数取值的。

机器学习电子书简明机器学习教程8：图像的特征：计算机“看到”的图像是什么？

撰写于：2019-06-08 浏览：1790 次分类：机器学习电子书

计算机“看”不到图像的内容，对它而言，图像是巨大的数值，即数值矩阵，矩阵元素表示像素的颜色信息。例如，某幅图像分群率为1280 x 720，表示图像有1280 x 720个像素点，则存储为1280 x 720的矩阵。对于彩色图像，每个像素点有红、绿、蓝( RGB)3个颜色的通道值，每个值在0(黑)到255(白)之间。对于灰度图像，每个像素点有亮度1[...]

机器学习电子书简明机器学习教程7：特征缩放

撰写于：2019-06-07 浏览：1737 次分类：机器学习电子书

如果输人的数值属性具有非常大的比例差异，往往导致机器学习算法的性能表现不佳，当然也有极少数特例。案例中的房屋数据就是这样：房间总数的范围从6到39 320，而收入中位数的范围是0到15。注意，目标值通常不需要缩放。同比例缩放所有属性，常用的两种方法是：最小-最大缩放和标准化。最小-最大缩放，又叫作归一化，很简单：将值重新缩放使其最终范围归于0到1之[...]

机器学习电子书简明机器学习教程6：相似特征

撰写于：2019-06-06 浏览：1739 次分类：机器学习电子书

解决非线性问题的另种技术是添加相似特征。这些特征经过相似函数计算得出，相似函数可以测量每个实例与一个特定地标之间的相似度。以前面提到过的一维数据集为例，在x=-2和x=1处添加两个地标。接下来，我们采用高斯径向基函数(RBF) 作为相似函数，y=0.3 高斯RBF这是一个从0 (离地标差得非常远)到1 (跟地标-样)变化的钟形函数。现在我们准备计算[...]

机器学习电子书简明机器学习教程5：多项式特征

撰写于：2019-06-05 浏览：1662 次分类：机器学习电子书

处理非线性数据集的方法之是添加更多特征，比如多项式特征，某些情况下，这可能导致数据集变得线性可分离。下图是一个简单的数据集，只有一个特征x，可以看出，数据集线性不可分，但是如果添加第二个特征x2=(x1)2，生成的2D数据集则完全线性可分离。一个简单的方法就是将每个特征的幕次方添加为一个新特征，然后在这个拓展过的特征集上训练线性模型。一般情况下[...]

机器学习电子书简明机器学习教程4：特征工程之缺失数据的处理

撰写于：2019-06-04 浏览：1711 次分类：机器学习电子书

处理缺失值主要有以下几种方法：（1）当某个变量的缺失值占比过大时，那么我们可以认为这一变量没有意义，可以直接删除。（2）缺失值可以用平均值、中值、分位数、众数、随机值等替代，但是效果一般，因为等于人为增加了噪声。（3）用其他变量做预测模型来算出缺失变量，效果比方法2略好，但有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果[...]

机器学习电子书简明机器学习教程3：特征工程

撰写于：2019-06-03 浏览：1701 次分类：机器学习电子书

1、什么是特征？特征通常是建立在原始数据之上的特定表示，通常用数据集中的列表示。对于一个通用的二维数据集，每个观测值由一行表示，每个特征由一列表示，对于每一个观测具有一个特定的值。2、特征工程是什么？当你想要自己的预测模型性能达到最佳时，你要做的不仅是要选取最好的算法，还要尽可能的从原始数据中获取更多的信息。这就是特征工程要做的事，它的目的就是获取[...]

机器学习电子书简明机器学习教程2：模型的分类

撰写于：2019-06-02 浏览：1602 次分类：机器学习电子书

模型，就是函数，模型通常分为下面三类：（1）线性模型（2）核模型（3）层次模型

关注公众号，感悟技术与人生

飞燕网

一个踏实、严谨的网站！

专注于PyTorch、强化学习和大模型技术

分类

最新文章

热门文章

最新评论

友情链接