精华内容
下载资源
问答
  • 机器学习算法总结ppt

    2018-03-13 20:53:27
    机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt
  • [机器学习篇]机器学习知识总结

    万次阅读 热门讨论 2017-03-08 22:36:48
    1、机器学习的数学基础1 - 数学分析 机器学习的一般方法和横向比较 数学是有用的:以SVD为例 机器学习的角度看数学 复习数学分析 直观解释常数e 导数/梯度 随机梯度下降 Taylor展式的落地应用 gini...

    #1、机器学习的数学基础1 - 数学分析

    机器学习的一般方法和横向比较
    数学是有用的:以SVD为例
    机器学习的角度看数学
    复习数学分析
    直观解释常数e
    导数/梯度
    随机梯度下降
    Taylor展式的落地应用
    gini系数
    凸函数
    Jensen不等式
    组合数与信息熵的关系

    #2、机器学习的数学基础2 - 概率论与贝叶斯先验

    概率论基础
    古典概型
    贝叶斯公式
    先验分布/后验分布/共轭分布
    常见概率分布
    泊松分布和指数分布的物理意义
    协方差(矩阵)和相关系数
    独立和不相关
    大数定律和中心极限定理的实践意义
    深刻理解最大似然估计MLE和最大后验估计MAP
    过拟合的数学原理与解决方案

    #3、机器学习的数学基础3 - 矩阵和线性代数

    线性代数在数学科学中的地位
    马尔科夫模型
    矩阵乘法的直观表达
    状态转移矩阵
    矩阵和向量组
    特征向量的思考和实践计算
    QR分解
    对称阵、正交阵、正定阵
    数据白化及其应用
    向量对向量求导
    标量对向量求导
    标量对矩阵求导

    #3、机器学习的数学基础3 - 数理统计与参数估计

    统计量
    期望/方差/偏度/峰度
    中心矩/原点矩
    矩估计
    深刻理解最大似然估计
    过拟合的数学原理与解决方案
    最大后验估计MAP
    偏差方差二难

    4、Python基础1 - Python及其数学库
    解释器Python2.7与IDE࿱

    展开全文
  • 研究生本科生机器学习课程考试题库总结,题目难度均为期末考试所能涉及。up主是软件研究生,和同学一起整理了,课程考试考到了绝大多数内容,复习效果绝佳。如能合你的口味,请点赞鼓励原创。
  • 国科大模式识别与机器学习考题总结 国科大秋季学期
  • Python机器学习实践

    千次阅读 2019-10-15 21:14:08
    1、Python机器学习实践案例的算法总结。 见博文下方的算法总结表格。 2、案例和代码实现。 每个案例单独用一篇博文来讲解逻辑和Python代码实现。点击对应的链接到相应的博文中去阅读。 (1)朴素贝叶斯、...

    前面几篇博文已经整理了Python做数据分析和建模以及机器学习基础知识。

    这篇博文主要分享Python做数据分析和建模的实践案例应用。

    分为两部分:

    1、Python机器学习实践案例的算法总结。

         见博文下方的算法总结表格。

    2、案例和代码实现。

         每个案例单独用一篇博文来讲解逻辑和Python代码实现。点击对应的链接到相应的博文中去阅读。

        (1)朴素贝叶斯、费舍尔分类器模型(文档分类)

                ---引申 用gesim-word2vec实现词矢量化

        (2)优化算法模型:

                [1] 旅行行程优化问题

                [2] 住宿房间分配问题

        (3)决策树分类建模

        (4)分级聚类、K均值聚类

                  [1] 使用LSA潜在语义分析,聚类评论主题

        (5)KNN算法

                [1]数值预测、区间概率预测、概率密度图

                [2]协同过滤推荐简单实现

             ---引申  [3] 协同过滤推荐-pyspark实现

            ---引申  [4]spark的安装和Jupyter使用

        (6)寻找独立特征-非负矩阵因式分解

        (7)支持向量机

        (8)神经网络

        (9)特征工程

              [1]受限波兹曼机RBM在机器学习中的使用

              [2]在机器学习pipeline中同时使用PCA和LDA

              [3]线性判别式LDA的两种实现方式

              [4]主成分分析PCA的两种实现方式

              [5]用PCA、LDA、LR做人脸识别

     

    机器学习实践案例算法总结
    算法算法描述/原理概述适用的数据集类型Python代码实现的主要步骤优缺点说明
    贝叶斯分类器根据贝叶斯公式:P(cat|item) = P(item|cat)*P(cat)/P(item),
    其中,P(item|cat) = P(feature|cat)*P(feature|cat)*P(feature|cat)*…
    适应于所有能转换成一组特征列表的数据集。1、定义特征提取函数getfeature
    2、利用样本对分类器进行训练,得到记录了特征和某个特定分类相关联的数字概率P(feature|(cat)
    3、分类预测(朴素贝叶斯分类器)
    优点:
    1、训练和分类计算的速度快
    2、支持增量式的训练
    3、特征的概率值被保存,所以分类学习的解释相对简单
    缺点:
    1、无法处理特征组合会产生分类结果影响的情况
    决策树分类器从根部开始构造决策树,在每一步中都会选择一个属性,利用该属性以最佳的可能方式对数据进行拆分。
    对于构造完成的决策树,从树的根部节点开始,对每一个节点的判断条件进行检查,走相应的yes or no 分支直至叶节点,即代表新数据的预测分类
    适应于数值型或者名词性的有分类结果的数据集1、创建决策树。
    熵、基尼不纯度衡量集合的混乱、不纯程度。信息增益来衡量一次拆分的好坏。
    2、决策树剪枝
    3、决策树显示--树状图/文本打印
    4、决策树分类
    优点:
    1、易于对模型的解释和理解。重要的判断因素都在靠近根部的位置。
    2、能处理变量之间的相互影响。
    缺点:
    1、不擅长对数值结果的预测。
    2、不支持增量式的训练。
    神经网络    
    支持向量机SVM    
    K最近邻算法KNN对一个待预测的新数据项,将其与已经知道结果值的数据项进行比较,从中找出最为接近的若干项,并根据距离远近求其加权平均值以得到最终的预测结果。可以做数值预测的数据集1、对变量进行缩放处理和交叉验证
    2、给出一个距离度量算法/相似度度量算法
    3、加权KNN算法预测
    优点:
    1、简单易懂 2、合理的数据缩放量不但可以改善预测效果,还能知道预测过程中各个变量的重要程度。3、新的数据可以随时被添加进来,是一种online的技术。
    缺点:
    1、计算低效。每一个待预测项必须和所有其他数据进行比较。2、寻找合理的缩放因子的过程很乏味、计算和评估的计算工作量很大。
    分级聚类它是构造一颗由所有数据项构成的树的过程。
    工作方式:寻找两个距离最接近的数据项,将它们合二为一,新聚类的"位置"等于原两个数据项位置的均值。重复此过程,直到每个数据项都被包含在了一个大的聚类中为止。
    任何一个具有一个或多个数值属性的数据集1、给出一个相关系数度量方法
    2、分级聚类
    3、绘制分级聚类树状图
    优点:
    1、层级结构可以显示为树状图的形状,易于解读
    2、面对一个全新的数据集,并不清楚想要多少群组时可通过分级聚类观察出哪些群组最接近
    K-Means聚类它是将数据拆分到不同群组的方法。
    工作方式:随机产生K个中心点的位置,将每个数据项都分配到距离最近的中心点。将中心位置移到分配给原中心点的所有项的平均位置处。重复上述聚类步骤。直到中心位置不再变化或达到某阈值。
    任何一个具有一个或多个数值属性的数据集1、给出想要的群组数量
    2、给出一个相关系数度量方法
    3、K-means聚类
    4、打印分类群组结果
    优点:
    1、聚类得到的群组易于打印和识别
    模拟退火算法以一个随机推测的题解开始,以此为基准随机选择一个方向,找到另一个近似解,判断其成本值。如果新题解的成本值小,则替换原题解。如果成本值更大,则用概率觉得是否取代原题解。迭代至温度几乎为0时,返回题解。给定定义域和成本函数的优化问题1、确定变量定义域domain
    2、定义成本函数costf
     
    遗传算法以一组种群题解开始,筛选出其中成本值最低的精英题解,利用变异、交叉的修改方法将精英题解扩充到原种群大小,称新得到的这个种群为下一代。迭代至一定代数或成本值达到某阈值或种群不再改变,返回成本值最低的作为最优解。给定定义域和成本函数的优化问题1、确定变量定义域domain
    2、定义成本函数costf
     
    非负矩阵因式分解NMF    
    展开全文
  • 机器学习课程总结

    千次阅读 2018-01-09 22:29:43
    1.1总结和致谢 在这门课中 我们花了大量的时间 介绍了诸如线性回归 逻辑回归 神经网络 支持向量机 等等一些监督学习算法, 这类算法需要带标签的数据和样本 ,比如 x(i) y(i)。 然后我们也花了很多时间介绍无...

    1结论

    1.1总结和致谢

    在这门课中 我们花了大量的时间 介绍了诸如线性回归 逻辑回归 神经网络 支持向量机 等等一些监督学习算法, 这类算法需要带标签的数据和样本 ,比如 x(i) y(i)。

    然后我们也花了很多时间介绍无监督学习 ,例如 K-均值聚类 用于降维的主成分分析。 以及当你只有一系列无标签数据 x(i) 时的 异常检测算法, 当然 有时带标签的数据 也可以用于异常检测算法的评估 。

    此外 我们也花时间讨论了一些特别的应用 ,或者特别的话题 比如说推荐系统 以及大规模机器学习系统 ,包括并行系统和映射化简方法。 还有其他一些特别的应用比如 用于计算机视觉技术的滑动窗口分类算法 。

    最后 我们还提到了很多关于构建 机器学习系统的实用建议 ,这包括了怎样理解 某个机器学习算法, 是否正常工作的原因。 所以我们谈到了偏差和方差的问题, 也谈到了解决方差问题的正则化 ,同时我们也讨论了 怎样决定接下来做什么的问题, 也就是说当你在开发一个机器学习系统时 什么工作才是接下来应该优先考虑的问题。

    因此我们讨论了学习算法的评价方法 ,介绍了评价矩阵 比如 查准率 召回率以及F1分数, 还有评价学习算法比较实用的 训练集 交叉验证集和测试集。

    我们也介绍了学习算法的调试 以及如何确保 学习算法的正常运行, 于是我们介绍了一些诊断方法 ,比如学习曲线, 同时也讨论了 误差分析 上限分析的内容 。

    所有这些工具都能在你开发机器学习系统时 帮助你决定接下来应该做什么, 怎样把宝贵的时间用在刀刃上 。现在你已经掌握了很多机器学习的工具, 包括监督学习算法和无监督学习算法等。 但除了这些以外, 我更希望你现在不仅仅只是认识这些工具 ,更重要的是掌握怎样有效地利用这些工具 来建立强大的机器学习系统 。

    就是这样 以上就是这门课的全部内容 ,如果你跟着我们的课程一路走来 ,到现在 你应该已经感觉到 自己已经成为机器学习方面的专家了吧 。 所以 我衷心地希望你们能从这门课中有所收获 最后我想说 再次感谢你们选修这门课程!

    1.2成果

    到这里,这门《机器学习》公开课算是上完了,吴老师也说上万这门课就是“专家”,但是机器学习的路才刚刚开始。这门课程只能是机器学习的入门课程。吴老师用最简单的方式带领我们走进这个领域,给了我们实现未来的可能。下一步,应该做的:
    1. 对于课程中的模糊的点,老师一带而过的点,重点回顾并总结。
    2. 通过书本,通过比较不同学者的理解来,系统的复习一下《机器学习》的框架(推荐《西瓜书》)。
    3. 做一个小项目,在实践中练习:1.编程技术 2.模型的实现 3.优化的能力

    最后,衷心的感谢吴恩达老师,经过这个课程我懂得了什么是思考、分享和坚持。


    上面是coursera上完成课程给的证书,一般要300¥左右才能购买;而在校学生可以通过申请网站助学金免除这一费用(再次感谢吴老师)。

    1. 下附我的助学金申请书模板(必须是英文),给有需要的童鞋下载:http://download.csdn.net/download/u012052268/10199129
    2. 在学习的过程中,积累的编程作业的答案:http://download.csdn.net/download/u012052268/10199117
    展开全文
  • 机器学习实战》总结

    千次阅读 2019-07-17 09:02:37
    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识...

    https://www.toutiao.com/a6714092859475100171/

     

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

    《机器学习实战》正文

    目录

    第一部分:分类

    【Ch1】机器学习基础

    【Ch2】k - 近邻算法

    【Ch3】决策树

    【Ch4】基于概率论的分类方法:朴素贝叶斯

    【Ch5】Logistic 回归

    【Ch6】支持向量机

    【Ch7】利用 AdaBoost 元算法提高分类性能

    第二部分:利用回归预测数值型数据

    【Ch8】预测数值型数据:回归

    【Ch9】树回归

    第三部分:无监督学习

    【Ch10】利用 K-均值聚类算法对未标注数据分组

    【Ch11】基于 Apriori 算法进行关联分析

    【Ch12】使用 FP-growth 算法来高效发现频繁项集

    第四部分:其他工具

    【Ch13】利用 PCA 来简化数据

    【Ch14】利用 SVD 简化数据

    【Ch15】大数据与 MapReduce

    补充:

    【神经网络】


    Ch1:机器学习基础

    监督学习(分类、回归);无监督学习(聚类、密度估计)

    《机器学习实战》总结篇

     

     

    Ch2:k - 近邻算法

    简单来说,k - 近邻算法采用测量不同特征值之间的距离的方法进行分类。它是一种基于实例的学习,使用算法时必须有接近实际数据的训练样本数据。

    优点:

    • 精度高,对异常值不敏感,无数据输入假定;
    • KNN 是一种在线技术,新数据可以直接加入数据集而不必进行重新训练;
    • KNN 理论简单,容易实现。

    缺点:

    • 对于样本容量大的数据集计算量比较大,即计算复杂度高;
    • 必须保存全部数据集,即空间复杂度高;
    • KNN 每一次分类都会重新进行一次全局运算;
    • 样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多;
    • K 值大小的选择;
    • KNN 无法给出基础结构信息,无法知晓平均实例样本与典型实例样本具有什么特征,即无法给出数据的内在含义。

    适用数据类型: 数值型和标称型。

    应用领域: 文本分类;模式识别;聚类分析;多分类领域。

    使用方法:

    《机器学习实战》总结篇

     

     

    《机器学习实战》总结篇

     

     

    Ch3:决策树

    决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据时,首先需要测量集合中数据的不一致性,也就是熵(反映数据的无序程度),然后寻找最优方案划分数据集(选取信息增益(熵)最大的特征),直到数据集中的所有数据属于同一分类。构建决策树时,采用递归的方法将数据集转化为决策树。

    优点:

    • 决策树易于理解和解释,可以可视化分析,容易提取出规则;
    • 计算复杂度不高,对中间值的缺失不敏感,可以处理不相关特征数据;
    • 测试数据集时,运行速度比较快;
    • 决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。

    缺点:

    • 容易出现过拟合问题。
    • 对缺失数据处理比较困难。
    • 忽略数据集中属性的相互关联。
    • ID3 算法计算信息增益时结果偏向数值比较多的特征。

    适用数据类型: 标称型和数值型。

    改进措施(主要解决过拟合问题):

    • 对决策树进行剪枝,可以采用交叉验证法和正则化的方法;
    • 使用基于决策树的 combination 算法,如 Bagging,Random Forest 等。

    决策树流行算法: ID3、C4.5、CART

    应用领域: 企业管理实践,企业投资决策,由于决策树很好的分析能力,在决策过程应用较多。

    使用方法:

    《机器学习实战》总结篇

     

     

    总结:Ch2 和 Ch3 都是确定的分类算法,数据实例最终会被明确的划分到某个分类当中。


    Ch4:基于概率论的分类方法:朴素贝叶斯

    使用概率,提供一种利用已知值来估计未知概率的方法。通过特征间的独立性假设(朴素一词的由来),降低对数据量的要求。

    优点:

    • 对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已;
    • 支持增量式运算,即可以实时的对新增的样本进行训练;
    • 朴素贝叶斯对结果解释容易理解;
    • 对数据较少的情况下仍然有效;
    • 可以处理多类别问题。

    缺点:

    • 因为要将文本转化为词向量(文档中的每个词在词库中只表示出现与不出现,即 [0,1,1,0,0,1],如果要表示一个词出现了多次,需要用到词袋模型,即 [0,1,3,2,0,0,2]),因此对于输入数据的准备方式较为敏感;
    • 由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。

    适用数据类型: 标称型。

    改进措施:

    • 下溢出问题:对概率取对数;
    • 词袋模型在解决文档分类问题上比词集模型好;
    • 移除提用词(对分类基本上没有帮助的词,如助词、语气词等)。

    应用领域: 欺诈检测;一封电子邮件是否是垃圾邮件;一篇文章应该分到科技、政治,还是体育类;一段文字表达的是积极的情绪还是消极的情绪;人脸识别等。

    使用方法:

    《机器学习实战》总结篇

     

     

    《机器学习实战》总结篇

     

     

    Ch5:Logistic 回归

    寻找一个非线性函数 Sigmoid 的最佳拟合参数,求解过程可以由最优化算法(如梯度上升或随机梯度上升(占用更少资源,在线学习)) 来完成。

    优点: 计算代价不高,易于理解和实现。

    缺点:

    • 容易产生欠拟合;
    • 分类精度可能不高。

    适用数据类型: 数值型和标称型。

    改进措施:

    随机梯度上升训练算法代替梯度上升训练算法,实现在线学习。

    《机器学习实战》总结篇

     

    应用领域:

    • 用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等;
    • Logistic 回归的扩展 softmax 可以应用于多分类领域,如手写字识别等;
    • 信用评估;
    • 测量市场营销的成功度;
    • 预测某个产品的收益;
    • 特定的某天是否会发生地震。

    使用方法:

    《机器学习实战》总结篇

     

     

    Ch6:支持向量机

    一种二值决策分类“机”,泛化错误率低和较好的推广性使其被认为是监督学习中最好的定式算法。它试图求解一个二次优化问题来最大化分类间隔。支持向量机采用 SMO 算法每次只优化两个 alpha 值来加快 SVM 的训练速度。核方法(或核技巧)会将数据(有时是非线性数据)从一个低维空间映射到一个高维空间,将一个在低维空间中的非线性问题转化为在高维空间的线性问题,如径向基函数(度量两个向量距离的核函数)。

    优点:

    • 解决小样本下机器学习问题;
    • 解决非线性问题;
    • 无局部极小值问题(相对于神经网络等算法);
    • 可以很好的处理高维数据集,计算开销不大,结果易解释;
    • 泛化能力比较强。

    缺点:

    • 对于核函数的高维映射解释力不强,尤其是径向基函数;
    • 对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题;
    • 对缺失数据敏感。

    适用数据类型: 数值型和标称型。

    应用领域: 文本分类、图像识别、主要二分类领域。

    使用方法:

    《机器学习实战》总结篇

     

     

    Ch7:利用 AdaBoost 元算法提高分类性能

    通过组合多个分类器(可以不同)的分类结果,获得了比简单的分类器更好的效果。选择不同的分类器可以缓解同一分类器可能放大的过拟合问题。

    有三种集成方法:Bagging、Boosting 和 Random Forset。Bagging

    通过随机抽样 S 次(有放回的抽样),得到 S 个与原数据集大小相同的数据集,作用到 S 个分类器上,最后根据投票决定分到哪一个类;Boosting 在 Bagging 上更进一步,它在数据集上顺序应用了多个不同的分类器。

    Boosting 中最流行的的一个算法是 AdaBoost,以弱学习器作为基分类器,并且输入数据,使其通过权重向量进行加权。在第一次迭代中,所有数据等权重,在后续迭代中,前次迭代中分错的数据的权值增大,这种针对错误的调节能力正是 AdaBoost 的长处。

    优点:

    • 很好的利用了弱分类器进行级联;
    • 可以将不同的分类算法作为弱分类器;
    • AdaBoost 具有很高的精度;
    • 相对于 Bagging 算法和 Random Forest 算法,AdaBoost 充分考虑的每个分类器的权重;
    • 泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。

    缺点:

    • AdaBoost 迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定;
    • 数据不平衡导致分类精度下降;
    • 训练比较耗时,每次重新选择当前分类器最好切分点;
    • 对离散点敏感。

    适用数据类型: 数值型和标称型。

    应用领域:模式识别、计算机视觉领域,用于二分类和多分类场景。

    使用方法:

    《机器学习实战》总结篇

     

     

    补充(非均衡分类问题):

    非均衡分类问题是指在分类器训练时正例数目和反例数目相差很大的一类问题,该问题在错分正例和反例的代价不同时也存在(比如错分导致死亡)。因此,ROC曲线、正确率和召回率有利于度量分类器的指标。

    《机器学习实战》总结篇

     

    调节正例和反例的数目可以采用欠抽样(删除多的样本)和过抽样(赋值少的样本)的方法,另外一种方法就是在分类的过程中将错误的代价也考虑在内。


    Ch8:预测数值型数据:回归

    回归与分类的不同点在于,回归预测连续型变量,分类预测离散型变量。在回归方程中,求得最佳回归系数的方法是最小化误差的平方和。使用岭回归可以保证 X^T*X 的逆不能计算时,仍然能求得回归参数。

    岭回归是缩减法的一种,相当于对回归系数的大小施加了限制。另一种很好的方法是 lasso 算法,难以求解,但可以使用简便的逐步线性回归来求得近似结果。

    缩减法还可以看做对一个模型增加偏差(模型预测值与数据之间的差异)的同时减少方差(模型之间的差异)。

    优点: 结果易于理解,计算不复杂。

    缺点: 对非线性的数据拟合不好。

    适用数据类型: 数值型和标称型。

    使用方法:

    《机器学习实战》总结篇

     

     

    Ch9:树回归

    输入数据和目标变量之间呈现非线性关系,一种可行的方法是使用树对预测值分段,包括分段常数和分段直线。若叶节点使用的模型是分段常数则称为回归树,若叶节点使用的模型是分段直线则称为模型树

    CART 算法可以用于构造二元树并处理离散型或数值型数据的切分,该算法构造的回归树或模型树倾向于产生过拟合问题,可以采用预剪枝(在树的构建过程中就进行剪枝)和后剪枝(当树构建完毕再进行剪枝)。预剪枝更有效,但用户需要定义一些参数。

    优点: 可以对复杂的和非线性的数据建模。

    缺点: 结果不易理解。

    适用数据类型: 数值型和标称型。

    使用方法(R2为相关系数):

    《机器学习实战》总结篇

     

     

    Ch10:利用 K-均值聚类算法对未标注数据分组

    聚类是一种无监督的学习方法(没有目标变量)。聚类将数据点归到多个簇中,其中相似数据点属于同一簇,而不相似数据点属于不同簇中。

    K-均值算法是广泛使用的聚类算法,其中 K 是用户指定的创建簇的数目。算法以 K 个随机质心开始,计算每个点到质心的距离。每个点会被分配到最近的簇质心,然后更新簇质心。以上过程重复数次直至簇质心不再改变。

    K-均值算法易受到初始质心的影响,为了获得更好的聚类效果,可以采用二分 K-均值聚类算法。二分 K-均值聚类算法首先将所有点作为一个簇,然后使用 K-均值算法(k=2)对其划分。下一次迭代时,选择有最大误差的簇进行划分。该过程重复直到 K 个簇创建成功为止。

    优点: 容易实现。

    缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

    适用数据类型: 数值型。

    使用方法:

    《机器学习实战》总结篇

     

     

    Ch11:基于 Apriori 算法进行关联分析

    两种方式找到大数据集之间的关系。第一种使用频繁项集,它会给出经常出现在一起的元素项;第二种是关联规则,每条关联规则意味着元素项之间的“如果...那么”关系。

    Apriori 算法保证在有限的时间内找到频繁项集。其原理是说如果一个元素项是不频繁的,那么那些包含该元素的超集也是不频繁的。Apriori 算法从单元素项集开始,通过组合满足最小支持度要求的项集来形成更大的集合。支持度用来衡量一个集合在原始数据中出现的频率。

    每次增加频繁项集的大小,Apriori 算法都会重新扫描整个数据集。当数据集很大时,会显著降低频繁项集发现的速度。下一章的 FPgrowth 算法只需对数据库进行两次遍历,能够显著加快频繁项集的发现速度。

    优点: 易编码实现。

    缺点: 在大数据集上可能较慢。

    适用数据类型: 数值型或标称型。

    应用领域: 商店中商品的关联;网站的访问页面的关联;查看选举人及法官的投票历史等。

    使用方法:

    《机器学习实战》总结篇

     

     

    Ch12:使用 FP-growth 算法来高效发现频繁项集

    FP-growth 算法是一种用于发现数据集中频繁模式的有效方法,利用

    Apriori 原理,只对数据集扫描两次,运行更快。在算法中,数据集存储在 FP 树中,构建完树后,通过查找元素项的条件基及构建条件 FP 树来发现频繁项集。重复进行直到FP树只包含一个元素为止。

    优点: 一般要快于 Apriori 算法。

    缺点: 实现比较困难,在某些数据集上性能会下降。

    适用数据类型: 标称型。

    应用领域: 在多种文本文档中查找频繁单词;购物交易;医学诊断;大气研究等。

    使用方法:

    《机器学习实战》总结篇

     

     

    Ch13:利用 PCA 来简化数据

    降维往往作为预处理步骤,其中独立成分分析、因子分析和主成分分析比较流行,主成分分析(PCA)最为广泛。

    PCA 可以从数据中识别其主要特征,它是通过沿着数据最大方差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴,后续坐标轴则与前面坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

    优点: 降低数据的复杂性,识别最重要的多个特征。

    缺点: 不一定需要,且可能损失有用信息。

    适用数据类型: 数值型。


    Ch14:利用 SVD 简化数据

    SVD 是一种强大的降维工具,可以利用 SVD 来逼近矩阵并从中获得主要的特征。通过保留矩阵的 80%~90% 的能量,就可以得到重用的特征并去除噪声。

    优点: 简化数据,去除噪声,提高算法的结果。

    缺点: 数据的转换可能难以理解。

    适用数据类型: 数值型。

    应用领域: 推荐引擎(协同过滤、相似度计算)、图像压缩等。


    Ch15:大数据与 MapReduce

    MapReduce 是一种并行处理框架。在 MapReduce 中,作业被分为 map 阶段和 reduce 阶段。先使用 map 阶段并行处理数据,之后将这些数据在 reduce 阶段合并,是一种多对一的模式。mapper 和 reducer 之间传输数据的形式是 key/value 对。一般地,map 阶段后还需要根据 key 值进行排序。

    Hadoop 是一个流行的可运行 MapReduce 作业的 java 项目,它同时也提供非 java 作业的运行支持,叫做 Hadoop 流。


    神经网络

    优点:

    • 分类准确度高,学习能力极强。
    • 对噪声数据鲁棒性和容错性较强。
    • 有联想能力,能逼近任意非线性关系。

    缺点:

    • 神经网络参数较多,权值和阈值。
    • 黑盒过程,不能观察中间结果。
    • 学习过程比较长,有可能陷入局部极小值。

    应用领域: 目前深度神经网络已经应用与计算机视觉,自然语言处理,语音识别等领域并取得很好的效果。

    展开全文
  • 机器学习总结与心得

    万次阅读 2018-08-03 21:36:45
    这段时间把《机器学习》看了一遍,总的来说,除了前两章是基础,其余章节都是介绍模型方法,应用场景、理论推导、优化过程、算法等,每章都可独立阅读而不受其他章节影响。 如果只是每一章都看完,顶多就是了解了一...
  • 机器学习实战》学习笔记(一):机器学习基础

    万次阅读 多人点赞 2019-08-19 17:01:32
    专栏【机器学习】 【机器学习】《机器学习实战》读书笔记及代码 总目录 https://blog.csdn.net/TeFuirnever/article/details/99701256 ————————————————————————————————————...
  • 机器学习论文总结

    千次阅读 2017-03-31 10:01:30
    长期从事推荐系统、机器学习和人工智能的研究工作,在国际顶级会议上发表论文20余篇,长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。  责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请...
  • 机器学习总结(一)

    千次阅读 2018-07-20 16:39:16
    所以准备将之前所学做一个系统的总结,既是对所学知识的升华,也可以帮助初学者理清一个思路。那就从最简单的线性模型开始吧。 线性模型 线性回归 首先解释一下什么叫回归,给定一个点集,能够用一条曲线,平面,...
  • 机器学习知识总结及代码实现

    万次阅读 2020-10-14 15:00:03
    欢迎大家移步我的公众号查看,更新进度更快,其中不只有机器学习的内容,还有大数据、生物信息学、NLP等知识板块: 机器学习 | 基本概念(一)http://burningcloud.cn/article/102/index.html 机器学习 | 基本概念...
  • 机器学习

    千次阅读 2020-01-09 22:01:52
    机器学习综述机器学习介绍机器学习的分类机器总结 机器学习介绍 机器学习在我个人看来就是运用相关的算法,对某件事一次又一次地重复,直到达到自己想要的目标 机器学习的分类 学习策略的分类标准就是根据学生实现...
  • 机器学习之有监督学习,无监督学习,半监督学习

    千次阅读 多人点赞 2018-12-30 21:50:51
    机器学习是数据分析和数据挖掘的一种比较常用,比较好的手段从有无监督的角度,可以分为三类: 有监督学习 无监督学习 半监督学习 有监督学习 用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已...
  • 机器学习导论总结

    千次阅读 2017-06-25 16:29:31
    今天开始重新看一篇机器学习导论,相信有了做研究的一些经验,能更好的得到更加深入的理解。 1. 什么是机器学习? 生活中我们的经验告诉我们, 数据是存在某种确定的模式的。机器学习使用实例数据或者过去的...
  • 机器学习的理论知识点总结

    千次阅读 2018-08-03 14:56:15
    最近一边看书,一边梳理机器学习的知识点: 1. 线性回归 2.线性回归的损失函数(误差的平方和) 3. 最小二乘法(手推导) 4.批量梯度下降法(学习率大小问题) 5.放缩scaling对梯度下降的影响 6.多元线性回归 7...
  • 北航 计算机学院 机器学习 期末考试往年试题和复习总结
  • Logistic回归总结(非常好的机器学习总结资料)

    千次下载 热门讨论 2013-11-13 20:56:40
    看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。 首先说一下我的感受,《机器学习实战》一书在...
  • 机器学习中的最优化算法总结

    千次阅读 2019-03-26 08:37:27
    导言 对于几乎所有机器学习算法,无论是有监督学习、无监督学习,...在这篇文章中,小编将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。 ...
  • 机器学习算法 综述(入门)

    万次阅读 多人点赞 2019-06-16 21:59:28
    学习了一个学期机器学习算法,从什么都不懂到对十个机器学习算法有一定的了解,下面总结一下十大机器学习算法,从算法的概念、原理、优点、缺点、应用等方面来总结,如果有错误的地方,欢迎指出。 目录 1.决策树...
  • 机器学习常用算法总结

    万次阅读 2016-08-21 23:26:48
    本文总结一下常见的机器学习算法,以供参考。机器学习的算法很多,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里从两个方面进行总结,第一个方面是学习的方式,第二个方面是算法的类似性。 一、...
  • 机器学习-周志华总结

    千次阅读 2019-03-02 11:26:09
    机器学习知识图谱: 学习机器学习前了解问题: 机器学习中很多算法,都需要深刻理解,做到能够口述推导过程、或手动推导的程度。 1. 定义机器学习需要解决的问题类型。 2.机器学习模型的含义: 3.构建和应用...
  • 机器学习-线性回归总结

    万次阅读 多人点赞 2019-01-19 20:38:20
    最近学习了线性回归的模型,也是机器学习中最基础的一种模型。在此,总结一下线性回归的模型介绍、梯度下降以及正规方程。 回归问题 线性回归,顾名思义,属于回归问题。既然是回归问题,那必然属于监督学习。 在...
  • 机器学习总结(周某华)

    千次阅读 多人点赞 2019-06-15 23:32:46
    机器学习(machine learning):致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。 机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型"的算法,即"学习算法"(learning algorithm)。 ...
  • 机器学习算法总结

    千次阅读 2017-03-22 11:04:14
    机器学习 算法 神经网络 支持向量机
  • 机器学习:高级算法课程学习总结

    千次阅读 多人点赞 2019-01-15 21:44:31
    作为一个机器学习方面的小白,在闵老师课上学的两个聚类算法,即经典的K-means聚类和基于随机游走的聚类算法,是我学习到的头两个与机器学习相关的算法。算法课上,闵老师先讲了简单但是经典的K-means聚类算法,让...
  • 常见机器学习模型总结

    万次阅读 2018-11-30 23:58:24
    一、机器学习模型按照可使用的数据类型分为监督学习和无监督学习两大类。  1-监督学习主要包括用于分类和用于回归的模型:  1)分类:线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、...
  • 机器学习方法分类总结

    千次阅读 2018-09-25 13:53:38
    机器学习方法分类总结 这篇文章只是一个类似于知识概括的文章,主要作用是帮忙梳理: 分类 贝叶斯模型(Bayesian Mode) - 朴素贝叶斯算法(Naive Bayesian Mode) - 平均单依赖估计(AveragedOne-Dependence ...
  • 关于机器学习-深度学习的总结

    万次阅读 2017-02-28 13:41:28
    最近在知乎上看到了一个机器学习的相关学习流程,觉得很有道理,所以,后面的blog我将开始...2.机器学习中的损失函数总结 3.pearson相关系数与spearman相关系数 4.机器学习中error(误差),bias(偏差)与varienc...
  • 哈工大 机器学习 复习总结

    千次阅读 多人点赞 2018-11-14 17:52:57
    决策树 例子:税务欺诈检测问题 决策树可以表示输入属性的任何函数 注意决策树的泛化能力 同一个训练数据集,可以有多棵决策树与其一致 ...下面介绍如何构造最优的决策树:Top-Down的决策树归纳算法 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 291,283
精华内容 116,513
关键字:

机器学习章节总结