精华内容
下载资源
问答
  • 机器学习分类算法
    千次阅读 多人点赞
    更多相关内容
  • 机器学习分类算法(附图文详解)

    千次阅读 2021-04-22 08:12:06
    说起分类算法,相信学过机器学习的同学...一起来通过这篇文章回顾一下机器学习分类算法吧(本文适合已有机器学习分类算法基础的同学)。 机器学习是一种能从数据中学习的计算机编程科学以及艺术,就像下面这句话说得

    说起分类算法,相信学过机器学习的同学都能侃上一二。

    可是,你能够如数家珍地说出所有常用的分类算法,以及他们的特征、优缺点吗?比如说,你可以快速地回答下面的问题么:

    • KNN算法的优缺点是什么?
    • Naive Bayes算法的基本假设是什么?
    • entropy loss是如何定义的?
    • 最后,分类算法调参常用的图像又有哪些?

    答不上来?别怕!一起来通过这篇文章回顾一下机器学习分类算法吧(本文适合已有机器学习分类算法基础的同学)。

    机器学习是一种能从数据中学习的计算机编程科学以及艺术,就像下面这句话说得一样。

    机器学习是使计算机无需显式编程就能学习的研究领域。——阿瑟·塞缪尔,1959年

    不过还有一个更好的定义:

    “如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。”——Tom Mitchell, 1997

    例如,你的垃圾邮件过滤器是一个机器学习程序,通过学习用户标记好的垃圾邮件和常规非垃圾邮件示例,它可以学会标记垃圾邮件。系统用于学习的示例称为训练集。在此案例中,任务(T)是标记新邮件是否为垃圾邮件,经验(E)是训练数据,性能度量(P) 需要定义。例如,你可以定义正确分类的电子邮件的比例为P。这种特殊的性能度量称为准确度,这是一种有监督的学习方法,常被用于分类任务。

    监督学习

    在监督学习中,算法从有标记数据中学习。在理解数据之后,该算法通过将模式与未标记的新数据关联来确定应该给新数据赋哪种标签。

    监督学习可以分为两类:分类回归

    分类问题预测数据所属的类别;

    分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。

    回归问题根据先前观察到的数据预测数值;

    回归的例子包括房价预测、股价预测、身高-体重预测等。

    分类问题

    分类是一种基于一个或多个自变量确定因变量所属类别的技术。

    ▲分类用于预测离散响应

    逻辑回归

    逻辑回归类似于线性回归,适用于因变量不是一个数值字的情况 (例如,一个“是/否”的响应)。它虽然被称为回归,但却是基于根据回归的分类,将因变量分为两类。

    如上所述,逻辑回归用于预测二分类的输出。例如,如果信用卡公司构建一个模型来决定是否通过向客户的发行信用卡申请,它将预测客户的信用卡是否会“违约”。

    首先对变量之间的关系进行线性回归以构建模型,分类的阈值假设为0.5。

    然后将Logistic函数应用于回归分析,得到两类的概率。

    该函数给出了事件发生和不发生概率的对数。最后,根据这两类中较高的概率对变量进行分类。

    K-近邻算法(K-NN)

    K-NN算法是一种最简单的分类算法,通过识别被分成若干类的数据点,以预测新样本点的分类。K-NN是一种非参数的算法,是“懒惰学习”的著名代表,它根据相似性(如,距离函数)对新数据进行分类。

     

    K-NN能很好地处理少量输入变量(p)的情况,但当输入量非常大时就会出现问题。

    支持向量机(SVM)

    支持向量机既可用于回归也可用于分类。它基于定义决策边界的决策平面。决策平面(超平面)可将一组属于不同类的对象分离开。

    在支持向量的帮助下,SVM通过寻找超平面进行分类,并使两个类之间的边界距离最大化。

    SVM中超平面的学习是通过将问题转化为使用一些某种线性代数转换问题来完成的。(上图的例子是一个线性核,它在每个变量之间具有线性可分性)。

    对于高维数据,使用可使用其他核函数,但高维数据不容易进行分类。具体方法将在下一节中阐述。

    核支持向量机

    核支持向量机将核函数引入到SVM算法中,并将其转换为所需的形式,将数据映射到可分的高维空间。

    核函数的类型包括:

    • 前文讨论的就是线性SVM
    • 多项式核中需要指定多项式的次数。它允许在输入空间中使用曲线进行分割。
    • 径向基核(radial basis function, RBF)可用于非线性可分变量。使用平方欧几里德距离,参数的典型值会导致过度拟合。sklearn中默认使用RBF。
    • 类似于与逻辑回归类似,sigmoid核用于二分类问题。

    径向基核(RBF:Radial Basis Function )

    RBF核支持向量机的决策区域实际上也是一个线性决策区域。RBF核支持向量机的实际作用是构造特征的非线性组合,将样本映射到高维特征空间,再利用线性决策边界分离类。

    因此,可以得出经验是:对线性问题使用线性支持向量机,对非线性问题使用非线性核函数,如RBF核函数。

    朴素贝叶斯

    朴素贝叶斯分类器建立在贝叶斯定理的基础上,基于特征之间互相独立的假设(假定类中存在一个与任何其他特征无关的特征)。即使这些特征相互依赖,或者依赖于其他特征的存在,朴素贝叶斯算法都认为这些特征都是独立的。这样的假设过于理想,朴素贝叶斯因此而得名。

    在朴素贝叶斯的基础上,高斯朴素贝叶斯根据二项(正态)分布对数据进行分类。

    P(class|data) 表示给定特征(属性)后数据属于某类(目标)的后验概率。给定数据,其属于各类的概率大小就是我们要计算的值。

    P(class)表示某类的先验概率。

    P(data|class)表示似然,是指定类别时特征出现的概率。

    P(data)表示特征或边际似然的先验概率。

    步骤

    1、计算先验概率P(class) = 类中数据点的数量/观测值的总数量P(yellow) = 10/17P(green) = 7/17

    2、计算边际似然P(data) = 与观测值相似的数据点的数量/观测值的总数量P(?) = 4/17该值用于检查各个概率。

    3、计算似然P(data/class) = 类中与观测值相似的数量/类中点的总数量P(?/yellow) = 1/7P(?/green) = 3/10

    4、计算各类的后验概率

    5、分类

    某一点归于后验概率高的类别,因为从上可知其属于绿色类的概率是75%根据其75%的概率这个点属于绿色类。

    多项式、伯努利朴素贝叶斯是计算概率的其他模型。朴素贝叶斯模型易于构建,不需要复杂的参数迭代估计,这使得它对非常大的数据集特别有用。

    决策树分类

    决策树以树状结构构建分类或回归模型。它通过将数据集不断拆分为更小的子集来使决策树不断生长。最终长成具有决策节点(包括根节点和内部节点)和叶节点的树。最初决策树算法它采用采用Iterative Dichotomiser 3(ID3)算法来确定分裂节点的顺序。

    信息熵和信息增益用于被用来构建决策树。

    信息熵

    信息熵是衡量元素无序状态程度的一个指标,即衡量信息的不纯度。

    信息熵是衡量元素的无序状态的程度的一个指标,或者说,衡量信息的不纯度。

    直观上说地理解,信息熵表示一个事件的确定性程度。信息熵度量样本的同一性,如果样本全部属于同一类,则信息熵为0;如果样本等分成不同的类别,则信息熵为1。

    信息增益

    信息增益测量独立属性间信息熵的变化。它试图估计每个属性本身包含的信息,构造决策树就是要找到具有最高信息增益的属性(即纯度最高的分支)。

    信息增益测量独立属性间的信息熵的变化。它试图估计每个属性本身包含的信息,构造决策树就是要找到具有最高信息增益的属性(即纯度最高的分支)。

    其中Gain((T,X))是特征X的信息增益。Entropy(T)是整个集合的信息熵,第二项Entropy(T,X)是特征X的信息熵。

    采用信息熵进行节点选择时,通过对该节点各个属性信息增益进行排序,选择具有最高信息增益的属性作为划分节点,过滤掉其他属性。

    决策树模型存在的一个问题是容易过拟合。因为在其决策树构建过程中试图通过生成长一棵完整的树来拟合训练集,因此却降低了测试集的准确性。

    ▲通过剪枝技术可以减少小决策树的过拟合问题。

    分类的集成算法

    集成算法是一个模型组。从技术上说,集成算法是单独训练几个有监督模型,并将训练好的模型以不同的方式进行融合,从而达到最终的得预测结果。集成后的模型比其中任何一个单独的模型都有更高的预测能力。

    随机森林分类器

    随机森林分类器是一种基于装袋(bagging)的集成算法,即自举助聚合法(bootstrap aggregation)。集成算法结合了多个相同或不同类型的算法来对对象进行分类(例如,SVM的集成,基于朴素贝叶斯的集成或基于决策树的集成)。

    集成的基本思想是算法的组合提升了最终的结果。

    深度太大的决策树容易受过拟合的影响。但是随机森林通过在随机子集上构建决策树防止过拟合,主要原因是它会对所有树的结果进行投票的结果是所有树的分类结果的投票,从而消除了单棵树的偏差。

    随机森林在决策树生增长的同时为模型增加了额外的随机性。它在分割节点时,不是搜索全部样本最重要的特征,而是在随机特征子集中搜索最佳特征。这种方式使得决策树具有多样性,从而能够得到更好的模型。

    梯度提升分类器

    梯度提升分类器是一种提升集成算法。提升(boosting)算法是为了减少偏差而对弱分类器的而进行的一种集成方法。与装袋(bagging)方法构建预测结果池不同,提升算法是一种分类器的串行方法,它把每个输出作为下一个分类器的输入。通常,在装袋算法中,每棵树在原始数据集的子集上并行训练,并用所有树预测结果的均值作为模型最终的预测结果;梯度提升模型,采用串行方式而非并行模式获得预测结果。每棵决策树预测前一棵决策树的误差,因而使误差获得提升。

    梯度提升树的工作流程:

    • 使用浅层决策树初始化预测结果。
    • 计算残差值(实际预测值)。
    • 构建另一棵浅层决策树,将上一棵树的残差作为输入进行预测。
    • 用新预测值和学习率的乘积作为最新预测结果,更新原有预测结果。
    • 重复步骤2-4,进行一定次数的迭代(迭代的次数即为构建的决策树的个数)。

    分类器的性能

    混淆矩阵

    混淆矩阵是一张表,这张表通过对比已知分类结果的测试数据的预测值和真实值表来描述衡量分类器的性能。在二分类的情况下,混淆矩阵是展示预测值和真实值四种不同结果组合的表。

    多分类问题的混淆矩阵可以帮助你确认错误模式。

    对于二元分类器:

    假正例&假负例

    假正例和假负例用来衡量模型预测的分类效果。假正例是指模型错误地将负例预测为正例。假负例是指模型错误地将正例预测为负例。主对角线的值越大(主对角线为真正例和真负例),模型就越好;副对角线给出模型的最差预测结果。

    假正例

    下面给出一个假正例的例子。比如:模型将一封邮件分类为垃圾邮件(正例),但这封邮件实际并不是垃圾邮件。这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。

    作者注:个人观点,这个例子举的不太好,对垃圾邮件来说,相比于错误地将垃圾邮件分类为正常邮件(假负例),将正常邮件错误地分类为垃圾邮件(假正例)是更严重的问题。

    假正例(I型错误)——原假设正确而拒绝原假设。

    假负例

    假负例的一个例子。例如,该模型预测一封邮件不是垃圾邮件(负例),但实际上这封邮件是垃圾邮件。这就像一个危险的信号,错误应该被及早纠正,因为它比假正例更严重。

    假负例(II型错误)——原假设错误而接受原假设

    上图能够很容易地说明上述指标。左图男士的测试结果是假正例因为男性不能怀孕;右图女士是假负例因为很明显她怀孕了。

    从混淆矩阵,我们能计算出准确率、精度、召回率和F-1值。

    准确率

    准确率是模型预测正确的部分。

    准确率的公式为:

    当数据集不平衡,也就是正样本和负样本的数量存在显著差异时,单独依靠准确率不能评价模型的性能。精度和召回率是衡量不平衡数据集的更好的指标。

    精度

    精度是指在所有预测为正例的分类中,预测正确的程度为正例的效果。

    ▲精度越高越好。

    召回率

    召回率是指在所有预测为正例(被正确预测为真的和没被正确预测但为真的)的分类样本中,召回率是指预测正确的程度。它,也被称为敏感度或真正率(TPR)。

    ▲召回率越高越好。

    F-1值

    通常实用的做法是将精度和召回率合成一个指标F-1值更好用,特别是当你需要一种简单的方法来衡量两个分类器性能时。F-1值是精度和召回率的调和平均值。

    普通的通常均值将所有的值平等对待,而调和平均值给予较低的值更高的权重,从而能够更多地惩罚极端值。所以,如果精度和召回率都很高,则分类器将得到很高的F-1值。

    接受者操作曲线(ROC)和曲线下的面积(AUC)

    ROC曲线是衡量分类器性能的一个很重要指标,它代表模型准确预测的程度。ROC曲线通过绘制真正率和假正率的关系来衡量分类器的敏感度。如果分类器性能优越,则真正率将增加,曲线下的面积会接近于1.如果分类器类似于随机猜测,真正率将随假正率线性增加。AUC值越大,模型效果越好。

    累积精度曲线

    CAP代表一个模型沿y轴为真正率的累积百分比与沿x轴的该分类样本累积百分比。CAP不同于接受者操作曲线(ROC,绘制的是真正率与假正率的关系)。与ROC曲线相比,CAP曲线很少使用。

    以考虑一个预测客户是否会购买产品的模型为例,如果随机选择客户,他有50%的概率会购买产品。客户购买产品的累积数量会线性地增长到对应客户总量的最大值,这个曲线称为CAP随机曲线,为上图中的蓝色线。而一个完美的预测,准确地确定预测了哪些客户会购买产品,这样,在所有样本中只需选择最少的客户就能达到最大购买量。这在CAP曲线上产生了一条开始陡峭一旦达到最大值就会维持在1的折线,称为CAP的完美曲线,也被称为理想曲线,为上图中灰色的线。

    最后,一个真实的模型应该能尽可能最大化地正确预测,接近于理想模型曲线。

    展开全文
  • 机器学习中的七种分类算法

    千次阅读 多人点赞 2021-10-03 20:35:27
    2 分类算法如何工作 为了解决分类问题,我们使用称为机器学习分类算法的数学模型。他们的任务是找出目标变量如何与输入特征 xi 和输出值 yi 相关联。在数学方面,估计函数 f(xi) 通过将相关特征作为输入来预测输出...

    c 机器学习中的 7 种分类算法https://www.projectpro.io/article/7-types-of-classification-algorithms-in-machine-learning/435https://www.projectpro.io/article/7-types-of-classification-algorithms-in-machine-learning/435icon-default.png?t=LA92https://www.projectpro.io/article/7-types-of-classification-algorithms-in-machine-learning/435以上为参考链接。


    目录

    1 分类任务的类型

    1.1 二元分类

    1.2 多元分类

    1.3 多标签分类

    1.4 不平衡分类

    2 分类算法如何工作

    3 数据预处理

    4 创建测试集和训练集

    5 选择模型

    6 分类算法的类型

    6.1 朴素贝叶斯分类器

    6.1.1 优点

    6.1.2 缺点

    6.1.3 应用

    6.2 逻辑回归

    6.2.1 优点

    6.2.2 缺点

    6.2.3 应用

    6.3 决策树分类算法

    6.3.1 优点

    6.3.2 缺点

    6.3.3 应用

    6.4 随机森林分类算法

    6.4.1 优点

    6.4.2 缺点

    6.4.3 应用

    6.5 支持向量机

     6.5.1 优点

    6.5.2 缺点

    6.5.3 应用

    6.6 K最近邻分类算法

     6.6.1 优点

    6.6.2 缺点

    6.6.3 应用

    6.7 K-Means聚类算法

    6.7.1 优点

    6.7.2 缺点

    6.7.3 应用

    7 如何决定选择哪种分类算法


    1 分类任务的类型

    1.1 二元分类

    主要将数据集分类两类,也意味着输出变量只有两个值。比如将邮件标记为“垃圾邮件”还是“非垃圾邮件”。

    1.2 多元分类

    数据集分为多个种类,输出变量也有多个值。比如经典的Iris数据集,根据花的花瓣长度、萼片长度、花瓣宽度和萼片宽度,分成三种花。

    1.3 多标签分类

    一种特殊类型的分类任务,对于数据集中的每个实例具有多个输出变量,也就是说,一个实例可以有多个标签。比如在图像分类中,单个的图像可能包含多个对象,这些对象可以通过算法进行标记,例如公共汽车、红绿灯、斑马线等。

    1.4 不平衡分类

    不平衡分类是指数据集的实例中具有偏向或者偏态分布的分类问题,也就是一类输入变量的频率高于其他输入变量。比如通过交易数据集中的信用卡检测欺诈交易。通常,此类交易的数量要少得多,因此这会使机器难以学习此类交易。

    2 分类算法如何工作

    为了解决分类问题,我们使用称为机器学习分类算法的数学模型。他们的任务是找出目标变量如何与输入特征 xi 和输出值 yi 相关联。在数学方面,估计函数 f(xi) 通过将相关特征作为输入来预测输出变量的值。我们可以这样写,

    {y}'_{i}= \text{f} \left ( x_{i} \right )

    其中 y'i 表示输出变量的预测响应。

    3 数据预处理

    在将任何统计算法应用于数据集之前,我们必须彻底了解输入变量和输出变量。在分类问题中,目标总是定性的,但有时,甚至输入值也可以是分类的,例如著名的 Mall Customer Dataset 中客户的性别。由于分类算法是从数学上推导出来的,因此必须将所有变量转换为数值。分类算法工作的第一步是确保变量,无论是输入还是输出,都已正确编码。

    4 创建测试集和训练集

    处理完数据集后,下一步是将数据集分为两部分:测试数据集和训练数据集。这一步允许使用训练数据集让我们的机器学习输入和输出值之间的模式。另一方面,测试数据集测试模型的准确性,我们将尝试将其放入我们的数据集中。

    5 选择模型

    一旦我们将数据集拆分为训练和测试,下一个任务就是选择最适合我们问题的模型。为此,我们需要了解流行的分类算法。因此,让我们深入研究不同类型的分类算法池并探索我们的选择。

    6 分类算法的类型

    以下是您将了解的不同类型分类算法的列表:

    1. 朴素贝叶斯分类器
    2. 逻辑回归
    3. 决策树
    4. 随机森林
    5. 支持向量机
    6. K-最近邻
    7. K-均值聚类

    6.1 朴素贝叶斯分类器

    朴素贝叶斯分类器,最简单有效的分类算法之一。它的基础是贝叶斯定理,它描述了如何根据可能与事件相关的条件的先验知识来评估事件的概率。在数学上,这个定理指出——

    \text{P}\left ( Y|X\right )=\frac{P\left ( X|Y\right )P\left ( Y\right )}{P\left ( X\right )}

    其中 P(Y|X) 是事件 Y 的概率,假设 X 已经发生。 

    P(X) 是事件 X 的概率,

    P(Y) 是事件 Y 的概率,

    P(X|Y) 是给定 Y 的固定值时事件 X 的可能性。

    如果 X 代表一个特征变量,Y 代表一个目标变量,那么贝叶斯分类器会将该标签分配给产生最高概率的特征。为简单起见,考虑一个二分类问题,其中特征变量只能有两个可能的值,Y=1 或 Y=0。然后,如果 Pr(Y=1|X=x0) > 0.5,贝叶斯分类器将预测类别 1,否则预测类别 2。

    在不止一个特征的情况下,我们可以使用以下公式来评估概率,

    P\left ( Y|X_{1}=x_{1},X_{2}=x_{2} \right )=\frac{P\left ( X_{1}=x_{1},X_{2} =x_{2}|Y \right )P\left ( Y \right )}{P\left ( X_{1}=x_{1},X_{2}=x_{2} \right )}

    我们假设两个特征 X1 和 X2 是相互独立的。事实上,由于这个假设,“朴素”这个词被附加到贝叶斯的分类器上。

    6.1.1 优点

    1. 它很简单,实现也很简单。
    2. 机器使用这个分类器学习模式所需的时间更少。
    3. 它在输入变量具有分类值的情况下表现良好。
    4. 它为复杂的现实世界问题提供了良好的结果。
    5. 它在多类分类的情况下表现良好。

    6.1.2 缺点

    1. 它假设特征变量之间的独立性,但情况并非总是如此。
    2. 我们经常将其称为坏估计,因此概率并不总是很重要。
    3. 如果在训练期间模型不知道任何分类变量并且该变量在测试期间通过,则模型分配 0(零)似然并因此替换称为“零频率”的零概率。可以通过使用平滑程序(例如拉普拉斯估计)来避免这种情况。

    6.1.3 应用

    1. 垃圾邮件分类: 根据电子邮件的内容识别电子邮件是否为垃圾邮件
    2. 实时预测系统: 该模型相对较快,因此可以实时预测目标变量。
    3. 情绪分析: 识别产品的反馈并将其分类为“正面”或“负面”。
    4. 多类预测: 朴素贝叶斯适用于多类分类问题。

    6.2 逻辑回归

    该算法类似于贝叶斯分类器,因为它也预测 Y 与输入变量 X 相关联的概率。它使用逻辑函数,

    \large P\left ( X \right )=\frac{e^{\beta _{0}+\beta _{1}X}}{1+e^{\beta _{0}+\beta _{ 1}X}}

    并使用最大似然技术拟合参数 ð??›ƒ0 和 ð??›ƒ1。该技术涉及最大化由下式给出的似然函数

    l\left ( \beta _{0},\beta _{1} \right )=\prod_{l:y_{i}=1}p\left ( x_{i} \right )\prod_{​{l} ':y_{​{i}'}=1}\left ( 1-p\left ( x_{i} \right ) \right )

    在评估这两个参数后,可以轻松地使用逻辑函数来预测给定输入 xi 的目标变量概率 p(xi)。 

    对于不止一个特征变量(X1, X2,..., XP),公式可以概括为

    P\left ( X \right )= \frac{e^{\beta _{0}+\beta _{1}X_{1}+\cdots+\beta _{p}X_{p}}}{1+ {e^{\beta _{0}+\beta _{1}X_{1}+\cdots+\beta _{p}X_{p}}}

    6.2.1 优点

    1. 这是一个简单的模型,因此训练所需的时间很少。
    2. 它可以处理大量的特征。

    6.2.2 缺点

    1. 虽然它的名字中有回归这个词,但我们只能将它用于分类问题,因为它的范围总是在 0 和 1 之间。
    2. 只能用于二分类问题,对多分类问题响应较差

    6.2.3 应用

    1. 信用评分: 根据年收入、账户余额等一些特征来预测个人的信用(偿还借入贷款的能力)。
    2. 预测用户行为: 许多网站使用逻辑回归来预测用户行为并引导他们点击可能感兴趣的链接。
    3. 离散选择分析:  逻辑回归是预测人们分类偏好的绝佳选择。这方面的例子可能是买哪辆车、上哪所学校或大学等,这取决于人们的属性和他们可用的各种选择。

    6.3 决策树分类算法

    该算法涉及根据数据集中的某些特征变量将数据集划分为多个段。这些划分的阈值通常是各自特征变量的平均值或众数(如果它们是数字)。由于树可以表示用于分割数据集的一组分割规则,因此该算法称为决策树。

    查看下面的示例以更好地理解它。

    多类分类算法

    红色文本表示如何根据输出变量将数据集拆分为多个段。结果是具有最高比例的班级。

    现在,很自然要问的问题是该算法使用什么标准来分割数据。有两种广泛使用的度量来测试分割的纯度(如果数据集的片段只有一个类的数据点,则它是纯的)。

    第一个是定义的基尼指数

    G= -\sum_{k=1}^{k}p_{mk}\left ( 1-p_{mk} \right )

    测量 N 个类别的总方差。另一种度量是交叉熵,定义为

    D= -\sum_{k=1}^{k}p_{mk}\log \left ( p_{mk} \right )

    在两个等式中,pmk 表示第 m 个片段中属于第 k 个类别的训练变量的比例。

    我们根据该特征将数据集拆分为多个段,从而产生熵或基尼指数的最小值。

    6.3.1 优点

    1. 该算法允许数据的简单表示。因此,更容易向高管解释和解释它。
    2. 决策树模仿人类在日常生活中做出决策的方式。
    3. 他们顺利处理定性目标变量。
    4. 它们有效地处理非线性数据。

    6.3.2 缺点

    1. 它们可能会创建有时变得无关紧要的复杂树。
    2. 与其他算法相比,它们的预测精度水平不同。

    6.3.3 应用

    1. 情感分析:它用作文本挖掘中的分类算法,以确定客户对产品的情感。
    2. 产品选择:公司可以使用决策树来了解哪种产品在推出时会给他们带来更高的利润。

    6.4 随机森林分类算法

    森林由大量的树木组成。同样,随机森林涉及处理许多决策树。每棵树预测目标变量的概率值。然后我们对产生最终输出的概率进行平均。 

    我们评估每棵树如下:

    1. 通过选择有替换的数据点来创建数据集的第一个样本。
    2. 接下来,我们不使用所有输入变量来创建决策树。我们只使用可用的一个子集。
    3. 每棵树都被允许长到尽可能大的长度,并且不涉及修剪。

    6.4.1 优点

    1. 对于大型数据集,它是有效的。
    2. 它允许估计输入变量在分类中的重要性。
    3. 它比决策树更准确。

    6.4.2 缺点

    1. 在实施方面更为复杂,因此需要更多时间进行评估。

    6.4.3 应用

    1. 信用卡违约: 信用卡公司使用随机森林来预测持卡人是否会违约。
    2. 股票市场预测: 股票投资者使用它来指示特定股票的趋势并分析其损失和利润。
    3. 产品推荐: 可以根据用户的喜好使用它向用户推荐产品。

    6.5 支持向量机

    该算法利用具有令人兴奋的变化的支持向量分类器,使其适用于评估非线性决策边界。通过使用称为kernels 的特殊函数扩大特征变量空间,这成为可能 。该算法考虑的决策边界允许将特征变量标记为目标变量。它用于评估边界的数学函数由下式给出

    f\left ( x \right )= \beta _{0}-\sum_{i \in s }\alpha _{i}K\left ( x,x_{i} \right )

    其中 K 代表核函数。

     6.5.1 优点

    1. 它使训练数据集变得容易。
    2. 当数据是高维时,它表现良好。

    6.5.2 缺点

    1. 当数据包含噪声元素时,它表现不佳。
    2. 它对核函数很敏感,因此必须明智地选择它们。

    6.5.3 应用

    1. 人脸检测: 用于读取图像(像素数数组)并根据通常的人类特征识别是否包含人脸。
    2. 图像分类:  SVM 是用于根据图像特征对图像进行分类的图像分类算法之一。
    3. 手写字符识别: 我们可以用它来识别手写字符。

    6.6 K最近邻分类算法

    KNN 算法通过识别给定观察点的 K 个最近邻居来工作。然后它使用 K 个点评估每种类型的目标变量的比例,然后预测具有最高比例的目标变量。例如,考虑以下情况,我们必须将目标值标记为点 X。然后,如果我们在它周围取四个邻居,该模型将预测该点属于粉红色的类。

     

     6.6.1 优点

    1. 可以将其应用于任何分布的数据集。
    2. 它很容易理解并且非常直观。

    6.6.2 缺点

    1. 它很容易受到异常值的影响。
    2. 它偏向于在数据集中具有更多实例的类。
    3. 有时很难找到 K 的最佳数字。

    6.6.3 应用

    1. 检测异常值: 由于该算法对异常值很敏感,因此可以检测异常值。
    2. 识别相似文档: 识别语义相似的文档。

    6.7 K-Means聚类算法

    K-Means Clustering 是一种将数据集划分为 K 个不重叠的组的聚类算法。该算法的第一步是指定预期的簇数 K。然后,任务是将数据集划分为 K 个簇,以使簇内变化尽可能小。算法过程如下:

    1. 为每个输入变量随机分配一个从 1 到 K 的数字。这些是变量的初始聚类标签。
    2. 重复该步骤,直到集群分配保持不变:
    3. 为 K 个集群中的每一个评估集群质心。 
    4. 将每个输入变量集分配给质心最近的簇(这里最接近可以用欧氏距离来定义)

    总之,该算法最小化输入点与相应聚类质心之间的偏差平方和。将其命名为 K 均值聚类的原因是步骤 2a) 将属于特定聚类的观测值的均值评估为聚类质心。 

    6.7.1 优点

    1. 我们可以将其应用于大型数据集。
    2. 实施起来毫不费力。
    3. 它保证了定位集群的收敛性。

    6.7.2 缺点

    1. 它有一个限制,因为必须首先提供 K 的值。
    2. 它对异常值很敏感。

    6.7.3 应用

    1. 添加推荐: 公司可以识别共享金钱消费习惯的客户群,并展示他们更有可能购买的广告。
    2. 识别城市中的犯罪区域: 使用 K 均值聚类,我们可以识别更容易发生犯罪案件的区域。
    3. 文档分类: 识别写在类似主题上的文档

    7 如何决定选择哪种分类算法

    下面我们有一个列表,可以帮助您了解应该使用哪些分类算法来解决业务问题。

    1. 问题识别: 首先要做的是彻底了解手头的任务。如果是有监督的分类案例,可以使用逻辑回归、随机森林、决策树等算法。另一方面,如果是无监督的分类案例,则应该使用聚类算法。
    2. 数据集  的大小:数据集的大小也是您在选择算法时应该考虑的一个参数。由于很少有算法相对较快,因此最好切换到那些算法。如果数据集的大小很小,您可以坚持使用像朴素贝叶斯这样的低偏差/高方差算法。相反,如果数据集很大,特征数量很多,那么你应该使用高偏差/低方差算法,如 KNN、决策树和 SVM。
    3. 预测准确度: 模型的准确度是测试分类器好坏的参数。它反映了预测输出值与正确输出值的匹配程度。当然,更高的精度是可取的,但还应检查模型是否过拟合。
    4. 训练时间: 有时,像 SVM 和随机森林这样的复杂算法可能会占用大量计算时间。此外,更高的准确性和大数据集无论如何需要更多时间来学习模式。像逻辑回归这样的简单算法更容易实现并节省时间。
    5. 数据集的线性: 输入变量和目标变量之间并不总是存在线性关系。因此,必须分析这种关系并仔细选择算法,因为其中一些仅限于线性数据集。检查线性的最佳方法是拟合线性线或运行逻辑回归或 SVM 并查找残差。较高的误差表明数据是非线性的,需要实施复杂的算法。
    6. 特征数量: 有时,数据集可能包含不必要的许多特征,并且并非所有特征都相关。然后可以使用最适合这种情况的 SVM 等算法,或者使用主成分分析来确定哪些特征是重要的。

    展开全文
  • 机器学习经典算法的C语言代码,比如:ID3算法 人脸识别源代码 K紧邻算法、人工神经网络
  • 机器学习常见算法分类

    千次阅读 2021-02-03 19:32:43
    机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience ...

    1 机器学习概念

    1.1 机器学习的定义

    在维基百科上对机器学习提出以下几种定义:

    • “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
    • “机器学习是对能通过经验自动改进的计算机算法的研究”。
    • “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E。

    可以看出机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。
    这里写图片描述

    上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。

    1.2 机器学习的分类

    1.2.1 监督学习

    监督是从给定的训练数据集中学习一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果。监督学习的训练集要求包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注(标量)的。在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”、“非垃圾邮件”,对手写数字识别中的“1”、“2”、“3”等。在建立预测模型时,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。常见的监督学习算法包括回归分析和统计分类:

    • 二元分类是机器学习要解决的基本问题,将测试数据分成两个类,如垃圾邮件的判别、房贷是否允许等问题的判断。
    • 多元分类是二元分类的逻辑延伸。例如,在因特网的流分类的情况下,根据问题的分类,网页可以被归类为体育、新闻、技术等,依此类推。
      监督学习常常用于分类,因为目标往往是让计算机去学习我们已经创建好的分类系统。数字识别再一次成为分类学习的常见样本。一般来说,对于那些有用的分类系统和容易判断的分类系统,分类学习都适用。

    监督学习是训练神经网络和决策树的最常见技术。神经网络和决策树技术高度依赖于事先确定的分类系统给出的信息。对于神经网络来说,分类系统用于判断网络的错误,然后调整网络去适应它;对于决策树,分类系统用来判断哪些属性提供了最多的信息,如此一来可以用它解决分类系统的问题。
    这里写图片描述

    1.2.2 无监督学习

    与监督学习相比,无监督学习的训练集没有人为标注的结果。在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法和k-Means算法。这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚类常常能发现那些与假设匹配的相当好的直观分类,例如基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合,以及其他的贫穷的聚合。

    这里写图片描述

    非监督学习看起来非常困难:目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路:第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好地概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。
    因为无监督学习假定没有事先分类的样本,这在一些情况下会非常强大,例如,我们的分类方法可能并非最佳选择。在这方面一个突出的例子是Backgammon(西洋双陆棋)游戏,有一系列计算机程序(例如neuro-gammon和TD-gammon)通过非监督学习自己一遍又一遍地玩这个游戏,变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶,并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。

    1.2.3 半监督学习

    半监督学习(Semi-supervised Learning)是介于监督学习与无监督学习之间一种机器学习方式,是模式识别和机器学习领域研究的重点问题。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。主要算法有五类:基于概率的算法;在现有监督算法基础上进行修改的方法;直接依赖于聚类假设的方法等,在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理地组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测,如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。
    半监督学习分类算法提出的时间比较短,还有许多方面没有更深入的研究。半监督学习从诞生以来,主要用于处理人工合成数据,无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。

    这里写图片描述

    1.2.4 强化学习

    强化学习通过观察来学习动作的完成,每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻做出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning 以及时间差学习(Temporal difference learning)。

    这里写图片描述

    在企业数据应用的场景下,人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据,目前半监督式学习是一个很热的话题。而强化学习更多地应用在机器人控制及其他需要进行系统控制的领域。

    1.3 机器学习的常见算法

    常见的机器学习算法有:

    • 构造条件概率:回归分析和统计分类;
    • 人工神经网络;
    • 决策树;
    • 高斯过程回归;
    • 线性判别分析;
    • 最近邻居法;
    • 感知器;
    • 径向基函数核;
    • 支持向量机;
    • 通过再生模型构造概率密度函数;
    • 最大期望算法;
    • graphical model:包括贝叶斯网和Markov随机场;
    • Generative Topographic Mapping;
    • 近似推断技术;
    • 马尔可夫链蒙特卡罗方法;
    • 变分法;
    • 最优化:大多数以上方法,直接或者间接使用最优化算法。

    根据算法的功能和形式的类似性,我们可以把算法分类,比如说基于树的算法,基于神经网络的算法等等。当然,机器学习的范围非常庞大,有些算法很难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题,下面用一些相对比较容易理解的方式来解析一些主要的机器学习算法:

    1.3.1 回归算法

    回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域,人们说起回归,有时候是指一类问题,有时候是指一类算法,这一点常常会使初学者有所困惑。常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)。
    这里写图片描述

    1.3.2 基于实例的算法

    基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此,基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括 k-Nearest Neighbor (KNN),、学习矢量量化(Learning Vector Quantization, LVQ)以及自组织映射算法(Self-Organizing Map,SOM)
    这里写图片描述

    1.3.3 正则化方法

    正则化方法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括:Ridge Regression、Least Absolute Shrinkage and Selection Operator(LASSO)以及弹性网络(Elastic Net)。
    这里写图片描述

    1.3.4 决策树学习

    决策树算法根据数据的属性采用树状结构建立决策模型, 决策树模型常常用来解决分类和回归问题。常见的算法包括:分类及回归树(Classification And Regression Tree, CART)、 ID3 (Iterative Dichotomiser 3)、C4.5、Chi-squared Automatic Interaction Detection (CHAID)、Decision Stump、机森林(Random Forest)、多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine,GBM)。
    这里写图片描述

    1.3.5 贝叶斯学习

    贝叶斯方法算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:朴素贝叶斯算法、平均单依赖估计(Averaged One-Dependence Estimators, AODE)以及 Bayesian Belief Network(BBN)。
    这里写图片描述

    1.3.6 基于核的算法

    基于核的算法中最著名的莫过于支持向量机(SVM)了。基于核的算法把输入数据映射到一个高阶的向量空间, 在这些高阶向量空间里, 有些分类或者回归问题能够更容易解决。 常见的基于核的算法包括:支持向量机(Support Vector Machine,SVM)、径向基函数(Radial Basis Function,RBF)以及线性判别分析(Linear Discriminate Analysis,LDA)等。
    这里写图片描述

    1.3.7 聚类算法

    聚类就像回归一样,有时候人们描述的是一类问题,有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所有的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means 算法以及期望最大化算法(Expectation Maximization,EM)。
    这里写图片描述

    1.3.8 关联规则学习

    关联规则学习通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则。常见算法包括 Apriori 算法和 Eclat 算法等。
    这里写图片描述

    1.3.9 人工神经网络算法

    人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法(其中深度学习就是其中的一类算法,我们会单独讨论)。重要的人工神经网络算法包括:感知器神经网络(Perceptron Neural Network)、反向传递(Back Propagation)、Hopfield 网络、自组织映射(Self-Organizing Map, SOM)、学习矢量量化(Learning Vector Quantization,LVQ)。
    这里写图片描述

    1.3.10 深度学习算法

    深度学习算法是对人工神经网络的发展,在近期赢得了很多关注,特别是百度也开始发力深度学习后,更是在国内引起了很多关注。在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法,用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括:受限波尔兹曼机(Restricted Boltzmann Machine, RBN)、 Deep Belief Networks(DBN)、卷积网络(Convolutional Network)、堆栈式自动编码器(Stacked Auto-encoders)。
    这里写图片描述

    1.3.11 降低维度算法

    像聚类算法一样,降低维度算法试图分析数据的内在结构,不过降低维度算法是以非监督学习的方式,试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括:主成份分析(Principle Component Analysis, PCA)、偏最小二乘回归(Partial Least Square Regression,PLS)、 Sammon 映射、多维尺度(Multi-Dimensional Scaling, MDS)、投影追踪(Projection Pursuit)等。
    这里写图片描述

    1.3.12 集成算法

    集成算法用一些相对较弱的学习模型独立地对同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法,同时也非常流行。常见的算法包括:Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、堆叠泛化(Stacked Generalization, Blending)、梯度推进机(Gradient Boosting Machine, GBM)、随机森林(Random Forest)。
    这里写图片描述

    参考:https://blog.csdn.net/yirenboy/article/details/47844663 

    https://github.com/Wasabi1234/Spark-MLlib-Tutorial

    https://cloud.tencent.com/developer/article/1411034

    展开全文
  • 机器学习分类算法常用评价指标

    千次阅读 2018-10-16 17:42:31
    目录 1. 准确率,召回率,精确率,F1-...3. Python3 sklearn实现分类评价指标 1. 准确率,召回率,精确率,F1-score,Fβ,ROC曲线,AUC值 为了评价模型以及在不同研究者之间进行性能比较,需要统一的评价标准。...
  • 主流监督式机器学习分类算法

    千次阅读 2017-05-16 09:10:48
    基于机器学习的波形分类算法比较 姓名:欧阳强强 学号:169559 摘要:机器学习是未来解决工程实践问题的一个重要思路。本文采比较了目前监督式学习中几种主流的分类算法(决策树、SVM、贝叶斯、KNN、随机森林、...
  • 今天和大家学习一下机器学习中常见的六种分类算法,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林除了介绍这六种不同分类算法外,还附上对应的Python代码案例,并分析各自的优缺...
  • 机器学习实验——分类学习算法

    千次阅读 2022-03-21 11:03:20
    机器学习实验,分类学习算法 1、理解监督学习和分类学习的基本概念。 2、掌握分类学习五种算法算法流程。 3、学会编写分类学习五种算法的Python编程方法。 4、会使用分类学习评价方法测评不同的算法性能
  • 一、监督学习和非监督学习 (1)、监督学习:之所以被称为监督学习,是因为这类算法必须知道预测什么,即目标变量...(1)、使用机器学习算法的目的,想要算法完成何种任务; (2)、需要分析或收集的数据是什么。 ...
  • 机器学习算法分类

    万次阅读 多人点赞 2018-05-24 19:35:32
    机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法机器学习算法是一类能从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法 [1]。机器学习(Machine Learning)是人工智能(AI)中很...
  • 机器学习分类算法应该如何选择?

    千次阅读 2014-11-24 16:10:00
    如何针对某个分类问题决定使用何种机器学习算法? 当然,如果你真心在乎准确率,最好的途径就是测试一大堆各式各样的算法(同时确保在每个算法上也测试不同的参数),最后选择在交叉验证中表现最好的。倘若你只是想...
  • 机器学习算法分类-总览

    千次阅读 2020-03-28 16:52:00
    机器学习算法分类 1. 监督学习(Supervised Learning) 2.无监督学习(Unsupervised Learning) 3.强化学习(Reinforcement Learning) 4.神经网络与深度学习(Neural Networks and DeepLearning) 5.集成学习(Ensemble...
  • 机器学习的常见分类及常用算法

    千次阅读 2019-06-01 23:54:40
    3.机器学习常见分类 4.机器学习常用算法 1. 机器学习概述 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...
  • 学习方式 监督式学习: 非监督式学习: 半监督式学习: 强化学习算法类似性 回归算法: 基于实例的算法 正则化方法 决策树学习 贝叶斯方法 基于核的算法 聚类算法 关联规则学习 人工神经网络 ...
  • 机器学习——几种分类算法的汇总

    万次阅读 2019-06-25 01:03:45
    https://www.cnblogs.com/Zhi-Z/p/8912396.html
  • 机器学习各种分类算法比较

    万次阅读 2018-02-08 21:14:50
    一、 可以解决小样本情况下的机器学习问题。 二、 可以提高泛化性能。 三、 可以解决高维问题。 四、 可以解决非线性问题。 五、 可以避免神经网络结构选择和局部极小点问题。 SVM的缺点...
  • 机器学习】——分类算法小结

    千次阅读 2019-05-13 23:49:49
    一、分类算法简介 (1)决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出...
  • 机器学习中的分类算法

    万次阅读 2016-03-09 11:32:39
    机器学习,模式识别中很重要的一环,就是分类,因为计算机其实无法深层次地理解文字图片目标的意思,当然现在卷积神经网络正在希望计算机能够看懂东西,但是现在我们先来看一些一些简单的分类算法
  • 如何选择最佳机器学习算法

    千次阅读 2021-01-21 19:05:53
    没有任何一种机器学习算法,能够做到针对任何数据集都是最佳的。通常,拿到一个具体的数据集后,会根据一系列的考量因素进行评估。这些因素包括 :要解决的问题的性质、数据集大小、数据集特征、有无标签等。有了...
  • 常用的机器学习与深度学习算法简介1、机器学习1.1 决策树与随机森林1.2 支持向量机(SVM)1.3 k-最近邻算法1.4 朴素贝叶斯分类器2、深度学习2.1 人工神经网络2.2 深度神经网络2.3 卷积神经网络2.4 循环神经网络2.5 自...
  • 机器学习(额外篇):聚类算法和分类算法的区别

    千次阅读 多人点赞 2019-06-22 10:54:30
    机器学习中有两类的大问题,一个是分类,一个是聚类。 在生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类分类也差不多就是聚类,感觉两个没什么太大的区别。下面,我们就具体来研究下分类与聚类...
  • 机器学习中,一些比较流行方法的包括:支持向量机...OpenCV实现了其中的八种机器学习算法,所有这些算法都继承自StatModel类,这八种算法是: ·人工神经网络 ·随机树 ·期望最大化 ·k-最近邻 ·............
  • 机器学习常见算法分类算法优缺点汇总

    万次阅读 多人点赞 2017-04-14 12:08:13
    很多人在平时的工作中都或多或少会用到机器学习算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。  机器学习算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是...
  • 机器学习常见算法

    千次阅读 2022-05-08 11:47:00
    kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。是从训练集中找到和新数据最接近的k条记录,然后根据他们的主要分类来决定新数据的类别。 该算法涉及3个主要因素:训练集、距离或相似的衡量、k的...
  • 机器学习原理】KNN分类算法

    万次阅读 2022-01-29 16:30:22
    上一篇:Logistic回归分类算法 文章目录一、KNN分类算法:用多数表决进行分类1. 用“同类相吸”的办法解决分类问题可视化下的分类问题2. KNN分类算法的基本方法:多数表决3. 表决权问题4. KNN的具体含义KNN分类算法...
  • 机器学习十大算法

    万次阅读 2018-01-16 14:51:58
    机器学习十大算法 http://www.52cs.org/?p=1835 作者 James Le ,译者 尚剑 , 本文转载自infoQ 毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经...
  • 机器学习分类(Classification)算法

    万次阅读 2018-03-17 09:54:00
    在目前的机器学习工作中,最常见的三种任务就是:回归分析分类分析聚类分析这篇文章的重点是分类(Classification)在机器学习领域中的应用。什么是「分类」虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础...
  • 机器学习分类与主要算法对比

    万次阅读 多人点赞 2017-05-31 23:22:21
    机器学习分类与主要算法对比重要引用:Andrew Ng Courera Machine Learning;从机器学习谈起;关于机器学习的讨论;机器学习常见算法分类汇总;LeNet Homepage;pluskid svm 首先让我们瞻仰一下当今机器学习领域...
  • 图解十大经典机器学习算法入门

    万次阅读 多人点赞 2018-01-30 14:07:46
    弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分。以我们的智能手机为例,看看到底温...传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。这篇文章将对

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 268,629
精华内容 107,451
关键字:

机器学习分类算法