精华内容
下载资源
问答
  • 机器学习正在迅速改变我们的世界。作为人工智能的核心,我们几乎每天都会读到机器学习如何改变日常的生活。一些人认为它会带领我们进入一个风格奇异的高科技乌托邦;而另一些人认为我们迈向一个高科技天启时代,将与...

    机器学习正在迅速改变我们的世界。作为人工智能的核心,我们几乎每天都会读到机器学习如何改变日常的生活。一些人认为它会带领我们进入一个风格奇异的高科技乌托邦;而另一些人认为我们正迈向一个高科技天启时代,将与窃取我们工作机会的机器人和无人机敢死队进行持久的战争。不过,虽然权威专家们可能会喜欢讨论这些夸张的未来,但更为平凡的现实是,机器学习正在快速成为我们日常生活的固定装备。随着我们微小但循序渐进地改进自身与计算机以及周围世界之间的互动,机器学习正在悄悄地改善着我们的生活。

    如果你在Amazon.com这样的在线零售商店购物,使用Spotify或Netfix这样的流媒体音乐或电影服务,甚至只是执行一次Google搜索,你就已经触碰到了机器学习的应用。使用这些服务的用户会产生数据,这些数据会被收集、汇总并送入模型,而模型最终会为每个用户创建个性化的体验来完善服务。

    想要深入到机器学习应用的开发中,现在就是一个理想的时机。你会发现, Python是开发这些应用的理想选择。Python拥有一个深度的、活跃的开发者社区,许多开发者也来自科学家的社区。这为Python提供了一组丰富的科学计算库。在本书中,我们将讨论并使用这些来自Python科学栈的库。

    在接下来的章节中,我们将一步步学习如何建立各种不同的机器学习应用。但是,在真正开始之前,我们将使用本章剩下的篇幅讨论这些关键库的特性,以及如何准备能充分利用它们的环境。

    我们将在本章中介绍以下主题。

    ·数据科学机器学习的工作流程。

    ·工作流中每个阶段的库。

    ·设置你的环境。

    1.1 数据科学/机器学习的工作流程

    打造机器学习的应用程序,与标准的工程范例在许多方面都是类似的,不过有一个非常重要的方法有所不同:需要将数据作为原材料来处理。数据项目成功与否,很大程度上依赖于你所获数据的质量,以及它是如何被处理的。由于数据的使用属于数据科学的领域,理解数据科学的工作流程对于我们也有所帮助:整个过程要按照图1-1中的顺序,完成六个步骤:获取,检查和探索,清理和准备,建模,评估和最后的部署。

    在这个过程中,还经常需要绕回到之前的步骤,例如检查和准备数据,或者是评估和建模,但图1-1所示的内容可以描述该过程较高层次的抽象。

    8e9eaf74bab77497b989ea1843e6c489.png

    图1-1

    现在让我们详细讨论每一个步骤。

    1.1.1获取

    机器学习应用中的数据,可以来自不同的数据源,它可能是通过电子邮件发送的CSV文件,也可能是从服务器中拉取出来的日志,或者它可能需要构建自己的Web爬虫。数据也可能存在不同的格式。在大多数情况下,它是基于文本的数据,但稍后将看到,构建处理图像甚至视频文件的机器学习应用,也是很容易的。不管是什么格式,一旦锁定了某种数据,那么了解该数据中有什么以及没有什么,就变得非常重要了。

    1.1.2检查和探索

    一旦获得了数据,下一步就是检查和探索它们。在这个阶段中,主要的目标是合理地检查数据,而实现这一点的最好办法是发现不可能或几乎不可能的事情。举个例子,如果数据具有唯一的标识符,检查是否真的只有一个;如果数据是基于价格的,检查是否总为正数;无论数据是何种类型,检查最极端的情况。它们是否有意义?一个良好的实践是在数据上运行一些简单的统计测试,并将数据可视化。此外,可能还有一些数据是缺失的或不完整的。在本阶段注意到这些是很关键的,因为需要在稍后的清洗和准备阶段中处理它。只有进入模型的数据质量好了,模型的质量才能有保障,所以将这一步做对是非常关键的。

    1.1.3清理和准备

    当所有的数据准备就绪,下一步是将它转化为适合于模型使用的格式。这个阶段包括若干过程,例如过滤、聚集、输入和转化。所需的操作类型将很大程度上取决于数据的类型,以及所使用的库和算法的类型。例如,对于基于自然语言的文本,其所需的转换和时间序列数据所需的转换是非常不同的。全书中,我们将会看到一些转换的的例子。

    1.1.4 建模

    一旦数据的准备完成后,下一阶段就是建模了。在这个阶段中,我们将选择适当的算法,并在数据上训练出一个模型。在这个阶段,有许多最佳实践可以遵循,我们将详细讨论它们,但是基本的步骤包括将数据分割为训练、测试和验证的集合。这种数据的分割可能看上去不合逻辑-尤其是在更多的数据通常会产生更好的模型这种情况下-但正如我们将看到的,这样做可以让我们获得更好的反馈,理解该模型在现实世界中会表现得如何,并避免建模的大忌:过拟合。

    1.1.5评估

    一旦模型构建完成并开始进行预测,下一步是了解模型做得有多好。这是评估阶段试图回答的问题。有很多的方式来衡量模型的表现,同样,这在很大程度上依赖于所用数据和模型的类型,不过就整体而言,我们试图回答这样的问题:模型的预测和实际值到底有多接近。有一堆听上去令人混淆的名词,例如根均方误差、欧几里德距离,以及F1得分,但最终,它们还是实际值与预估值之间的距离量度。

    1.1.6部署

    一旦模型的表现令人满意,那么下一个步骤就是部署了。根据具体的使用情况,这个阶段可能有不同的形式,但常见的场景包括将其作为另一个大型应用程序中的某个功能特性,一个定制的Web应用程序,甚至只是一个简单的cron作业。

    本文节选自《Python机器学习实践指南》

    8e11816a2c9570f25bd353863394c1a2.png

    机器学习是近年来渐趋热门的一个领域,同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。本书结合了机器学习和Python语言两个热门的理念,通过易于理解的项目详细讲述了如何构建真实的机器学习应用程序。

    展开全文
  • 机器学习理论相关

    2020-05-21 16:08:51
    1.auc 有两种计算方式:roc曲线的面积,简单粗暴的根据排列组合计算auc roc曲线的面积,根据混淆矩阵,真阳性率,假阴性率计算的,同时考虑了模型分正确和分错误的情况,...分子是:样本预测值,大于负样本预测值的

    https://bbs.cvmart.net/topics/3272

    https://zhuanlan.zhihu.com/p/217494137

    1.auc

    有两种计算方式:roc曲线的面积,简单粗暴的根据排列组合计算auc

    roc曲线的面积,根据混淆矩阵,真阳性率,假阴性率计算的,同时考虑了模型分正确和分错误的情况,在样本不平衡的情况下依然很好用。

    https://www.zhihu.com/question/39840928/answer/241440370 如何理解auc

    简单粗暴的计算auc:

    auc从物理意义上理解,是排列组合问题,有多少正负样本对满足:正样本预测值>负样本预测值。

    分子是:正样本预测值,大于负样本预测值的pair数。在计算的时候,先对[label,pre]排序,按照pre从小到大排序,然后遍历找到符合条件的pair数。

    分母是正样本数*负样本数,就是总共的排列组合数。

    https://blog.csdn.net/juanmengmu2595/article/details/79549476

    auc

    https://bbs.cvmart.net/topics/3272

    https://blog.csdn.net/qq_22238533/article/details/78666436

    https://blog.csdn.net/pzy20062141/article/details/48711355

    分子是所有满足条件的pair数,分母是总共的pair数。分子:先按照预测概率从小到大对样本排序,rank是正样本的序号。ranki相加表示,满足正样本概率大于其他概率的样本数,然后减去pair的(正样本,正样本)。

    是数列求和,1到m求和。

    2.l1和l2正则化的区别

    l1是绝对值形式,l2是平方形式,绝对值形式的可进行特征筛选。

    为什么l1可进行特征选择?从梯度的角度出发进行说明,l1的导数,更容易下降到0。

    https://www.zhihu.com/question/26485586

    https://www.zhihu.com/question/26485586

    正则化为什么能防止过拟合(重点地方标红了)

    https://www.cnblogs.com/alexanderkun/p/6922428.html

    3.常用的特征筛选的方式

    4.CBOW和skip-gram的区别

    https://zhuanlan.zhihu.com/p/37477611

    CBOW是周围词预测中心词,skip-gram是中心词预测周围词。

    skip-gram对低频词的效果比cbow好,因为训练的更充分。每个词作为中心词的时候都会对周围词做预测。

    5.tensorflow实现负采样(w2v)

    https://zhuanlan.zhihu.com/p/27296712

    https://huzuoliang.github.io/2019/02/26/Word2Vec%E8%B4%9F%E9%87%87%E6%A0%B7%E5%8F%8ATF%E5%AE%9E%E7%8E%B0/

    6.gbdt,xgb,lgb的区别

    https://www.jianshu.com/p/765efe2b951a

    xgb树的如何分裂的

    https://mp.weixin.qq.com/s/7n1nzGL7r789P9sv0GEkDA

    gbdt和xgb区别:

    1.损失函数上的区别

    2.树分裂的时候,寻找最佳分裂节点的时候,xgb做的工程实现优化,

    https://mp.weixin.qq.com/s/7n1nzGL7r789P9sv0GEkDA

    lgb为何比xgb快?具体是如何并行计算的?

    xgb为什么可以使用不同的基分类器?(从损失函数角度出发)

    xgb每一个基分类器的损失函数。

    gbdt做分类和回归有什么区别

    20201010

    https://www.cnblogs.com/peizhe123/p/5086128.html

    gbdt详细的例子。

    https://hexinlin.top/2020/02/24/decision-tree/

    决策树算法详解。

     

    7.逻辑回归损失函数

    交叉熵

    https://www.jianshu.com/p/1d2101fdbdfa

    写一下交叉熵

    8.决策树原理

    https://www.kesci.com/home/project/5e4f9fcc0e2b66002c1f85d0

    9.SVM

    10.w2v输入输出

     

     

     

    展开全文
  • 机器学习或者深度学习中,避免不了使用指标去评价某个模型的好坏。通常情况下,一个模型的好坏,是由多个指标来共同决定的,那么有必要去学习他们之间的定义以及关联。 在学习模型的评价标准之前,我们需要先定一...

    相关指标学习

    前记

    在机器学习或者深度学习中,避免不了使用指标去评价某个模型的好坏。通常情况下,一个模型的好坏,是由多个指标来共同决定的,那么有必要去学习他们之间的定义以及关联。

    在学习模型的评价标准之前,我们需要先定一个基础知识,这些是你必须了解的。通过这些基础知识的了解,我们才可以将模型的评价标准了解的更加透彻。

    1. True Positives,TP:预测为正样本,实际也为正样本的特征数

    2. False Positives,FP:预测为正样本,实际为负样本的特征数

    3. True Negatives,TN:预测为负样本,实际也为负样本的特征数

    4. False Negatives,FN:预测为负样本,实际为正样本的特征数

    ​ 听起来还是很费劲,不过我们用一张图就很容易理解了。图如下所示,里面绿色的半圆就是TP(True Positives), 红色的半圆就是FP(False Positives), 左边的灰色长方形(不包括绿色半圆),就是FN(False Negatives)。右边的 浅灰色长方形(不包括红色半圆),就是TN(True Negatives)。这个绿色和红色组成的圆内代表我们分类得到模型结果认为是正值的样本。

    在这里插入图片描述

    准确率

    定义:预测为正样本中,预测正确与预测为正确的样本之比。
    P=TPTP+FP P=\frac{TP}{TP+FP}
    通过上面的图形来看,就是绿色半圆的面积整个圆的面积之比。

    召回率

    定义:召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
    R=TPTP+FN R=\frac{TP}{TP+FN}
    召回率(Recall)的定义也在图上能看出,是绿色半圆除以左边的长方形。

    准确率和召回率实际意义

    准确率召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率

    一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

    ROC曲线与AUC曲线

    在讲如何画出ROC曲线与AUC曲线之前,我们要先了解一下灵敏度和特异度这两个指标:

    灵敏度(true positive rate ,TPR):它是所有实际正例中,正确识别的正例比例,它和召回率的表达式没有区别。数学定义如下:
    TPR=TPTP+FN TPR=\frac{TP}{TP+FN}

    特异度(false positive rate, FPR):它是实际负例中,错误得识别为正例的负例比例。数学定义如下:
    FPR=FPFP+TN FPR=\frac{FP}{FP+TN}
    有了上面的两个定义,那么可以说主角ROC曲线和AUC曲线呼之欲出:

    TPR为y轴,以FPR为x轴,我们就直接得到了RoC曲线。从FPRTPR的定义可以理解,TPR越高,FPR越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。如下图左图所示。从几何的角度讲,RoC曲线下方的面积越大越大,则模型越优。所以有时候我们用RoC曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。

    所以,可以直接从上面得到了AUCROC的相关内容。

    PR曲线

    以精确率为y轴,以召回率为x轴,我们就得到了PR曲线。仍然从精确率和召回率的定义可以理解,精确率越高,召回率越高,我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。

    F1指标

    F1值来综合评估精确率和召回率,它是精确率和召回率的调和均值。当精确率和召回率都高时,F1值也会高。

    数学定义如下:
    2F1=1P+1R \frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}

    Reference

    https://www.cnblogs.com/pinard/p/5993450.html

    展开全文
  • 机器学习相关指标

    2018-11-13 15:02:52
    1 ROC ROC((Receiver Operating Characteristic Curve)),即受试者工作特征曲线。ROC曲线是用来验证一个分类器(二分)模型的性能的。其工作原理是,给出一个模型,输入已知正负类的一组...FP:实际是负样本预测成...

    1 ROC

    ROC((Receiver Operating Characteristic Curve)),即受试者工作特征曲线。ROC曲线是用来验证一个分类器(二分)模型的性能的。其工作原理是,给出一个模型,输入已知正负类的一组数据,并通过对比模型对该组数据进行的预测,衡量这个模型的性能。

    TP:实际是正样本预测成正样本的样本数
    FN:实际是正样本预测成负样本的样本数
    FP:实际是负样本预测成正样本的样本数
    TN:实际是负样本预测成负样本的样本数
    TPR=TP/(TP+FN),也称为“命中率”
    FPR=FP/(FP+TN),也称为“假报率”
    TNR=TN/(FP+TN),也称为“敏感度”

    • ROC曲线如下图所示

      (0,0):分类器全部预测成负样本,这种情况说明阈值选得过高
      (0,1):全部完美预测正确
      (1,0):全部完美预测错误
      (1,1):分类器全部预测成正样本,这种情况说明阈值选得过低
      TPR=FPR,斜对角线,预测为正样本的结果一半是对的,一半是错的,代表随机分类器的预测效果

    2 AUC

    • AUC(Area Under Curve):ROC曲线与FPR轴线形成的面积,是对ROC曲线的量化指标。AUC的值越大越好,其取值范围为(0.5,1)

    3 ACC

    • ACC(Accuracy):准确率,ACC=(TP+TN)/(TP+TN+FP+FN),即分类器准确识别真阳性和假阴性的比率。
    • ACC没办法较好地脱离测试数据对模型进行评价,这也就是我们为什么要用ROC的原因。(如一组数据负样本比例极高,ACC值高,表明对负类预测很准;但另一组数据正样本比例高,这样ACC的值会很低)

    4 召回率(Recall)

    • 召回率表示样本中的正例有多少被预测正确,有两种可能:一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
    • R=TPR=TP/(TP+FN)

    5 精度(Precision)

    • 精度表示预测为正的样本中有多少是正确的,有两种可能:一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。
    • P=TP/(TP+FP)

    参考

    https://blog.csdn.net/shenpibaipao/article/details/78033218
    https://blog.csdn.net/sunflower_sara/article/details/81214897

    展开全文
  • 机器学习相关知识

    2016-10-18 16:20:01
    保持怀疑的态度(在全新的数据集上测试分类器)天下没有免费的午餐(没有适用的最好学习方法,具体问题具体对待)正确对待缺失值,不同参数的设置可能会对结果产生不同的影响不同算法都有对应的假设数据挖掘的结果...
  • 机器学习相关书籍推荐推荐

    千次阅读 2014-11-12 22:26:35
    机器学习的资料较多,初学者可能会不知道怎样去有效的学习,所以对这方面的资料进行了一个汇总,希望能够对和我一样的初学者有一定的借鉴。 1. 数学基础  机器学习是构建于数学的基础之上的,因此只有把数学的...
  • 在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能:减少...
  • 机器学习模型评价指标总结 1. 混淆矩阵(Confusion Matrix) (以下先考虑二分类问题) 其中: TP(实际为预测为),FP(实际为负但预测为) TN(实际为负预测为负),FN(实际为但预测为负) 2. ...
  • 机器学习相关知识点

    2018-01-13 10:26:14
    1、TP——将类预测为类数  FN——将类预测为负类数  FP——将负类预测为类数  TN——将负类预测为负类数 精确率(Precision):  P = TP/(TP+FP)  反映
  • 介绍特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。...并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。但是它几乎很少出现于机器学习书...
  • 在使用机器学习模型的过程中,我们不可避免都会碰到如何评价我们模型到底是好还是坏?或者我们再看别人论文时,总会遇到一些比如:“准确率”、“召回率”之类的东西。博主记性不好总是忘记傻傻的分不清,总是搞混。...
  • 在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。 一、分类 1. 精确率与召回率 精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为的...
  • 机器学习 笔记

    2020-06-02 20:57:55
    模式识别机器学习深度学习,这是机器学习的三个层次,模式识别较为古旧,机器学习正当时,深度学习还在摸索中。 为什么要用机器学习,用传统的编程解决问题不好吗? 机器学习的应用场合大致可归纳为三个条件: ...
  • 机器学习中关于回归模型有时候需要衡量自变量和因变量之间的相关度,接下来介绍两个衡量相关度的指标: 1. 相关度 1.1 相关度(Relevancy) 相关度是指两个事物间存在相互联系的百分比 相关度使用皮尔逊相关系数来进行...
  • 1. 皮尔逊相关系数(Pearson Correlation Coefficient) ... 正相关:>0, 负相关:<0, 无相关:=0 1.3要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关...
  • 本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。...这也正是也机器学习如此重要的原因。 任务是对我们所期望解决的、与问题域对象有关的问题的一种抽象表示。 许多任务都可抽象...
  • 机器学习之统计分析(2)

    千次阅读 2017-03-28 14:41:35
    前言最近在阿里云数加平台上学习一下机器学习,把学习中整理的资料记录于此,已备查看,以下资料主要是概念解释及应用。相关系数矩阵了解相关矩阵前先了解相关系数。 相关系数的取值范围为[-1,1],当相关系数为1时...
  • (2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。 (3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。 相关系数的绝对值越大,...
  • Robbie Allen整理了20多个与机器学习相关的速查资料,并分享出来,或许也可以帮助其他学习这门技术的人。 机器学习领域发生着日新月异的变化,这些资料总有一天会过时,不过至少在目前看来,它们仍然十分有用。...
  • (草稿,待修改) 1、闭式解 闭式解也被称为解析解,知是通过严格的公式所求得的解,即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。通过给出解的具体函数形式,从解的表达式中就可以...在加了
  • 1、标量关于标量 x 的求导: ... 此时,导数是 Y 向量的切向量。 2、矩阵 Y 关于标量 x 的求导: 矩阵对标量的求导类似于向量关于标量的求导,也就是矩阵的每个元素分别对标量 x ...
  • 当随机点在一三象限中时,乘积为正,正相关 当随机点在二四象限中时,乘积为负,负相关   设一函数 cov(x,y)=E(乘积),表示所有乘积(面积)的均值 当cov(x,y)>0时,总体呈正相关 当cov(x,y)时,...
  • 机器学习开源软件

    2014-09-08 18:45:21
    经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了) 分类: 推荐资源2012-06-28 22:38 429人阅读 评论(0) 收藏 举报 今天给大家介绍一下经典的开源...
  • 在今天的文章中,我们将共同了解十三款机器学习框架,这些框架中最值得关注的特性,在于它们致力于通过简单而新颖的方式应对与机器学习相关的种种挑战。过去几年以来,机器学习已经开始以前所未有的方式步入主流...
  • 机器学习在学术界和工业界都得到了广泛的研究。然而,随着图学习文献的大量涌现,涌现出大量的方法和...为了解决这一关键挑战,图上的自动机器学习(AutoML)结合了图机器学习和自动学习的优点,受到学术界的关注。
  • 在我们进行数据分析或者是机器学习模型建立的时候我们往往忽略数据处理的一个过程-----相关性分析。诚然,数据相互之间可能会存在一些联系,这些关系可能正相关,或者是负相关,也可能无关。 设X1,X2,X3,X4,X5为模型...
  • 机器学习小结

    2020-12-21 09:13:39
    χ2\chi^2χ2检验 χ2检验\chi^2检验χ2检验主要用于无参数的统计中,一般用来检验某一特征与类别的相关性,偏离度越大,χ...当xxx增加,yyy趋向于增加时,SpearmanSpearmanSpearman值为,反之为负;SpearmanSpearma

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 388
精华内容 155
关键字:

机器学习正相关