例子 简单机器学习_机器学习简单例子 - CSDN
  • 这两天仔细看了看机器学习的入门案例,一般程序的入门案例都是“hello world”;但是机器学习的比较特殊,是一个MNIST案例。案例的具体操作不做为重点去写,主要是想记录一下自己对案例中的处理方法,处理思路的理解...

    这两天仔细看了看机器学习的入门案例,一般程序的入门案例都是“hello world”;但是机器学习的比较特殊,是一个MNIST案例。

    案例的具体操作不做为重点去写,主要是想记录一下自己对案例中的处理方法,处理思路的理解,对于我这个数学能力有限的小白入门来说,确实花费的功夫不小啊,赶紧记录下来,希望下次再回想时不用那么费力了。

    效果

    MNIST主要就是通过机器学习,教会电脑认识手写的1-9的数字,原理对于我来说比较复杂,看我慢慢道来。

    如下图的数字:
    这里写图片描述
    通过机器学习后,电脑能认出来,并且准确率要90%以上

    模型

    其实上面的每一个数字都是如下图的
    这里写图片描述
    一个28x28的一个像素点组成的,总共是28x28=784个像素点;

    那么每一张图我们可以用像[0,0,0,…,0](总共784位)的一个向量,也就是一个矩阵来表示,每一个像素点用0-1的值来描述它的色值;简单的说如上图的一个数字图像,本来是28x28的一个像素集,我们把它每一行的点都往第一行后面追加,变成一个784x1的像素集(当然会有信息有所改变,这里先不计)。

    总的来说,我们把一个数字图片用一个784维的向量x来表示了,我们再用一个变量y表示这个数字真正的值,y呢,是一个[0,0,0,0,0,0,0,0,0,0]这样的10维的向量,第几维的数字是1,这就代表是几,如[0,0,1,0,0,0,0,0,0,0]表示2。现在我们把x叫作自变量,y叫作因变量,x,y的关系简单的用一个函数来表示:

    y = ax + b;
    

    因为y是一个1x10的矩阵,x是一个1x784的矩阵,那么可以通过矩阵的乘法,加法,得知,a是一个784x10的矩阵,b是一个1x10的矩阵。(忘记矩阵的自行复习一下)

    到这里,我们就了解了,x代表一张手写数字的图,y代表手写图表示的数字,x,y用一个简单的函数
    y = ax + b;
    来表示了,我们只要通过大量的数据训练出a,b的值,就可以通过x知道y的值了,

    至少,我是简单粗暴的就这样理解了。

    评估值

    接着上面的说,如果训练好了a,b,我们就能通过图片x,预测我们的图片所代表的数值y了,我们假设y'是这个图片实际代表的值,y是我们通过图片x预测的其所代表的值,我们在来一个函数

    z = y' * log(y)
    

    其中z代表了 交叉熵,粗暴的理解,z就是代表了我们我们的预测值y,和实际值y'之间的差距,可想而知,我们希望z越小越好。

    接下来TensorFlow就该出场了,

     tf.train.GradientDescentOptimizer(0.01).minimize(z)
    

    TensorFlow提供了一套牛逼反向传播算法,具体我也不清楚,反正很快,很准;可以每次让z小一点,然后记录a,b的值。通过多个数据的训练,让y=ax+b越来越准。

    至于到底准不准,TensorFlow也提供了方法去检测。我不涉及啥理解的,我就不说了。

    以上就是我对MNIST的一个原理的理解了。

    公众号:程序员的日记,持续分享程序员界的日常生活,职业历程,行业资讯,欢迎关注
    在这里插入图片描述

    展开全文
  • 机器学习:入门实例

    2019-09-05 21:59:32
    随着科技的发展,机器学习越来越走进我们的日常生活中,在普通人眼里机器学习是一门重算法,数学公式复杂的高门槛职位,笔者也深入研究这块,接下来从一个学习小白的角度讲述一个完整的机器学习案例,方便很多像笔者...

    随着科技的发展,机器学习越来越走进我们的日常生活中,在普通人眼里机器学习是一门重算法,数学公式复杂的高门槛职位,笔者也深入研究这块,接下来从一个学习小白的角度讲述一个完整的机器学习案例,方便很多像笔者这样在机器学习门外徘徊很久的爱好者能登堂入室,打开神秘的机器学习大门。

    一、概念

    1. 机器学习:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,以辅助人类决策。
    2. 机器学习分类:监督学习、非监督学习、半监督学习,他们的区别如下:监督学习就是按照你提供的输入输出关系找到里面的规律;非监督学习是给你一堆数据,你自己通过各种算法去找到规律;半监督学习正好处于两者之间;举个例子来说就是监督学习是按照老师教的去学习,非监督学习是自学,半监督学习是跟同学一块学习,里面的涵义读者朋友可以好好体会下。

    二、实践

    接下来我们将以一个监督学习的案例打开机器学习之旅。基本的业务是这样的:前提条件是体重是由性别和身高决定的,但具体的关系我们不是很清楚,这个时候我们通过一份既有的性别、身高和体重的关系表,根据这张关系表训练处一个模型,进而可以根据性别、身高来预测体重。

    1. 首先我们需要处理好数据,也就是我们需要训练的机器学习的每一列数据,避免出现异常、缺失值、数据的数量级弄错等情况。
      在这里插入图片描述
    2. 根据测试数据选择相应的训练模型,我们这里是通过机器学习中的线性回归作为我们的训练模型,这个过程最主要是选择训练模型,也就是算法,最终预测结果准不准确,主要还是看这个,当然因变量和自变量的选择也很关键,为什么只选择性别和身高呢,而不选择年龄,其实背后还是有很多前期的调研和逻辑论证的。
      在这里插入图片描述
    3. 运用我们训练出来的模型预测数据。通过上面一步,我们基本上已经把模型训练出来,接下来是检验模型的时候,我们验证的方法很简单,就是通过模型预测的结果跟表中实际的值去比较。
      在这里插入图片描述
      由于我们预测的是男性身高为172厘米的时候体重的范围,为了规避异常数据,我们从表格中取男性[171,173]之间的平均值,通过下面的数据基本上还是挺准确的,表格中数据如下:
      在这里插入图片描述
      当然通过一次预测是说明不了什么问题的,读者朋友可以多试验几次,通过比较,我们大概知道我们模型预测的准确性如何。

    以上项目的源代码和数据生成文件,可以查看文末参考文献github上项目源代码,欢迎读者朋友们互相交流学习。

    参考文献
    1.Github机器学习项目源代码
    2.机器学习中三大学习类别

    展开全文
  • 机器学习例子(Python代码)
  • 作者 | Lizzie Turner编译 | 专知翻译 | Xiaowen本文用浅显易懂的语言精准概括了机器学习的相关知识,内容全面,总结到位,剖析了机器学习的what,...
        

    作者 | Lizzie Turner

    编译 | 专知

    翻译 | Xiaowen


    本文用浅显易懂的语言精准概括了机器学习的相关知识,内容全面,总结到位,剖析了机器学习的what,who,when, where, how,以及why等相关问题。从机器学习的概念,到机器学习的发展史,再到机器学习的各类算法,最后到机器学习的最新应用,十分详尽。适合小白快速了解机器学习。

    640?wx_fmt=png


    Machine Learning: A Primer

    a quick introduction intended for non-technical readers


    你是否使用像Siri或Alexa这样的个人助理客户端?你是否依赖垃圾邮件过滤器来保持电子邮件收件箱的干净?你是否订阅了Netflix,并依赖它惊人的准确推荐来发现新的电影可看?如果你对这些问题说“是”,恭喜你!你已经很好地利用了机器学习!

     

    虽然这听起来很复杂,需要大量的技术背景,但机器学习实际上是一个相当简单的概念。为了更好地理解它,让我们研究一下关于机器学习的what,who,when, where, how,以及why。


    什么是机器学习?




    One day ladies will take their computers for walks in the park and tell each other, “My little computer said such a funny thing this morning”.

    —Alan Turing


    机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习,所有这些都有其特定的优点和缺点。

    640?wx_fmt=png

    监督学习涉及一组标记数据。计算机可以使用特定的模式来识别每种标记类型的新样本。监督学习的两种主要类型是分类和回归。在分类中,机器被训练成将一个组划分为特定的类。分类的一个简单例子是电子邮件帐户上的垃圾邮件过滤器。过滤器分析你以前标记为垃圾邮件的电子邮件,并将它们与新邮件进行比较。如果它们匹配一定的百分比,这些新邮件将被标记为垃圾邮件并发送到适当的文件夹。那些比较不相似的电子邮件被归类为正常邮件并发送到你的邮箱。


    第二种监督学习是回归。在回归中,机器使用先前的(标记的)数据来预测未来。天气应用是回归的好例子。使用气象事件的历史数据(即平均气温、湿度和降水量),你的手机天气应用程序可以查看当前天气,并在未来的时间内对天气进行预测。

     

    在无监督学习中,数据是无标签的。由于大多数真实世界的数据都没有标签,这些算法特别有用。无监督学习分为聚类和降维。聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不是你提供的。聚类的一个例子是将一个组划分成不同的子组(例如,基于年龄和婚姻状况),然后应用到有针对性的营销方案中。降维通过找到共同点来减少数据集的变量。大多数大数据可视化使用降维来识别趋势和规则。

     

    最后,强化学习使用机器的个人历史和经验来做出决定。强化学习的经典应用是玩游戏。与监督和非监督学习不同,强化学习不涉及提供“正确的”答案或输出。相反,它只关注性能。这反映了人类是如何根据积极和消极的结果学习的。很快就学会了不要重复这一动作。同样的道理,一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后,国际象棋的这一基本教训就可以被扩展和推断出来,直到机器能够打(并最终击败)人类顶级玩家为止。

    640?wx_fmt=png

    但是,等等,你可能会说。我们是在说人工智能吗?机器学习是人工智能的一个分支。人工智能致力于创造出比人类更能完成复杂任务的机器。这些任务通常涉及判断、策略和认知推理,这些技能最初被认为是机器的“禁区”。虽然这听起来很简单,但这些技能的范围非常大——语言处理、图像识别、规划等等。


    机器学习使用特定的算法和编程方法来实现人工智能。没有机器学习,我们前面提到的国际象棋程序将需要数百万行代码,包括所有的边缘情况,并包含来自对手的所有可能的移动。有了机器学习,我们可以将代码量缩小到以前的一小部分。很棒对吧?

     

    有一个缺失的部分:深度学习和神经网络。我们稍后会更详细地讨论它们,请注意,深度学习是机器学习的一个子集,专注于模仿人类大脑的生物学和过程。


    谁发展了机器学习?何时何地?




    A breakthrough in machine learning would be worth ten Microsofts.—Bill Gates


    在我看来,机器学习最早的发展是Thomas Bayes 在1783年发表的同名理论,贝斯定理发现了给定有关类似事件的历史数据的事件的可能性。这是机器学习的贝叶斯分支的基础,它寻求根据以前的信息寻找最可能发生的事件。换句话说,Bayes定理只是一个从经验中学习的数学方法,是机器学习的基本思想。


    640?wx_fmt=png


    几个世纪后,1950年,计算机科学家 Alan Turing发明了所谓的图灵测试,计算机必须通过文字对话一个人,让人以为她在和另一个人说话。图灵认为,只有通过这个测试,机器才能被认为是“智能的”。1952年,Arthur Samuel创建了第一个真正的机器学习程序——一个简单的棋盘游戏,计算机能够从以前的游戏中学习策略,并提高未来的性能。接着是Donald Michie 在1963年推出的强化学习的tic-tac-toe程序。在接下来的几十年里,机器学习的进步遵循了同样的模式--一项技术突破导致了更新的、更复杂的计算机,通常是通过与专业的人类玩家玩战略游戏来测试的。


    它在1997年达到巅峰,当时IBM国际象棋电脑深蓝(Deep Blue)在一场国际象棋比赛中击败了世界冠军加里·卡斯帕罗夫(Garry Kasparov)。最近,谷歌开发了专注于古代中国棋类游戏围棋(Go)的AlphaGo,该游戏被普遍认为是世界上最难的游戏。尽管围棋被认为过于复杂,以至于一台电脑无法掌握,但在2016年,AlphaGo终于获得了胜利,在一场五局比赛中击败了Lee Sedol。

     

    机器学习最大的突破是2006年的深度学习。深度学习是一类机器学习,目的是模仿人脑的思维过程,经常用于图像和语音识别。深度学习的出现导致了我们今天使用的(可能是理所当然的)许多技术。你有没有把一张照片上传到你的Facebook账户,只是为了暗示给照片中的人贴上标签?Facebook正在使用神经网络来识别照片中的面孔。或者Siri呢?当你问你的iPhone关于今天的棒球成绩时,你的话语会用一种复杂的语音解析算法进行分析。如果没有深度学习,这一切都是不可能的。

     

    要获得更全面的机器学习时间表,请务必查看这篇由Google云团队撰写的伟大文章!


    机器学习是如何工作的?




    注意所有对数学恐惧的读者:我很遗憾地告诉你,要完全理解大多数机器学习算法,就需要对一些关键的数学概念有一个基本的理解。但不要害怕!所需的概念很简单,并且借鉴了你可能已经上过的课程。机器学习使用线性代数、微积分、概率和统计。


    640?wx_fmt=png

    Top 3线性代数概念:

    1.矩阵运算;

    2.特征值/特征向量;

    3.向量空间和范数

     

    Top 3微积分概念:

    1.偏导数;

    2.向量-值函数;

    3.方向梯度

     

    Top 3统计概念:

    1.Bayes定理;

    2.组合学;

    3.抽样方法

     

    对于特定的数学资源,我强烈推荐这篇来自MetaDesignIdeas的文章。

     

    一旦你对数学有了基本的理解,就该开始思考整个机器学习过程了。有五个主要步骤:

    640?wx_fmt=png

    上面的图表以比较清楚的方式解释了步骤,所以在我们关注最关键的部分:为数据和情况选择正确的算法之前,花一分钟的时间来研究它。

     

    We don’t have better algorithms, we just have more data.—Peter Norvig


    让我们回顾一下算法的一些常见分组:

     

    回归算法




    这可能是最流行的机器学习算法,线性回归算法是基于连续变量预测特定结果的监督学习算法。另一方面,Logistic回归专门用来预测离散值。这两种(以及所有其他回归算法)都以它们的速度而闻名,它们一直是最快速的机器学习算法之一。


    640?wx_fmt=png

    基于实例的算法




    基于实例的分析使用提供数据的特定实例来预测结果。最著名的基于实例的算法是k-最近邻算法,也称为KNN。KNN用于分类,比较数据点的距离,并将每个点分配给它最接近的组。

    640?wx_fmt=png

    决策树算法




    决策树算法将一组“弱”学习器集合在一起,形成一种强算法,这些学习器组织在树状结构中,相互分支。一种流行的决策树算法是随机森林算法。在该算法中,弱学习器是随机选择的,这往往可以获得一个强预测器。在下面的例子中,我们可以发现许多共同的特征(就像眼睛是蓝的或者不是蓝色的),它们都不足以单独识别动物。然而,当我们把所有这些观察结合在一起时,我们就能形成一个更完整的画面,并做出更准确的预测。

    640?wx_fmt=png

    贝叶斯算法



     

    丝毫不奇怪,这些算法都是基于Bayes理论的,最流行的算法是朴素Bayes,它经常用于文本分析。例如,大多数垃圾邮件过滤器使用贝叶斯算法,它们使用用户输入的类标记数据来比较新数据并对其进行适当分类。


    640?wx_fmt=png


    聚类算法




    聚类算法的重点是发现元素之间的共性并对它们进行相应的分组,常用的聚类算法是k-means聚类算法。在k-means中,分析人员选择簇数(以变量k表示),并根据物理距离将元素分组为适当的聚类。

     

    深度学习和神经网络算法




    人工神经网络算法基于生物神经网络的结构,深度学习采用神经网络模型并对其进行更新。它们是大、且极其复杂的神经网络,使用少量的标记数据和更多的未标记数据。神经网络和深度学习有许多输入,它们经过几个隐藏层后才产生一个或多个输出。这些连接形成一个特定的循环,模仿人脑处理信息和建立逻辑连接的方式。此外,随着算法的运行,隐藏层往往变得更小、更细微。

    640?wx_fmt=png


    其他算法




    下面的图表是我发现的最好的图表,它展示了主要的机器学习算法、它们的分类以及它们之间的关系。

    640?wx_fmt=png

    The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning….Before we demand more of our data, we need to demand more of ourselves.—Nate Silver

     

    一旦你选择并运行了你的算法,还有一个非常重要的步骤:可视化和交流结果。虽然与算法编程的细节相比,这看起来既愚蠢又肤浅,但是良好的可视化是优秀数据科学家和伟大科学家的关键隔膜。如果没有人能够理解,那么惊人的洞察力又有什么用呢?

     

    为什么机器学习很重要?




    Just as electricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AI will transform in the next several years.— Andrew Ng


    现在应该清楚的是,机器学习有巨大的潜力来改变和改善世界。通过像谷歌大脑和斯坦福机器学习小组这样的研究团队,我们正朝着真正的人工智能迈进一大步。但是,确切地说,什么是机器学习能产生影响的下一个主要领域?


    • 物联网

    物联网(Internet of Things),或者说IOT,是指你家里和办公室里联网的物理设备。流行的物联网设备是智能灯泡,其销售额在过去几年里猛增。随着机器学习的进步,物联网设备比以往任何时候都更聪明、更复杂。机器学习有两个主要的与物联网相关的应用:使你的设备变得更好和收集你的数据。让设备变得更好是非常简单的:使用机器学习来个性化您的环境,比如,用面部识别软件来感知哪个是房间,并相应地调整温度和AC。收集数据更加简单,通过在你的家中保持网络连接的设备(如亚马逊回声)的通电和监听,像Amazon这样的公司收集关键的人口统计信息,将其传递给广告商,比如电视显示你正在观看的节目、你什么时候醒来或睡觉、有多少人住在你家。

    640?wx_fmt=png

     

    • 聊天机器人

    在过去的几年里,我们看到了聊天机器人的激增,成熟的语言处理算法每天都在改进它们。聊天机器人被公司用在他们自己的移动应用程序和第三方应用上,比如Slack,以提供比传统的(人类)代表更快、更高效的虚拟客户服务。

    640?wx_fmt=png

     

    • 自动驾驶

    我个人最喜欢的下一个大型机器学习项目是最远离广泛生产的项目之一。然而,目前有几家大型公司正在开发无人驾驶汽车,如雪佛兰、Uber和Tsla。这些汽车使用了通过机器学习实现导航、维护和安全程序的技术。一个例子是交通标志传感器,它使用监督学习算法来识别和解析交通标志,并将它们与一组标有标记的标准标志进行比较。这样,汽车就能看到停车标志,并认识到它实际上意味着停车,而不是转弯,单向或人行横道。

    640?wx_fmt=png

    这就是我们进入机器学习世界的非常短暂的旅程。感谢观看。


    640?wx_fmt=png

    展开全文
  • 一、在看这个例子之前你需要:1)稍稍懂一些Scala的语法2)本地机器上有spark环境,最好安装了Hadoop二、一个简单的LR分类模型步骤1:处理数据成为LabeledPoint格式,参考:spark官网ml数据格式;一个简单明了的spark...

    一、在看这个例子之前你需要:

    1)稍稍懂一些Scala的语法

    2)本地机器上有spark环境,最好安装了Hadoop


    二、一个简单的LR分类模型

    步骤1:处理数据成为LabeledPoint格式,参考:spark官网ml数据格式一个简单明了的spark数据处理网上书籍

    步骤2:调用Spark工具包执行算法,参考:spark官网逻辑回归实现

    以下演示环境为spark-shell

    scala> sc//spark-shell会默认创建一个sc变量,即SparkContext实例 
    res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@b5de9ac
    //读取数据
    scala> val rdd1 = sc.textFile("hdfs://bipcluster/user/platform_user/jiping.liu/dataSpark.csv")
    rdd1: org.apache.spark.rdd.RDD[String] = hdfs://bipcluster/user/platform_user/jiping.liu/dataSpark.csv MapPartitionsRDD[1] at textFile at <console>:24
    scala> rdd1.first()//spark 是惰性计算,只有遇到像first()这样的行动函数后才会执行计算,有点行tensorflow,
    //第一个0表示label,之后表示features index:value的libsvm数据格式  
    res1: String = 0 0:0.14447325 1:24.5 2:184.433 3:291.9 4:0.0382946 5:8.142114 6:2.8 7:65.86893....
    //数据处理
    scala> :paste//成段编写spark-shell脚本的命令
    // Entering paste mode (ctrl-D to finish)
    
    val dataPoint = rdd1.map(line =>
    {
    val temp1 = line.split(" ")//Array[String]格式
    val label = temp1(0).toDouble//提取label
    val features = temp1.slice(1,temp1.length)//选取features数据
    //下式中+1因为Spark ml的Labeledpoint数据格式要求feature的index编号从1开始即label 1:f1 2:f1 ..., 且是递增的
    val indexs = features.map(x => x.split(":")(0).toInt+1)
    val values = features.map(x => x.split(":")(1).toDouble)
    //5000表示,特征的个数,也就是index的范围
    new LabeledPoint(label,Vectors.sparse(5000,indexs,values))
    }
    //Exiting paste mode, now interpreting.
    dataPoint: org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint] = MapPartitionsRDD[2] at map at <console>:28
    scala> dataPoint.first()
    res2: org.apache.spark.mllib.regression.LabeledPoint = 
    (0.0,(5000,[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,55,56,57,58,59,60,61....
    
    
    //模型导入
    scala> import org.apache.spark.mllib.classification.{LogisticRegressionModel,LogisticRegressionWithLBFGS}
    scala> import org.apache.spark.mllib.evaluation.MulticlassMetrics
    //数据集分割成train和test
    scala> val splits = dataPoint.randomSplit(Array(0.6,0.4),seed = 11l)
    splits: Array[org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint]] = Array(MapPartitionsRDD[3] at randomSplit at <console>:32, MapPartitionsRDD[4] at randomSplit at <console>:32)
    scala> val train = splits(0)
    scala> train.first()
    res4: org.apache.spark.mllib.regression.LabeledPoint = (0.0,(5000,[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,55,56,57,58,59,60,61,62,63,69,...
    
    
    //模型训练
    scala> val model = new LogisticRegressionWithLBFGS().setNumClasses(2).run(train)
    18/06/29 19:23:08 WARN [com.github.fommil.netlib.BLAS(61) -- main]: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS
    18/06/29 19:23:08 WARN [com.github.fommil.netlib.BLAS(61) -- main]: Failed to load implementation from: com.github.fommil.netlib.NativeRefBLAS
    model: org.apache.spark.mllib.classification.LogisticRegressionModel = org.apache.spark.mllib.classification.LogisticRegressionModel: intercept = 0.0, numFeatures = 5000, numClasses = 2, threshold = 0.5
    
    
    //模型测试评估
    scala> :paste
    // Entering paste mode (ctrl-D to finish)
    
    val preAndtrue = test.map{
    case LabeledPoint(label,features) =>
    val prediction = model.predict(features)
    (prediction,label)
    }
    
    // Exiting paste mode, now interpreting.
    
    preAndtrue: org.apache.spark.rdd.RDD[(Double, Double)] = MapPartitionsRDD[113] at map at <console>:40
    
    scala> val metrics = new MulticlassMetrics(preAndtrue)
    metrics: org.apache.spark.mllib.evaluation.MulticlassMetrics = org.apache.spark.mllib.evaluation.MulticlassMetrics@689f9dc8
    
    scala> preAndtrue
    res5: org.apache.spark.rdd.RDD[(Double, Double)] = MapPartitionsRDD[113] at map at <console>:40
    
    scala> preAndtrue.first
       def first(): (Double, Double)
    
    scala> preAndtrue.first()
    res6: (Double, Double) = (0.0,0.0)
    
    scala> val accuracy = metrics.accuracy
    accuracy: Double = 0.885496183206106
    
    





    展开全文
  • 近年来,机器学习和大数据领域的突破进展使人工智能急速回温,训练计算机模拟甚至实现人类的学习行为则是目前人工智能领域最受关注的研究课题之一。 很多人都难以想象,看似冷冰冰的机器如何能在短时间内学得一身...
  • #机器学习第一步,数据预处理 import numpy as np #导入库 import matplotlib.pyplot as plt x,y = [],[] #构建数组来储存值,数据集 for sample in open("prices.txt","r"): #读取数据 sample 对应的正是一个个...
  • 把问题解决思路和方法应用建议提前到这里的想法也很简单,希望能提前给大家一些小建议,对于某些容易出错的地方也先给大家打个预防针,这样在理解后续相应机器学习算法之后,使用起来也有一定的章法。 ## 2.机器学习...
  • 在过去的一年里,我们比较了近8800个机器学习开源项目选出了其中最棒的30个 (几率只有0.3% )。这是一个非常具有竞争力的名单,名单是从2017年一整年间发布的最佳的开源机器学习库,数据集和应用程序当中仔细挑选出来...
  • 机器学习十大算法

    2018-08-18 09:26:05
    机器学习十大算法 ...   作者 James Le ,译者 尚剑 , 本文转载自infoQ 毫无疑问,机器学习/人工智能的子领域在过去...一些最常见的机器学习例子,比如Netflix的算法可以根据你以前看过的电影来进行电影推荐...
  • 首先介绍阿里云机器学习平台 PAI 的特点; 机器学习云平台与自建基于开源的机器学习框架的区别;...怎么搭建最简单机器学习的环境和例子机器学习云服务的架构是怎么怎样的?性能指标又是什么? 如何构建参...
  • 样例来自斯坦福大学机器学习课程,其叙述如下:现有47个房子的面积和价格,需要建立一个模型对新的房价进行预测。简单来说就是: 输入的数据只有一维,亦即房子的面积。 目标的数据也只有一维,亦即房子的价格。...
  • 这是当时自己写的简单的spark机器学习部分方法的基本实现,是文档格式,里面有详细解释和代码
  • 一个例子说明机器学习在做什么 2017-01-26 15:22 22人阅读 评论(0) 收藏 举报  分类: 机器学习 版权声明:本文为博主原创文章,未经博主允许不得转载。  我们大家生活中应该都...
  • 本书首先通过实用的案例介绍机器学习的基础知识,然后介绍一些稍微复杂的机器学习算法,例如支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络,等等。 用最火的 Python 语言、通过各种各样的...
  •  前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实是一件很难的事情。因为利用机器学习处理一个实际的问题就不仅仅是我们得学会怎么...
  • python机器学习简易过程 明确目标(Ideation):明确想要去证明的问题,定义hypothesis 数据预处理(preprocess):处理错误数据;处理missing数据;处理量纲问题;处理数据组织格式;the level of the details 与...
  • 机器学习实例

    2018-02-06 11:09:32
    小周天 岂安科技售前顾问 主要负责名词解释 ...笔者作为与机器学习同龄的一代,从小学时就开始了对 AI 的不断钻研,上上下下左右左右 BA 的代码敲得无比熟练...而此文的目的就是把我这两个小时来对机器学习的初步
  • 机器学习实践应用

    2019-07-05 10:04:12
    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有 智能的根本途径。 本书通过对...
  • 近年来互联网数据大爆炸,数据的丰富度和覆盖面远远超出人工可以观察和总结的范畴,而机器学习的算法能指引计算机在海量数据中,挖掘出有用的价值,也使得无数学习者为之着迷。 我们不是专家,但说起算有一些从业...
1 2 3 4 5 ... 20
收藏数 186,926
精华内容 74,770
关键字:

例子 简单机器学习