2017-01-26 15:22:51 owandering 阅读数 842
  • 机器学习入门30天实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 系列课程包含Python机器学习库,机器学习经典算法原理推导,基于真实数据集案例实战3大模块。从入门开始进行机器学习原理推导,以通俗易懂为基础形象解读晦涩难懂的机器学习算法工作原理,案例实战中使用Python工具库从数据预处理开始一步步完成整个建模工作!具体内容涉及Python必备机器学习库、线性回归算法原理推导、Python实现逻辑回归与梯度下降、案例实战,信用卡欺诈检测、决策树与集成算法、支持向量机原理推导、SVM实例与贝叶斯算法、机器学习常规套路与Xgboost算法、神经网络。

    7599 人正在学习 去看看 唐宇迪

        我们大家生活中应该都有过买西瓜的经验。买西瓜的时候,长辈会给我们传授经验,比如说敲击瓜表面时发出某种声音的是好瓜。长辈之所以会根据这样的特征做出好瓜的预测是基于他们的生活经验,随着经验的丰富,他们预测好瓜的能力也在提高。Herbert A. Simon曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习”按照这一观点,上述过程中在长辈身上应该是发生了学习。那么计算机如果拥有这些经验,是否也能够学习到辨别西瓜好坏的技巧呢,是否能够通过数据及统计的方法使计算机发生学习呢?

         要解决这个问题,我们首先为机器收集“经验”——数据集(data set)。一个数据集是许多样本的集合,每一个样本具有各种属性和特征。比如,对于西瓜这个抽象类来说,它具有“色泽”,“根蒂”,“敲声”三个属性。如果把这三个属性看作是坐标轴,它们将撑开一个三维空间。每个西瓜在不同属性上有各自的取值,若将其映射成一个向量,则每个西瓜会落在这个三维空间的一个点上。这个由属性张成的空间称为样本空间(sample space)。若给定一个如下的数据集:


         通过观察这个简单的由四个西瓜组成的数据集,我们可能会产生如下假设:

         1.敲声=浊响的西瓜是好瓜

         2.根蒂=蜷缩的西瓜是好瓜

         3.敲声=浊响并且根蒂=蜷缩的西瓜是好瓜

         这是我们人为逻辑推理得到的假设,这些假设就是机器学习需要学到的“模型”(model)。

         可是如果让机器去学习到这些假设该怎么做呢?

         最基本的想法是为机器提供所有的假设,对每一个假设进行验证,一旦发现同某一条假设不符合的数据即剔除该假设。在上面西瓜的例子里面,假定“色泽”,“根蒂”,“敲声”分别有3、2、2种可能取值;同时还要考虑到属性可以取任意值,如:无论色泽如何,根蒂=蜷缩并且敲声=浊响的瓜均是好瓜。所以每一个属性除了拥有具单一含义的取值之外,还拥有*(任意值)的取值。因此,上述问题一共会产生4*3*3=36种假设。这所有的假设的集合被称为假设空间。西瓜问题的假设空间如图所示:


       对于这个假设空间来说,机器要做的就是搜索。对于那些与正例不一致的假设或者与反例一致的假设予以删除。最后余下的假设是同训练集(用于学习的数据)一致的假设集合,这个集合被称作版本空间(version space)。而从这个版本空间中选取我们采纳的假设也是很有学问的一件事,也许会另外写个文章介绍一下。


2019-04-02 22:09:21 Nicole_177 阅读数 25
  • 机器学习入门30天实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 系列课程包含Python机器学习库,机器学习经典算法原理推导,基于真实数据集案例实战3大模块。从入门开始进行机器学习原理推导,以通俗易懂为基础形象解读晦涩难懂的机器学习算法工作原理,案例实战中使用Python工具库从数据预处理开始一步步完成整个建模工作!具体内容涉及Python必备机器学习库、线性回归算法原理推导、Python实现逻辑回归与梯度下降、案例实战,信用卡欺诈检测、决策树与集成算法、支持向量机原理推导、SVM实例与贝叶斯算法、机器学习常规套路与Xgboost算法、神经网络。

    7599 人正在学习 去看看 唐宇迪

吴恩达 【机器学习】第一章绪论 初识机器学习

1.欢迎参加机器学习课程

welcome

2.什么是机器学习

定义

定义
Tom Mitchell:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P
当且仅当,有了经验E后,经过性能度量值P评判,程序在处理任务T时的性能有所提升。

例子

例子

机器学习分类

大纲

3. 监督学习

e.g1
e.g2

  • 监督学习(Supervised Learning):数据集中的每个样本都有相应的“正确答案”,根据这些样本作出预测。
  • 分类(Classification):根据样本,试着推测出离散的输出值
  • 回归(Regression):根据样本,试着推测出一系列连续值属性

4. 无监督学习

监督学习
无监督学习
鸡尾酒宴会问题

2019-09-19 20:34:58 qq_30312047 阅读数 6
  • 机器学习入门30天实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 系列课程包含Python机器学习库,机器学习经典算法原理推导,基于真实数据集案例实战3大模块。从入门开始进行机器学习原理推导,以通俗易懂为基础形象解读晦涩难懂的机器学习算法工作原理,案例实战中使用Python工具库从数据预处理开始一步步完成整个建模工作!具体内容涉及Python必备机器学习库、线性回归算法原理推导、Python实现逻辑回归与梯度下降、案例实战,信用卡欺诈检测、决策树与集成算法、支持向量机原理推导、SVM实例与贝叶斯算法、机器学习常规套路与Xgboost算法、神经网络。

    7599 人正在学习 去看看 唐宇迪

第一章机器学习基础19/9/2019
目标变量分为两种情况,第一种情况是目标变量只能取名义值:真或假;爬行动物、鱼类、哺乳动物、两栖动物、植物、真菌。第二中是目标变量可以接受无限数量的数值时,如0.100、42.001、1000.743、

通过机器学习我们能够通过数据获取洞察力,机器学习就是从数据中得出有意义的事情

啤酒与尿布的例子

机器学习在许多领域都有应用,机器学习使用统计,什么是机器学习中的统计,就是一个问题我们没有足够的结局能力,单凭人力不能模拟问题并给出解决方案,而是用统计能够对问题建立模型利用计算机模拟问题给出结论,通过利用机器学习识别鸟类来介绍什么是机器学习

问题:为什么不能使用一种算法解决所有问题

如何选择算法:如果是要预测某一值,选择监督学习,而选择监督学习如果目标值是多个值的话就要研究分类以及回归。如果不是预测某一直就要选择无监督学习,这样就需要研究集群。你是否需要对每一组的适应度进行一些数值估计?如果你回答是,那么你可能应该研究一种密度估计算法。但这不是一成不变的。

你应该花一些时间去了解你的数据,你对它的了解越多,你就越有能力构建一个成功的应用程序。关于数据需要知道的是:特征是标称的还是连续的?功能中是否缺少值?如果缺少值,为什么缺少值?数据中有异常值吗?有关数据的所有这些特性都可以帮助您缩小算法选择过程。对于什么是最好的算法或者什么会给你最好的结果,没有一个单一的答案。你必须尝试不同的算法,看看它们的表现。您还可以使用其他机器学习技术来提高机器学习算法的性能。

开发机器学习应用程序的步骤

1.收集数据:为了节省一些时间和精力,您可以使用公共可用的数据。
2.准备输入数据:一旦您有了这些数据,就需要确保它是可用的格式。您可能需要在这里做一些特定于算法的格式化。有些算法需要特殊格式的特征,有些算法可以将目标变量和特征作为字符串处理,而有些算法则需要整数。
3.分析输入数据:这是查看来自上一项任务的数据。这可能就像查看文本编辑器中分析过的数据一样简单,以确保步骤1和步骤2实际工作,并且没有一堆空值
4.训练算法:这就是机器学习发生的地方。这一步和下一步是“核心”算法所在,取决于算法。通过前几个步骤可以获得良好的清洁数据
6.测试算法
7.使用它

本书使用的python请确保已安装numpy模块
在这里插入图片描述

k邻近算法9.21

k邻近算法就是计算未知数据到所有已知类型数据的距离,选取前k个距离最小的点,其中出现频率最高的类型就是未知数据的类型
以下内容转自:Jack-Cui : http://blog.csdn.net/c406495762

k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

举个简单的例子,我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。

在这里插入图片描述

表1.1 每部电影的打斗镜头数、接吻镜头数以及电影类型

表1.1就是我们已有的数据集合,也就是训练样本集。这个数据集有两个特征,即打斗镜头数和接吻镜头数。除此之外,我们也知道每个电影的所属类型,即分类标签。用肉眼粗略地观察,接吻镜头多的,是爱情片。打斗镜头多的,是动作片。以我们多年的看片经验,这个分类还算合理。如果现在给我一部电影,你告诉我这个电影打斗镜头数和接吻镜头数。不告诉我这个电影类型,我可以根据你给我的信息进行判断,这个电影是属于爱情片还是动作片。而k-近邻算法也可以像我们人一样做到这一点,不同的地方在于,我们的经验更”牛逼”,而k-邻近算法是靠已有的数据。比如,你告诉我这个电影打斗镜头数为2,接吻镜头数为102,我的经验会告诉你这个是爱情片,k-近邻算法也会告诉你这个是爱情片。你又告诉我另一个电影打斗镜头数为49,接吻镜头数为51,我”邪恶”的经验可能会告诉你,这有可能是个”爱情动作片”,画面太美,我不敢想象。 (如果说,你不知道”爱情动作片”是什么?请评论留言与我联系,我需要你这样像我一样纯洁的朋友。) 但是k-近邻算法不会告诉你这些,因为在它的眼里,电影类型只有爱情片和动作片,它会提取样本集中特征最相似数据(最邻近)的分类标签,得到的结果可能是爱情片,也可能是动作片,但绝不会是”爱情动作片”。当然,这些取决于数据集的大小以及最近邻的判断标准等因素。
2018-09-15 21:13:35 qq_31018085 阅读数 201
  • 机器学习入门30天实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 系列课程包含Python机器学习库,机器学习经典算法原理推导,基于真实数据集案例实战3大模块。从入门开始进行机器学习原理推导,以通俗易懂为基础形象解读晦涩难懂的机器学习算法工作原理,案例实战中使用Python工具库从数据预处理开始一步步完成整个建模工作!具体内容涉及Python必备机器学习库、线性回归算法原理推导、Python实现逻辑回归与梯度下降、案例实战,信用卡欺诈检测、决策树与集成算法、支持向量机原理推导、SVM实例与贝叶斯算法、机器学习常规套路与Xgboost算法、神经网络。

    7599 人正在学习 去看看 唐宇迪

(其实自己研究生摸索一年了,也很心塞,自己在搞自然语言处理,想把这些基础知识重新过一遍,和大家一起学习)

第一章的课时1主要涉及到一下内容

主要涉及的是机器学习在生活中的一些例子:

       在用google或者bing搜索的时候,能够得出自己想要的答案,就是用了学习算法,苹果手机相册和facebook能识别出朋友的图片,这也是机器学习;在收到邮件的时候,能够过滤点很多垃圾邮件,也是机器学习;

       这门课,我们会学习机器学习算法,但是只知道算法和数学含义不知道使用其去解决关心的问题是不够的,因此这门课涉及了很多联系,去实现每个算法,以至于我们利用他们;

      为什么机器学习如此流行?例如我们找A到B 的最短路径,很多时候我们不知道如何利用AI实现有意义的事情,例如网页搜索,图片标记,反垃圾邮件,只能是让机器自己学习;

例子:
      数据挖掘database mining.网页点击数据,医疗记录;
      人工无法写出的代码:自动直升机,手写体识别,nlp,计算机视觉;
亚马逊,推荐;
      下节课将给机器学习下个定义,并且讲解机器学习中的算法;

2018-08-28 11:33:40 Jimmyzqb 阅读数 2128
  • 机器学习入门30天实战

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 系列课程包含Python机器学习库,机器学习经典算法原理推导,基于真实数据集案例实战3大模块。从入门开始进行机器学习原理推导,以通俗易懂为基础形象解读晦涩难懂的机器学习算法工作原理,案例实战中使用Python工具库从数据预处理开始一步步完成整个建模工作!具体内容涉及Python必备机器学习库、线性回归算法原理推导、Python实现逻辑回归与梯度下降、案例实战,信用卡欺诈检测、决策树与集成算法、支持向量机原理推导、SVM实例与贝叶斯算法、机器学习常规套路与Xgboost算法、神经网络。

    7599 人正在学习 去看看 唐宇迪

机器学习是为了达成人工智慧的手段,它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。


目录


机器学习从数据中寻找函数

  • 语音识别(从声波信号中寻找语音识别函数,判断语音信息)
  • 图像识别(从图像像素信息中寻找图像识别函数,判断图像内容)
  • Alphago(从大量的棋局博弈数据中学习落子函数,判断下一步落子)
  • 聊天系统(从大量的历史对话数据学习聊天对话函数,判断如何回答)

机器学习建模步骤(以监督学习为例子)

  1. 找到机器学习任务假设空间(大量的假设函数集合F=f1,f2fn
  2. 找到衡量函数好坏的标准L(f)
  3. 利用训练数据集从F选择ff=argminfFL(f)

机器学习框架(Learning Map)

机器学习框架简图

这里写图片描述

  • 蓝色:情景,取决于数据的具体情况,比如在没有数据label的情景下不得不放弃监督学习,选择无监督学习,在建模的过程中应考虑的情景
  • 红色:问题,即机器学习的目的
  • 绿色:算法

机器学习思维导图

这里写图片描述

莫烦机器学习笔记之小例子

博文 来自: yeqiang19910412
没有更多推荐了,返回首页