精华内容
下载资源
问答
  • 虹膜数据集 分析虹膜数据集并构建机器学习算法以使用花瓣萼片维度对虹膜植物类型进行分类
  • 4 个特征值分别为:萼片长度、萼片宽度、花瓣长度、花瓣宽度 目标值为三种不同类别的鸢尾花,分别为: Iris Setosa、Iris Versicolour、Iris Virginica 数据集中每朵鸢尾花叫做一个数据点,它的品种叫做它的标签 ...
  • 第二章 机器学习基础概念1、机器的数据2、机器学习的主要任务3、监督学习和非监督学习4、批量、在线学习、参数、非参数学习5、哲学思考6、环境的搭建 1、机器的数据 2、机器学习的主要任务 3、监督学习和非监督...

    1、机器的数据

    在这里插入图片描述
    我们以鸢尾花的数据为例。收集大量鸢尾花的数据,花瓣的萼片长度、萼片宽度、花瓣长度、花瓣宽度,同时标记属于se、ve、vi三种鸢尾花之一。

    • 数据的整体叫做数据集
      我们收集的所有鸢尾花的数据就是一个数据集。

    • 每一行数据称为一个样本
      (萼片长度=5.1,萼片宽度=3.5,花瓣长度=1.4、花瓣宽度=0.2、花期=se(0)),这样一行记录,称之为一个样本。

    • 除最后一列,每一列表达样本的一个特征
      我们把萼片长度、萼片宽度、花瓣长度、花瓣宽度,叫做样本的特征。
      (萼片长度=5.1,萼片宽度=3.5,花瓣长度=1.4、花瓣宽度=0.2)称为一个样本的特征向量。赋予语义以后,通常用一个列向量表示。
      在这里插入图片描述

    • 最后一列,称之为标记
      根据花朵的所有特征以及采集时花朵的状态,我们可以对花朵的花朵的花期进行标记,标记为待开的se(0)、盛放的ve(1)、凋谢的vi(2)三种。

    • 用大写字母X表示特征矩阵,用小写字母表示y表示标记。第i个样本行写作

    在这里插入图片描述
    第i个样本第j个特征值
    在这里插入图片描述
    第i个样本的标记写作
    在这里插入图片描述若我们只根据萼片的宽度和长度,把所有花朵映射到一张二维表上,横轴为萼片宽度,纵轴为萼片长度,可以清晰的看到样本主要集中在红蓝两处,样本则被简单的分类。我们把所有特征值组成的空间叫做特征空间,而分类任务本质就是对特征空间的划分。在多属性映射的高维空间同理。

    在这里插入图片描述

    • 特征可以很抽象
      特征可以很抽象,甚至没有语义。在图像中,每一个像素点都是特征,28x28的图像有784个特征,如果是彩色图像,特征更多。

    2、机器学习的主要任务

    本课程专注于机器学习中的监督学习。监督学习的基本任务是分类回归

    分类

    • 二分类
      图像识别,判断一张图片是猫还是狗;根据病人各项数据,判断患者是良性肿瘤还是恶性肿瘤等。

    • 多分类
      手写数字识别,判断手写的数字是0~9中的哪个数字;市场风险评级;下围棋应该走那一步等。

    • 多标签分类
      例如图像识别中,一张女孩挥球拍的照片,标记女孩、球拍类型、动作等等。

    因为是机器学习入门,主要学习二分类,部分多分类任务也能转化为二分类处理。

    回归

    • 结果是一个连续的数字的值,而非一个类别
      一批数据给出房屋的面积、房屋的年龄、卧室数量、离地铁距离,提供房屋的价格等数据,来预测其他房屋的价格。价格是一个连续的值,而非一个类别。类似还有市场分析,预测学生的成绩分数等。
    • 有时回归任务可以转化为分类任务
      例如学生成绩,在回归任务中预测学生成绩分数,也可以转化为分类任务,对分数进行评级等。

    3、监督学习和非监督学习

    机器学习分类一:
    监督学习

    • 给机器的训练数据拥有“标记”或“答案
      例如鸢尾花分类中,及提供的鸢尾花的特征,也标记了鸢尾花的类型。
      例如预测房价例子提供的数据中,除了提供房子的面积、卧室数量等信息,也提供了这些房子的售价价格。
      监督学习通常采用K临近、线性回归、多项式回归、逻辑回归、SVM决策树和随机森林算法。

    非监督学习:

    • 给机器的训练数据没有任何“标记”或者“答案”

    • 对没有“标记”的数据进行分类——聚类分析
      电商网站中收集用户的消费行为,分类理智型消费者、冲动型消费者、性价比消费者等。

    • 对数据进行降维处理
      对采集的数据样本的特征进行提取或压缩
      特征提取:信用卡的信用评级和人的胖瘦无关?
      特征压缩:PCA算法处理,有时有的特征间关系很强,我们可以把多特征转化为特征间的映射关系从而减少特征数量,降维的好处也可以方便可视化。

    • 异常检测
      在二维的样本空间中,例如有异常点,它不具有表达样本特性的普遍性,可以去除。

    半监督学习:

    • 一部分数据有“标记”或者“答案”,另一部分数据没有
    • 更常见:各种原因产生的标记缺失
      通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测。

    增强学习:

    • 根据周围环境的情况,采取行动,根据采取行的的结果,学习行为方式。

    监督学习半监督学习是机器学习的基础。

    4、批量、在线学习、参数、非参数学习

    机器学习分类二:

    • 批量学习(离线学习)
      先通过批量数据学习到模型,之后利用模型,向模型输入样例预测,模型不改变。
      优点:简单
      问题:如何适应环境变化?
      解决方案:定时重新批量学习,重新训练模型。
      缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快情况下不可能实现。

    • 在线学习
      向学习得来的模型输入样例,得到预测结果,再于实时的正确结果对比,将正确结果放入算法中,继续修改模型。
      优点:新的数据带来不好的变化?例如竞争者扰乱市场,使收集的样本中出现过多异常特征值。
      解决:需要加强对数据进行监督----异常检测。
      当数据数据量巨大时,采用在线学习可使数据被分批处理。

    • 参数学习:
      我们对房屋的价格进行假设,假设为房屋价格:
      在这里插入图片描述
      则训练的主要任务就变成了找到参数a、b,一旦学习到了参数,就不再需要原有的数据集。

    • 非参数学习:
      不对模型过多的假设。
      非参数学习也有参数。

    5、哲学思考

    数据比算法重要?
    2001年微软论文中,实验表明只要数据足够多,算法的准确性是相似的。这表明数据非常重要,预测结果依赖大量数据。
    算法比数据更重要?
    新版的阿尔法GO-zero在围棋比赛中打败阿尔法GO,阿尔法GO-zero具有超强学习算法,并不需要学习以往的棋谱数据,它完全凭借自身的能力,进行强化学习打败阿尔法GO。这说明算法也至关重要。
    任意两个的算法,他们的期望性能是相同的。没有觉得的一个算法比另一个算法好,如果脱离具体问题,算法也没有意义。

    6、环境的搭建

    1、使用JupyterNotebook:
    进入anaconda官网:下载3.7版本–>点击download–>windos–>python3.7,下载anaconda后安装,安装教程参考:link ,点击Anaconda Navigator,在这里插入图片描述
    安装JupyterNotebook,点击launch,在这里插入图片描述
    安装成功后会自动打开默认的浏览器,我使用的是文件是桌面上的test文件夹,所以点击Destktop->test,右上角点击new,python3,创建一个文件,会默认生成一个untitled的文件,点击文件名可以修改文件,保存后可以在桌面上的test文件夹下看到一个后缀名为.ipynb的文件。
    2、有时会用到一些更方便的IDE环境,pycharm,下载地址:下载社区版 ,点击tools,pycharm,community,下载安装,安装教程网上也有很多。注意选择anaconda文件夹下的解析器。
    关于JupyterNotebook和pycharm的使用网上有很多教程,这里就不细说了。

    上一篇:机器学习入门 笔记(一) 机器学习准备

    展开全文
  • Datawhale干货来源:大数据文摘,整理:数据派THU本文约5300字,建议阅读10分钟。本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道,教科书上...

     Datawhale干货 

    来源:大数据文摘,整理:数据派THU

    本文约5300字,建议阅读10分钟。

    本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。


    我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?

    我们为你推荐这篇文章,在本教程中,涵盖面向初学者,中级专家和专家的23种机器学习项目创意,以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中取得成功、和当下就业所需的所有实践。

    通过项目学习是你短期内能做的最好投资,这些项目构想使你能够快速发展和增强机器学习技能。语言上,这些机器学习项目可以用Python,R或任何其他工具开发。

    面向初学者的机器学习项目

    在本部分中,我们列出了针对初学者/初学者的顶级机器学习项目,如果你已经从事基础机器学习项目,请跳至下一部分:中级机器学习项目

    1.鸢尾花分类项目

    项目构想:鸢尾花有不同的种类,你可以根据花瓣和萼片的长度来区分它们。这是机器学习初学者预测新鸢尾花种类的基础项目。

    数据集:鸢尾花分类数据集 

    https://archive.ics.uci.edu/ml/datasets/Iris

    2. Emojify –使用Python创建自己的表情符号

    项目构想:该机器学习项目的目标是对人的面部表情进行分类并将其映射为表情符号。我们将建立一个卷积神经网络来识别面部表情。然后,我们将使用相应的表情符号或头像来映射这些情感。

    源代码:Emojify项目

    https://data-flair.training/blogs/create-emoji-with-deep-learning/  

    3.使用机器学习进行贷款预测

    项目构想:该ML项目背后的构想是建立一个模型,该模型将对用户可以贷款多少进行分类。它基于用户的婚姻状况,教育程度,受抚养人数和就业情况。我们可以为此项目建立一个线性模型。

    数据集:贷款预测数据集 

    https://www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset

    4.住房价格预测项目

    项目构想:数据集包含波士顿剩余区域的房价。房子的费用根据犯罪率,房间数量等各种因素而变化。对于初学者来说,这是一个很好的ML项目,它可以根据新数据预测价格。

    数据集:房屋价格预测数据集 

    https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

    5. MNIST数字分类机器学习项目

    项目构想:MNIST数字分类python项目使机器能够识别手写数字。该项目对于计算机视觉可能非常有用。在这里,我们将使用MNIST数据集使用卷积神经网络训练模型。

    数据集:MNIST数字识别数据集 

    https://drive.google.com/file/d/1hJiOlxctFH3uL2yTqXU_1f6c0zLr8V_K/view

    源代码:手写数字识别项目

    https://data-flair.training/blogs/python-deep-learning-project-handwritten-digit-recognition/

    6.使用机器学习预测股价

    项目构想:有许多可用于股票市场价格的数据集。这个机器学习初学者的项目旨在根据上一年的数据预测股票市场的未来价格。

    数据集:股票价格预测数据集

    https://www.kaggle.com/c/two-sigma-financial-news/data

    源代码:股票价格预测项目

    https://data-flair.training/blogs/stock-price-prediction-machine-learning-project-in-python/

    7.泰坦尼克号生存计划

    项目构想:这将是一个有趣的项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来。对于这个初学者的项目,我们将使用泰坦尼克号数据集,其中包含幸存者和在泰坦尼克号飞船中死亡的人的真实数据。

    数据集:《泰坦尼克号生存》数据集 

    https://www.kaggle.com/c/titanic

    8.葡萄酒质量检测项目

    项目构想:在该项目中,我们可以构建一个界面来预测红酒的质量。它将使用葡萄酒的化学信息,并基于机器学习模型,它将为我们提供葡萄酒质量的结果。

    数据集:葡萄酒质量数据集 

    https://archive.ics.uci.edu/ml/datasets/wine+quality

    9.假新闻检测项目

    项目构想:虚假新闻像野火一样传播,这在这个时代是一个大问题。我们可以学习如何将假新闻与真实新闻区分开。我们可以使用监督学习来实现这样的模型。

    数据集:检测虚假新闻数据集 

    https://drive.google.com/file/d/1er9NJTLUA3qnRuyhfzuN0XUsoIC4a-_q/view

    源代码:假新闻检测项目 

    https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/

    到目前为止,如果对DataFlair提出的的机器学习项目有任何问题,欢迎留言。

    10.竞赛练手项目

    天池-零基础入门数据挖掘赛事
    https://tianchi.aliyun.com/competition/entrance/231784/introduction

    天池-零基础入门 cv 赛事

    https://tianchi.aliyun.com/competition/entrance/531795/introduction

    天池-零基础入门 nlp 赛事

    https://tianchi.aliyun.com/competition/entrance/531810/introduction

    中级机器学习项目

    1.音乐流派分类机器学习项目

    项目构想:该python机器学习项目的思想是开发一个机器学习项目,并自动对音频中的不同音乐流派进行分类。我们需要使用它们的频域和时域低级特征对这些音频文件进行分类。

    源代码:音乐流派分类项目 

    https://data-flair.training/blogs/python-project-music-genre-classification/

    2.比特币价格预测器项目

    项目构想:比特币价格预测器是一个有用的项目。区块链技术正在发展,并且有许多数字货币在上升。该项目将帮助你使用以前的数据预测比特币的价格。

    数据集:比特币价格预测数据集 

    https://www.kaggle.com/team-ai/bitcoin-price-prediction/version/1

    3. Uber数据分析项目

    项目构想:该项目可用于对超级数据执行数据可视化。该数据集包含纽约市中的450万个超级拾取器。为了分析行程,需要精美地表示很多数据,以便可以进一步改善业务。

    数据集:Uber数据分析数据集 

    https://drive.google.com/file/d/1emopjfEkTt59jJoBH9L9bSdmlDC4AR87/view

    源代码:Uber数据分析项目 

    https://data-flair.training/blogs/r-data-science-project-uber-data-analysis/

    4.人格预测项目

    项目构想:Myers Briggs类型指示器是一种个性类型系统,根据内向,直觉,思维和感知能力将一个人分为16个不同的个性。我们可以根据他们在社交媒体上发布的帖子的类型来确定其个性。

    数据集:个性预测数据集 

    https://www.kaggle.com/datasnaek/mbti-type

    5. Xbox游戏预测项目

    项目构想:人们在搜索时生成的数据可用于预测用户的兴趣。BestBuy消费电子公司已提供了来自用户的数百万次搜索的数据,我们将预测用户最有兴趣购买的Xbox游戏。这将用于向游客推荐游戏。

    数据集:Xbox游戏预测数据集 

    https://www.kaggle.com/c/acm-sf-chapter-hackathon-small/overview

    6.信用卡欺诈检测项目

    项目构想:使用卡进行大量交易的公司需要发现系统中的异常情况。该项目旨在建立信用卡欺诈检测模型。我们将使用交易及其标签作为欺诈或非欺诈来检测客户进行的新交易是否为欺诈。

    数据集:信用卡欺诈检测数据集

    https://drive.google.com/file/d/19BOhwz52NUY3dg8XErVYglctpr5sjTy4/view

    源代码:信用卡欺诈检测项目

    https://data-flair.training/blogs/data-science-machine-learning-project-credit-card-fraud-detection/

    7.芭比与大脑项目

    项目构想:芭比娃娃等儿童玩具具有一组预定义的单词,可以重复说。我们可以使用机器学习方法使芭比娃娃有一些头脑。当玩具可以用不同的句子理解和说话时,它会更加吸引人。这是一个出色的项目,将改善孩子们的学习过程。

    8.使用机器学习进行客户细分

    项目构想:客户细分是一种根据客户的购买历史,性别,年龄,兴趣等对客户进行细分的技术。获取此信息非常有用,以便商店可以在个性化营销方面获得帮助,并为客户提供相关的信息交易。在该项目的帮助下,公司可以运行特定于用户的活动并提供特定于用户的报价,而不是向所有用户广播相同的报价。

    数据集:客户细分数据集

    https://drive.google.com/file/d/19BOhwz52NUY3dg8XErVYglctpr5sjTy4/view

    源代码:客户细分项目

    https://data-flair.training/blogs/r-data-science-project-customer-segmentation/

    在机器学习项目创意文章的下一部分,我们将为内行人士介绍一些高级项目创意。

    高级机器学习项目

    1.使用机器学习进行情感分析

    项目构想:情感分析是分析用户情感的过程。我们可以将他们的情绪分为正面,负面或中性。了解如何进行情感分析是一个很棒的项目,并且如今已被广泛使用。这是最受欢迎的机器学习项目之一。其背后的原因是每家公司都试图了解客户的情绪,如果客户满意,他们会留下来。该项目可能显示出减少客户流失的途径。

    数据集:情感分析数据集 

    http://ai.stanford.edu/~amaas/data/sentiment/

    源代码:情感分析项目

    https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/

    2.安然调查项目

    项目构想:安然公司(Enron)在2000年倒闭,但可提供数据进行调查。该数据库包含500,000名在公司工作的真实员工的电子邮件,因此数据对于执行数据分析非常有用,许多数据科学家都使用此数据集。

    数据集:安然调查数据集 

    https://www.cs.cmu.edu/~enron/

    3.语音情感识别机器学习项目

    项目构想:这是最好的机器学习项目之一。语音情感识别系统使用音频数据。它以语音的一部分作为输入,然后确定说话者以何种情绪说话。我们可以识别出不同的情绪,例如快乐,悲伤,惊讶,生气等。该项目可能有助于在与呼叫中心通话期间识别客户情绪。

    数据集:语音情感识别数据集

    https://drive.google.com/file/d/1wWsrN2Ep7x6lWqOXfr4rpKGYrJhWc8z7/view

    源代码:语音情感识别项目

    https://data-flair.training/blogs/python-mini-project-speech-emotion-recognition/

    4.抓非法捕鱼项目

    项目构想:这是一个有趣的机器学习项目。海洋上有许多船,船,不可能手动跟踪每个人的活动。这将是一个了不起的项目,它可以通过卫星和地理位置数据识别非法偷猎动物并捕捞捕鱼活动。Global Fishing Watch免费提供实时数据,可用于构建系统。

    数据集:捕捉非法捕鱼数据集 

    https://globalfishingwatch.org/map-and-data/

    5.使用协同过滤的在线杂货推荐

    项目构想:协作过滤是一项很棒的技术,可根据相似用户的反应来过滤出用户可能喜欢的项目。杂货店推荐系统将是一个使客户意识到自己想要的东西的好项目。

    6.使用机器学习的电影推荐系统

    项目构想:推荐系统无处不在,无论是在线购买应用程序,电影流媒体应用程序还是音乐流媒体。他们都根据目标客户推荐产品。电影推荐系统是增强你的作品集的绝佳项目。

    数据集:电影推荐系统数据集 

    https://drive.google.com/file/d/1Dn1BZD3YxgBQJSIjbfNnmCFlDW2jdQGD/view

    源代码:电影推荐系统项目 

    https://data-flair.training/blogs/data-science-r-movie-recommendation/

    7.车牌自动识别系统

    项目构想:该机器学习项目的目的是检测和识别车辆的牌照号,并读取印在牌照上的牌照号。这可能是用于安全扫描,流量监视等的良好应用程序。

    源代码:自动车牌识别项目

    https://techvidvan.com/tutorials/python-project-license-number-plate-recognition/

    编辑:于腾凯,校对:林亦霖  

    “干货学习,三连

    展开全文
  • 机器学习入门——机器学习基础概念

    千次阅读 多人点赞 2020-03-15 17:02:02
    包括机器学习的主要任务,机器学习的分类等。 文章目录引言用到的数据机器学习的主要任务分类回归 用到的数据 鸢尾花(IRIS)是比较常见的在我们学习机器学习时用到的数据。数据来源: ...

    引言

    本文介绍机器学习的一些基本概念。包括机器学习的主要任务,机器学习的分类等。


    用到的数据

    鸢尾花(IRIS)是比较常见的在我们学习机器学习时用到的数据。数据来源: http://archive.ics.uci.edu/ml/datasets/Iris

    iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的各50个样本数据构成。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。
    该数据集包含了4个属性:

    • Sepal.Length(花萼长度),单位是cm;
    • Sepal.Width(花萼宽度),单位是cm;
    • Petal.Length(花瓣长度),单位是cm;
    • Petal.Width(花瓣宽度),单位是cm;

    在这里插入图片描述
    种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

    这里我们抽出三份数据,最后一列是所属种类。一般我们会对这个类别进行数值化,这样好在机器学习中进行处理。
    在这里插入图片描述
    接下来介绍一些常见概念。

    • 数据整体叫数据集(data set)
    • 其中每一份(写成表格形式的话就是每一行)数据称为一个样本(sample)
    • 除了最后一列(一般所属类别都放到最后一列),每一列都叫样本的一个特征(feature,有时也叫属性)
    • 最后一列,称为标记(label)

    在这里插入图片描述

    我们把除标记列的特征都放到一个矩阵 X X X中,每一份数据对应矩阵的一行,每个特征对应矩阵的一列。

    标记列通常用 y y y表示,这是一个向量,每一维度表示某份数据对应的类别。在数学上大写字母表示矩阵,小写字母表示向量。

    i i i个样本的标记写作 y ( i ) y^{(i)} y(i),其中的括号可加可不加。

    在这里插入图片描述

    • 对于数据而言,萼片长度、萼片宽度等都叫特征;
    • 每一行本身也组成了一个向量,通常叫特征向量 X i X^i Xi

    通常向量都表示为列向量的形式。

    因此矩阵 X X X也可以表示为:

    在这里插入图片描述

    我们抽出这份数据的前两个特征(这样可以在直角坐标系中画出这些点):

    在这里插入图片描述
    萼片长度作为横轴,萼片宽度作为纵轴。

    每个样本都是这些特征所组成的空间中的一个点,这个空间我们叫称为特征空间(feature space)

    分类任务本质就是在特征空间上进行切分,以区分不同的类别。

    在这里插入图片描述
    比如我们能在这个空间上画一条直线将这两个类别切分开来。切分之后,如果有了一个新的未知数据点,它出现在红线的上分,那么我们就可以说它属于红点类别。

    这里我们用的是直线切分,真正在机器学习的时候我们也可以用曲线进行切分。

    这里我们虽然用二维平面展示切分,其实在高维空间也是同理的。比如在三维空间,你可以想象是用平面去切分。

    这里要注意的是,特征很多情况下是很抽象的,也就是人类不好理解。以手写数字识别为例
    在这里插入图片描述
    这是个数字5,是28*28的图像,在图像中就由一个个像素点构成的。最简单的方式就是把每个像素点都看成是一个特征。

    也就是说每个图像有784个特征。

    机器学习的主要任务

    主要有两类:分类和回归。

    分类

    分类任务有很多,比如分辨一张图片里面的动物是猫还是狗。

    在这里插入图片描述
    或者是手写数字识别。

    在这里插入图片描述

    分类任务中根据要分类的类别数量可分为 二分类任务和多分类任务。

    上面的分类猫狗就是二分类。

    二分类任务看起来简单,但是生活中还是很常见的。比如判断邮件是否为垃圾邮件;银行判断发给客户信用卡有无风险。

    而手写数字识别,要识别10个数字,属于多分类任务。

    其实可以把很多复杂的问题转换为多分类任务问题。

    在这里插入图片描述
    比如训练机器玩2048这款游戏,给定现在的盘面,只需要机器判断上移、下移、左移、右移即可。

    围棋也可以转换为多分类任务;无人驾驶可以想想也可以转换为分类任务,无非就是控制方向角度,油门。刹车。

    但这里只是说可以解决这些问题,但不一定是接近这些问题的最佳方法。

    有些算法只支持完成二分类的任务,但是多分类的任务可以转换成二分类的任务。

    就是说通过转换,只支持二分类任务的算法通过转换可以变成支持多分类。

    还有些算法本身支持多分类任务。

    现在前沿的还有一种更高级的分类任务,可以把一张图片分到多个类别中。

    在这里插入图片描述

    比如这张图片,可以分类到女人、白色裙子、网球拍等等。综合这些信息,我们可以得到这张图片的语义。可以知道这张图片描述了一个什么样的场景。比如我们上面的类别可知,大概就是说一个穿白色裙子的女人在打网球。

    回归

    上面介绍的都是分类任务,和我们介绍的数据是相对应。还有一种数据是这样的。

    在这里插入图片描述

    前面四个列是这份数据的特征,最后一列是这份数据的标签,是个价格。我们可以猜到这个任务需要预测房屋的价格。

    而价格它不能简单的分为几个类别。毕竟如果你想卖房子,当然是想知道确切的数字。

    对于这种连续数值的问题,就是回归任务要解决的问题。
    回归任务的结果是一个连续数值,而不是一个类别。

    回归任务也有很多常见的场景:

    • 房屋价格
    • 市场分析
    • 学生成绩
    • 股票价格

    对于回归问题来说:

    • 有些算法只能解决回归问题
    • 有些算法只能解决分类问题
    • 还有一些算法既能解决回归问题,又能解决分类问题(比如SVM)

    还要注意的是,在某些情况下,回归任务可以简化为分类任务。

    在这里插入图片描述

    还是以无人驾驶为例,方向盘转动的角度这是一个连续的数值,上面在分类任务中,我们将它类别话,也就是将每一度看作一个类别。这样一来,我们将回归任务简化为分类任务。

    还有在成绩预测中,现在很多学校都不给出具体成绩,只给出 A + , A , A − A^+,A,A^- A+,A,A等等这种,这里也是回归任务简化为分类任务的一个例子。

    在这里插入图片描述

    在机器学习的流程中,我们通过将训练数据喂给机器学习算法,可以学得一个模型 f ( x ) f(x) f(x),学好模型后,给定一个新的样例 x x x,输入到这个模型中,可以得到一个输出。

    我们根据输出结果是否是连续的,可以分为回归和分类。

    我们说机器学习能解决分类问题和回归问题,更加具体的说法应该是,监督学习能解决这两个问题。

    机器学习还可以解决其他问题。

    从解决问题的角度分类,机器学习可以解决分类问题和回归问题。如果从机器学习算法本身,整体上可以将机器学习算法分为监督学习、非监督学习、半监督学习以及增强学习。

    机器学习算分分类

    监督学习

    训练数据有标记。

    在这里插入图片描述

    在区分猫狗任务中,仅仅给包含猫狗的照片是不够的,还是告诉机器哪些是狗,哪些是猫。

    在这里插入图片描述
    手写数字识别中也一样了,每份训练样本都会有对应的真实数字标记。

    我们要介绍的监督学习算法主要有:

    • K近邻
    • 线性回归于多项式回归
    • 逻辑回归
    • SVM
    • 决策树和随机森林

    非监督学习

    训练数据本身无标记。

    在这里插入图片描述

    非监督学习可以通过一定的方法将上面的样本进行归类。
    它的意义是可以对没有标记的数据进行分类-聚类分析:
    在这里插入图片描述

    非监督学习还有一个重要的作用是可以对数据进行降维处理。

    主要包含两部分:

    • 特征提取:信用卡的信用评级和人的胖瘦无关?(如果确定无关,就可以把胖瘦这个特征扔掉)
    • 特征压缩:PCA

    对数据降维意义之一是方便可视化。

    在这里插入图片描述

    比如把高维数据降维二维就可以在平面上画出来。

    非监督学习还可以进行异常检测。

    在这里插入图片描述

    从这个例子可以看出来,这两个红点离蓝点非常的远,如果它们都是一类数据的话,这两个红点可能是异常数据。去除异常数据能让模型的泛化能力更好。

    半监督学习

    一部分数据有标记,另一部分数据没有。

    其实这种情况在生活中很常见,比如对于某种领域,我们可以请领域专家人工标记少部分数据,对于剩下的大量数据都是没有标记的,因为人工标记成本太大;或者是各种原因产生的标记缺失 。

    通常都先使用无监督学习手段对数据处理,之后使用监督学习手段做模型的训练和预测。

    增强学习

    根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式叫增强学习。

    在这里插入图片描述
    事实上AlphaGo就是通过增强学习来训练的。
    在这里插入图片描述

    像无人驾驶其实也是通过增强学习来实现的。

    机器学习的其他分类

    批量学习与在线学习

    我们先来看下**批量学习(也叫离线学习)**的概念。

    在这里插入图片描述

    我们之前介绍的那些算法,如果没有特殊处理的话,都可以采用批量学习的方式。

    在我们通过大量资料训练好一个模型后,然后就可以开始应用了,现在可以拿新的数据来进行预测,此时模型本身不会发生变化了。

    虽然模型上线后可能会遇到大量新的数据,但是这些数据不会用来优化我们的模型了。这种学习方式就叫批量学习。

    它的优点是简单。缺点是无法适应环境的变化。

    以垃圾邮件为例,随着时间的推移垃圾邮件的形式也是日新月异的,可能仅能训练的垃圾邮件分类模型能很好工作,第二年遇到新的形式,效果就不好了。

    对于垃圾邮件这个例子,解决方法可以是定时重新学习。比如每隔三个月重新学习一次。这个方法的缺点是每次重新批量学习,运算量巨大。在某些环境变化非常快的情况下,甚至是不可能的。

    接下来看下在线学习

    在这里插入图片描述

    在线学习的流程和离线学习是一样的,区别就在于对于输入样例进入模型得到预期结果后,这个输入样例不会浪费掉,我们拿到这个输入样例的正确结果后就可以迭代进我们的算法,从而改进我们的模型。

    比如预测下一分钟的股价,过了一分钟后就可以知道正确结果,我们可以拿这个正确结果来改进我们的模型。

    因此整个过程叫在线学习。

    在线学习的优点是可以及时反映新的环境变化,但是新的数据(异常数据)可能带来不好的变化,从而使得模型的表现反而降低。对于这个问题的解决方法是加强对数据质量的监控。 比如可以利用非监督学习的异常数据监测来排除异常数据。

    在线学习也适用于数据量巨大,完全无法批量学习的环境。

    参数学习与非参数学习

    从另外一个维度可以将学习算法分为参数学习与非参数学习。
    在这里插入图片描述

    假设横坐标是房屋的面积,纵坐标是房屋的价格,基于这些数据点,我们可以假设房屋的价格是房屋面积的一个线性关系,如 f ( x ) = a ⋅ x + b f(x) = a \cdot x + b f(x)=ax+b

    基于这样的参数学习特点,就叫参数学习。一旦学到了参数,就不再需要原有的数据集。

    那非参数学习呢,它不对模型进行过多假设。通常训练时的数据集也要参与预测的过程。这里要强调的是非参数学习不等于没有参数。

    好了机器学习基础概念就介绍到这里,下篇文章会介绍下常用的工具。

    参考

    1.Python3入门机器学习

    展开全文
  • 涵盖面向初学者,中级专家和专家的23种机器学习项目创意,以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中取得成功、和当下就业所需的所有实践。 通过项目学习是你短期内能做的最好...

     

    图片

     

    涵盖面向初学者,中级专家和专家的23种机器学习项目创意,以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中取得成功、和当下就业所需的所有实践。

    通过项目学习是你短期内能做的最好投资,这些项目构想使你能够快速发展和增强机器学习技能。语言上,这些机器学习项目可以用Python,R或任何其他工具开发。


    目录

    面向初学者的机器学习项目

    1.鸢尾花分类项目

    2. Emojify –使用Python创建自己的表情符号

    3.使用机器学习进行贷款预测

    4.住房价格预测项目

    5. MNIST数字分类机器学习项目

    6.使用机器学习预测股价

    7.泰坦尼克号生存计划

    8.葡萄酒质量检测项目

    9.假新闻检测项目

    中级机器学习项目

    1.音乐流派分类机器学习项目

    2.比特币价格预测器项目

    3. Uber数据分析项目

    4.人格预测项目

    5. Xbox游戏预测项目

    6.信用卡欺诈检测项目

    7.芭比与大脑项目

    8.使用机器学习进行客户细分

    高级机器学习项目

    1.使用机器学习进行情感分析

    2.安然调查项目

    3.语音情感识别机器学习项目

    4.抓非法捕鱼项目

    5.使用协同过滤的在线杂货推荐

    6.使用机器学习的电影推荐系统

    7.车牌自动识别系统


     

    面向初学者的机器学习项目

    在本部分中,我们列出了针对初学者/初学者的顶级机器学习项目,如果你已经从事基础机器学习项目,请跳至下一部分:中级机器学习项目

    1.鸢尾花分类项目

    图片

     

    项目构想鸢尾花有不同的种类,你可以根据花瓣和萼片的长度来区分它们。这是机器学习初学者预测新鸢尾花种类的基础项目。

    数据集:鸢尾花分类数据集 

    https://archive.ics.uci.edu/ml/datasets/Iris

     

    2. Emojify –使用Python创建自己的表情符号

    图片

     

    项目构想:该机器学习项目的目标是对人的面部表情进行分类并将其映射为表情符号。我们将建立一个卷积神经网络来识别面部表情。然后,我们将使用相应的表情符号或头像来映射这些情感。

    源代码:Emojify项目

    https://data-flair.training/blogs/create-emoji-with-deep-learning/  

     

    3.使用机器学习进行贷款预测

    项目构想:该ML项目背后的构想是建立一个模型,该模型将对用户可以贷款多少进行分类。它基于用户的婚姻状况,教育程度,受抚养人数和就业情况。我们可以为此项目建立一个线性模型。

    数据集:贷款预测数据集 

    https://www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset

     

    4.住房价格预测项目

     

    图片

     

    项目构想:数据集包含波士顿剩余区域的房价。房子的费用根据犯罪率,房间数量等各种因素而变化。对于初学者来说,这是一个很好的ML项目,它可以根据新数据预测价格。

    数据集:房屋价格预测数据集 

    https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

     

    5. MNIST数字分类机器学习项目

    项目构想:MNIST数字分类python项目使机器能够识别手写数字。该项目对于计算机视觉可能非常有用。在这里,我们将使用MNIST数据集使用卷积神经网络训练模型。

    数据集:MNIST数字识别数据集 

    https://drive.google.com/file/d/1hJiOlxctFH3uL2yTqXU_1f6c0zLr8V_K/view

     

    源代码:手写数字识别项目

    https://data-flair.training/blogs/python-deep-learning-project-handwritten-digit-recognition/

     

    6.使用机器学习预测股价

    项目构想:有许多可用于股票市场价格的数据集。这个机器学习初学者的项目旨在根据上一年的数据预测股票市场的未来价格。

    数据集:股票价格预测数据集

    https://www.kaggle.com/c/two-sigma-financial-news/data

     

    源代码:股票价格预测项目

    https://data-flair.training/blogs/stock-price-prediction-machine-learning-project-in-python/

     

    7.泰坦尼克号生存计划

    项目构想:这将是一个有趣的项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来。对于这个初学者的项目,我们将使用泰坦尼克号数据集,其中包含幸存者和在泰坦尼克号飞船中死亡的人的真实数据。

    数据集:《泰坦尼克号生存》数据集 

    https://www.kaggle.com/c/titanic

     

    8.葡萄酒质量检测项目

    图片

     

    项目构想:在该项目中,我们可以构建一个界面来预测红酒的质量。它将使用葡萄酒的化学信息,并基于机器学习模型,它将为我们提供葡萄酒质量的结果。

    数据集:葡萄酒质量数据集 

    https://archive.ics.uci.edu/ml/datasets/wine+quality

     

    9.假新闻检测项目

    项目构想:虚假新闻像野火一样传播,这在这个时代是一个大问题。我们可以学习如何将假新闻与真实新闻区分开。我们可以使用监督学习来实现这样的模型。

    数据集:检测虚假新闻数据集 

    https://drive.google.com/file/d/1er9NJTLUA3qnRuyhfzuN0XUsoIC4a-_q/view

     

    源代码:假新闻检测项目 

    https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/

     

     

    中级机器学习项目

     

    1.音乐流派分类机器学习项目

     

    图片

     

    项目构想:该python机器学习项目的思想是开发一个机器学习项目,并自动对音频中的不同音乐流派进行分类。我们需要使用它们的频域和时域低级特征对这些音频文件进行分类。

    源代码:音乐流派分类项目 

    https://data-flair.training/blogs/python-project-music-genre-classification/

     

    2.比特币价格预测器项目

     

    项目构想:比特币价格预测器是一个有用的项目。区块链技术正在发展,并且有许多数字货币在上升。该项目将帮助你使用以前的数据预测比特币的价格。

    数据集:比特币价格预测数据集 

    https://www.kaggle.com/team-ai/bitcoin-price-prediction/version/1

     

    3. Uber数据分析项目

     

    图片

     

    项目构想:该项目可用于对超级数据执行数据可视化。该数据集包含纽约市中的450万个超级拾取器。为了分析行程,需要精美地表示很多数据,以便可以进一步改善业务。

    数据集:Uber数据分析数据集 

    https://drive.google.com/file/d/1emopjfEkTt59jJoBH9L9bSdmlDC4AR87/view

     

    源代码:Uber数据分析项目 

    https://data-flair.training/blogs/r-data-science-project-uber-data-analysis/

     

    4.人格预测项目

    项目构想:Myers Briggs类型指示器是一种个性类型系统,根据内向,直觉,思维和感知能力将一个人分为16个不同的个性。我们可以根据他们在社交媒体上发布的帖子的类型来确定其个性。

    数据集:个性预测数据集 

    https://www.kaggle.com/datasnaek/mbti-type

     

    5. Xbox游戏预测项目

     

    项目构想:人们在搜索时生成的数据可用于预测用户的兴趣。BestBuy消费电子公司已提供了来自用户的数百万次搜索的数据,我们将预测用户最有兴趣购买的Xbox游戏。这将用于向游客推荐游戏。

    数据集:Xbox游戏预测数据集 

    https://www.kaggle.com/c/acm-sf-chapter-hackathon-small/overview

     

    6.信用卡欺诈检测项目

    项目构想:使用卡进行大量交易的公司需要发现系统中的异常情况。该项目旨在建立信用卡欺诈检测模型。我们将使用交易及其标签作为欺诈或非欺诈来检测客户进行的新交易是否为欺诈。

    数据集:信用卡欺诈检测数据集

    https://drive.google.com/file/d/19BOhwz52NUY3dg8XErVYglctpr5sjTy4/view

    源代码:信用卡欺诈检测项目

    https://data-flair.training/blogs/data-science-machine-learning-project-credit-card-fraud-detection/

     

    7.芭比与大脑项目

    项目构想:芭比娃娃等儿童玩具具有一组预定义的单词,可以重复说。我们可以使用机器学习方法使芭比娃娃有一些头脑。当玩具可以用不同的句子理解和说话时,它会更加吸引人。这是一个出色的项目,将改善孩子们的学习过程。

     

    8.使用机器学习进行客户细分

     

    项目构想:客户细分是一种根据客户的购买历史,性别,年龄,兴趣等对客户进行细分的技术。获取此信息非常有用,以便商店可以在个性化营销方面获得帮助,并为客户提供相关的信息交易。在该项目的帮助下,公司可以运行特定于用户的活动并提供特定于用户的报价,而不是向所有用户广播相同的报价。

    数据集:客户细分数据集

    https://drive.google.com/file/d/19BOhwz52NUY3dg8XErVYglctpr5sjTy4/view

    源代码:客户细分项目

    https://data-flair.training/blogs/r-data-science-project-customer-segmentation/


     

    高级机器学习项目

     

    1.使用机器学习进行情感分析

     

    图片

     

    项目构想:情感分析是分析用户情感的过程。我们可以将他们的情绪分为正面,负面或中性。了解如何进行情感分析是一个很棒的项目,并且如今已被广泛使用。这是最受欢迎的机器学习项目之一。其背后的原因是每家公司都试图了解客户的情绪,如果客户满意,他们会留下来。该项目可能显示出减少客户流失的途径。

    数据集:情感分析数据集 

    http://ai.stanford.edu/~amaas/data/sentiment/

    源代码:情感分析项目

    https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/

     

    2.安然调查项目

     

    项目构想:安然公司(Enron)在2000年倒闭,但可提供数据进行调查。该数据库包含500,000名在公司工作的真实员工的电子邮件,因此数据对于执行数据分析非常有用,许多数据科学家都使用此数据集。

    数据集:安然调查数据集 

    https://www.cs.cmu.edu/~enron/

     

    3.语音情感识别机器学习项目

     

    图片

     

    项目构想:这是最好的机器学习项目之一。语音情感识别系统使用音频数据。它以语音的一部分作为输入,然后确定说话者以何种情绪说话。我们可以识别出不同的情绪,例如快乐,悲伤,惊讶,生气等。该项目可能有助于在与呼叫中心通话期间识别客户情绪。

    数据集:语音情感识别数据集

    https://drive.google.com/file/d/1wWsrN2Ep7x6lWqOXfr4rpKGYrJhWc8z7/view

    源代码:语音情感识别项目

    https://data-flair.training/blogs/python-mini-project-speech-emotion-recognition/

     

    4.抓非法捕鱼项目

     

    图片

     

    项目构想:这是一个有趣的机器学习项目。海洋上有许多船,船,不可能手动跟踪每个人的活动。这将是一个了不起的项目,它可以通过卫星和地理位置数据识别非法偷猎动物并捕捞捕鱼活动。Global Fishing Watch免费提供实时数据,可用于构建系统。

    数据集:捕捉非法捕鱼数据集 

    https://globalfishingwatch.org/map-and-data/

     

    5.使用协同过滤的在线杂货推荐

     

    项目构想:协作过滤是一项很棒的技术,可根据相似用户的反应来过滤出用户可能喜欢的项目。杂货店推荐系统将是一个使客户意识到自己想要的东西的好项目。

     

    6.使用机器学习的电影推荐系统

     

    图片

     

    项目构想:推荐系统无处不在,无论是在线购买应用程序,电影流媒体应用程序还是音乐流媒体。他们都根据目标客户推荐产品。电影推荐系统是增强你的作品集的绝佳项目。

    数据集:电影推荐系统数据集 

    https://drive.google.com/file/d/1Dn1BZD3YxgBQJSIjbfNnmCFlDW2jdQGD/view

    源代码:电影推荐系统项目 

    https://data-flair.training/blogs/data-science-r-movie-recommendation/

     

    7.车牌自动识别系统

     

    项目构想:该机器学习项目的目的是检测和识别车辆的牌照号,并读取印在牌照上的牌照号。这可能是用于安全扫描,流量监视等的良好应用程序。

    源代码:自动车牌识别项目

    https://techvidvan.com/tutorials/python-project-license-number-plate-recognition/


     

    展开全文
  • 机器学习项目实践——鸢尾花分类

    千次阅读 2021-11-12 16:58:59
    摘要:支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次...
  • 机器学习特征扩展方式Machine Learning is part of a encyclopedic known as Artificial Intelligence. It evolved from the study of pattern recognition and computational learning theory in artificial ...
  • 一、机器学习简介 1.机器学习发展历程 简单用思维导图的形式梳理一下机器学习的发展历程: 在过去二十年中,人类收集 、存储、传输、处理数据的能力取得了飞速提升,人类社会的各个角落都积累了大量数据,亟需能...
  • 本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?这篇教程中,涵盖面向初学者,中...
  • 这是一篇手把手教你使用 Python 实现机器学习算法,并在数值型数据和图像数据集上运行模型的入门教程,当你看完本文后,你应当可以开始你的机器学习之旅了!本教程会采用下述两个库来实现机器学习算法:scikit-...
  • 点击上方“AI遇见机器学习”,选择“星标”公众号重磅干货,第一时间送达整理:深度学习技术前沿【导读】本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道,教科书...
  • 机器学习系列-数据分析-平行坐标图

    千次阅读 2020-09-17 18:53:23
    本文主要介绍了机器学习中数据分析的常用数据可视化方法之一-——平行坐标图,以及使用python绘制平行坐标图的方法,并引用鸢尾花数据集为实例绘制平行坐标图。
  • ▼更多精彩推荐,请关注我们▼大数据文摘出品编译:Luna我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?文摘菌为你推荐这篇文章,在本教程中,涵盖面...
  • 机器学习(1)——获取数据及数据预处理 基本概念 机器学习(1)——获取数据及数据预处理 基本概念 基本概念 机器学习教计算机执行人和动物与生俱来的活动:从经验中学习。 机器学习算法使用计算方法直接从数据中...
  • 显卡扩展坞 机器学习Machine Learning is part of an encyclopedic known as Artificial Intelligence. It evolved from the study of pattern recognition and computational learning theory in artificial ...
  • 点击上方,选择星标或置顶,不定期资源大放送!阅读大概需要15分钟Follow小博主,每天更新前沿干货【导读】本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道...
  • 大数据文摘出品编译:Luna我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?文摘菌为你推荐这篇文章,在本教程中,涵盖面向初学者,中级专家和专家的2...
  • 机器学习基础

    2020-10-18 15:30:05
    机器学习和大数据的区别和联系 1. 机器学习引入 2. 机器学习三次浪潮 3. 人工智能领域基础概念区别 4. 什么是机器学习 5. 基于规则学习和基于模型的学习 6. 机器学习数据的基本概念 7. 机器学习分类及场景应用 8. ...
  • 看到一篇介绍集成学习的好文,但里头代码有点乱,特意研读整理一下,感谢大神 假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做...
  • 初学者的机器学习入门实战教程!

    千次阅读 多人点赞 2019-03-22 21:47:19
    这是一篇手把手教你使用 Python 实现机器学习算法,并在数值型数据和图像数据集上运行模型的入门教程,当你看完本文后,你应当可以开始你的机器学习之旅了! 本教程会采用下述两个库来实现机器学习算法: sci...
  • 目录 一、案例分析 二、数据处理 2.1 回答问题 ...3.3 用模型来学习 四、思考题 一、案例分析 假设我们要创建一个智能手机应用程序,从智能手机拍摄的照片中自动识别花的种类。 我们需创建一个...
  • 比如经典的Iris数据集,根据花的花瓣长度、萼片长度、花瓣宽度和萼片宽度,分成三种花。 1.3 多标签分类 一种特殊类型的分类任务,对于数据集中的每个实例具有多个输出变量,也就是说,一个实例可以有多个标签。比如...
  • 现在我们将按照上面相同的步骤来训练各种机器学习算法。 逻辑回归(Logistic Regression) model = LogisticRegression() model.fit(train_X,train_y) prediction=model.predict(test_X) print('The accuracy of the...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 957
精华内容 382
关键字:

机器学习花瓣萼片