精华内容
下载资源
问答
  • 该文件下包含了16类的图像,每类图像600张左右,很适合机器学习的初学者学习使用
  • 机器学习项目实战:基于随机森林进行心脏病分类的数据集
  • 机器学习:有关虚假新闻预测的机器学习项目
  • 前言:之前答应一个朋友介绍一下机器学习项目的基本流程,就以一个短文本分类项目为示例,介绍一下在面对机器学习项目时的基本解决思路,因为不是专业的算法工程师,所以有疏漏之处请大家多多见谅。同时由于这是一个...

    一:前言

    之前答应一个朋友介绍一下机器学习项目的基本流程,就以一个短文本分类项目为示例,介绍一下在面对机器学习项目时的基本解决思路,因为不是专业的算法工程师,所以有疏漏之处请大家多多见谅。同时由于这是一个内部比赛项目,所以数据无法公开,但是代码会分享在git上,代码写的也很一般,请大家多多理解。

    二:题目

    为了减少公司售后服务的人力投入,相关部门做了售后智能机器人,主要通过用户的问题得到他的意图所属类别,但是现有的方案对用户提问问题的类别识别准确率较低,需要研究更为优化的方案提升问题类别识别准确率。出题方提供的数据集如下,大概22w条数据,已知存在大量脏数据,问题和所属类别中间用\t分隔。


    同时提供2w条预测数据,预测数据只有用户的问题,需要去预测这2w条问题所属的类别。

    在本题中,评价标准是优先比较问题识别总的准确率,准确率相同比较类别24的召回率(查准率和查全率的加和平均)。

    三:解决思路

    1.判断题目类别

    机器学习项目有(分类/回归/聚类)三大类问题,分类就是训练集已知样本和对应的类别,然后去预测新的样本类别;回归就是相当于分类中的离散值类别变成连续值;聚类就是训练集中没有类别,需要通过聚类算法去找到对应类别。

    本道题是一个典型的分类的问题,由于用户所提的问题都很短,所以是一个短文本分类问题,确定好问题之后,下面就是去搜集对应的资料了。

    2.搜集资料

    一般来说现有的问题学术界都已经给出了解决方案,所以可以通过关键词(短文本分类/Text Classfication)去搜索(百度/中国知网/Google Scholar),通过查阅资料可以知道解决短文本分类有以下几种常见的解决方案:

    (1)通过TF-IDF算法生成每个短文本的特征向量,然后使用传统分类算法去训练模型,通过模型去预测新数据的类别。

    (2)通过Word2Vec算法生成每个短文本的特征向量,然后使用CNN卷积神经网络进行模型训练,通过模型去预测新数据的类别。

    (3)通过Word2Vec算法生成每个短文本的特征向量,然后使用CNN进行文本语义相似度分析,通过文本相似度判断所属类别。

    3.确认方案

    由于刚开始做的时候对该类型项目不熟悉,所以就采用了第一种最传统的做法,简单高效学习成本低。下面概述的就是基于第一种方案,该方案效果较优,但可拓展性差,后面会做详细说明。

    4.数据探查

    在实际项目中,样本分布不均匀和样本质量低下都是常见的问题,分布不均匀反映在不同类别的训练样本数量呈几十到上百倍的差距,样本质量低下反映的是大量样本类别标错/样本特征值缺失/样本特征值错误等问题。通过人工探查和数据分析得到如下的结论:


    5.数据处理

    数据处理有两方面工作:

    (1)首先要使用分词工具对样本进行切词,并过滤掉停用词(停用词就是类似标点符号/转折词/语气词这些词汇,因为本方案采用的是TF-IDF方法,是基于词频逆文本的方案,所以不需要这些语气转折词),并针对过滤掉停用词为空的样本标记为“闲聊”类别。

    (2)使用TF-IDF提取各类别的关键词,然后进行近义词拓展,得到每个类别的关键词,如果训练集中某类别的样本不包含对应的类别关键词,就将该样本过滤(因为用户提问的问题都是很直白的,比如酒店类型的问题中一般都会包含订房/退房/改签等,所以可以认为不包含对应类别的关键词但是属于该类别的样本就是脏样本,这种方式是基于规则的,通过该方式过滤了30%的脏样本,人工check之后发现效果过滤很好)。


    6.数据平衡

    数据不平衡是机器学习项目中最常遇见的问题,容易造成过拟合,业界也有很多解决方案,本方案采用了最简单的随机过采样方式,针对实验预测效果不佳的类别进行过采样。


    7.特征工程

    特征工程在正常的机器学习项目中属于最重要的一环,比如你有n个样本,那你要构造出m个特征(m范围一般几百到几千,以购物为例,用户过去1/2/3/4/5/6/7天的购买数就是7维特征了,这种项目就需要根据业务去构建合适的特征),这样一个n*m的矩阵就可以作为输入去训练模型了。由于本文是短文本分类的问题,直接使用TF-IDF通过字典构造特征的,并不需要人为干预,所以在这里特征工程就不是重点要说的了。使用TF-IDF为文本构造向量,维度设定为1w维,特征向量矩阵如下(因为维度太高,所以无法使用Smote算法进行过采样,也无法使用K-means进行样本过滤,所以建议还是使用Word2Vec生成几百维向量,方便拓展,但是毕竟这种方法好理解,作为练手完全可以)。


    8.模型选择

    因为这是个分类问题,所以采用分类算法,业界常用逻辑回归/xgboost/gbdt/随机森林等,在进行模型训练时,一般要选择百分之80数据作为训练集,百分之20数据作为测试集,用训练集去训练模型,用测试集去测试模型的好坏,这样可以通过测试集的结果进行调参。为了防止模型抖动,一般会每次使用不同的不相交的百分之20数据作为测试集,剩下的数据作为训练集,取平均测试结果作为模型的预测结果,这种方式叫做五折(100/20)交叉验证,当然你也可以采用任意折交叉验证,这个视经验而定。如果训练了不同的模型,可以将多个模型结果进行融合,模型融合有bagging/stacking/blending等方法,本文方案也尝试了加权方式的模型融合,但是发现效果没有直接使用随机森林方法好,可能是参数没调好,最后因为时间原因还是采用速度快且效果明显的随机森林算法。下图分别表示各模型效果以及随机森林算法在各个子类别上的效果(在实验中发现某些样本数少的类别预测效果明显低于平均值,这个时候可以针对这些类别进行过采样或者单独预测)。


    9.预测结果

    最后用模型去预测,得到预测数据集的类别,和出题方给的真实类别进行比对,得出该模型预测结果总体准确率为百分之91%,类别24的f1值为0.98。


    10.总结与反思

    本文采用了传统的机器学习方法对短文本进行分类,容易理解且方便上手,但是采用TF-IDF算法生成的向量维度太高,无法进行有效拓展,如果采用Word2Vec方法,向量维度可以降低到几百维,这时可以使用K-means算法对样本进行聚类,对距离类别中心点较远的样本点进行过滤,同样可以采用Smote算法进行采样,有效的解决了脏样本过滤和类别不平衡的问题,降低了模型过拟合的风险。由于工作方向和时间的原因,没有进一步实现解决该问题的CNN方案。

    四:代码地址

    代码中敏感信息有删减,希望大家见谅,仅供参考

    https://github.com/pengjiapeng/hackathon



    展开全文
  • 42个机器学习练手项目

    万次阅读 多人点赞 2019-12-15 10:49:43
    从个性化推送(今日头条)、自拍美颜、自动翻译,到...今天,我们带来了 44 个机器学习的练手项目,分为「入门知识」、「基础课程」、「基础应用」、「综合应用」、「系统进阶」5个模块,层层递进,帮助你系统地入门...

    从个性化推送(今日头条)、自拍美颜、自动翻译,到无人驾驶、图像识别等诸多领域……人工智能已经渗透进我们生活的方方面面,人工智能背后的机器学习和深度学习技术,也成为了“高薪”的代名词。

    那么,普通程序员如何踏入AI的浪潮,站上时代薪资顶端呢?

    今天,我们带来了 44 个机器学习的练手项目,分为「入门知识」、「基础课程」、「基础应用」、「综合应用」、「系统进阶」5个模块,层层递进,帮助你系统地入门机器学习。

    阶段一:入门知识

    关键词:Python、Github、Jupyter Notebook

    学习机器学习前,要先打好 “内功” 基础。Python作为人工智能的头牌语言,地位不用多说,主流的机器学习框架都需要用 Python 调用;而 Jupyter Notebook是最好用、方便的机器学习环境工具,对新手来说,学会它的使用非常重要。

    项目课程:

    Python3 简明教程

    实验楼 Notebook 在线环境使用指南

    Github 快速上手实战教程

    阶段二:基础课程

    关键词:数据处理、框架 —— numpy、matplotlib、Pandas等

    机器学习是一门和数据打交道的学科 —— 机器学会挑西瓜,需要记录上千个西瓜模型;学会下围棋,则需要观测上百万盘棋局。为了让你更简单地输入、处理、清理上亿级的数据,大牛们开发了很多好用的模块。其中,Pandas、Numpy、Matplotlib 是必学的。

    项目课程:

    NumPy 数值计算基础课程

    Pandas 数据处理基础课程

    Matplotlib 数据绘图基础课程

    Seaborn 数据可视化基础课程

    SciPy 科学计算基础课程

    NumPy 百题大冲关

    Pandas 百题大冲关

    Pandas 时间序列数据处理

    PyTorch 深度学习基础课程

    TensorFlow 深度学习基础课程

    TensorFlow 2.0 新特性快速入门

    阶段三:基础应用

    关键词:各种好玩的项目

    有了前面基础理论和工具的铺垫后,我们终于可以做一些好玩的项目出来了。通过下面这些项目的练习,你可以由浅入深地入门机器学习,逐步建立一个全面的理解:

    项目课程:

    SVC 分类器识别手写字体

    用神经网络破解验证码

    利用逻辑回归实现鸢尾花分类

    使用逻辑回归预测 IPO 市场

    利用 TensorFlow 设计简单的前向神经网络

    循环神经网络讲解及基础应用

    SIFT 特征提取分析算法讲解及应用

    Hopfield 算法基础讲解及实例实现

    使用 Python 预测 NBA 常规赛结果

    Python 气象数据分析

    K-近邻算法实现手写数字识别系统

    使用 Keras 预训练模型实现迁移学习

    决策树实战项目:鸢尾花分类

    Python 实现英文新闻摘要自动提取

    Twitter 数据情感分析

    Ebay 在线拍卖数据分析

    基于无监督学习的自编码器实现

    自联想器的 Python 实现

    卷积神经网络完成图片分类

    使用 Python 实现深度神经网络

    阶段四:综合应用

    关键词:神经网络、自然语言

    项目课程:

    机器学习开放基础课程

    从 0 到 1 实现卷积神经网络

    自然语言处理底层技术实现及应用

    Python 数据分析入门与进阶

    Python 使用机器学习玩转 Flappy Bird 游戏

    深度学习初探:入门DL主流框架

    阶段五:系统提升

    关键词:系统学习机器学习技术,大牛指导,实时答疑,适合想快速掌握机器学习技术的同学。

    项目课程:

    楼 + 机器学习实战

    楼+ 数据分析与挖掘实战第 6 期

    课程目录:

     

    祝大家有所收获~

    展开全文
  • 华盛顿大学机器学习:我的机器学习项目涉及回归,分类和聚类
  • 项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的。不能只通过阅读来掌握机器学习的技能,需要进行大量的练习。本文...
  • 从零开始学习机器学习视频教程

    万人学习 2017-12-04 22:38:30
    人工智能作为现在最为火热的领域,使得机器学习被越来越多的人所了解。机器学习难学,主要的难度在于算法模型多不好理解,各种...我会通过Kmeans篮球数据分类这个具体的实战案例,带你综合运用前面所学的机器学习知识。
  • 监督学习分类 回归(regression)和分类(classification)。 在回归问题中,我们会预测一个连续值。也就是说我们试图将输入变量和输出用一个连续函数对应起来;比如通过房地产市场的数据,预测一个...

    机器学习的五大分类,监督学习 无监督学习 半监督学习 迁移学习 增强学习@监督学习 无监督学习 半监督学习

    监督学习
    在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。
    监督学习分类
    回归(regression)和分类(classification)。
    在回归问题中,我们会预测一个连续值。也就是说我们试图将输入变量和输出用一个连续函数对应起来;比如通过房地产市场的数据,预测一个给定面积的房屋的价格就是一个回归问题。这里我们可以把价格看成是面积的函数,它是一个连续的输出值。而在分类问题中,我们会预测一个离散值,我们试图将输入变量与离散的类别对应起来。比如:给定医学数据,通过肿瘤的大小来预测该肿瘤是恶性瘤还是良性瘤(课程中给的是乳腺癌的例子),这就是一个分类问题,它的输出是0或者1两个离散的值。(0代表良性,1代表恶性)。分类问题的输出可以多于两个,比如在该例子中可以有{0,1,2,3}四种输出,分别对应{良性, 第一类肿瘤, 第二类肿瘤, 第三类肿瘤}。
    无监督学习
    在无监督学习中,我们基本上不知道结果会是什么样子,但我们可以通过聚类的方式从数据中提取一个特殊的结构。在无监督学习中给定的数据是和监督学习中给定的数据是不一样的。在无监督学习中给定的数据没有任何标签或者说只有同一种标签。GAN就是一种无监督学习
    无监督学习与监督学习的区别

    1. 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
    2. 有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。
    3. 非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。
      半监督学习
      所给的数据有的是有标签的,而有的是没有标签的。常见的两种半监督的学习方式是直推学习(Transductive learning)和归纳学习(Inductive learning)。
        直推学习(Transductive learning):没有标记的数据是测试数据,这个时候可以用test的数据进行训练。这里需要注意,这里只是用了test数据中的feature而没有用label,所以并不是一种欺骗的方法。
        归纳学习(Inductive learning):没有标签的数据不是测试集。
      迁移学习
      随着越来越多的机器学习应用场景的出现,而现有表现比较好的监督学习需要大量的标注数据,标注数据是一项枯燥无味且花费巨大的任务,所以迁移学习受到越来越多的关注。Transfer Learning 的定义是:Ability of a system to recognize and apply knowledge and skills learned in previous domains/tasks to novel domains/tasks。将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中为目标。
      在这里插入图片描述
      增强学习(reinforcement learning)
      reinforcement learning的特点:
      agent是从环境中去学习,不是data中,是基于环境的,angent需要从环境中获得大量的信息来学习和采取行动action,目标是学习从环境状态到行为的映射,使得agent选择的行为能够获得环境最大的奖励,reinforcement learning中的奖励来自于环境中的反馈。

      如图,监督学习中,我们是告诉的机器,当听到hello,则说hi;听到byebye,则说good bye.而加固学习是在自行对话然后得到了人的反馈中,自行学习。

    我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

    1. 全新的界面设计 ,将会带来全新的写作体验;
    2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
    3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
    4. 全新的 KaTeX数学公式 语法;
    5. 增加了支持甘特图的mermaid语法1 功能;
    6. 增加了 多屏幕编辑 Markdown文章功能;
    7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
    8. 增加了 检查列表 功能。

    功能快捷键

    撤销:Ctrl/Command + Z
    重做:Ctrl/Command + Y
    加粗:Ctrl/Command + B
    斜体:Ctrl/Command + I
    标题:Ctrl/Command + Shift + H
    无序列表:Ctrl/Command + Shift + U
    有序列表:Ctrl/Command + Shift + O
    检查列表:Ctrl/Command + Shift + C
    插入代码:Ctrl/Command + Shift + K
    插入链接:Ctrl/Command + Shift + L
    插入图片:Ctrl/Command + Shift + G
    查找:Ctrl/Command + F
    替换:Ctrl/Command + G

    合理的创建标题,有助于目录的生成

    直接输入1次#,并按下space后,将生成1级标题。
    输入2次#,并按下space后,将生成2级标题。
    以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

    如何改变文本的样式

    强调文本 强调文本

    加粗文本 加粗文本

    标记文本

    删除文本

    引用文本

    H2O is是液体。

    210 运算结果是 1024.

    插入链接与图片

    链接: link.

    图片: Alt

    带尺寸的图片: Alt

    居中的图片: Alt

    居中并且带尺寸的图片: Alt

    当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

    如何插入一段漂亮的代码片

    博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

    // An highlighted block
    var foo = 'bar';
    

    生成一个适合你的列表

    • 项目
      • 项目
        • 项目
    1. 项目1
    2. 项目2
    3. 项目3
    • 计划任务
    • 完成任务

    创建一个表格

    一个简单的表格是这么创建的:

    项目Value
    电脑$1600
    手机$12
    导管$1

    设定内容居中、居左、居右

    使用:---------:居中
    使用:----------居左
    使用----------:居右

    第一列第二列第三列
    第一列文本居中第二列文本居右第三列文本居左

    SmartyPants

    SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

    TYPEASCIIHTML
    Single backticks'Isn't this fun?'‘Isn’t this fun?’
    Quotes"Isn't this fun?"“Isn’t this fun?”
    Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

    创建一个自定义列表

    Markdown
    Text-to- HTML conversion tool
    Authors
    John
    Luke

    如何创建一个注脚

    一个具有注脚的文本。2

    注释也是必不可少的

    Markdown将文本转换为 HTML

    KaTeX数学公式

    您可以使用渲染LaTeX数学表达式 KaTeX:

    Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

    Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

    你可以找到更多关于的信息 LaTeX 数学表达式here.

    新的甘特图功能,丰富你的文章

    Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
    • 关于 甘特图 语法,参考 这儿,

    UML 图表

    可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

    张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

    这将产生一个流程图。:

    链接
    长方形
    圆角长方形
    菱形
    • 关于 Mermaid 语法,参考 这儿,

    FLowchart流程图

    我们依旧会支持flowchart的流程图:

    Created with Raphaël 2.2.0 开始 我的操作 确认? 结束 yes no
    • 关于 Flowchart流程图 语法,参考 这儿.

    导出与导入

    导出

    如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

    导入

    如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
    继续你的创作。


    1. mermaid语法说明 ↩︎

    2. 注脚的解释 ↩︎

    展开全文
  • 机器学习项目,金融反欺诈模型,完整例程,python编写,已测试通过
  • ▼更多精彩推荐,请关注我们▼大数据文摘出品编译:Luna我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?文摘菌为你推荐这篇文章,在本教程中,涵盖面...

    更多精彩推荐,请关注我们

    大数据文摘出品

    编译:Luna

    我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?

    文摘菌为你推荐这篇文章,在本教程中,涵盖面向初学者,中级专家和专家的23种机器学习项目创意,以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中取得成功、和当下就业所需的所有实践。

    通过项目学习是你短期内能做的最好投资,这些项目构想使你能够快速发展和增强机器学习技能。语言上,这些机器学习项目可以用Python,R或任何其他工具开发。

    面向初学者的机器学习项目

    在本部分中,我们列出了针对初学者/初学者的顶级机器学习项目,如果你已经从事基础机器学习项目,请跳至下一部分:中级机器学习项目

    1.鸢尾花分类项目

    项目构想:鸢尾花有不同的种类,你可以根据花瓣和萼片的长度来区分它们。这是机器学习初学者预测新鸢尾花种类的基础项目。

    数据集:鸢尾花分类数据集 

    https://archive.ics.uci.edu/ml/datasets/Iris

    2. Emojify –使用Python创建自己的表情符号

    项目构想:该机器学习项目的目标是对人的面部表情进行分类并将其映射为表情符号。我们将建立一个卷积神经网络来识别面部表情。然后,我们将使用相应的表情符号或头像来映射这些情感。

    源代码:Emojify项目

    https://data-flair.training/blogs/create-emoji-with-deep-learning/  

    3.使用机器学习进行贷款预测

    项目构想:该ML项目背后的构想是建立一个模型,该模型将对用户可以贷款多少进行分类。它基于用户的婚姻状况,教育程度,受抚养人数和就业情况。我们可以为此项目建立一个线性模型。

    数据集:贷款预测数据集 

    https://www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset

    4.住房价格预测项目

    项目构想:数据集包含波士顿剩余区域的房价。房子的费用根据犯罪率,房间数量等各种因素而变化。对于初学者来说,这是一个很好的ML项目,它可以根据新数据预测价格。

    数据集:房屋价格预测数据集 

    https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

    5. MNIST数字分类机器学习项目

    项目构想:MNIST数字分类python项目使机器能够识别手写数字。该项目对于计算机视觉可能非常有用。在这里,我们将使用MNIST数据集使用卷积神经网络训练模型。

    数据集:MNIST数字识别数据集 

    https://drive.google.com/file/d/1hJiOlxctFH3uL2yTqXU_1f6c0zLr8V_K/view

    源代码:手写数字识别项目

    https://data-flair.training/blogs/python-deep-learning-project-handwritten-digit-recognition/

    6.使用机器学习预测股价

    项目构想:有许多可用于股票市场价格的数据集。这个机器学习初学者的项目旨在根据上一年的数据预测股票市场的未来价格。

    数据集:股票价格预测数据集

    https://www.kaggle.com/c/two-sigma-financial-news/data

    源代码:股票价格预测项目

    https://data-flair.training/blogs/stock-price-prediction-machine-learning-project-in-python/

    7.泰坦尼克号生存计划

    项目构想:这将是一个有趣的项目,因为我们将预测某人是否会在泰坦尼克号飞船中幸存下来。对于这个初学者的项目,我们将使用泰坦尼克号数据集,其中包含幸存者和在泰坦尼克号飞船中死亡的人的真实数据。

    数据集:《泰坦尼克号生存》数据集 

    https://www.kaggle.com/c/titanic

    8.葡萄酒质量检测项目

    项目构想:在该项目中,我们可以构建一个界面来预测红酒的质量。它将使用葡萄酒的化学信息,并基于机器学习模型,它将为我们提供葡萄酒质量的结果。

    数据集:葡萄酒质量数据集 

    https://archive.ics.uci.edu/ml/datasets/wine+quality

    9.假新闻检测项目

    项目构想:虚假新闻像野火一样传播,这在这个时代是一个大问题。我们可以学习如何将假新闻与真实新闻区分开。我们可以使用监督学习来实现这样的模型。

    数据集:检测虚假新闻数据集 

    https://drive.google.com/file/d/1er9NJTLUA3qnRuyhfzuN0XUsoIC4a-_q/view

    源代码:假新闻检测项目 

    https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/

    到目前为止,如果对DataFlair提出的的机器学习项目有任何问题,欢迎留言。

    中级机器学习项目

    1.音乐流派分类机器学习项目

    项目构想:该python机器学习项目的思想是开发一个机器学习项目,并自动对音频中的不同音乐流派进行分类。我们需要使用它们的频域和时域低级特征对这些音频文件进行分类。

    源代码:音乐流派分类项目 

    https://data-flair.training/blogs/python-project-music-genre-classification/

    2.比特币价格预测器项目

    项目构想:比特币价格预测器是一个有用的项目。区块链技术正在发展,并且有许多数字货币在上升。该项目将帮助你使用以前的数据预测比特币的价格。

    数据集:比特币价格预测数据集 

    https://www.kaggle.com/team-ai/bitcoin-price-prediction/version/1

    3. Uber数据分析项目

    项目构想:该项目可用于对超级数据执行数据可视化。该数据集包含纽约市中的450万个超级拾取器。为了分析行程,需要精美地表示很多数据,以便可以进一步改善业务。

    数据集:Uber数据分析数据集 

    https://drive.google.com/file/d/1emopjfEkTt59jJoBH9L9bSdmlDC4AR87/view

    源代码:Uber数据分析项目 

    https://data-flair.training/blogs/r-data-science-project-uber-data-analysis/

    4.人格预测项目

    项目构想:Myers Briggs类型指示器是一种个性类型系统,根据内向,直觉,思维和感知能力将一个人分为16个不同的个性。我们可以根据他们在社交媒体上发布的帖子的类型来确定其个性。

    数据集:个性预测数据集 

    https://www.kaggle.com/datasnaek/mbti-type

    5. Xbox游戏预测项目

    项目构想:人们在搜索时生成的数据可用于预测用户的兴趣。BestBuy消费电子公司已提供了来自用户的数百万次搜索的数据,我们将预测用户最有兴趣购买的Xbox游戏。这将用于向游客推荐游戏。

    数据集:Xbox游戏预测数据集 

    https://www.kaggle.com/c/acm-sf-chapter-hackathon-small/overview

    6.信用卡欺诈检测项目

    项目构想:使用卡进行大量交易的公司需要发现系统中的异常情况。该项目旨在建立信用卡欺诈检测模型。我们将使用交易及其标签作为欺诈或非欺诈来检测客户进行的新交易是否为欺诈。

    数据集:信用卡欺诈检测数据集

    https://drive.google.com/file/d/19BOhwz52NUY3dg8XErVYglctpr5sjTy4/view

    源代码:信用卡欺诈检测项目

    https://data-flair.training/blogs/data-science-machine-learning-project-credit-card-fraud-detection/

    7.芭比与大脑项目

    项目构想:芭比娃娃等儿童玩具具有一组预定义的单词,可以重复说。我们可以使用机器学习方法使芭比娃娃有一些头脑。当玩具可以用不同的句子理解和说话时,它会更加吸引人。这是一个出色的项目,将改善孩子们的学习过程。

    8.使用机器学习进行客户细分

    项目构想:客户细分是一种根据客户的购买历史,性别,年龄,兴趣等对客户进行细分的技术。获取此信息非常有用,以便商店可以在个性化营销方面获得帮助,并为客户提供相关的信息交易。在该项目的帮助下,公司可以运行特定于用户的活动并提供特定于用户的报价,而不是向所有用户广播相同的报价。

    数据集:客户细分数据集

    https://drive.google.com/file/d/19BOhwz52NUY3dg8XErVYglctpr5sjTy4/view

    源代码:客户细分项目

    https://data-flair.training/blogs/r-data-science-project-customer-segmentation/

    在机器学习项目创意文章的下一部分,我们将为内行人士介绍一些高级项目创意。

    高级机器学习项目

    1.使用机器学习进行情感分析

    项目构想:情感分析是分析用户情感的过程。我们可以将他们的情绪分为正面,负面或中性。了解如何进行情感分析是一个很棒的项目,并且如今已被广泛使用。这是最受欢迎的机器学习项目之一。其背后的原因是每家公司都试图了解客户的情绪,如果客户满意,他们会留下来。该项目可能显示出减少客户流失的途径。

    数据集:情感分析数据集 

    http://ai.stanford.edu/~amaas/data/sentiment/

    源代码:情感分析项目

    https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/

    2.安然调查项目

    项目构想:安然公司(Enron)在2000年倒闭,但可提供数据进行调查。该数据库包含500,000名在公司工作的真实员工的电子邮件,因此数据对于执行数据分析非常有用,许多数据科学家都使用此数据集。

    数据集:安然调查数据集 

    https://www.cs.cmu.edu/~enron/

    3.语音情感识别机器学习项目

    项目构想:这是最好的机器学习项目之一。语音情感识别系统使用音频数据。它以语音的一部分作为输入,然后确定说话者以何种情绪说话。我们可以识别出不同的情绪,例如快乐,悲伤,惊讶,生气等。该项目可能有助于在与呼叫中心通话期间识别客户情绪。

    数据集:语音情感识别数据集

    https://drive.google.com/file/d/1wWsrN2Ep7x6lWqOXfr4rpKGYrJhWc8z7/view

    源代码:语音情感识别项目

    https://data-flair.training/blogs/python-mini-project-speech-emotion-recognition/

    4.抓非法捕鱼项目

    项目构想:这是一个有趣的机器学习项目。海洋上有许多船,船,不可能手动跟踪每个人的活动。这将是一个了不起的项目,它可以通过卫星和地理位置数据识别非法偷猎动物并捕捞捕鱼活动。Global Fishing Watch免费提供实时数据,可用于构建系统。

    数据集:捕捉非法捕鱼数据集 

    https://globalfishingwatch.org/map-and-data/

    5.使用协同过滤的在线杂货推荐

    项目构想:协作过滤是一项很棒的技术,可根据相似用户的反应来过滤出用户可能喜欢的项目。杂货店推荐系统将是一个使客户意识到自己想要的东西的好项目。

    6.使用机器学习的电影推荐系统

    项目构想:推荐系统无处不在,无论是在线购买应用程序,电影流媒体应用程序还是音乐流媒体。他们都根据目标客户推荐产品。电影推荐系统是增强你的作品集的绝佳项目。

    数据集:电影推荐系统数据集 

    https://drive.google.com/file/d/1Dn1BZD3YxgBQJSIjbfNnmCFlDW2jdQGD/view

    源代码:电影推荐系统项目 

    https://data-flair.training/blogs/data-science-r-movie-recommendation/

    7.车牌自动识别系统

    项目构想:该机器学习项目的目的是检测和识别车辆的牌照号,并读取印在牌照上的牌照号。这可能是用于安全扫描,流量监视等的良好应用程序。

    源代码:自动车牌识别项目

    https://techvidvan.com/tutorials/python-project-license-number-plate-recognition/

    相关报道:

    https://data-flair.training/blogs/machine-learning-project-ideas/

    近期开班情况

    2020年8月16日

    展开全文
  • 情感分析目标:情感分析是一种机器学习工具,可以分析文本的极性(正,中性,... 我使用机器学习算法来构建和训练模型:线性回归,决策树分类器,随机森林分类器,K邻居分类器和支持向量机(SVM) 一些项目的图像:
  • 在本指南中,我们将为初学者提供8个有趣的机器学习项目项目是您当时最好的投资之一。您将享受学习,保持动力并加快进度。 你看,没有多少理论可以取代动手实践。教科书和课程可以让你陷入错误的掌握信念,因为...
  • Python & 机器学习项目实践

    万次阅读 多人点赞 2017-12-27 15:40:01
    机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的。
  •   本篇主要是让大家熟悉机器学习实际项目中的全流程,并伴随案例讲解,通过让大家动手了解实际机器学习项目的大体流程,以及面对一些常见情况的处理方法 编程环境: Anaconda3:juputer notebook Python3 Pycharm...
  • 机器学习项目入门篇:一个完整的机器学习项目

    万次阅读 多人点赞 2019-01-16 10:23:12
    机器学习算法准备数据。 选择模型,进行训练。 微调模型。 给出解决方案。 部署、监控、维护系统。 一、项目概述 任务是利用加州普查数据,建立一个加州房价模型。这个数据包含每个分区组的人口、收入中位数...
  • 机器学习实现图像分类 SVM KNN 决策树 朴素贝叶斯 重要提示:本文仅仅靠调用python的sklearn中的模型包实现机器学习方法,不喜勿喷 代码主要参考并改进 ...depth_1-utm_sourc
  • 机器学习整理:深度学习技术前沿 【导读】本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好...
  • 燕大软件机器学习实验报告,六个模型学习,实验报告下载了就能用,很方便,下载就行,直接用,燕大嘞。鸢尾花,波士顿,猫狗分类什么的
  • 学习方式 监督式学习: 非监督式学习: 半监督式学习: 强化学习: 算法类似性 回归算法: 基于实例的算法 正则化方法 决策树学习 贝叶斯方法 基于核的算法 聚类算法 关联规则学习 人工神经网络 ...
  • 机器学习项目实战

    千次阅读 多人点赞 2020-06-30 18:12:18
    机器学习 1 机器学习体系介绍 1.1 机器学习与传统编程 传统编程 在传统编程中,你需要对程序的行为进行硬编码。对于任何解决方案,第一个任务都是创建最合适的算法并编写代码。然后,必须设置输入参数,实际上,...
  • 机器学习总结之——机器学习项目的完整流程 1、分析项目需求,明确具体问题   进行一个项目前,首先要做的是要分析项目各个需求,以及明确各个需求所对应的具体问题并将其抽象成一个个数学问题,将项目过程...
  • 机器学习项目实战

    2020-09-10 11:22:12
    各个行业各种机器学习算法的应用实战,项目列表: 回归应用:波士顿房价预测 回归应用:葡萄酒质量和时间的关系 逻辑回归:银行用户流失预测 逻辑回归:糖尿病预测项目 KNN:鸢尾花分类 KNN:水果分类 神经网络:...
  • 机器学习项目的实例分析设计(附源码)

    万次阅读 多人点赞 2018-05-23 15:25:10
    我在原文提供的实例基础上,结合自己的分析,模拟了一个机器学习项目的分析和实现过程,包括项目分析,数据分析,模型分析,性能分析等,在原文的样本代码基础上,编写了完整的可全面自动化运行的代码,供大家一起...
  • 燕山大学《Python机器学习》实验报告
  • 传统机器学习的文本分类通常提取TFIDF或者词袋特征,然后给模型进行训练,传统的机器学习分类模型由很多,比如逻辑回归、支持向量机、多层感知机、贝叶斯等等。利用传统机器学习方法进行文本分类的基本思路:获取...
  • 机器学习的常见分类及常用算法

    千次阅读 2019-06-01 23:54:40
    3.机器学习常见分类 4.机器学习常用算法 1. 机器学习概述 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...
  • 5)使用支持向量机分类器进行分类 项目二:验证码识别 开发应用:python+tensorflow 项目描述:1)通过公司提供的数据集对数据进行编码 2)搭建cnn神经网络 3)对模型进行训练,提高验证码的识别

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 92,467
精华内容 36,986
关键字:

机器学习分类项目