精华内容
下载资源
问答
  • 原标题:Python数据分析案例实战至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中...

    原标题:Python数据分析案例实战

    至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中多联系实际,多一点实际案例。本课程将思路反转过来,以一个个案例为线索,从原始的数据到最终的分析结果,一步步地为你讲授,实际案例中各种算法的使用,从原始数据到最终结果,一步步的分析过程,让学员可以真正地将各种数据分析算法应用到实际问题中!

    第一课:电力窃漏电用户识别系统案例实战

    传统的窃漏电分析是通过人工检测来进行的,对人的依赖性太大,为了提高窃漏电的判别效率,电力公司决定先根据用户的电表数据进行初步的自动判断,对于判别为窃漏电的用户再进行人工检测。

    第二课:公共交通运营数据分析案例实战

    某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史成本,分析线路发展的基本规律。

    第三课:商圈分析案例实战

    随着交通路线的覆盖,城市中不同的商圈会呈现出不同的交通客运量特征。根据客运量特征对城市不同地点进行分析,区分出不同的商圈特征,并分析新线路或站点的开通对该地点的影响

    第四课:客户价值分析案例实战

    信息时代的到,使得企业营销的焦点从产品中心转变为客户中心,客户关系关系成为企业的核心问题。客户关系管理的关键问题是客户分类,根据客户分类,找到不同用户群体的特征与价值,再针对不同群体提供不同的营销策略。

    第五课:基于用户行为分析的定向网络广告投放案例实战

    随着网络的发展,人们接受信息的渠道 和形式更加多元化,网络营销手段更是日趋多项化。网络时代广告投放最关键是定向性。为了进行定向广告投放,需要根据海量数据分析每个人的真实需求,然后为每个人建立独有的行为档案,根据档案库进行消费分析,匹配最合适有效的广告

    第六课:电子商务网站用户行为分析与推荐系统案例实战

    电子商务平台越发发达,面对的数据也越来越多。客户面对大量数据时难以及时获取自己需要的信息,会使得客户对网站的好感度降低,造成用户的流失。为了更好地满足用户需求,根据网络的海量数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,将合适的产品与服务推荐给用户,从而加强网站与用户的联系。

    第七课:文本规律发现案例实战

    客户需要根据给定的样本集数据,学习其中的规律,并且将学习得出的规律用于判断新的数据是否与样本集中的数据具有同样的规律。

    第八课:电商产品评论的情感分析案例实战

    根据商品的评论数据,分析客户对商品的满意程度与对商品的有效建议

    第九课:欺诈交易检测案例实战

    某公司的销售员负责销售公司产品并定期进行销售报告,而销售价格是可以由销售员自行设定。该公司希望根据销售报告去发现交易中的错误与欺诈行为

    第十课:根据产品检测数据的次品判别分析案例实战

    根据产品的各项检测数据,分析正常产品与次品分布规律,并对新产品进行次品判别

    课程预计2019年12月3日开课,课程预计持续时间为12周。

    有一定python基础,对数据分析感兴趣的学员。

    真正让学员可以将各种数据分析算法应用到实际问题中

    何翠仪 毕业于中山大学统计学专业,炼数成金专职讲师。

    在炼数成金上开设了多门关于数据分析与数据挖掘相关的课程,如《大数据的统计学基础》、《大数据的矩阵基础》《金融时间序列分析》等,也曾到不同的公司开展R语言与数据分析的相关培训。对数据分析有深刻认识,曾与不同领域公司合作,参与到多个数据分析的项目中,如华为、广州地铁等返回搜狐,查看更多

    责任编辑:

    展开全文
  • 原标题:Python数据分析案例实战至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中...

    原标题:Python数据分析案例实战

    至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中多联系实际,多一点实际案例。本课程将思路反转过来,以一个个案例为线索,从原始的数据到最终的分析结果,一步步地为你讲授,实际案例中各种算法的使用,从原始数据到最终结果,一步步的分析过程,让学员可以真正地将各种数据分析算法应用到实际问题中!

    第一课:电力窃漏电用户识别系统案例实战

    传统的窃漏电分析是通过人工检测来进行的,对人的依赖性太大,为了提高窃漏电的判别效率,电力公司决定先根据用户的电表数据进行初步的自动判断,对于判别为窃漏电的用户再进行人工检测。

    第二课:公共交通运营数据分析案例实战

    某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史成本,分析线路发展的基本规律。

    第三课:商圈分析案例实战

    随着交通路线的覆盖,城市中不同的商圈会呈现出不同的交通客运量特征。根据客运量特征对城市不同地点进行分析,区分出不同的商圈特征,并分析新线路或站点的开通对该地点的影响

    第四课:客户价值分析案例实战

    信息时代的到,使得企业营销的焦点从产品中心转变为客户中心,客户关系关系成为企业的核心问题。客户关系管理的关键问题是客户分类,根据客户分类,找到不同用户群体的特征与价值,再针对不同群体提供不同的营销策略。

    第五课:基于用户行为分析的定向网络广告投放案例实战

    随着网络的发展,人们接受信息的渠道 和形式更加多元化,网络营销手段更是日趋多项化。网络时代广告投放最关键是定向性。为了进行定向广告投放,需要根据海量数据分析每个人的真实需求,然后为每个人建立独有的行为档案,根据档案库进行消费分析,匹配最合适有效的广告

    第六课:电子商务网站用户行为分析与推荐系统案例实战

    电子商务平台越发发达,面对的数据也越来越多。客户面对大量数据时难以及时获取自己需要的信息,会使得客户对网站的好感度降低,造成用户的流失。为了更好地满足用户需求,根据网络的海量数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,将合适的产品与服务推荐给用户,从而加强网站与用户的联系。

    第七课:文本规律发现案例实战

    客户需要根据给定的样本集数据,学习其中的规律,并且将学习得出的规律用于判断新的数据是否与样本集中的数据具有同样的规律。

    第八课:电商产品评论的情感分析案例实战

    根据商品的评论数据,分析客户对商品的满意程度与对商品的有效建议

    第九课:欺诈交易检测案例实战

    某公司的销售员负责销售公司产品并定期进行销售报告,而销售价格是可以由销售员自行设定。该公司希望根据销售报告去发现交易中的错误与欺诈行为

    第十课:根据产品检测数据的次品判别分析案例实战

    根据产品的各项检测数据,分析正常产品与次品分布规律,并对新产品进行次品判别

    课程预计2019年12月3日开课,课程预计持续时间为12周。

    有一定python基础,对数据分析感兴趣的学员。

    真正让学员可以将各种数据分析算法应用到实际问题中

    何翠仪 毕业于中山大学统计学专业,炼数成金专职讲师。

    在炼数成金上开设了多门关于数据分析与数据挖掘相关的课程,如《大数据的统计学基础》、《大数据的矩阵基础》《金融时间序列分析》等,也曾到不同的公司开展R语言与数据分析的相关培训。对数据分析有深刻认识,曾与不同领域公司合作,参与到多个数据分析的项目中,如华为、广州地铁等返回搜狐,查看更多

    责任编辑:

    展开全文
  • 原标题:Python数据分析案例—用户识别欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!对商业智能BI、大数据分析挖掘、机器学习,python,...

    原标题:Python数据分析案例—用户识别

    欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!

    对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

    673d2ae629be4f9593f2f1f4484ad759.jpg

    传统的偷漏税分析是通过人工检测来进行的,对人的依赖性太大,为了提高偷漏税的判别效率,拟决定先根据商户的纳税数据进行初步的自动判断,对于判别为偷漏税的用户再进行人工检测。

    本文从以下几个步骤讲解数据分析的流程:

    1、数据集

    2、数据探索与清洗

    3、模型构建(CART决策树模型和神经网络模型)

    4、模型训练与诊断

    5、模型评估(混淆矩阵和ROC曲线)

    一、数据集的获取

    正如上文所说,我将要判别汽车行业纳税人是否存在偷漏税情况,那么哪些因素能够判别哪些指标的数据异常表明存在偷漏税的情况呢?通过识别哪些经营特征来判断偷漏税情况呢?

    数据集中提供了汽车销售行业纳税人的各个属性与是否偷漏税标识。结合汽车销售行业纳税人的各个属性,总结衡量纳税人的经营特征,建立偷漏税行为识别模型,识别偷漏税纳税人。本文提供的数据集指标类型如下:

    b9f24e56abf34f5e88762415f589b815.jpg

    为了尽可能全面覆盖各种偷漏税方式,建模样本要包含不同纳税类别的 所有偷漏税用户及部分正常用户。偷漏税用户的偷漏税的关键数据指标。共计124条数据,各类销售指标数据,终端输出,输出正常表示纳税情况正常,异常表示存在偷漏税情况。

    二、数据探索与清洗

    当获得数据集后,按照惯例,需要对数据做一个探索性分析,即了解我的数据呈现什么分布情况。由于数据集不存在缺失值情况,所以不需要做缺失值处理。为了后面模型的训练和测试评估,对样本随机选取20%的作为测试样本,剩下80%的作为训练样本。

    3393c649bfc842c998c8352b902b5362_th.jpg

    三、模型构建、训练与诊断

    这么多的影响因素,我们应该如何找到最大的影响因素?CART决策树模型可以通过一系列规则对数据进行分类。还可以为其他模型筛选变量。决策树找到的变量是对目标变量影响很大的变量。

    CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。

    bd15966bbcc24965a548c2e7e7597fac.png

    0100f532680f4dd6a0304e42ed6cdd45_th.jpg

    经网络模型进行训练,并选取20%检验样本对模型的有效性进行预测检验。

    c7e9cea2301546a48f48fc9f60309917_th.jpg

    四、模型评估

    得到混淆矩阵如下:

    1cc4452c1c6949deb8329900d6fd1abc_th.jpg

    得到ROC曲线如下:

    fc8d8cf5d26f4249bbe985b67674c65d_th.jpg

    因为训练集是随机选择,每次运行,对模型的识别效果影响也是有区别的,上图是几次运行中模型识别效果较普通的一次。

    关于如何评价模型的好坏,请参见:

    http://www.jianshu.com/p/41f434818ffc

    关于决策树学习,推荐一个案例应用:

    http://www.aichengxu.com/python/11270763.htm

    素材下载:

    链接:http://pan.baidu.com/s/1nv1B61j 密码:9zuu

    转载请保留以下内容:

    本文来源自天善社区吴小鹏老师的博客(公众号)。

    原文链接: https://ask.hellobi.com/blog/wuxiaopeng/8318返回搜狐,查看更多

    责任编辑:

    展开全文
  • 最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。数据分析的步骤一般可以分为6个:1,明确分析的目的2,数据准备3,数据清洗4,数据分析5,数据可视...

    最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。

    数据分析的步骤一般可以分为6个:

    1,明确分析的目的

    2,数据准备

    3,数据清洗

    4,数据分析

    5,数据可视化

    6,分析报告

    数据分析的目的:

    通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额、客单价以及消费趋势、需求量前几位的药品等。

    数据准备

    数据是存在Excel中的,可以使用pandas的Excel文件读取函数将数据读取到内存中,这里需要注意的是文件名和Excel中的sheet页的名字。读取完数据后可以对数据进行预览和查看一些基本信息。

    7d598e1ad6f7

    7d598e1ad6f7

    7d598e1ad6f7

    通过数据的基本信息可以看出来,总行数6578,但是社保卡号只有6576,其他行只有6577行,说明存在缺失值,这些将在数据清洗中进行处理。

    数据清洗

    数据清洗过程一般包括:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理等。

    (1)选择子集

    在我们获取到的数据中,可能数据量非常庞大,并不是每一列都有价值都需要分析,这时候就需要从整个数据中选取合适的子集进行分析,这样就可以提高效率。但是这个案例数据列较少,可以忽略这一步。

    (2)列名重命名

    在数据分析过程中,有些列名和数据容易混淆或产生歧义,不利于数据分析,这时候需要把列名换成容易理解的名称,可以采用rename函数实现:

    7d598e1ad6f7

    (3)缺失数据处理

    通过查看基本信息可以推测"社保卡号”这列存在缺失值,如果不处理这些缺失值会干扰后面的数据分析结果。缺失数据常用的处理方式有:删除缺失值,一般用于少量缺失值,对整体数据影响不大的情况;平均值填充,对于数值型常用;算法填充等。在本次案例中缺失值商量很少,直接使用dropna函数删除缺失数据。

    7d598e1ad6f7

    (4)数据类型转换

    在导入数据时为了防止导入不进来,会强制所有数据都是object类型,但实际数据分析过程中"销售数量”,"应收金额”,"实收金额”,这些列需要浮点型(float)数据,"销售时间”需要改成时间格式,因此需要对数据类型进行转换,可以使用astype()函数。

    7d598e1ad6f7

    7d598e1ad6f7

    (5)异常值处理

    查看数据的描述统计信息:我们可以看到最小值出现了负数,原因是销售数量的值为负数,需要将销售数量小于0的数据剔除掉。

    7d598e1ad6f7

    7d598e1ad6f7

    数据分析及可视化

    这里涉及到的数据可视化的部分并不多所以将数据分析和可视化结合起来,数据分析之前我们应该确定分析的指标。

    (1)指标1:月均消费次数 ? 计算:月均消费次数 = 总消费次数 / 月份数

    7d598e1ad6f7

    (2)指标2:月均消费金额 ? 计算:月均消费金额 = 总消费金额 / 月份数

    7d598e1ad6f7

    (3)指标3:客单价? 计算:客单价 = 总消费金额 / 总消费次数

    7d598e1ad6f7

    (4)指标4:消费趋势

    每天的消费金额分布情况:一横轴为时间,纵轴为实收金额画散点图。

    7d598e1ad6f7

    每天消费金额分布图

    结论:从散点图可以看出,每天消费金额在500以下的占绝大多数,个别天存在消费金额很大的情况。

    月消费金额变化趋势,将销售时间按月聚合分组,然后求出分组后的累计金额,画出折线图。

    7d598e1ad6f7

    结论:1月,4月,5月,6月的消费金额变化不大,基本持平,2月和3月金额较低,可能是受春节假期影响,部分外来居民回家了,7月份最低是因为数据不全造成的。

    药品销售情况分析,对"商品名称”和"销售数量”这两列数据进行聚合为Series形式,方便后面统计。

    结论:对于销售量排在前几位的药品,医院应该时刻关注,保证药品不会短缺而影响患者。

    7d598e1ad6f7

    7d598e1ad6f7

    展开全文
  • python数据分析案例数据 主要用于本人博客的部分文章案例数据使用。 单变量的样本分布检验(python3) 探索变量间关系 ....... 等文章的案例数据
  • 基本信息书名:Python数据分析案例实战(慕课版):59.80元作者:王浩,袁琴,张明慧 著出版社:人民邮电出版社出版日期:2020_06_01ISBN:9787115520845字数:页码:236版次:01装帧:平装开本:16开商品重量:编辑推荐...
  • Python数据分析案例教程,不仅介绍了使用Python进行数据分析所涉及的常用知识,而且介绍了6个流行的数据分析方面的项目。包括数据分析基础、NumPy模块实现数值计算、Pandas模块实现统计分析、Matplotlib模块实现...
  • 最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。数据分析的步骤一般可以分为6个:1,明确分析的目的2,数据准备3,数据清洗4,数据分析5,数据可视...
  • 最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。数据分析的步骤一般可以分为6个:1,明确分析的目的2,数据准备3,数据清洗4,数据分析5,数据可视...
  • 数据分析的一般步骤,对某药店销售数据进行分析:提出问题理解数据数据清洗构建模型数据可视化1、提出问题根据已有的销售数据,对如下业务指标进行分析:月均消费次数、月均消费金额、客单价和消费趋势.2、理解...
  • 这是 python 数据分析案例系列的第二篇,主要是聚类分析,实现起来较为简单。后续还会继续更新,欢迎关注交流! 在处理实际的数据分析案例时,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成...
  • Python数据分析案例实战 视频课程

    千人学习 2019-08-24 09:58:24
    Python数据分析课程以Python为核心工具,结合其工具包pyecharts+开发IDEA pycharm + web 框架Flask。课程以案例为中心,结合案例讲解让同学们更清晰的掌握每一个知识点的应用与工作流程。 2大项目案例: 重点...
  • 第二课:公共交通运营数据分析案例实战某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史...
  • Python数据分析案例实战 视频课程 JAVA企业级应用讲师、大数据实时处...
  • Python数据分析案例-药店销售数据分析

    千次阅读 多人点赞 2020-05-20 11:14:02
    最近学习了Python数据分析的一些基础知识,就找了一个药品数据分析的小项目来练一下手。 数据分析的目的: 本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,通过对朝阳区...
  • 密码:ct86第一部分step1import pandas as pdfec=pd.read_csv(r'C:\Users\Administrator\Downloads\pydata-book-2nd-edition\datasets\fec\P00000001-ALL.csv')#加载csv数据step2cand_nms=fec['cand_nm'].unique()c...
  • Python数据分析案例.zip

    2020-09-07 23:21:48
    本人学习Python大数据时,老师在课堂中讲解所用到的案例,比较经典,非常的不错,非常适合初学者做参考。
  • 你将收获掌握 Python 数据分析的基本技能一线数据分析工程师的实际工作经验指路打通数据分析理论到实战的关卡,先学知识后练技巧掌握可视化技术做出炫酷工作汇报,增加工作亮点掌握利用流行的 Pyecharts 工具绘制...
  • 什么是数据分析; 数据分析就是利用数学统计学理论相结合科学统计分析方法对数据库中的数据Excel数据收集的大量数据网页抓取的数据进行分析从中提取有价值的信息形成结论并进行展示的过程 数据分析的目的在于将隐藏在...
  • 接着上一篇文章,这里对爬取到的数据进行简单的数据分析 开发环境:jupyter 导入依赖的包 %matplotlib inline # 数据处理 import pandas as pd import numpy as np # 绘图 import matplotlib.pyplot as plt # 分词 ...
  • 案例来自《利用Python进行数据分析·第2版》 一:数据源(USA.gov)数据集链接 二:准备 import - import json - import pandas as pd - from collections import Counter - import seaborn as sns 将txt转为...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,520
精华内容 2,208
关键字:

python数据分析案例

python 订阅