精华内容
下载资源
问答
  • 原标题:Python数据分析案例实战至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中...

    原标题:Python数据分析案例实战

    至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中多联系实际,多一点实际案例。本课程将思路反转过来,以一个个案例为线索,从原始的数据到最终的分析结果,一步步地为你讲授,实际案例中各种算法的使用,从原始数据到最终结果,一步步的分析过程,让学员可以真正地将各种数据分析算法应用到实际问题中!

    第一课:电力窃漏电用户识别系统案例实战

    传统的窃漏电分析是通过人工检测来进行的,对人的依赖性太大,为了提高窃漏电的判别效率,电力公司决定先根据用户的电表数据进行初步的自动判断,对于判别为窃漏电的用户再进行人工检测。

    第二课:公共交通运营数据分析案例实战

    某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史成本,分析线路发展的基本规律。

    第三课:商圈分析案例实战

    随着交通路线的覆盖,城市中不同的商圈会呈现出不同的交通客运量特征。根据客运量特征对城市不同地点进行分析,区分出不同的商圈特征,并分析新线路或站点的开通对该地点的影响

    第四课:客户价值分析案例实战

    信息时代的到,使得企业营销的焦点从产品中心转变为客户中心,客户关系关系成为企业的核心问题。客户关系管理的关键问题是客户分类,根据客户分类,找到不同用户群体的特征与价值,再针对不同群体提供不同的营销策略。

    第五课:基于用户行为分析的定向网络广告投放案例实战

    随着网络的发展,人们接受信息的渠道 和形式更加多元化,网络营销手段更是日趋多项化。网络时代广告投放最关键是定向性。为了进行定向广告投放,需要根据海量数据分析每个人的真实需求,然后为每个人建立独有的行为档案,根据档案库进行消费分析,匹配最合适有效的广告

    第六课:电子商务网站用户行为分析与推荐系统案例实战

    电子商务平台越发发达,面对的数据也越来越多。客户面对大量数据时难以及时获取自己需要的信息,会使得客户对网站的好感度降低,造成用户的流失。为了更好地满足用户需求,根据网络的海量数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,将合适的产品与服务推荐给用户,从而加强网站与用户的联系。

    第七课:文本规律发现案例实战

    客户需要根据给定的样本集数据,学习其中的规律,并且将学习得出的规律用于判断新的数据是否与样本集中的数据具有同样的规律。

    第八课:电商产品评论的情感分析案例实战

    根据商品的评论数据,分析客户对商品的满意程度与对商品的有效建议

    第九课:欺诈交易检测案例实战

    某公司的销售员负责销售公司产品并定期进行销售报告,而销售价格是可以由销售员自行设定。该公司希望根据销售报告去发现交易中的错误与欺诈行为

    第十课:根据产品检测数据的次品判别分析案例实战

    根据产品的各项检测数据,分析正常产品与次品分布规律,并对新产品进行次品判别

    课程预计2019年12月3日开课,课程预计持续时间为12周。

    有一定python基础,对数据分析感兴趣的学员。

    真正让学员可以将各种数据分析算法应用到实际问题中

    何翠仪 毕业于中山大学统计学专业,炼数成金专职讲师。

    在炼数成金上开设了多门关于数据分析与数据挖掘相关的课程,如《大数据的统计学基础》、《大数据的矩阵基础》《金融时间序列分析》等,也曾到不同的公司开展R语言与数据分析的相关培训。对数据分析有深刻认识,曾与不同领域公司合作,参与到多个数据分析的项目中,如华为、广州地铁等返回搜狐,查看更多

    责任编辑:

    展开全文
  • 最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。数据分析的步骤一般可以分为6个:1,明确分析的目的2,数据准备3,数据清洗4,数据分析5,数据可视...

    最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。

    数据分析的步骤一般可以分为6个:

    1,明确分析的目的

    2,数据准备

    3,数据清洗

    4,数据分析

    5,数据可视化

    6,分析报告

    数据分析的目的:

    通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额、客单价以及消费趋势、需求量前几位的药品等。

    数据准备

    数据是存在Excel中的,可以使用pandas的Excel文件读取函数将数据读取到内存中,这里需要注意的是文件名和Excel中的sheet页的名字。读取完数据后可以对数据进行预览和查看一些基本信息。

    7d598e1ad6f7

    7d598e1ad6f7

    7d598e1ad6f7

    通过数据的基本信息可以看出来,总行数6578,但是社保卡号只有6576,其他行只有6577行,说明存在缺失值,这些将在数据清洗中进行处理。

    数据清洗

    数据清洗过程一般包括:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理等。

    (1)选择子集

    在我们获取到的数据中,可能数据量非常庞大,并不是每一列都有价值都需要分析,这时候就需要从整个数据中选取合适的子集进行分析,这样就可以提高效率。但是这个案例数据列较少,可以忽略这一步。

    (2)列名重命名

    在数据分析过程中,有些列名和数据容易混淆或产生歧义,不利于数据分析,这时候需要把列名换成容易理解的名称,可以采用rename函数实现:

    7d598e1ad6f7

    (3)缺失数据处理

    通过查看基本信息可以推测"社保卡号”这列存在缺失值,如果不处理这些缺失值会干扰后面的数据分析结果。缺失数据常用的处理方式有:删除缺失值,一般用于少量缺失值,对整体数据影响不大的情况;平均值填充,对于数值型常用;算法填充等。在本次案例中缺失值商量很少,直接使用dropna函数删除缺失数据。

    7d598e1ad6f7

    (4)数据类型转换

    在导入数据时为了防止导入不进来,会强制所有数据都是object类型,但实际数据分析过程中"销售数量”,"应收金额”,"实收金额”,这些列需要浮点型(float)数据,"销售时间”需要改成时间格式,因此需要对数据类型进行转换,可以使用astype()函数。

    7d598e1ad6f7

    7d598e1ad6f7

    (5)异常值处理

    查看数据的描述统计信息:我们可以看到最小值出现了负数,原因是销售数量的值为负数,需要将销售数量小于0的数据剔除掉。

    7d598e1ad6f7

    7d598e1ad6f7

    数据分析及可视化

    这里涉及到的数据可视化的部分并不多所以将数据分析和可视化结合起来,数据分析之前我们应该确定分析的指标。

    (1)指标1:月均消费次数 ? 计算:月均消费次数 = 总消费次数 / 月份数

    7d598e1ad6f7

    (2)指标2:月均消费金额 ? 计算:月均消费金额 = 总消费金额 / 月份数

    7d598e1ad6f7

    (3)指标3:客单价? 计算:客单价 = 总消费金额 / 总消费次数

    7d598e1ad6f7

    (4)指标4:消费趋势

    每天的消费金额分布情况:一横轴为时间,纵轴为实收金额画散点图。

    7d598e1ad6f7

    每天消费金额分布图

    结论:从散点图可以看出,每天消费金额在500以下的占绝大多数,个别天存在消费金额很大的情况。

    月消费金额变化趋势,将销售时间按月聚合分组,然后求出分组后的累计金额,画出折线图。

    7d598e1ad6f7

    结论:1月,4月,5月,6月的消费金额变化不大,基本持平,2月和3月金额较低,可能是受春节假期影响,部分外来居民回家了,7月份最低是因为数据不全造成的。

    药品销售情况分析,对"商品名称”和"销售数量”这两列数据进行聚合为Series形式,方便后面统计。

    结论:对于销售量排在前几位的药品,医院应该时刻关注,保证药品不会短缺而影响患者。

    7d598e1ad6f7

    7d598e1ad6f7

    展开全文
  • 数据分析的一般步骤,对某药店销售数据进行分析:提出问题理解数据数据清洗构建模型数据可视化1、提出问题根据已有的销售数据,对如下业务指标进行分析:月均消费次数、月均消费金额、客单价和消费趋势.2、理解...

    按数据分析的一般步骤,对某药店销售数据进行分析:

    1. 提出问题
    2. 理解数据
    3. 数据清洗
    4. 构建模型
    5. 数据可视化

    1、提出问题

    根据已有的销售数据,对如下业务指标进行分析:月均消费次数、月均消费金额、客单价和消费趋势.

    2、理解数据

    fileNameStr='./朝阳医院2018年销售数据.xlsx'
    salesDf = pd.read_excel(fileNameStr,sheet_name='Sheet1',dtype=str)
    salesDf.head()

    89f9c6995adefdc56f3bff37389dfe5e.png
    #查看数据的一些信息
    salesDf.shape
    salesDf.dtypes
    salesDf.info()
    salesDf.describe()

    3、数据清洗

    • 选择子集
    • 重命名
    • 缺失值处理
    • 数据类型转换
    • 数据排序
    • 异常值处理
    #重命名
    colNameDict = {'购药时间':'销售时间'}
    salesDf.rename(columns = colNameDict,inplace=True)

    缺失值有3种:None,NA,NaN

    #删除列(销售时间,社保卡号)中为空的行
    #how='any' 在给定的任何一列中有缺失值就删除
    salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

    数据类型转换

    salesDf['销售数量'] = salesDf['销售数量'].astype('float')
    salesDf['应收金额'] = salesDf['应收金额'].astype('float')
    salesDf['实收金额'] = salesDf['实收金额'].astype('float')
    print('转换后的数据类型:n',salesDf.dtypes)

    使用分割函数取需要的日期

    #自定义分割函数
    def splitSaletime(timeColSer):
        timeList=[]
        for value in timeColSer:
            dateStr=value.split(' ')[0]
            timeList.append(dateStr)
        
        timeSer=pd.Series(timeList)
        return timeSer
    
    #获取并分割
    timeSer=salesDf.loc[:,'销售时间']
    dateSer=splitSaletime(timeSer)
    
    #看下结果
    dateSer[0:3]

    字符串转换为日期

    salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],
                                        format='%Y-%m-%d', 
                                        errors='coerce')
    
    #再清理一下时间不符合格式的数据
    salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

    排序

    #按销售日期进行升序排列
    salesDf=salesDf.sort_values(by='销售时间',
                        ascending=True,
                        na_position='first')
    
    #重命名行名(index):排序后的列索引值是之前的行号,需要修改成从0到N按顺序的索引值
    salesDf=salesDf.reset_index(drop=True)
    salesDf.head()

    异常值处理

    salesDf.describe()
    
    #删除异常值:通过条件判断筛选出数据
    #查询条件
    querySer=salesDf.loc[:,'销售数量']>0
    #应用查询条件
    print('删除异常值前:',salesDf.shape)
    salesDf=salesDf.loc[querySer,:]
    print('删除异常值后:',salesDf.shape)

    构建模型

    #业务指标1:月均消费次数=总消费次数 / 月份数
    #删除重复数据
    kpi1_Df=salesDf.drop_duplicates(
        subset=['销售时间', '社保卡号']
    )
    
    #总消费次数:有多少行
    totalI=kpi1_Df.shape[0]
    print('总消费次数=',totalI)

    总次数:5346

    #月份数
    #获取时间范围
    kpi1_Df=kpi1_Df.sort_values(by='销售时间',ascending=True)
    kpi1_Df=kpi1_Df.reset_index(drop=True)
    
    startTime=kpi1_Df.loc[0,'销售时间']
    endTime=kpi1_Df.loc[totalI-1,'销售时间']
    daysI=(endTime-startTime).days
    
    monthsI=daysI//30
    print('月份数:',monthsI)

    月份数: 6

    #业务指标1:月均消费次数=总消费次数 / 月份数
    kpi1_I=totalI // monthsI
    print('业务指标1:月均消费次数=',kpi1_I)

    业务指标1:月均消费次数= 891

    指标2:月均消费金额 = 总消费金额 / 月份数

    #总消费金额
    totalMoneyF=salesDf.loc[:,'实收金额'].sum()
    #月均消费金额
    monthMoneyF=totalMoneyF / monthsI
    print('业务指标2:月均消费金额=',monthMoneyF)

    业务指标2:月均消费金额= 50674.13833333348

    指标3:客单价=总消费金额 / 总消费次数

    pct=totalMoneyF / totalI
    print('客单价:',pct)

    客单价: 56.9094178210404

    展开全文
  • 原标题:Python数据分析案例—用户识别欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!对商业智能BI、大数据分析挖掘、机器学习,python,...

    原标题:Python数据分析案例—用户识别

    欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!

    对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

    673d2ae629be4f9593f2f1f4484ad759.jpg

    传统的偷漏税分析是通过人工检测来进行的,对人的依赖性太大,为了提高偷漏税的判别效率,拟决定先根据商户的纳税数据进行初步的自动判断,对于判别为偷漏税的用户再进行人工检测。

    本文从以下几个步骤讲解数据分析的流程:

    1、数据集

    2、数据探索与清洗

    3、模型构建(CART决策树模型和神经网络模型)

    4、模型训练与诊断

    5、模型评估(混淆矩阵和ROC曲线)

    一、数据集的获取

    正如上文所说,我将要判别汽车行业纳税人是否存在偷漏税情况,那么哪些因素能够判别哪些指标的数据异常表明存在偷漏税的情况呢?通过识别哪些经营特征来判断偷漏税情况呢?

    数据集中提供了汽车销售行业纳税人的各个属性与是否偷漏税标识。结合汽车销售行业纳税人的各个属性,总结衡量纳税人的经营特征,建立偷漏税行为识别模型,识别偷漏税纳税人。本文提供的数据集指标类型如下:

    b9f24e56abf34f5e88762415f589b815.jpg

    为了尽可能全面覆盖各种偷漏税方式,建模样本要包含不同纳税类别的 所有偷漏税用户及部分正常用户。偷漏税用户的偷漏税的关键数据指标。共计124条数据,各类销售指标数据,终端输出,输出正常表示纳税情况正常,异常表示存在偷漏税情况。

    二、数据探索与清洗

    当获得数据集后,按照惯例,需要对数据做一个探索性分析,即了解我的数据呈现什么分布情况。由于数据集不存在缺失值情况,所以不需要做缺失值处理。为了后面模型的训练和测试评估,对样本随机选取20%的作为测试样本,剩下80%的作为训练样本。

    3393c649bfc842c998c8352b902b5362_th.jpg

    三、模型构建、训练与诊断

    这么多的影响因素,我们应该如何找到最大的影响因素?CART决策树模型可以通过一系列规则对数据进行分类。还可以为其他模型筛选变量。决策树找到的变量是对目标变量影响很大的变量。

    CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。

    bd15966bbcc24965a548c2e7e7597fac.png

    0100f532680f4dd6a0304e42ed6cdd45_th.jpg

    经网络模型进行训练,并选取20%检验样本对模型的有效性进行预测检验。

    c7e9cea2301546a48f48fc9f60309917_th.jpg

    四、模型评估

    得到混淆矩阵如下:

    1cc4452c1c6949deb8329900d6fd1abc_th.jpg

    得到ROC曲线如下:

    fc8d8cf5d26f4249bbe985b67674c65d_th.jpg

    因为训练集是随机选择,每次运行,对模型的识别效果影响也是有区别的,上图是几次运行中模型识别效果较普通的一次。

    关于如何评价模型的好坏,请参见:

    http://www.jianshu.com/p/41f434818ffc

    关于决策树学习,推荐一个案例应用:

    http://www.aichengxu.com/python/11270763.htm

    素材下载:

    链接:http://pan.baidu.com/s/1nv1B61j 密码:9zuu

    转载请保留以下内容:

    本文来源自天善社区吴小鹏老师的博客(公众号)。

    原文链接: https://ask.hellobi.com/blog/wuxiaopeng/8318返回搜狐,查看更多

    责任编辑:

    展开全文
  • 主要一个股票,使用时间序列模型研究按照下面的流程来...步骤:准备数据可视化数据、审查数据处理数据根据ACF、PACF定阶拟合ARIMA模型预测#-*-coding:utf-8-*-"""SpyderEditorThisisatemporaryscriptfile."""impor...
  • 行业案例课程是Python系列课程的高级部分,每门课程均会完整介绍一个行业或应用领域中数据分析/挖掘方法de构建和实施流程,相应分析思路与实施代码均可作为分析模板供学员在同类行业应用项目中直接套用。注意:初学...
  • 一、项目背景本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。...
  • 本文目录一维数组二维数组数据分析基本过程Python数据分析案例总结一、一维数组Numpy和Pandas包的一维数组Numpy(Numerical Python)中的一维数组称为Array;Pandas中的一维数组称为Series。1.Numpy一维数组(1)查询...
  • 源代码以及所需资料都在里面的,欢迎交流~链接:https://pan.baidu.com/s/175edfNAUGcJ7lBrAMt6QAg 提取码:ya51 #加载数据需要使用到的库import ...加载之前用文本编辑器看下数据的格式,首行是什么,分隔符是什么等da...
  • 实际案例应用4. 总结正文在前面所介绍的线性回归, 岭回归和Lasso回归这三种回归模型中, 其输出变量均为连续型, 比如常见的线性回归模型为:其写成矩阵形式为:现在这里的输出为连续型变量, 但是实...
  • 一、读入数据,了解数据数据随机生成的假数据,读者可以自己造,也可以通过下方链接下载,或者后台回复“超市营业额”获取:链接:https://pan.baidu.com/s/1OIOwBdBZydgRf5U72Gh_vg提取码:vedz读入数据import ...
  • 作者: 刘亦菲的老公PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef数据获取爬取了携程网上关于全国大概16000条景点数据和.....
  • 求职丨真账实操丨税务筹划丨备考经验丨英语丨书法大家好,我是刀哥。今天周五下午,我把领导交代的任务完成后,本打算喝喝茶看看报,等着下班...这时,我第一时间想到的,就是借助python来做,这正是发挥它作用的时...
  • 此前花了两个小时大致学习完了python的基础语法,现在将学习python数据分析上常用的两个包numpy和pandas的基础语法并且做一个简单的关于销售数据分析案例。Numpy基础代码:import numpy as np ''' numpy一维 ''' #...
  • 周末全家人去做了场期待已久的电影,《复仇者联盟4》,视觉特效不用说...到猫眼电影(https://maoyan.com/)上看了看,发现已经有了很多影评,此前做过几个豆瓣影评爬虫和数据分析案例(Python实现侏罗纪世界2影评分...
  • 原标题:Python数据分析案例实战至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中...
  • python运用到实际案例分析中(第四关作业)本章节主要分为两个部分,一是理解数据分析,二是分析销售数据案例析销售数据案例一、理解数据分析此处又分为一维数据分析、二维数据分析一维数据分析用Numpy(array)和...
  • 这是 python 数据分析案例系列的第二篇,主要是聚类分析,实现起来较为简单。后续还会继续更新,欢迎关注交流! 在处理实际数据分析案例时,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成...
  • 你将收获掌握 Python 数据分析的基本技能一线数据分析工程师的实际工作经验指路打通数据分析理论到实战的关卡,先学知识后练技巧掌握可视化技术做出炫酷工作汇报,增加工作亮点掌握利用流行的 Pyecharts 工具绘制...
  • 之前的例子(传送门:python数据分析实战:pandas之分组聚合;python数据分析实战:pandas之层级聚合)我们已经简单介绍了数据聚合的求和操作,此外常见的聚合还包括count,min,max,mean等。很多时候这些程序内部已经...
  • 数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后将有用的信息提取出来总结出数据的内在规律以帮助在实际工作中的管理者做出决策和判断;我们身边的例子QQ群;经过分析后得到如下信息;QQ群聊天内容分析 词云图...
  • 课程概述:使用数据领域最主流语言Python及其分析与建模库作为核心武器。对于机器学习经典算法给出完整的原理推导并基于实例进行讲解,基于案例演示如何应用机器学习算法解决实际问题。课程特色:通俗易懂,快速入门...
  • 购买课程后,添加小助手微信(微信号:csdn500)回复【唐宇迪】 进入学习群,获取唐宇迪老师社群答疑 使用Python数据分析流行的库Numpy,Pandas,Matplotlib, Scikit-learn结合真实数据集展开可视化特征分析与机器学习...
  • 针对数据分析零基础,转行数据科学、业务分析,数据相关...第一章1.Python数据分析大纲介绍-第一章1节.m4v2.Python使用入门(上)-第一章2节.mp43.Python使用入门(下)-第一章3节.mp44Python数据类型-第一章4节.mp45Pyt...
  • Python在机器学习领域应用是非常广泛,课程先掌握Python开发工具库,然后从入门算法到高级算法,逐步深入python数据分析与机器学习。课程特色1.Python工具包实战,从零开始演示如何对数据进行分析处理与可视化展示.2...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 610
精华内容 244
关键字:

python数据分析实际案例

python 订阅