精华内容
下载资源
问答
  • 数据分析案例

    千次阅读 2018-09-12 22:22:18
    数据分析报告撰写  ———手机APP数据 背景介绍 2015年1月5日,人民银行批准八家机构进行数据的收集。此后,中国个人征信行业进入高速发展期,征信人口覆盖率达50%,每人每年查询个人征信报告的次数为5,查询...

    数据分析报告撰写

                                 ———手机APP数据

    背景介绍

    2015年1月5日,人民银行批准八家机构进行数据的收集。此后,中国个人征信行业进入高速发展期,征信人口覆盖率达50%,每人每年查询个人征信报告的次数为5,查询服务单价为25元,从而,征信市场未来规模约855亿元。什么是征信?简单而言,市民小强买新出的BMW,问题钱不够,便找银行贷款。银行找来帮手——征信机构,征信机构根据小强在日常消费、事业单位、相关政府部门中的个人基本信息、支付、借还款等信息,对小强进行征信评分或评级,这就是征信的基本内容。如下为征信流程:

     

    征信发挥着重要基础作用。征信降低了交易中存在参与双方信息不对成而带来的交易风险,从而起到风险判断和揭示的作用。同时,征信促成信用交易的达成,促进金融信用产品和商业信誉产品的创新,在互联网飞速发展下,有效矿大信用交易的范围和方式,带动信用经济规模的扩张。征信将信息价值最大化,通过专业化的信用信息的服务,更快更准确做出决策,提高经济主体的运行效率。而征信业是社会信用体系建设的重要组成部分,发展征信业有助于遏制不良信用行为的发生,保障守信者利益,促进社会良好和谐的经济秩序,完善社会信用体系建设。

    信用数据源的割裂是征信领域的主要问题。P2P行业的信用数据获取渠道极其有限,个人信用数据部分依靠借款用户自行提交,部分依靠平台上门征集,造成运营成本压力和管理压力。事业单位、相关政府部门的数据之间的交叉融合非常少,较为分散。大数据的兴起,利用我国互联网、移动互联网用户规模大的优势,有效填补了信用数据问题。其中,APP数据尤为重要。智能手机的普及,使得APP数据来源具备普遍性,覆盖人群广。手机上网比例,大众花在浏览APP的时间日平均3小时。而APP的成为大众消费、贷款、办公等个人或办公信息交流的平台。获得APP数据的合法需求和可允许要求低,APP数据的获取渠道多,自由获取,数据的规模可控,时效性非常强,真实可信,可用性高,价值高。手机APP数据纳入征信体系,能减轻数据获取成本,促进大数据风险控制的发展和信用信息共享,打破“数据孤岛”的僵局,为其提供一个契机,更有望促进我国征信体系发展,为建设我国信用社会提供有力支持。

    数据说明

    APP得分数据集由包含一个用户的手机设备号,基础信息和一系列APP的安装情况的原始数据集计算得到。数据集共1000条观测,每条观测表示一个用户的APP得分,共11个变量,变量具体说明如表1-1

    表1-1

    变量类型

    变量名

    详细说明

    取值范围

    备注

    因变量

    是否按期还款

    定性数据

    共两个水平

    违约:0

    不违约:1

    违约率20%

    自变量

    用户信息

    性别

    定性数据

    共两个水平

    男:0

    女:1

    男性比例51.3%

    年龄

    定量数据

    18~50

    取整数

    省份指数

    定量数据

    0.003732~2.993349

    均值:1.1775

    APP信息衍生变量

    管理类APP个数

    定量数据

    0~24

    均值:3.163

    好APP个数

    定量数据

    1~42

    均值:12.77

    坏APP个数

    定量数据

    0~55

    均值:9.859

    总APP个数

    定量数据

    12~124

    均值:41.74

    小众APP个数

    定量数据

    0~19

    均值:4.129

    用户极优指数

    定量数据

    1.003~2.993

    均值:1.839

     

     

    借贷类APP个数

    定量数据

    0~16

    均值:2.752

    数据探索性分析

    用户年龄分布主要集中在18~29岁,符合现实,该年龄段为新一代紧贴时代脚步,多数在外为梦想拼搏,为手机使用高频人群。而违约分组箱线图中可以得到,不违约的用户极优指数均值远高于违约人群,且不违约人群总体极优指数偏高,对于是否违约有明确的指示作用。

    对于APP衍生变量的分析,有直方图可得:各APP数据呈右边分布,各自的取值相对集中,其中好的APP个数和总的个数近似正态分布。好的APP个数12766占总比30.58%,坏的APP个数9859占总比23.62%,两者相差并无明显差距。管理类与借贷类同样没有明显的差距。但,坏的APP个数需要给予关注,情况并不乐观。

    逻辑斯蒂回归系数

    如表1-2

     

     

     

     

    表1-2

    变量

    系数估计

    P值

    备注

    截距项

    1.6739

    <0.01

     

    是否为女性-是

    -0.5629

    <0.01

    基准组:男性

    借贷类

    -0.2061

    <0.01

    -

    管理类

    0.1214

    <0.01

     

    好的

    0.1238

    <0.01

     

    坏的

    -0.03654

    <0.01

     

    总的

    -0.02285

    <0.01

     

    小众的

    0.09674

    <0.01

     

    省份指数

    0.3692

    <0.01

     

    极优指数

    0.7661

    <0.01

     

    X1

    0.6277

    0.027

    基准组:(37,50]

    X1:[18,26]    X2:(26,29]

    X3:  (29,32]    X4:(32,37]

    X2

    -0.0098

    0.97

    X3

    -0.2197

    0.47

    X4

    -0.2976

    0.33

    显著性水平为0.01

    可得除了x1-x4系数不显著,其他系数估计的P值小于0.01,显著有效。其中,小众的、好的、管理类、省份指数、极优指数的系数估计为正,说明在其他因素控制不变的情况下,上述自变量的增加会导致因变量为1,即非违约率增加。而且上述变量每增加一单位,log-0dds增加的程度变大。相反,女性、借贷类、坏的、总的的系数估计为负,给非违约率带来的影响与系数估计为正的相反。而x1-x4为不同的年龄段,以(37,50]为基准组,可得,相对较高的年龄段,[18,26]这一年龄段的人数的系数估计为正的0.6277,对非违约率由促进作用。而与年龄与高年龄段接近的情况,则对非违约率有反作用。这一现象可能与教育水平相关,相对[18,26]这一年龄段人群,学历较高,熟悉社会,抵制诱惑能力较强,批判能力较强以及正确观念。

     

     

     

     

     

     

    ROC曲线

    ROC曲线下方的面积能反映该模型的预测能力,AUC值越大模型预测能力越强。此处AUC为0.832,说明该模型具有优秀的预测的能力。

    预测

    利用该模型对测试数据集(从得分数据集中随机抽选20%得到)进行测试,阈值设为0.78,预测结果混淆矩阵如下:

     

    真实值

    总计

    0

    1

    预测值

    0

    26

    5

    31

    1

    50

    119

    169

    总计

    76

    124

    200

    可得错分率为27.50%,TPR为70.41%,FPR为16.13%。所选阈值会直接影响到是前三者的取值,而与AUC值无关。由多次抽取预测取平均值可得结论:该模型稳定,预测能力良好。

     

    人群划分图

    可由下图得:由该数据进行逻辑斯蒂建模,对人群回测效果较好,从人群分类上说,大部分用户属于良好,即不存在违约可能性较低。该数据集对象年龄段[18,29]占比52%,劳动能力强,学历较高,生活自主能力强,有固定的收入,现代人理财观念增强,使得平均非违约率偏高的重要原因。

     

    结论

    对于APP得分数据集探索征信问题的案例分析,首先,数据集的选取非常合理,覆盖面广,手机是私人的专属物品,在手机的使用情况,具有唯一性,使其具有很高的分析价值。其次,构建了很稳定有效的APP得分,很大程度开发了数据。而选择逻辑斯蒂回归模型进行分类是合适的。使得自变量的系数估计通过显著性检验,同时得到极具价值的信息,管理以及好的APP给用户带来更加健康,高质量的信息,有利于用户提高生活质量,是社会所需要以及宣传的。而对于年龄段偏高人群,应该反馈回归结论,并进行引导。有助于自身的健康发展,又促进社会和谐风气。

    展开全文
  • 原标题:Python数据分析案例实战至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中...

    原标题:Python数据分析案例实战

    至今我们网站已经开设了多个数据分析系列的课程,大部分都是基于算法思路来开展的,课程中着重点在于算法的讲授、软件的使用,案例只是辅助学习。然而很多学员反映,希望可以在课程中多联系实际,多一点实际案例。本课程将思路反转过来,以一个个案例为线索,从原始的数据到最终的分析结果,一步步地为你讲授,实际案例中各种算法的使用,从原始数据到最终结果,一步步的分析过程,让学员可以真正地将各种数据分析算法应用到实际问题中!

    第一课:电力窃漏电用户识别系统案例实战

    传统的窃漏电分析是通过人工检测来进行的,对人的依赖性太大,为了提高窃漏电的判别效率,电力公司决定先根据用户的电表数据进行初步的自动判断,对于判别为窃漏电的用户再进行人工检测。

    第二课:公共交通运营数据分析案例实战

    某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史成本,分析线路发展的基本规律。

    第三课:商圈分析案例实战

    随着交通路线的覆盖,城市中不同的商圈会呈现出不同的交通客运量特征。根据客运量特征对城市不同地点进行分析,区分出不同的商圈特征,并分析新线路或站点的开通对该地点的影响

    第四课:客户价值分析案例实战

    信息时代的到,使得企业营销的焦点从产品中心转变为客户中心,客户关系关系成为企业的核心问题。客户关系管理的关键问题是客户分类,根据客户分类,找到不同用户群体的特征与价值,再针对不同群体提供不同的营销策略。

    第五课:基于用户行为分析的定向网络广告投放案例实战

    随着网络的发展,人们接受信息的渠道 和形式更加多元化,网络营销手段更是日趋多项化。网络时代广告投放最关键是定向性。为了进行定向广告投放,需要根据海量数据分析每个人的真实需求,然后为每个人建立独有的行为档案,根据档案库进行消费分析,匹配最合适有效的广告

    第六课:电子商务网站用户行为分析与推荐系统案例实战

    电子商务平台越发发达,面对的数据也越来越多。客户面对大量数据时难以及时获取自己需要的信息,会使得客户对网站的好感度降低,造成用户的流失。为了更好地满足用户需求,根据网络的海量数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,将合适的产品与服务推荐给用户,从而加强网站与用户的联系。

    第七课:文本规律发现案例实战

    客户需要根据给定的样本集数据,学习其中的规律,并且将学习得出的规律用于判断新的数据是否与样本集中的数据具有同样的规律。

    第八课:电商产品评论的情感分析案例实战

    根据商品的评论数据,分析客户对商品的满意程度与对商品的有效建议

    第九课:欺诈交易检测案例实战

    某公司的销售员负责销售公司产品并定期进行销售报告,而销售价格是可以由销售员自行设定。该公司希望根据销售报告去发现交易中的错误与欺诈行为

    第十课:根据产品检测数据的次品判别分析案例实战

    根据产品的各项检测数据,分析正常产品与次品分布规律,并对新产品进行次品判别

    课程预计2019年12月3日开课,课程预计持续时间为12周。

    有一定python基础,对数据分析感兴趣的学员。

    真正让学员可以将各种数据分析算法应用到实际问题中

    何翠仪 毕业于中山大学统计学专业,炼数成金专职讲师。

    在炼数成金上开设了多门关于数据分析与数据挖掘相关的课程,如《大数据的统计学基础》、《大数据的矩阵基础》《金融时间序列分析》等,也曾到不同的公司开展R语言与数据分析的相关培训。对数据分析有深刻认识,曾与不同领域公司合作,参与到多个数据分析的项目中,如华为、广州地铁等返回搜狐,查看更多

    责任编辑:

    展开全文
  • Python数据分析:股票数据分析案例

    千次阅读 2019-05-01 15:54:26
    Python数据分析:股票数据分析案例 步骤: 准备数据 可视化数据、审查数据 处理数据 根据ACF、PACF定阶 拟合ARIMA模型 预测 import pandas as pd import pandas_datareader import datetime import matplotlib....

    Python数据分析:股票数据分析案例

    步骤:
    1. 准备数据
    2. 可视化数据、审查数据
    3. 处理数据
    4. 根据ACF、PACF定阶
    5. 拟合ARIMA模型
    6. 预测
    import pandas as pd
    import pandas_datareader
    import datetime
    import matplotlib.pylab as plt
    from matplotlib.pylab import style
    from statsmodels.tsa.arima_model import ARIMA
    from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
    
    style.use('ggplot')     # 设置图片显示的主题样式
    
    # 解决matplotlib显示中文问题
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
    plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
    
    
    def run_main():
        """
            主函数
        """
        # 1. 准备数据
        # 指定股票分析开始日期
        start_date = datetime.datetime(2009, 1, 1)
        # 指定股票分析截止日期
        end_date = datetime.datetime(2019, 4, 1)
        # 股票代码
        stock_code = '600519.SS'    # 沪市贵州茅台
    
        stock_df = pandas_datareader.data.DataReader(
                            stock_code, 'yahoo', start_date, end_date
                    )
        # 预览数据
        print(stock_df.head())
    
        # 2. 可视化数据
        plt.plot(stock_df['Close'])
        plt.title('股票每日收盘价')
        plt.show()
    
        # 按周重采样
        stock_s = stock_df['Close'].resample('W-MON').mean()
        stock_train = stock_s['2014':'2018']
        plt.plot(stock_train)
        plt.title('股票周收盘价均值')
        plt.show()
    
        # 分析 ACF
        acf = plot_acf(stock_train, lags=20)
        plt.title("股票指数的 ACF")
        acf.show()
    
        # 分析 PACF
        pacf = plot_pacf(stock_train, lags=20)
        plt.title("股票指数的 PACF")
        pacf.show()
    
        # 3. 处理数据,平稳化数据
        # 这里只是简单第做了一节差分,还有其他平稳化时间序列的方法
        stock_diff = stock_train.diff()
        diff = stock_diff.dropna()
        print(diff.head())
        print(diff.dtypes)
    
        plt.figure()
        plt.plot(diff)
        plt.title('一阶差分')
        plt.show()
    
        acf_diff = plot_acf(diff, lags=20)
        plt.title("一阶差分的 ACF")
        acf_diff.show()
    
        pacf_diff = plot_pacf(diff, lags=20)
        plt.title("一阶差分的 PACF")
        pacf_diff.show()
    
        # 4. 根据ACF和PACF定阶并建立模型
        model = ARIMA(stock_train, order=(1, 1, 1), freq='W-MON')
        # 拟合模型
        arima_result = model.fit()
        print(arima_result.summary())
    
        # 5. 预测
    
        pred_vals = arima_result.predict(start=str('2019-01'),end=str('2019-03'),
                                         dynamic=False, typ='levels')
        print(pred_vals)
    
        # 6. 可视化预测结果
        stock_forcast = pd.concat([stock_s, pred_vals], axis=1, keys=['original', 'predicted'])
    
        plt.figure()
        plt.plot(stock_forcast)
        plt.title('真实值vs预测值')
        plt.savefig('./stock_pred.png', format='png')
        plt.show()
    
    
    if __name__ == '__main__':
        run_main()
    

    运行:
    在这里插入图片描述

    展开全文
  • 原标题:Python数据分析案例—用户识别欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!对商业智能BI、大数据分析挖掘、机器学习,python,...

    原标题:Python数据分析案例—用户识别

    欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!

    对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

    673d2ae629be4f9593f2f1f4484ad759.jpg

    传统的偷漏税分析是通过人工检测来进行的,对人的依赖性太大,为了提高偷漏税的判别效率,拟决定先根据商户的纳税数据进行初步的自动判断,对于判别为偷漏税的用户再进行人工检测。

    本文从以下几个步骤讲解数据分析的流程:

    1、数据集

    2、数据探索与清洗

    3、模型构建(CART决策树模型和神经网络模型)

    4、模型训练与诊断

    5、模型评估(混淆矩阵和ROC曲线)

    一、数据集的获取

    正如上文所说,我将要判别汽车行业纳税人是否存在偷漏税情况,那么哪些因素能够判别哪些指标的数据异常表明存在偷漏税的情况呢?通过识别哪些经营特征来判断偷漏税情况呢?

    数据集中提供了汽车销售行业纳税人的各个属性与是否偷漏税标识。结合汽车销售行业纳税人的各个属性,总结衡量纳税人的经营特征,建立偷漏税行为识别模型,识别偷漏税纳税人。本文提供的数据集指标类型如下:

    b9f24e56abf34f5e88762415f589b815.jpg

    为了尽可能全面覆盖各种偷漏税方式,建模样本要包含不同纳税类别的 所有偷漏税用户及部分正常用户。偷漏税用户的偷漏税的关键数据指标。共计124条数据,各类销售指标数据,终端输出,输出正常表示纳税情况正常,异常表示存在偷漏税情况。

    二、数据探索与清洗

    当获得数据集后,按照惯例,需要对数据做一个探索性分析,即了解我的数据呈现什么分布情况。由于数据集不存在缺失值情况,所以不需要做缺失值处理。为了后面模型的训练和测试评估,对样本随机选取20%的作为测试样本,剩下80%的作为训练样本。

    3393c649bfc842c998c8352b902b5362_th.jpg

    三、模型构建、训练与诊断

    这么多的影响因素,我们应该如何找到最大的影响因素?CART决策树模型可以通过一系列规则对数据进行分类。还可以为其他模型筛选变量。决策树找到的变量是对目标变量影响很大的变量。

    CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。

    bd15966bbcc24965a548c2e7e7597fac.png

    0100f532680f4dd6a0304e42ed6cdd45_th.jpg

    经网络模型进行训练,并选取20%检验样本对模型的有效性进行预测检验。

    c7e9cea2301546a48f48fc9f60309917_th.jpg

    四、模型评估

    得到混淆矩阵如下:

    1cc4452c1c6949deb8329900d6fd1abc_th.jpg

    得到ROC曲线如下:

    fc8d8cf5d26f4249bbe985b67674c65d_th.jpg

    因为训练集是随机选择,每次运行,对模型的识别效果影响也是有区别的,上图是几次运行中模型识别效果较普通的一次。

    关于如何评价模型的好坏,请参见:

    http://www.jianshu.com/p/41f434818ffc

    关于决策树学习,推荐一个案例应用:

    http://www.aichengxu.com/python/11270763.htm

    素材下载:

    链接:http://pan.baidu.com/s/1nv1B61j 密码:9zuu

    转载请保留以下内容:

    本文来源自天善社区吴小鹏老师的博客(公众号)。

    原文链接: https://ask.hellobi.com/blog/wuxiaopeng/8318返回搜狐,查看更多

    责任编辑:

    展开全文
  • 电商数据分析案例

    千次阅读 2020-05-20 21:13:56
    题目:电商数据分析案例 数据集来源 本数据集来自kaggle,数据集链接如下: https://www.kaggle.com/carrie1/ecommerce-data 分析目的:了解该电商平台的销售情况(该网站是一个以批发为主的电商平台) 分析思路框架...
  • 第一个数据分析案例 分析目的: 探索数据分析职位和学历的关系 探索数据分析薪酬和城市分布的关系 探索数据分析行业和薪酬的关系 数据主要从boss招聘网站爬取 插入链接与图片 链接:...
  • Python数据分析案例实战

    千次阅读 2018-06-03 17:04:20
    第一课:电力窃漏电用户识别系统案例实战第二课:公共交通运营数据分析案例实战第三课: 商圈分析案例实战第四课:客户价值分析案例实战第五课:基于用户行为分析的定向网络广告投放案例实战第六课:电子商务网站...
  • 第二课:公共交通运营数据分析案例实战某公共交通公司需要对运营数据进行挖掘分析,找出有用的信息以供决策之用。根据各线路的运营数据进行线路聚类,找出不同线路的发展特点。针对线路的历史...
  • 有趣的数据分析案例

    千次阅读 2019-08-16 10:06:16
    数据分析在我们的日常生活中起到的作用越来越重要,应用的场景也越来越多,在各个行业,都有数据分析的...数据分析案例 1.医疗行业 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通...
  • Python数据分析案例-药店销售数据分析

    千次阅读 多人点赞 2020-05-20 11:14:02
    最近学习了Python数据分析的一些基础知识,就找了一个药品数据分析的小项目来练一下手。 数据分析的目的: 本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,通过对朝阳区...
  • 基本信息书名:Python数据分析案例实战(慕课版):59.80元作者:王浩,袁琴,张明慧 著出版社:人民邮电出版社出版日期:2020_06_01ISBN:9787115520845字数:页码:236版次:01装帧:平装开本:16开商品重量:编辑推荐...
  • Kaggle Titanic 数据分析案例 背景介绍 20世纪初,由英国白星航运公司制造的一艘巨大豪华客轮。是当时世界上最大的豪华客轮,被称为是“永不沉没的”或是“梦幻客轮”。 泰坦尼克号是人类的美好梦想达到顶峰时...
  • 第一课:电力窃漏电用户识别系统案例实战第二课:公共交通运营数据分析案例实战第三课: 商圈分析案例实战第四课:客户价值分析案例实战第五课:基于用户行为分析的定向网络广告投放案例实战第六课:电子商务网站...
  • Python数据分析案例实战 视频课程

    千人学习 2019-08-24 09:58:24
    Python 数据分析+pyecharts 可视化 + Flask Web端服务 + 2大真实项目 手把手实战教程. Python数据分析课程以Python为核心工具,结合其工具包pyecharts+开发IDEA pycharm + web 框架Flask。课程以案例为中心,...
  • Power BI数据分析案例实战

    千次阅读 2017-09-12 09:05:31
    Power BI数据分析案例实战学习地址:http://www.xuetuwuyou.com/course/194课程出自学途无忧网:http://www.xuetuwuyou.com课程简介本课程在《Power BI 数据分析快速上手》基础上结合大量的实例,深入讲解PowerBI中...
  • 关于主要城市数据分析岗位招聘信息的分析前言分析思路 前言 随着互联网的飞速发展,用户积累的数据越来越多,企业从大数据中挖掘有价值的信息似乎成了主流,加上各种营销,导致许多人想转行数据分析师,认为入门门槛...
  • 数据分析案例--电商指标的实际应用

    千次阅读 2020-06-08 17:16:38
    数据分析案例--天猫订单分析数据分析的一般过程数据来源及内容天猫订单分析过程 数据分析的一般过程 明确项目背景,待解决的问题 ; 分析逻辑,画出逻辑树,明确分析过程中的指标 ; 提数分析,同时进行可视化 ; ...
  • 《利用 Python 进行数据分析 · 第 2 版》第 14 章 数据分析案例第 1 章 准备工作第 2 章 Python 语法基础,IPython 和 Jupyter第 3 章 Python 的数据结构、函数和文件第 4 章 NumPy 基础:数组和矢量计算第 5 章 ...
  • 分析: 注意事项: 数据样例: 冒号左边为ID,右边为用户的好友列表 A:B,C,D,F,E,O  B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O ...... 需求:  求出...
  • 京东金融数据分析案例(二)

    千次阅读 2018-09-14 15:34:43
    接着上一篇 京东金融数据分析案例(一)来 任务 5 利用 spark streaming 实时分析每个页面点击次数和不同年龄段消费总金额 步骤:编写 Kafka produer 程序读取hdfs上的文件每隔一段时间产生数据,然后使用spark ...
  • 数据分析案例--红酒数据集分析

    千次阅读 2020-03-13 12:04:05
    这篇文章主分析了红酒的通用数据集,这个数据集一共有1600个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10)。这里主要用python进行分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析...
  • excel数据分析案例

    万次阅读 多人点赞 2018-03-24 22:33:31
    背景:现用Python爬取了某求职网站上关于数据分析的数据,我希望知道数据分析是个怎样的职位?它的工资和薪酬是多少?它有哪些特点,需要掌握哪些能力?哪些公司会招聘这样一个岗位? 1、数据有无缺失值? 数据的...
  • ​Smartbi可视化数据分析案例 热销私家车销量分析 旋转的三维柱图,看起来就酷 Smartbi可视化数据分析案例 | 炫酷又简单,几步操作就搞定了。 具体操作如下,小伙伴们感觉学起来 操作平台:使用的企业报表平台...
  • Python电影数据分析案例

    千次阅读 2020-09-05 09:46:00
    案例说明这篇案例主要通过网上公开的数据集来练习:Numpy、Pandas 和 matplotlib 库。•数据源:中国电影数据集•分析目的:1.查看每年累计票房收入和电影上映数量...
  • Python数据分析案例实战 视频课程 JAVA企业级应用讲师、大数据实时处...
  • 淘宝大数据分析案例

    千次阅读 2021-01-01 23:55:17
    本次结合的是一份淘宝大数据数据,数据集的大小共177MB,数据一共有3182261份(三百多万份数据集),一般的软件是无法计算和分析的,比如Excel,MySQL,Python这些都无法较好的完成相关数据分析。 1.Excel一般是一...
  • 1 数据分析的目的 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了解朝阳...
  • 美国总统竞选赞助数据分析 本文来自阿里云天池实验室,案例原地址 自学数据分析的小王同学借鉴一下,自己写一遍,分析一遍,自己做的代码和结果如下 1.导入相关的python数据分析的库 import pandas as pd import ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,594
精华内容 9,837
关键字:

数据分析案例