精华内容
下载资源
问答
  • 数据分析项目总结

    千次阅读 2018-11-29 15:40:42
    1.立项 作为一个合作项目,我们希望双方都能从项目中有所收益,对各自的工作生活能有实际帮助,过程很纠结, 反转了几次: ...转而浏览了很多公开的数据源,想把重点放在数据分析上。 海量数据,既多且杂,感兴趣...

    1.立项
    作为一个合作项目,我们希望双方都能从项目中有所收益,对各自的工作生活能有实际帮助,过程很纠结, 反转了几次:

    a.开始想了解公众号的现状。
    从搜索公众号的分析开始,随着调研的深入,发现已经有网站对公众号做了各种排行,数据详尽,品类齐全,但真正有价值可以做分析的数据,比如关注公众号的读者数据似乎很难获得。

    b.转而浏览了很多公开的数据源,想把重点放在数据分析上。
    海量数据,既多且杂,感兴趣的很多,但要分析这些数据,要么缺少商业背景,要么缺乏领域知识, 如果只是分析既有的商业结论而无法深入挖掘数据背后的信息,只为了熟悉项目流程就有点可惜,还是希望能解决实际问题。

    c.最后还是聚焦到了各自的工作和生活。
    家居本身是日常相关, 也正值友人家里装修来咨询,发现从来没有站在行业外的视角去真正了解大家在这方面的需求,所以和小春讨论之后,最终定了这个主题,做家居产品的数据分析。

    项目范围已定,但是具体分析的角度直到小春抛出问题之前都没仔细想过,或许会通过数据分析发现一些有意思的商业观察,所以最初想从行业角度来分析,但小春提出作为一个普通消费者应该会想更多知道行业内不被大家所了解的专业知识,因此,最终决定站在一个普通消费者的视角,用数据分析指导大家购买到合适的家居用品。至此,目的才清晰具体起来,项目才终于立项。

    历经转折的一些思考:
    如何找项目做分析?
    先问自己:有什么问题需要解决?
    关键词不是问题,而是解决。有什么需求没有满足,要提供解决方案,可以通过数据分析的手段来达成。

    虽然我们做项目的目的就是为了学习数据分析,但是实际应用中,无论是商业还是个人,目的都是为了解决问题,而数据分析只是实现目的的手段,但我们常常颠倒了目的和手段,把数据分析当做了目的,为了做数据分析而做数据分析。
    这也可以回答有同学说没有分析思路的疑问。因为没有目的,没有要解决的问题,才会没有思路。如果知道要解决什么问题,自然就会想各种办法手段工具来找解决方案,而数据分析就是有效的解决方案之一,数据思维也多提供了一种解决思路。

    比如最开始我们想要分析公众号,这其实是个范围而不是目的。分析公众号是为了达到什么目的?要解决什么问题?
    如果是想自己做个公众号,开始阶段更关键的是找目标用户做调研,如《精益创业》里指导的,先了解你想做的产品是不是有真实需求。然后有目的的找同类型的公众号做调研,采集具体的数据指标,比如阅读量,点赞数,内容,这样就有具体的目标来分析了。不过公众号的用户数据依然不是公开数据,获取很困难,所以当初想以这个项目做数据分析确实不是一个好选项。

    后来立项的主题一直是围绕如何帮助大家做购买决策来做的,目的很明确,最后的结论能直接指导决策。

    1. 数据采集。
      立项就这么多转折,数据采集也碰到各种问题。
      家居有众多品类,首先想从常用的纺织大品类开始做,包括床品靠垫窗帘桌布等等,但实际数据收集过程中发现困难多多,数据不全,格式不一,反复采集,走了不少弯路。时间有限,最终将范围圈定在被套这个主要品类,从小数据开始尝试完成一个数据分析的流程。

    虽说用的是采集软件,门槛已经比较低了,但是依然历经N次反复才得到分析所用数据,完成了软件从入门到精通的学习过程。

    问题记录如下:
    a.不同网站的分类方式和结构都不同,规则不通用。
    b.发现其中一个网站整个品类都无法爬取,适合初学者的向导模式不可行,开始学习高级模式。
    c.尝试高级模式后发现采集的数据不完整,只有第一页数据,翻页有问题,只能分开采集再合并,有些是整个指标都没有采集到,还有采集错误,遗漏缺失。
    d.为了解决采集中的问题,从头学习高级模式的教程,换成firefox,定位规则,补缺失的数据,定不了位就手动定位。然后过程就变得奇慢无比,一百多条数据超过10小时才采集完。
    e.学习完高级教程后发现循环爬取依然没能搞定,搜遍论坛才发现一个案例,需要自己写代码,还给出了Xpath教程的链接。看了案例的网页的代码想依样画葫芦,很不幸,完全看不懂,要是学习完再做项目,决计是来不及的,所以只好改用手动采集,幸好数据量不多,但依然很费时。
    f.在之后清洗整理数据的时候还是发现需要的数据不全,反复补采集。

    第一次做项目没什么全局概念,比如一开始没想到会用到图片,觉得这个不用分析,后来发现要作图,只好再重新采集。在数据量不大的时候就应该把相关的数据都采集下来,然后整理的时候再剔除。数据量如果非常大的时候就可以先思考好可能会分析的数据字段,抽样然后再采集。
    刚开始采集源调研做的也不够,不知道MUJI有天猫店,早知道就直接天猫采集了,格式也可以和ZARA一致,减轻数据整理的工作。所以事先多数据源收集信息也是要考虑的。

    3.数据清洗。
    这部分的耗时超出想象,总算理解了Tiger在课上说清洗数据要占到项目70%-80%的时间,真的不是夸张。

    四个网站采集下来的数据结构格式完全不同,要能放在一起比较,要做的工作有很多,具体步骤已经在正文中写了,看起来还比较有条理,但实际过程是采集和清洗反复交替的。

    几个问题:
    a. 由于文字型数据偏多,描述极度不统一,发现少数据再返回去做补采。然后再对比几份数据,格式也完全不同,前面整理好的字段要重新调整归类。而有些整个字段都数据缺失,为了数据的完整性只能人工看图完成判断。
    b.数值型数据的价格字段是个复杂的综合指标,牵涉到几乎所有其他字段,虽然大致知道不同因素影响价格的程度,但是缺乏统计学知识导致想做个权重系数量化一下也就只停留在想做的阶段。
    c.本来还想采集个评论来看下品牌反馈,但是数据很少,不像互联网行业的数据易得。
    d.整理工具也是纠结过的。
    根据 DrFish 关于项目的指导先用python尝试了一下数据清洗,调整字段属性,统一格式,但是各种报错,碰到问题就要搜索解决方案,工作量巨大。
    后来觉得这种文字类型的小数据量数据,又是四份数据同时比较,反而是excel效率更高,提取调整各种列,修改字段,直观明了。
    但是分析密度和价格这种数值型数据的时候,用简单的代码describe()就能直接跳出一系列的统计数,比如计数,均值,中位数等等,明显比excel里用函数来的高效,虽然高手也可以写个宏让excel执行,但是有这个时间还不如学习python,毕竟大数据还是和python更配。
    目前这些数据量,工具方面灵活运用最好,excel和python哪个高效用哪个。

    整个过程做下来其实有点崩溃,可能是觉得和预期有反差, 本来觉得数据分析是个提升效率指导决策的利器,但是整个过程还需要人工看图判断手动整理,依然非常耗时。思考之后觉得python不会用也是主要原因,之前认为python是工具,重点应该是数据分析,现在觉得工具用好了确实可以提高效率,投入工具学习的时间还是很有必要的。正好看到同学 鬼宇书生 的文章 利用Python处理Excel数据总结 受到启发,这也是个入门的好方法,工具还是为目的服务,不要太过纠结才好。

    不过数据清洗虽然是个基础工作,重要性不言而喻,就像地基打的不好,上面的建筑怎么可能会稳。虽然耗时耗力,终于也没有半途而废,尽量保证了数据的完整便于后面的分析。

    4.数据分析
    数据整理完觉得大部头工作完成,应该能轻松一些了,其实也不如想象中容易完成。

    开始列提纲整理思路,一边写报告,一边分析数据准备结论。但是写作过程中会发现一些思考不周的地方。比如尺寸和价格的对应关系,尺寸差4%,最初就按照4%的差距来比较价格的,但是后来写的时候才意识到4%只是面料差异,但是我们比较的销售价格的组成很复杂,除了面料,还有各种加工费,管理费,利润都会相应增加,成本增加之后再加上各种运输物流营销税费到进店价格,3~6倍的定倍率很正常,所以最后按照15%的差异来估算价格是非常保守的了,有点蝴蝶效应,如果仔细核算差异应该还是有点差距的。思虑不周就容易导致结果出现偏差。值得警惕。

    同时小春在准备可视化的图。人脑识图比文字印象更深刻,记得也更牢,作为家居品的购买决策,颜色和花型都是直观性非常强的指标,视图的呈现就很重要了,特别感谢小春用了不同的软件出的图效果都非常棒,尤其产品全局图。
    但是出图的时候会发现先前整理完的数据其实并没有考虑可视化软件所需要的分类,所以作图的时候数据还是经过了小春的二次整理。分析思路在写作中也是不停调整,不同字段,不同组合,一边写一边修改,导致小春作图也一直跟着调整。幸而沟通无碍,几经调整最后完成图文结合。

    5.其他
    商业应用 or 个人应用?
    项目期间,正好在看群里推荐的《精益数据分析》,连带《精益创业》一起看了,发现数据分析更多的使用场景还是企业应用。各种精益数据分析都基于企业生存需要,手握大数据的企业才是用数据的最大需求方,书里细分了不同阶段的企业,不同种类的企业,分别给出了不同的数据跟踪指标,完全是为企业和创业者而写的实践手册。
    这时正值同学陆续出项目报告,数据量也都很大,做的都是商业应用数据分析,再回头看我们的项目,消费者视角且数据量之小一度怀疑我们是不是做偏题了。看到有文章说10亿以上的数据才能叫做大数据,百万级的都算是小数据了,那这个项目连迷你数据都还差好远。
    不过即使是小数据小场景小应用,能通过数据分析为自己生活决策做点帮助和贡献也是极好的。这个项目就算是小数据的分析实践初尝试,因为离大数据的要求差远了,统计学缺失,python应用无能,数据求索之路才刚刚开始而已。

    曾鸣在得到的智能商业20讲中说,并不是开个天猫店就算互联网企业了,而是看企业的核心产品和业务有没有在线上。互联网的本质是有没有联结用户,有没有和用户完成互动。按照这个定义,家居行业和服装行业还是有差距,更遑论互联网行业和联结了,现在数据收集和数据量都是问题,但想要更深入了解行业,连接消费者,依然要基于互联网,商业数据分析也还是依托商业环境。之后想尝试用同样一份数据,换个角度,从行业来看这些成功的家居品牌,研究一下数据背后体现出的不同经营理念。同一份数据可以挖掘不同的信息,换个分析角度就有不同的观察结论。

    项目进度
    整个项目前后算起来花了2个月,远超给定的1个月时限,要是真的商业项目,估计我们都要下岗了,哪个商业决策能等你一个月?
    因为这是第一次做数据分析项目,找项目,学习新软件,没有分析思路,一边摸索一边反复一边改进一边推行,就是个试错–返回–试错–进步的过程,实际操作下来数据清洗的时间是占比最大的,在项目进度安排上有个明确合理的计划会不容易焦虑。

    开始的时候就可以有目的的思考数据分析的角度,列写作提纲,减少后期的反复和调整。当然随着写作的深入,会发现更多有意思的结论,但如果有和认知不同的结论要多看一遍数据,再找找数据之间的联系,最后记得用全局视角再过一遍可能会有新发现。

    最后是文档和图片的命名归档,按照作用,时间,版本命名的方式更容易查找。 用python可能没这个问题,用excel文件就多了,4个品牌,每个品牌都有原始数据,或者补采集的原始数据,整理好的数据,还有各种云图可视化软件需要的文件数据都不一样。写作也需要各个步骤的图片,养成随时记录进度的好习惯,最后的报告写起来会更省力。

    作者:conniesun
    链接:https://www.jianshu.com/p/ea971f4a03f2
    來源:简书
    简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

    展开全文
  • 对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!项目分为三种类型:可视化项目探索性数据分析(EDA)项目预测建模可视化项目最容易...

    对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!

    项目分为三种类型:

    • 可视化项目

    • 探索性数据分析(EDA)项目

    • 预测建模

    可视化项目

    最容易上手的就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。

    1. 新冠病毒可视化

    学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,好看且操作简单。

    难易程度:

    数据集:

    https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

    教程:

    https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

    2. 澳洲大火数据可视化

    2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。

    这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。

    难易程度:

    数据集:

    https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

    3. 地表温度可视化

    你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。

    难易程度:⭐⭐

    数据集:

    https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

    探索性数据分析项目

    探索性数据分析(EDA),也称为数据挖掘,意思是数据分析过程中使用了多种技术来更好理解数据。

    1. 纽约Airbnb数据挖掘

    自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。

    可以分析的一些角度如下:

    • 哪些区域生意最好,为什么?

    • 哪些区域的流量比其他区域大,为什么?

    • 价格,评论数量和预订天数之间是否存在一些关系?

    难易程度:⭐⭐⭐

    数据集:

    https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

    2. 哪些因素与员工离职和绩效有关

    IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性,绩效评估和工作生活平衡程度等。

    分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。

    难易程度:

    数据集:

    https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

    3. 世界大学排名

    你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:

    • 顶尖的大学都在哪些国家?

    • 决定世界排名的主要因素是什么?

    难易程度:

    数据集:

    https://www.kaggle.com/mylesoneill/world-university-rankings

    4. 饮酒与在校表现

    喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。

    利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!

    难易程度:

    数据集:

    https://www.kaggle.com/uciml/student-alcohol-consumption

    5. 宠物小精灵数据挖掘

    对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!

    • 哪一代宠物小精灵最强?哪代最弱?

    • 哪种类型神奇宝贝最强?哪种最弱?

    • 能否建立分类器来识别神奇宝贝?

    • 身体特征与力量状态(进攻,防守,速度等)之间是否有相关性?

    难易程度:

    数据集:

    https://www.kaggle.com/rounakbanik/pokemon

    6. 探索影响预期寿命的因素

    世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?

    请尝试回答以下问题:

    • 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?

    • 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?

    • 婴儿和成人死亡率如何影响预期寿命?

    • 预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等是正相关还是负相关?

    • 是否接受教育对人类寿命有何影响?

    • 预期寿命与饮酒是正相关还是负相关?

    • 人口稠密的国家的预期寿命是否有降低的趋势?

    • 免疫覆盖率对预期寿命有什么影响?

    难易程度:

    数据集:

    https://www.kaggle.com/kumarajarshi/life-expectancy-who

    预测模型

    1. 能源消耗的时间序列预测

    该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!

    难易程度:⭐⭐⭐⭐

    数据集:

    https://www.kaggle.com/robikscube/hourly-energy-consumption

    2. 贷款预测

    该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。

    难易程度:

    数据集:

    https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

    3. 二手车价格计算器

    Craigslist是全球最大的二手车经销商,该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,查看是否可以创建一个数据集来预测一辆汽车价格是否被高估或低估了。

    难易程度:⭐⭐⭐

    数据集:

    https://www.kaggle.com/austinreese/craigslist-carstrucks-data

    4. 信用卡欺诈检测

      

    该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔欺诈。数据高度正态分布,欺诈占所有交易的0.172%。学习如何使用不正态的数据集并建立信用卡欺诈检测模型。

    易程度:⭐⭐⭐⭐

    数据集:

    https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

    5. 皮肤癌图像检测

    通过10,000多张图像来构建神经网络来检测皮肤癌。这绝对是最难的项目,需要有关神经网络和图像识别的储备知识。

    难易程度:⭐⭐⭐⭐⭐

    数据集:

    https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

    End.

    编译:张大笔茹、夏雅薇

    来源:medium

    大数据文摘出品

    展开全文
  • 数据分析项目实战之用户消费行为分析

    万次阅读 多人点赞 2019-07-23 14:38:50
    数据分析项目中固然是用到很多的数据分析工具和技巧,但是业务知识也占比不小,本案例分析了来自CDNow网站的一份用户购买CD明细,业务结合技术进一步分析用户的消费行为,提高决策质量。CD数据包括用户ID,购买日期...

    数据分析项目中固然是用到很多的数据分析工具和技巧,但是业务知识也占比不小,本案例分析了来自CDNow网站的一份用户购买CD明细,业务结合技术进一步分析用户的消费行为,提高决策质量。CD数据包括用户ID,购买日期,购买数量,购买金额四个字段。

    数据下载:https://pan.baidu.com/share/init?surl=pL2qo1H  密码g6vv

    用到的工具,pycharm,python3.7

    项目的总体内容包括一下几个部分:

    1. 数据清洗:处理缺失值,数据类型转化,按照需要将数据整理好
    2. 按月对数据进行分析:每月用户消费次数,每月用户的购买量,每月用户的购买总金额以及每月用户数量对比这些图标分析数据是否存在误差
    3. 用户个体消费数据分析:用户个体消费金额与消费次数的统计描述,用户消费金额和消费次数的散点图,用户消费金额的分布图(符合二八法则),用户消费次数的分布图,用户累计消费金额的占比。
    4. 用户消费行为分析:用户第一次消费时间,用户最后一次消费时间,用户分层,新老客消费比,用户购买周期,用户生命周期

    一 数据清洗:

    拿到数据使用pandas的read_table读出txt文件,列名为'user_id','order_dt','order_products','order_amount',由于这里的txt文件不是逗号分割的,所以sep = ‘\s+’。

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    columns = ['user_id','order_dt','order_products','order_amount']
    # 用户id 购买日期 购买产品数 购买金额
    df = pd.read_table("master.txt",names = columns,sep = '\s+')
    #df.info() 检查数据是否存在空值
    print(df.head())

    数据读出无误时要检查数据中是否存在空值,并检查数据的数据类型。发现数据中并不存在空值,很干净的数据。那接下来既然我们需要每月这个数据,就要给order_dt这一列的数据进行适当的转换一下,转化成通常的时间格式,Y(年)m(月)D(日)。下面那句代码的意思是:在df里心增加一列列名是mounth,取出这一列的日期order_dt然后掉取这一列的值把值转换成以月为单位的,例如6月1号到30号统统属于6月1号即是六月。看第二个图结果:

    df['order_dt'] = pd.to_datetime(df.order_dt,format ='%Y%m%d')
    df['mouth'] = df.order_dt.values.astype('datetime64[M]')

     这时候可以对数据进行简单初步分析,用df.describe()。产品购买数量均值在2.4,中位数是2,其分位数是3,说明用户购买量大部分都不多,少部分购买量大的,最高购买量是99,其中存在一定的极致干扰。用户的订单金额比较稳定,人均购买CD金额在35,中位数在25元,存在极致干扰,很多销售行业都是类似这种分布,小额比较多,大额的较少,收入来源很大一部分是来自大额。也即是二八

    到这里数据都准备好了进行下一步分析。

    二 按月分析数据趋势:

    在这里用到了一个groupby,一个在数据分析中非常好用的函数,这一节是要按月分析用户行为,用groupby对用户按照月分分组。

    group_month = df.groupby('month')#按月对数据分组
    order_month_amount = group_month.order_amount.sum()# 每个月份的销售总额
    order_month_times = group_month.order_products.sum()# 每个月份的产品购买总数量
    order_month_persons = group_month.user_id.count() # 每个月份用户的数量统计
    order_mounth_amount.plot()
    # order_mounth_times.plot()
    # order_mounth_persons.plot()
    plt.show()
    

     分组完成之后得到一个新的dataframe叫group_month,然后直接取出组里的order_amount并求和可得到每个月份的销售总额,并且画出折线图,(控制折线图的三行代码挨个运行可得到仨图,一起运行的话就在一个图里展示三条线)

     

    每个月份的销售总额曲线图​​​​​
    每个月份的产品购买总数量曲线图

     

    每个月份用户数量统计

     

     从上面仨图可以看出数据没有什么问题,用户购买总额跟用户购买次数以及用户购买量走势是大致相同的,但是从四月份开始销量严重下滑,具体是原因是什么,我们可以再来看一下每个月的消费人数:

    df.groupby('month').user_id.nunique().plot()
    plt.show()
    每个月的消费人数

     

    每月的消费人数小于每月的消费次数,但是区别不大。前三个月每月的消费人数在8000—10000之间,后续月份,平均消费人数在2000不到。一样是前期消费人数多,后期平稳下降的趋势。

    三 用户个体消费数据分析:

    之前的都是看趋势,现在看个体的消费水平如何,

    主要分析的对象是:

    1. 用户消费金额和消费次数的统计以及散点图来观察用户的平均消费水平
    2. 用户消费金额的分布图(二八原则)
    3. 用户消费次数的分布图
    4. 用户累计消费金额的占比(百分之多的用户占了百分之多少的消费额)
    group_userID = df.groupby('user_id')
    print(group_user.sum().describe())

     以user_id为索引进行分组,在用户的角度来看,每位用户平均购买七张CD,最少的用户购买了一张,最多购买1033张,中位数是三张,反映出有些数据的波动还是挺大,用户购买的金额平均是106中位数是43,购买最大金额是13990,四分位数19,这些数据加上之前的按月分析,大致勾勒出CD销售大致趋势,在一段时间销量上升,突然在某时期不景气开始猛地下跌,但是大部分还都是处于平稳,销售额也低。

    group_userID = df.groupby('user_id')
    group_userID.sum().query("order_amount<3000").plot.scatter(x = 'order_amount',y = 'order_products')
    # group_userID.sum().order_amount. plot.hist(bins = 20)
    # group_userID.sum().query("order_products<100").order_products.plot.hist(bins = 40)
    #柱状图
    plt.show()

    上一段代码的意思是以user_id为索引进行分组但是分组之后可能会发现打印出来的是对象,因为需要对分组完的数据进行进一步操作,例如求和求均值等等。然后再这里用到的是对数据进行求和,然后调用quary方法规定x轴坐标order_amunt的值小于3000,调用plot里的scatter散点图,画出散点图。

    用户购买金额和购买数量的散点图

     

    用户消费金额分布
    用户消费次数分布

    从散点图中看出数据集中分布在购买金额小购买量少上, 数据基本成线性分布,购买CD金额大数量就多,金额少数量也少。

    从消费金额中可以看出消费金额偏向很低基本在0-1000元之间,可看出其主要还是面向低消费人群。从消费次数柱状图中可以看出,绝大部分用户消费次数并不多,甚至很少,消费次数基本在0-20次之间。

     

    cum1 = group_userID.sum().sort_values("order_amount").apply(lambda x:x.cumsum()/x.sum())
    cum1.reset_index().order_amount.plot()
    plt.show()

    上面这段代码的意思是求出用户的累计消费金额占比,cumsum方法是滚动求和,对求完占比之后的dataframe进行重置 索引,重置索引之后的索引是按照升序排列好的,所以画出的图横坐标就是索引,纵坐标就是消费额所占比例,可以反映出百分之多少的用户占了消费额的百分之多少。 

    用户消费额占比

     从消费额占比中看得出百分之五十的用户才占了百分之二十不到的消费额,排名前五百的用户占有了快百分之五十的消费额,消费还是主要集中在一些大客户上。

    三 用户消费行为分析:

    1. 用户第一次消费&用户最后一次消费
    2. 新老客消费比(多少客户仅消费一次,每月新客占比)
    3. 用户分层(RFM,新,老,活跃,流失)
    4. 用户消费周期
    5. 用户生命周期

    看一下用户本身第一次消费和最后一次消费都集中在几月

    print(group_userID.month.min().value_counts())
    print(group_userID.month.max().value_counts())
    # group_userID.month.min().value_counts().plot()
    # group_userID.month.max().value_counts().plot()
    # group_userID.order_dt.max().value_counts().plot()
    plt.show()

     

    第一次购买和最后一次购买的时间及数量对比
    最后一次购买的具体时间及客户数量

     首购都在一月到三月份,最后一次购买也基本集中在一月到三月份,长期活跃的客户不是很多,大部分用户是购买一次之后不在购买,随着时间的增长,最后一次购买的用户量也在不断增加

     

    new = group_userID.order_dt.agg(['min','max'])
    print((new['min']==new['max']).value_counts())
    exit()

     

    第一次消费时间等于最后一次消费时间的数量占到了一半,说明很多顾客仅消费一次不再消费。

    接下来对用户进行分层:

    将用户分成:

            111':'重要价值客户',
            '011':'重要保持客户',
            '101':'重要挽留客户',
            '001':'重要发展客户',
            '110':'一般价值客户',
            '010':'一般保持客户',
            '100':'一般挽留客户',
            '000':'一般发展客户'

    至于前面数字的意义等下会解释。到这里就开始使用一个新的函数,及python的透视函数,point_table此函数功能跟excel的透视表一样,但是比透视表更加灵活,pd.point_table(index = [],columns = [],values = [],aggfunc = [])这几个参数等会要用到,先来解释一下这几个参数的意思:

    index指的是分组的时候选择哪个字段作为索引,columns指的是指定的列名是什么,values可以决定保留哪些属性字段,aggfunc则是决定对每个字段执行的函数,不写默认执行sum

    rfm = df.pivot_table(index = 'user_id',
                        values = ['order_products','order_amount','order_dt'],
                        aggfunc = {'order_dt':'max','order_amount':'sum','order_products':'sum'})
    # 消费产品数 消费总金额 最近一次消费时间
    rfm["R"] = -(rfm.order_dt-rfm.order_dt.max())/np.timedelta64(1,'D')
    rfm.rename(columns = {'order_amount':'M','order_products':'F'},inplace=True)
    print(rfm)
    exit()

     

    用order_id(用户购买日期的最大值)减去截至到当前的时间,也就是1998-06-30 00:00:00(执行代码print(rfm.order_dt.max()查看),那就要假设我,们现在处于1998-06-30 00:00:00这个时间,用户购买的最后一次时间到这个时间的时间间隔就是用户最近一次交易时间间隔。F的值越大说明交易的越频繁,M的值越大说明交易金额月大,用户的价值就越高。

    在这里呢可以思考一下怎样可以让客户分组呢,什么样的客户是重要客户呐!!当然肯定是消费产品多,消费金额高,消费距今时间短的了。但是这些指标怎样能体现出来呢,这就要用到均值,如果这个值跟均值相减是负数说明消费水平不高,但是又分成几种情况。

    print(rfm[["R", 'F', "M"]].apply(lambda x: x - x.mean()))

     均值相减之后分成了这样几种情况 可以判断一下假设每个值正数就是“1”,负数就是“0”:

            111':'重要价值客户',
            '011':'重要保持客户',
            '101':'重要挽留客户',
            '001':'重要发展客户',
            '110':'一般价值客户',
            '010':'一般保持客户',
            '100':'一般挽留客户',
            '000':'一般发展客户'

    def aggfc(k):
        level = k.apply(lambda x:'1' if x >0 else '0')
        leable = level.R+level.M+level.F
        d = {
            '111': '重要价值客户',
            '011': '重要保持客户',
            '101': '重要挽留客户',
            '001': '重要发展客户',
            '110': '一般价值客户',
            '010': '一般保持客户',
            '100': '一般挽留客户',
            '000': '一般发展客户'
        }
        result = d[leable]
        return result
    rfm['lable'] = rfm[["R",'F',"M"]].apply(lambda x:x-x.mean()).apply(aggfc,axis=1)
    print(rfm.groupby('lable').sum())
    print(rfm.groupby('lable').count())

    实现了对用户的分层 ,重要爆出客户的总消费金额达到159万,重要保持客户的人数达到了4554人

    rfm.loc[rfm.lable == '重要价值客户','color'] = 'g'
    rfm.loc[~(rfm.lable == '重要价值客户'),'color'] = 'r'
    rfm.plot.scatter("F",'R',c = rfm.color)
    plt.show()
    exit()

    从RFM分层可知,大部分用户为重要保持客户,但是这是由于极致的影响,所以RFM的划分应该尽量以业务为准。尽量用小部分的用户覆盖大部分的额度,不要为了数据好看划分等级。

    RFM是人工使用象限法把数据划分为几个立方体,立方体对应相应的标签,我们可以把标签运用到业务层面上。比如重要保持客户贡献金额最多159203.62,我们如何与业务方配合把数据提高或者维护;而重要发展客户和重要挽留客户他们有一段时间没有消费了,我们如何把他们拉回来

    col = ['1997-01-01', '1997-02-01', '1997-03-01', '1997-04-01',
                   '1997-05-01', '1997-06-01', '1997-07-01', '1997-08-01',
                   '1997-09-01', '1997-10-01', '1997-11-01', '1997-12-01',
                   '1998-01-01', '1998-02-01', '1998-03-01', '1998-04-01',
                   '1998-05-01', '1998-06-01']
    def active_status(data):
        status = []
        for i in range(18):
            
            #若本月没有消费
            if data[i] == 0:
                if len(status) > 0:
                    if status[i-1] == 'unreg': # unreg未注册用户
                        status.append('unreg')
                    else:
                        status.append('unactive') # 不活跃用户
                else:
                    status.append('unreg')
                        
            #若本月消费
            else:
                if len(status) == 0:
                    status.append('new')
                else:
                    if status[i-1] == 'unactive':
                        status.append('return')# 回流用户
                    elif status[i-1] == 'unreg':
                        status.append('new')# 新用户
                    else:
                        status.append('active') # 活跃用户
        return pd.Series(status,index = col)
    
    pivoted_status = df_purchase.apply( active_status,axis = 1)
    pivoted_status.head()

     

    对于以上代码分析一下:首先对于参数data,data是单独的一行,也即是secris类型的数据apply方法默认取出的数据是一列,但是在后面直接明确了取数据的方式axis=1,代表每次取一行,一行进行函数中间的逻辑运算。既然是一行数据了,一行里有十八中类型,则需要遍历循环十八次,所以for i in range(18):默认从0到十八,但是包括0不包括十八(python的半包)。先定义一个空数组status,然后开始讨论本月是否有消费,假设本月没有消费,那么data[i]==0,判断status里是否有值即判断data[i-1],如果status里有值,看他里边的值是什么状态,如果说值等于unreg那本月依然是未注册。就往status里加入“unreg”,如果上个月是不活跃或者回流,这个月不消费依然是不活跃,status加入“unactive”。其他如果本身status里都没有值,这个月又不消费那么就是还没开始注册。假设本月已经消费那么data[i-1]==1,看一下status的状态,如果len(status)>0即是status里有值就要判断一下这里边值的状态了,如果这里边data[i-1]==‘unreg’就是说上个月就没注册,这个月突然消费了,那他就是新客啦!如果上个月是不活跃那这个月就是回流用户了,其他情况都是活跃用户。这一块码有点多,不过逻辑上还是很清晰的。

     

    接下来就来看一下每个月的新用户,未注册用户,活跃用户回流用户有多少,由于没注册的用户在数据里是干扰项,则直接让没注册的用户为NaN,这样的话看起来应该会好看一些。用replace函数,用np.NaN进行替代apply在这里默认每次取出一列进行逻辑运算,用到lambda匿名函数,以及panads的计数函数value_counts。对每一列的不同情况值进行计数。然后生成下图;

    print(pivoted_status.replace('unreg',np.NAN).apply(lambda x:pd.value_counts(x)))

    上面的仅仅看数据的话不够直观,我们就给他在图上展示出来,先将NaN用0填充一下,然后再进行转置把月份当作索引,等下画图的时候会生成横坐标各个区域的数据大小会生成不同的面积显示出来。

    从这幅图上可以清晰的看出,不活跃用户,也就是红色区域占了大部分面积,新客主要还是集中在1到3月份,活跃的用户和回流在四月份之后就比较稳定总量不多。

    再来看一下新增用户比,

    pivoted_status = df_purchase.apply(active_status, axis=1)
    new_point = pivoted_status.replace('unreg',np.NAN).apply(lambda x:pd.value_counts(x))
    print(new_point.fillna(0).T.apply(lambda x:x/x.sum(),axis = 1))

    由上表可知,每月用户的消费状态变化。活跃用户、持续消费的用户对应的是消费运营质量。回流用户,之前不消费本月才消费对应的是唤回运营。不活跃的用户对应的是流失,这里可以针对业务模型下个定义:流失用户增加,回流用户正在减少

    group_ID = df.groupby('user_id')
    order = group_ID.apply(lambda x: x.order_dt-x.order_dt.shift())
    print(order)
    print(order.describe())

    从用户购买周期的均值中可以看出,平均消费周期为68天,中位数是31天,可以根据用户的购买周期对用户进行定期召回。

    依然是用图来更直观的看一下消费周期的分布:基本用户的消费周期都集中在100天一下,平均消费周期就一个月。

    group_ID = df.groupby('user_id')
    order = group_ID.apply(lambda x: x.order_dt-x.order_dt.shift())
    # print(order)
    # print(order.describe())
    # x.order_dt-x.order_dt.shift()
    (order/np.timedelta64(1,'D')).hist(bins = 20)
    plt.show()

    再来看一下用户的生命周期:也就是用户的最后一笔订单时间减去第一笔订单时间就是用户的生命周期。

    purchase_r = word.applymap(lambda x : 1 if x > 1 else np.NaN if x == 0 else 0)
    (purchase_r.sum()/purchase_r.count()).plot()
    plt.show()
    随着时间的变化复购率的变化图

    显而易见,前三个月复购率一直在猛增,但是慢慢复购率有下降但是基本在保持在包分之19以上,在百分之二十上下波动。再来看一下回购率:

    pivoted_amount = df.pivot_table(index = 'user_id',columns = 'month',values = 'order_amount',aggfunc = 'mean').fillna(0)
    pivoted_purchase = pivoted_amount.applymap(lambda x:1 if x>0 else 0)
    columns_mounth = df.month.sort_values().astype('str').unique()
    pivoted_amount.columns = columns_month
    def purchase_return(data):
        status = []
        for i in range(17):
            if data[i] == 1:
                if data[i+1] ==1:
                    status.append(1)
                if data[i+1] == 0:
                    status.append(0)
            else:
                status.append(np.NaN)
        status.append(np.NaN)
        return pd.Series(status,index=col)
    pivoted_purchase_return = pivoted_purchase.apply(purchase_return,axis = 1)
    (pivoted_purchase_return.sum()/pivoted_purchase_return.count()).plot()
    plt.show()

     

    0代表当月消费过次月没有消费过,1代表当月消费过次月依然消费

    新建一个判断函数。data是输入数据,既用户在18个月内是否消费的记录,status是空列表,后续用来保存用户是否回购的字段。因为有18个月,所以每个月都要进行一次判断,需要用到循环。if的主要逻辑是,如果用户本月进行过消费,且下月消费过,记为1,没有消费过是0.本月若没有进行过消费,为NAN,后续的统计中进行排除。apply函数应用在所有行上,获得想要的结果。

    最后计算和复购率大同小异,用count和sum求出,从图中可以看出,用户的回购率高于复购,约在30%左右,和老客户差异不大。从回购率和复购率综合分析可以得出,新客的整体质量低于老客,老客的忠诚度(回购率)表现较好,消费频次稍次,这是CDNow网站的用户消费特征。

    里边有些地方的“month”写错了,由于之前写的时候没发现(捂脸)如果大家这一块有错了,统一改一下就行啦!

     

    展开全文
  • 最近有很多人在问,我是如何收集网络的数据,如何进行数据处理、数据分析以及可视化呈现的。也有人问的更具体,关于Python数据分析的一些问题。到底应该怎么学?如何快速入门,...

    最近有很多人在问,我是如何收集网络的数据,如何进行数据处理、数据分析以及可视化呈现的

    也有人问的更具体,关于Python数据分析的一些问题。到底应该怎么学?如何快速入门,以及技术和业务之间的瓶颈如何突破?

    因为深度的数据分析往往可以看到事情的本质,而这又是一项在任何情况下都超级加分的技能。总结了一些经验,希望能够给还没入门、或者入门之后就遇到瓶颈的新手一些建议。主要是关于如何系统地进行学习规划,以及可以避免的一些坑。 

    有的同学看到数据分析几个字,就马上开始Python函数+控制语句、R语言和ggplot库……上来一顿骚操作,还没入门就放弃了。

    这就是需求不明确导致的,当然学习方式也值得商榷,那到底数据分析需要什么样的技能呢? 这里作为例子,从招聘网站上找了几个数据分析的岗位,我们来看看具体的要求是怎样的。  

                             

     其实企业对数据分析师的基础技能需求差别不大,可总结如下:

    • 分析工具:一般要求SPSS/SAS/R/Python等分析工具至少会一种,会两种以上加分,有的企业因内部需求,会指定的一种;

    • 数据库:绝大会要求会SQL,部分要求SQL/NoSQL会一种,高级的分析师或者大型企业要求能够处理大数据,需要Hive(较少的需要Hadoop/Spark);

    • 统计学:若无相关专业背景,需要具备相应的统计学、概率论等基础知识;

    • 数据挖掘:少部分要求会建模,了解基本的算法模型,能够做数据预测,即便不要求,算法也是加分项;

    • 结果输出:Excel/PPT/Tableau。Excel和PPT要求的比较多,主要用作常规的数据呈现,与业务部门沟通等,Tableau一般作为可视化或者分析工具的加分项或者要求之一;

    • 业务/思维:对某个领域(如电商、金融等)相关业务的了解或具有产品、运营方向的分析经验,有自己的数据分析的方法论和项目经验,具备Data Sence。

    看上去很简单呀,对吧,但其实你把每个技能拆分开来,都是一个不小的知识体系。如果我们按照数据分析的流程来细分的话,每个部分应该掌握的技能,大概是这样的:          

    那对于这个技能体系,应该如何进行技能的训练呢?先后顺序是什么?哪些地方可能出现困难和瓶颈?

    按数据分析的流程的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。

    接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

    - ❶ -

    数据获取:爬虫与公开数据

    数据是产生价值的原材料,这也是数据分析项目的第一步。

    通常我是通过爬虫获取相关数据的,一来数据有很高的时效性,二来数据的来源可以得到保证,毕竟网上的信息是异常丰富的。

    这些分布在网上零散的信息,通过爬取整合之后,就有比较高的分析价值。

    比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某个事件、某类人群进行分析。

    在爬虫之前需要先了解一些 Python 的基础知识:数据类型(列表、字典、元组等)、变量、循环、函数………

    以及,如何用 Python 库(urllib、BeautifulSoup、requests等)实现网页爬虫。如果是初学,建议从 requests+xpath 开始。

    当然,并不是说公开数据就没用了,在进行分析的时候,需要一些历史数据进行对比,需要一定的行业标准进行参考的时候,公开数据的价值就体现出来了。

    一些科研机构、企业、政府会开放一些数据,还有一些行业研究报告、他人的调查结果,都可以成为你的数据来源。这些数据集通常比较完善、质量相对较高。

    - ❷ -

    数据存取:SQL语言

    我并不是每次都会用到数据库,但很多时候这确实是做数据分析项目的必备技能,包括求职就业,也是必选项。

    通常数据库的使用能够让数据存储、管理更方便,同时也能提高数据提取和使用的效率,特别是在数据上了一定的量级之后,谁用谁知道。

    大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也至少要懂得SQL的操作,能够查询、提取公司的数据。

    SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。需要掌握以下技能:

    • 提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

    • 数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。

    • 数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

    SQL这部分比较简单,主要是掌握一些基本的语句。当然,还是建议找几个数据集来实际操作一下,哪怕是最基础的查询、提取等。

      

    - ❸ -

    数据处理:Pandas/Numpy

    爬回来的数据通常是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

    那么我们需要用相应的方法去处理,比如重复数据,是保留还是删除;比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

    对于数据预处理,学会 pandas/Numpy (Python包)的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

    • 选择:数据访问(标签、特定值、布尔索引等)

    • 缺失值处理:对缺失数据行进行删除或填充

    • 重复值处理:重复值的判断与删除

    • 异常值处理:清除不必要的空格和极端、异常数据

    • 相关操作:描述性统计、Apply、直方图等

    • 合并:符合各种逻辑关系的合并操作

    • 分组:数据划分、分别执行函数、数据重组

    • Reshaping:快速生成数据透视表

    数据清洗通常被视为脏活,但事实上这步非常重要,这直接决定了你的分析结论的准确性,决定你的项目是否能顺利进行下去。

    - ❹ -

    数据分析与可视化

    这个是从数据中发现信息、挖掘价值的过程,大多数的结论在这个步骤产生,主要做两件事情。

    一是对于既定的数据分析主题进行拆解,评估需要从哪些维度进行分析,提取哪些数据,这个步骤很大程度上来源于经验或者对于具体事务的理解;

    二是通过探索数据分布的规律、数据的特征,发现从表面看不到的信息,完成这个流程主要是通过数据本身进行探索。

    前者对应的是描述性的数据分析,主要考虑数据的指标,看从不同的角度去描述数据能够得出哪些结论。

    这个地方就需要对统计学的相关知识有一定的了解,比如:

    • 基本统计量:均值、中位数、众数、百分位数、极值等

    • 其他描述性统计量:偏度、方差、标准差、显著性等

    • 其他统计知识:总体和样本、参数和统计量、ErrorBar

    • 概率分布与假设检验:各种分布、假设检验流程

    后者则是探索型的数据分析,主要通过绘制数据的分布图形,来观察数据的分布规律,从而提取隐藏的某些信息。

    这里就需要对掌握可视化的技能,Python中的Matplotlib/Seaborn都可以完成可视化的工作。可视化既是探索性分析的工具,也可以输出最终结果呈现的图形。

    当然,还有一种是预测型的数据分析,需要构建模型来预测未来数据,我在推文中用的比较少,但在企业中应用非常多。

    做数据分析的话,会用比如线性回归、逻辑回归、决策树等这些基本的算法,用于解决基本的回归和分类问题,就OK了。

     

    ● ● ●

    - 系统学习成为分析师 -

    所以,如果你是真的想系统地去学习数据分析,从工具、流程、业务、思维等层面逐个击破,有目的地系统学习和基于真实项目进行训练,以learning by doing 的形式,我想把这门课推荐给你。

    DC学院的数据分析师训练营完全以职业为导向,通过实际的项目流程,训练真实的工作技能。十周的系统训练,除了掌握基础的技能,还有能获得大量的项目经验。

    这是训练营的第1期开班,优惠力度足够大(名额有限),相信之后你不太能够以如此低的价格加入,或者说是参与类似的系统性训练

    十周系统训练,掌握专业数据分析师的技能

    首期立减400,优惠限前50名

    开课7天内无理由退款

    ↓↓↓ 扫码了解训练营详情 ↓↓↓

    01 

    课程设计

    为了打造这样的训练营,我们花了6个月的时间去打磨:

     

    ????为了保证技能的全面性和深度

    我们调研了众多的数据分析岗位,和数十位分析师进行了深度的内容探讨。

    让课程内容能够满足主流企业的需求,也具备不同行业、领域的数据思维和分析方法。

    ????在学习的流畅性方面,

    我们也对学习路径进行了数十次的迭代,从技能板块的学习逻辑到细节知识的设置和筛选。

    既让课程能够使不同背景的同学高效学习,也尽可能地提升学员能够达到的技能上限。

    ????特别是案例和作业项目部分,

    尽量地还原真实工作中的业务流程,融入尽可能多的技能栈,所以每个项目都是训练的综合应用能力,和解决实际问题的能力。

    我们始终坚信,大量的真实训练,才是知识内化和迁移的关键

     

    以下就是我们这次训练营的课程主体大纲(学习计划周次可以扫码了解),十周的训练,足以让你打败市面上多半所谓的据分析师:

              

    02 

    实战案例

    除了课程中实时穿插的小案例巩固细节知识点,另有6大企业项目实战,涉及电商、房产、金融、招聘、社交等多领域。

    这些案例在课程中都有详细的讲解,关于问题拆解的思路,使用的技术细节,代码的编写,以及逐步的效果展示。

    帮助你训练数据采集、分析方法、编程技巧、模型搭建、报告撰写等全方位技能,丰富项目经验。

     

    03 

    作业项目

    除了众多的实战案例帮助你实时巩固技术之外,另外每周都有基于真实业务问题的作业项目。你需要根据每周的学习,来解决这些在工作中存在的问题。

    最重要的是,每周提交的作业项目都有老师1v1批改逐行代码审阅,评估学习效果,并给出针对性的学习建议。

    可以很负责任地说,认真完成这些作业项目,最终形成的这个作品集,将可以成为你求职就业非常棒的加分项

    △ 部分作业列表

    △ 内测学员部分作业批改

    04 

    学习收益

    训练营完全按照数据分析师职位的技能需求进行打造,既保证技能的全和深,也在此基础上尽量简化学习的内容,以提高效率

     

    当然,必要的横向的扩展还是会有的,比如小规模数据的Excel分析,利用其它可视化/报告工具进行数据分析报告的输出,这些必要的技能在课程中会有所涉及,也是数据分析师的绝对加分项。

    总体来说,你将得到工具使用、编程能力、数据库能力、分析能力、数据思维五个方向的锻炼,成为具有综合能力的分析师,而不是数据处理员。

    05 

    陪伴式学习  

     

    为了帮你更好地学习和训练,DC学院数据分析师训练营采用定期班级教学的模式。

    已经帮你安排好学习计划,总共十周训练,你可以轻松地掌握全方位的数据分析技能

     

    班主任会时刻监督你的学习进度,不定期小窗问候。群里面老师会帮助你实时解决学习上的问题(7×12小时那种),还有一群颇具潜力的同学,和你探讨作业,分享经验。

    在课程正式上线之前,课程经过了多次的内测和迭代。训练营好不好?听听内测学员怎么说: 

    如果你是以下人群之一:

    • 还是没有形成专业分析方法以系统经验的野路子分析师

    • 想提升分析能力,拿起数据的武器为自己说话的互联网职场人

    • 希望突破职业瓶颈,转行进入数据科学等前沿行业的求职者

    • 或是对人工智能、机器学习、python大法感兴趣的在校学生。

    这个训练营就是为你而定制! 

     

     

    十周系统训练,掌握专业数据分析师的技能 

    首期训练营名额有限,先到先得

    ¥1299 (原价¥1699)

    首期优惠仅限前50名

     

    开课7天内无理由退款

     

    扫描下方二维码了解课程详情

     

    如果还有更多课程问题

    扫下方二维码添加Amy小姐姐 

    添加后可获取

    《数据分析师训练营知识体系详解》

    《数据分析师成长指南》

    一份数据分析超级学习资料包

    展开全文
  • 数据分析项目实战

    万次阅读 2018-03-14 16:55:39
    数据获取:1.主动获取--》爬虫 2.被动。api接口 股票市场分析实战 通过pandas_datareader来获取数据import pandas_datareader as p...
  • 数据分析项目实战

    万次阅读 2018-03-19 18:48:30
    考虑到很多人想了解大数据,我们特地准备了一个关于大数据可视化分析的项目实战课,里面包含多个大数据分析项目的讲解和演示,每周两到三次。具体的信息说明在最后。在这里还是要推荐下我自己建的大数据...
  • 【Python有趣打卡】数据分析pandas完成数据分析项目 今天依然是跟着罗罗攀学习数据分析,原创:罗罗攀(公众号:luoluopan1)学习Python有趣|数据分析三板斧。今天是在DD大数据团队实习的第一天,正式开始数据分析...
  • 求职数据分析项目经验该怎么写

    万次阅读 2020-07-21 06:48:00
    项目经验是简历里最奇葩一部分。因为很多人,特别是新人,没做过啥正儿八经的项目,因此项目经验一栏常常被尴尬的空着。直到某一天,在神秘力量作用下,所有新人的项目经验变得整齐划一,仿佛韩国小姐...
  • 数据分析之实战项目——电商用户行为分析

    万次阅读 多人点赞 2020-06-07 17:40:09
    电商用户行为分析 分析背景和目的 随着互联网和电商的发展,人们习惯于网上购物。在国内,电商平台深受欢迎,每年的双11,双12活动,大量的用户在淘宝平台浏览商品,或收藏或加入购物车或直接购买。通过对用户的行为...
  • 数据分析项目生命周期

    千次阅读 2019-04-12 23:36:04
    这里说的分析是狭义上的数据分析,并不包含数据挖掘,它们之间具体的区别后续文章会详细描述 这里只做一个简单的总结如下表: 差异角度 数据分析 数据挖掘 定义 描述和探索性分析,评估现状和修正不足 技术...
  • 如今,全球早已步入数据时代,随着行业的高速发展,相关岗位缺口已超150万,且薪资超同行业50%。未来十年,数据细分岗位将扩张5倍,各行业数据人才缺口明显。很多人想抓住机遇进入数据分析行业...
  • 通过选择功能区上的“分析”>“堆叠标记”菜单项,在任何给定视图中控制标记是堆叠还是重叠 饼图展示 先新建工作表 作地区和交易金额的饼图 标记 比如颜色按照地区来分,就是把地区拖到颜色标记那里就好了 标签 ...
  • 27 实战 再谈豆瓣电影数据分析项目

    万次阅读 2018-08-18 15:57:26
    成果展示 项目链接:http://zhanghonglun.cn/data-visualization/ Github地址:...   项目内容 采集、清洗、存储、分析、可视化   再谈BeautifulSoup html = response.read() html = BeautifulSo...
  • 共享单车项目数据分析报告

    千次阅读 2019-08-28 15:03:07
    本文运用Python绘图包(matplotlib、pandas)对数据进行可视化分析,并使用Powerpoint制作描述性分析报告。
  • Github社区python项目数据分析

    万次阅读 2018-01-18 12:38:25
    最近看到CSDN上各种做数据分析的,相关博文层出不穷:什么分析CSDN小姐姐一年发的文章,什么分析猎场的火热程度,比比皆是。于是乎,我们也来凑个热闹,分析下github上火热的python项目。 使用API调用数据 首先...
  • 20个python数据分析实战项目(附源码)

    万次阅读 多人点赞 2020-11-05 20:03:22
    2.python数据分析——pyecharts柱状图全解(小白必看) https://mp.weixin.qq.com/s/fvenxqQBIh-UaYVTJVADrw 3.太震撼了,我用python画出全北京的公交线路动图 https://mp.weixin.qq.com/s/TbxeM7LnBGdyCfjn96EI5A ...
  • Pandas数据分析实战项目(简单)

    千次阅读 多人点赞 2019-06-27 11:31:49
    项目背景:根据已有数据,对给定车型进行数据分析,得出给定车型近半年每个月在各个城市真实搜索指数 数据来源:数据使用百度指数给出的数据,通过对给定车型关键词进行数据抓取,得到车型的全国搜索指数。省份搜索...
  • python数据分析项目练习

    千次阅读 2019-04-12 19:28:01
    python数据分析项目练习 在敲代码中领悟 转自:大神原文链接 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签...
  • 愉悦的一周又要开始了,本周菌哥打算用几期文章为大家分享一个之前在B站自学的一个项目——基于flink的电商用户行为数据分析。本期我们先对项目整体功能和模块做一个介绍。       &...
  • 入门Python数据分析最好的实战项目(一)分析篇

    万次阅读 多人点赞 2018-12-24 14:51:15
    目的:本篇给大家介绍一个数据分析的初级项目,目的是通过项目了解如何使用Python进行简单的数据分析。 数据源:博主通过爬虫采集的链家全网北京二手房数据(公众号后台回复 二手房数据 便可获取)。 目录 ...
  • 这篇文章找来了有关药品销售数据进行案例分析练习,利用适当的统计方法对相关数据进行月均消费次数、月均消费金额、客单价和消费趋势等几个业务指标进行分析分析过程为:数据获取、数据清洗、建模分析、可视化 ...
  • Python数据分析实例

    万次阅读 多人点赞 2019-06-14 22:13:37
    Python数据分析 Python爬取网页数据
  • Python进阶-Pandas数据分析

    万人学习 2018-12-18 13:40:12
    Pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用...
  • 数据分析之预测模型项目模板

    千次阅读 2018-01-27 10:39:14
    机器学习是一项经验技能,经验越多越擅长。不能只通过阅读就能掌握机器学习的技能,需要大量的练习才能掌握。在这里将介绍一个通用的引入机器学习的六个步骤。...一、 在项目中实践机器学习  从端到端
  • 这段时间自己从网上找了一个项目课程,学着做了一个电商大数据分析平台,不过较为简陋,知识作学习用。 项目环境:windows10+hadoop2.7.7+hbase2.1.0+flume1.7.0+nginx+3台linux虚拟机(三台虚拟机搭建一个hadoop...
  • 福布斯每年都会发布福布斯全球上市企业2000强排行榜(Forbes Global 2000),这个排行榜每年...在准备做这个小小的项目前,先理了一下整个思路,大概可以分为下面这几个步骤: - 数据采集 - 数据清洗、整理 ......
  • 转行成为数据分析师的经验分享

    千次阅读 2019-08-03 09:30:00
    Q:我是经济学转数据分析,想问跨行业转数据分析,可以结合自己优势在什么方面发展,面试数据分析能力需要到达什么水平? A:经济学背景可以帮助更全面的理解数据与经济之间的关系。比如B站免费赠送的瓜子与网站日活月...
  • 基于Hadoop离线大数据分析平台项目实战 网盘地址:https://pan.baidu.com/s/13vOi8WphetCiRtHhOCUdGg 密码: kt99 备用地址(腾讯微云):https://share.weiyun.com/5wdYJSk 密码:jjmx9p 课程简介: 某购物电商...
  • #星期 data_112['hour'] = data_112['下单时间'].dt.hour num = data_112[['hour', 'income', 'weekday']].groupby(['weekday'...plt.show()

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 944,611
精华内容 377,844
关键字:

数据分析项目