精华内容
下载资源
问答
  • 用excel做数据分析,不难,难在如何做好。拆分成两块:掌握excel分析技能+数据分析的硬核经验。一、快速掌握excel分析技能1、excel学习excel教程不要太多,如何快速学习excel,我之前也回答过,反正就是逮住一本教程...

    文科出身,在excel上算是一路摸爬滚打。现在带着3个人的团队,组建了信息部,主要负责公司的营运数据分析。分享一些我的经验。

    用excel做数据分析,不难,难在如何做好。拆分成两块:掌握excel分析技能+数据分析的硬核经验。

    一、快速掌握excel分析技能

    1、excel学习

    excel教程不要太多,如何快速学习excel,我之前也回答过,反正就是逮住一本教程,照着练:

    把一本体系化的excel教程吃透了,就足以应对业务工作所需的数据分析了。

    如果觉得书籍太枯燥,那把视频课看起来。对数据分析有帮助的一些还不错的视频课,我梳理了一下:

    数据计算课程:Excel函数与公式_ExcelHome - 全球极具影响力的Excel门户,Office视频教程培训中心​www.excelhome.net

    数据处理实战课程:实战技巧精粹_ExcelHome - 全球极具影响力的Excel门户,Office视频教程培训中心​www.excelhome.net

    还有一些短期的系统训练课程,比如腾讯教育的数据分析训练营,一样适合数据分析新手,比较偏向商业数据分析:

    2、excel实操

    好用的函数能让你数据分析时,如有神助,下面是我在数据分析时常用的函数:常用函数(加总求和、计数、平均、最值、排序、乘积、除余、取整)

    逻辑运算(if、iferror、and、or)

    文本编辑(文本提取、文本查找、文本替换、文本转换及合并)

    引用与查找(vlookup、hlookup、lookup、indirect、index、match)

    1)排序函数

    rank(排序的目标数值,区域,逻辑值)

    逻辑值如果输入0或者不输入时,为降序排列(数值越大,排名越靠前);逻辑值输入非0时,为升序排列(数值越大,排名越靠后)比如:对业绩排名的计算,小李排名第5

    2)逻辑判断

    if(计算条件的表达式或值,满足条件返回true,否则返回false)

    根据指定条件来判断其“满足”(TRUE)、“不满足”(FALSE),从而返回相应的内容。比如:判断团队业绩是否达标,小李和小军均不合格

    3)计算文本长度

    len(要计算字符长度的文本),用来计算文本串的字符数比如:判断手机号是否有效,小李手机号少一位,为无效信息

    不全部列举了,这篇讲的比较全,可以移步参考:数据分析excel常用函数_大数据_su_2018的博客-CSDN博客​blog.csdn.net

    数据处理上,可以使用一些excel插件,提高处理速度:

    1)

    3)

    5)

    注:插件方便也不用贪多,挑顺手的数据处理和图形制作的各一个即可。

    缺实操的伙伴,可以从https://hao.199it.com/找点数据练练手。常见的公开数据网站都可以搜索到:

    好的图表可视化是一份分析报告的点睛之笔。平时要多看美图、多参考:图表配色参考地址:图表配色

    关于如何制作干净漂亮的excel表格,我在这篇回答分享了自己经验,有需要可以看:怎样做出干净漂亮的excel表格?​www.zhihu.com

    二、数据分析的几点硬核经验

    1、务必提升数据采集的效率

    因为读了四年社会学(社会调查专业户),经常需要大面积采集数据,所以吃够了数据收集的亏。excel重处理而弱采集,尤其在大体量的公司,跨部门收集、汇总四面八方的数据,很崩溃。

    所以我从去年5月找了一些表单工具(j简道云、麦客、金数据、氚云等),一圈试下来,碰上年初的疫情我们公司上了钉钉,现在是【钉钉+简道云+excel】搭配使用,数据收集效率还是很可观地,目前在库存管理、销售管理上都已形成了规范的数据采集管理:

    关于实际使用的心得,我就不展开讲了,以后再作分享。

    数据采集还涉及线上数据爬取,但这方面我了解不多,就不班门弄斧了。有意者可以参考这篇回答:如何入门 Python 爬虫?

    2、业务知识大于工具选择

    所有数据分析师都会告诉后来人“业务知识很重要”,因为大家在踩了坑之后才恍然大悟分析中遇到的很多难题问题都源于对业务的不了解。

    例如,同样是对客户进行分析,互联网电商的客户与保险客户具有明显区别,前者重视来源,活跃度,购买率,流失率,后者关注渠道,报价,理赔风险,投诉。业务知识包括这种大方向的行业知识,也包括公司内部特殊情况,了解得越详细可以避免绕很多弯路。

    例如,有些行为是内部人员参与的造成的数据异常要提前做处理,有些业务开展是带地区特性的,分析时候要区分对待等。

    而真正做分析时候,你会发现市面上有太多的分析工具,需要掌握的实在是太多了,其实不必纠结于此,依据个人能力,配合当前的数据分析环境,适用的工具自然会被选出。

    数据分析过来人都会说80%的时间都在做数据处理工作,所以数据处理能力是必须的,简单工具有Excel、SQL,复杂的有R,Python,Java。专业点的是finebi、tableau等。

    3、规范良好的数据思维

    分享几本在我成长过程中帮助较大的【数据分析书籍】

    数据分析入门第一本。通俗简单,能够让你对数据分析的相关概念有大致的了解。这本书蕴含的思想逻辑和分析原则,要好好体会,会对你以后的学习有很大的帮助。

    号称“文科生也能看懂”的统计书。阅读起来相当容易,一口气就能看完。这本书所讲的知识在数据分析中都是常见且必须掌握的,比如基本的统计量,基本上每个分析项目中都会用到;比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,都是关于数据分析的统计学知识。“HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。”“此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。”

    书中并没有讲到具体的数据分析技术,主要分析了各种产品中用到的指标、模型和“数据驱动型产品”的一些思路。

    阿里巴巴前数据副总裁车品觉所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。

    由于回答以来很多伙伴来私信一些问题,尤其最常提问“自己是否适合数据分析”,害怕自己零基础入门难,或者文科生学不会。

    我再多说一点,个人建议的是最好去尝试一下,但尝试≠立马转行,我指的尝试是去尝试入门、尝试使用。所以我推荐的一些书籍也好、工具也罢,是希望大家能从看到练,有一个系统的体验过程。

    我在回答中间也提到可以看一些免费的视频课程,除了比较常见的一些excel视频学习网站之外,一些平台开设的短期训练营也非常适合新手。

    体验一下数据分析过程中真正的思维与方法、体验一下各大主流数据工具、体验一下如何用数据分析解决商业问题……体验之后你就知道自己是不是真的适合数据分析了。

    推荐这个,偏向商业数据分析入门训练:

    个人经验仅分享,不当之处,欢迎大家补充交流~

    展开全文
  • 一直以来,我认为仓库数据统计分析,直接关系到仓库管理工作的水平。数据的统计与分析可以看出一个仓库的效率,可提升空间,有助于进行合理的工作分配和绩效考核,最主要的是能作为后续仓库整改和作业优化的重要...

    一直以来,我认为仓库数据统计与分析,直接关系到仓库管理工作的水平。数据的统计与分析可以看出一个仓库的效率,可提升空间,有助于进行合理的工作分配和绩效考核,最主要的是能作为后续仓库整改和作业优化的重要依据。

    那么仓库应当统计好哪些数据,又要进行哪些分析呢?格式是怎样的?今天在这里做一个简单的分享,让大家有个了解,并作为参考!(备注:此文不讲美观,只讲实用,所有格式中的数据仅是举例,不具有真实性!)

    数据统计

    1.数据目录

    33871e2de2f7198b28957db1fb758f8f.png
    8fdf4cae534d871b5ce4d4b085d47ab9.png

    我们可以把所有数据放在一个工作表中,以方便查阅,如上:所有的sheet命名,都可以用编号代替,在“sheet1目录”中做好链接,直接点击就可以进入相应的表格中。其中第2-14个sheet表主要是统计的信息数据,第15-21为分析的结果。

    2.货品信息统计及格式

    9b9fd33e285494ddbe260910f453264b.png

    我们要知道库存货品的编号,名称,条码等主要信息,还要知道单位,单位重量与体积,以及包装规格,这有助于我们计算库存容积,货架承载量,以及库存货物是整件还是散件,有多少整箱,零散数量等。

    3.库位信息统计及格式

    c8b45f78be9dc9f3d24765a76ca4deab.png

    要统计好这个仓库设有多少存储位,与每个储位相关的尺寸,空间,承重,所在库房,库区,以及巷道等等都对后续数据分析起很大的作用。

    4.包材信息统计及格式

    6519aec172306870a53e8e8b61f1759b.png

    发货包装用到哪些包装材料和填充材料,除了分析后续的用量之外,也能帮助核对发货重量和体积。

    5.库存数据统计及格式

    141626c2456999d25385de4bf444c24e.png

    库存数据是最主要的数据,主要统计清楚什么储位放着什么货,什么货放在什么储位,这样可以分析货品的分布,以及库位空间的利用率等。

    6.入库数据统计及格式

    c0a414a6ca739a78ff8861ecd37bbd77.png

    统计好所有货品的入库信息,什么时间来的货,来了多少。如果有记录来货时,分别入到了哪些库位,就更好了。

    7.发货订单信息

    66b0e855a4616a93f4b5787713e9b9b5.png

    主要是体现发货订单明细,每一天下了哪些发货订单。

    8.出库数据

    a0408ef408de51245cc13ae31b309589.png

    也就是发货订单分别从哪些库位出的货,尤其是一种货分布在不同库位时。

    9.作业数据

    58e23f117626045a4569bdff27b09f87.png

    所有发货是哪些人员拣配的,哪些人员复核,包装,称重的,这样可以知道每个人做了哪些事,做了多少。

    10.发货装箱明细

    8a38c4a5a94f9d6e35899ae4a4436006.png

    统计发货时每一箱装了哪些货,每种货品分别装在哪一箱,这有助于分析货品包装用料,以及核对重量和体积的准确率。

    11.包装数据

    177ab17a55520c71b933b7b3b24fa13a.png

    统计发货包装用的是什么材料,同时看出每种材料的使用量,且可以核对发货的重量和体积。

    12.发货数据

    4d660c6c961543edadd7ad478bebda48.png

    每天仓库发出的货,分别交给了哪些货运公司或快递公司,用于分析每家货运公司和快递公司的货量,以及核对运费。

    13.员工工时

    e1a9f8619613462fe4f86d38c325ab5e.png

    统计好每一天每个员工的工时,后续可以分析工作效率。

    14.区域面积

    64eaad38ac4cd2fe7645a31feb9f17c4.png

    每个仓库内部的区域划分情况,以及每个区域的面积有大。

    数据分析

    15.库存概况

    f71cf87fd83d22f7437875b168a9d2a6.png

    16.货品分析

    28ce1ebd6bed2688f3cdf23f177da8cc.png

    根据数据分析得到:每种货品在仓库占用了多少库位,尤其是累计发货频次,属于畅销还是滞销等。

    17.库位分析

    6df2bbbc245b303370ce2132801485b1.png

    分析每个库位,每个巷道的存储量,存储多少种货品,这个库位产生的拣货多不多等。同时看出货品分布是否合理,尤其是重型货架一层的货品,如果长期未动,就要考虑移走。

    18.订单分析

    6ba52b10ed67b16f8fd758ba67d16db7.png

    每一天的出入库订单量。

    7c4cf0cb1313797bca8832bd0b7a5f0c.png

    每个月的出入库量。

    6a2846aae3e6bf0eb7db6401dbdb86e9.png

    出入库整体概况。

    19.物料分析

    af4ad8fcfaa6be69a62922058d8dfc1e.png

    分析每一种物料的使用情况。

    20.货运分析

    96ddd205fb64f2ef05b653fa17f3e9db.png

    分析每家快递公司和货运公司的发货及交接工作量。

    21.员工工作情况分析

    09de5a1b26f1b5bc56f48a02458e3ff8.png

    分析每个员工累计工作时间,参与了哪些工作及工作量情况。

    对于一些职能较多的仓库,可能还涉及一些质检,验收,贴标,整理,维修等的工作量,我们统计数据无非是让我们知道,整个仓库有什么,有多少,分布情况等,以及我们做了哪些工作,消耗了多少人力和物力。同时,数据统计清楚,把分析结果做成各种图形,就更加直观了。至于如何根据数据得到分析的结果,以及如何优化,欢迎收听或参加仓储匠人培训!

    总之呢,仓库职业经理人要对整个仓库做到心中有数,同时让老板也能清清楚楚,我想这应该算得上是称职的仓储职业经理人了!

    至于如何根据数据得到分析的结果,以及如何优化,欢迎参加仓储匠人培训!

    参加仓储匠人培训您将获得:

    1.学会管理各种类型仓库的方法;

    2.学会统计分析仓库各作业数据;

    3.掌握仓库作业优化方法和思路;

    4.学会制作工作常用的表格程序;

    5.学会制作仓库可视化效果图等。

    课程赠送:仓储匠人原创表格程序69例+课程PPT。

    2019年时间安排:

    3月:

    (1) 厦门站 3月23日-24日(周六,周日)

    培训地址:厦门市集美区软件园三期凤歧路200号极风网络科技培训室

    (2)杭州站 3月30日-31日(周六,周日)

    培训地址:杭州市西湖区三墩镇西园路10号尚坤生态创意园A111室

    4月:

    (1) 济南站 4月13日-14日(周六,周日)

    培训地址:济南市天桥区明湖西路1146号乔景商旅酒店

    (2) 广州站 4月20日-21日(周六,周日)

    培训地址:广州市黄埔区双沙工业区富达路99号怀远物流培训室

    (3)北京站 4月27日-28日(周六,周日)

    培训地址:北京市通州区潞城镇武兴路8号腾玥云仓培训室

    5月:

    (1)长沙站 5月11日-12日(周六,周日)

    培训地址:长沙市芙蓉区宇成朝阳广场T1栋麓枫酒店会议室

    (2)重庆站 5月18日-19日(周六,周日)

    (3)吉林站 5月25日-26日(周六,周日)

    6-12月:

    郑州站、上海站、天津站、青岛站、沈阳站、西安站、南昌站、贵阳站、温州站、苏州站、深圳站

    开课时间:

    第一天:9:00-17:30

    第二天:8:30-16:00

    仓库管理培训大纲

    第一部分:仓储匠人十八年实战经验

    1.管理仓库首先要弄明白什么是物流;

    2.仓库管理者要有怎样的供应链思维;

    3.为什么工作计划要围绕这七个要素;

    4.运营好一个仓库需要具备哪些条件;

    5.仓库管理者带好团队当先扪心自问;

    6.仓库规划思路通常要考虑哪些区域;

    7.管好仓库我们要了解仓库哪些信息;

    8.对货品熟悉要从哪些方面进行分析;

    9.仓库管理者每天应当关心哪些数据;

    10.仓库日常管理中用到哪些号表账图;

    11.库存和库位账的重要性与制作方法;

    12.管理仓库如何用好流水号与流水账;

    13.仓库管理者需要画好哪些图怎么画;

    14.仓库现场的管理我们常用哪些方法;

    15.仓库优化不离一分为二法和编号法;

    16.仓库要做到先进先出有哪些好方法;

    17.为什么现场管理要强调待正已待完;

    18.盲人思维与自动化思维给我们启发;

    19.RFID技术与思维帮你解决疑难问题;

    20.库存货品整零分开与ABC分开管理;

    21.动态盘点与低水位盘点及盘点技巧;

    22.仓库管理要用包装规格发挥大用途;

    23.仓库条形码的编码与制作打印技巧;

    24.货卡在仓库管理中的应用如何延续;

    25.库位编号技巧与拣货路径距离计算;

    26.大宗货品整进整出时库位规划方法;

    27.仓库货品堆码计算隐藏着哪些学问;

    28.货品出库复核包装需要考虑哪些点;

    29.提高员工诚信度责任心用什么方法;

    30.仓库管理中绩效考核有哪些好方法;

    31.为什么仓库管理要与运输紧密联系;

    32.如何全方位无死角的提高仓库效率。

    第二部分:管理者实用计算能力提升

    1.货品快速上架时库位选择计算方法;

    2.分批到货时拣货与分拣单制作方法;

    3.分区拣货与按人数平均拣货单制作;

    4.一货多位时拣货单与标签拣货方法;

    5.如何自制可视化扫描分拣播种程序

    6.整车到货大批量货品越库方法计算;

    7.独创播种发货单优化制作技巧讲解;

    8.大宗货品仓库布局和库位设计案例;

    9.货品托盘混码混箱时货品配发方法;

    10.不同黄金包比例货品配发计算方法;

    11.服装退货整理依靠怎样的计算能力;

    12.各种仓库库存账的制作思路与方法;

    13.数据格式转换与数据分析程序制作;

    14.移仓扫描装箱与分拣理货程序制作;

    15.盘点扫描数据统计与差异提取程序;

    16.运输方式选择与运费结算程序制作。

    实实在在的内容,报名通道在这里,点击文末”了解更多“,即可参与报名。

    作者 | 仓储匠人:叶剑

    来源 | 物流沙龙

    此文系作者个人观点,不代表物流沙龙立场

    展开全文
  • 将mysql的数据转存到Hadoop实时统计分析,应该采用怎样的解决方案

    转自:点击打开链接https://www.zhihu.com/question/50367525


    首页发现话题
    Hadoop
    HBase
    Hive
    大数据
    Spark

    将mysql的数据转存到Hadoop做实时统计分析,应该采用怎样的解决方案?

    数据主要是公司开发的API的外界调用信息,然后将信息统计好制成图形放到网页上,信息包括总调用次数、用户数、平均响应时间、终端等等等。然后现在提供了按年、月、日 (按日统计是个日期区间,类似2016/5/12-2016-7/2) 的统计形式,类似运营商提供的统计每日通话时长功能。

    由于现在数据量大起来了,每日增量负荷也越来越大,导致mysql在按天统计显示结果时页面得相应好久好久。部门内部考虑把数据迁移到Hadoop上,可是Hive响应速度有点慢,HBase对统计工作又不是特别友好,所以请教一下大家有没有对工具或解决方案方面的建议或意见?
    关注者
    106
    被浏览
    6344

    20 个回答

    使用mysql慢的原因是查询操作太复杂,需要计算量太大。
    所以,想办法让mysql里存的是你要展示的数据,不需要什么复杂统计,就能快了。
    让mysql里存你要显示的数据的方法一般无外乎先把原始数据存一个地儿(例如hdfs或者msyql另一个表中),然后定期起一些任务从这些原始数据算出你要展示的数据,存到mysql里。
    具体要不要用hadoop我倒感觉你们数据量可能还没大到必须要用,前期就定时起单机程序或者直接用mysql的event都行。

    另外,你标题中说要做实时分析,实际上,但我看你需求,认为实时分析可能是没必要的,定期(如每小时)启动任务处理上一个小时的数据即可。如果确实有实时需求,可能需要每个数据产生时发送给一个程序来处理(数据量太大时可以使用flink或storm等分布式流式计算系统),将处理的结果写入结果mysql中。不过这样做会使系统复杂度提升很大(一般流式处理实现起来都比批量处理复杂很多),如果可以批量能满足需求,应尽可能选用批量处理。

    2 条评论

    RunshenZ
    RunshenZ4 个月前
    这个是ETL吧?(extract, transform, load).
    知乎用户知乎用户3 个月前
    不是etl,是bi. 应该是需要一个dashboard.
    可以试试tidb 支持mysql协议 处理这种query会比mysql好不少
    为什么不用elasticsearch
    给出一种实践过得方案:
    1.数据可以直接存放到hdfs。如果是日志文件可以用flume等工具传输,如果数据存在关系型数据库中可以选择使用sqoop导入hdfs
    2.数据在hdfs上就好办了,你可以写mr或者干脆用hive计算统计结果,最后的结果数据应该是很少的。
    3.将上面的结果数据倒回到MySQL(这里有很多方法可以选择),用来做在线查询
    over
    N+1的数据的统计结果应该是不会变的吧? 直接加cache。
    用es就可以了,可以先把mysql数据灌到hive 上,作etl处理,然后创建基于es的hive 外部表,把数据灌到es

    从技术角度来看,mysql足够应付大中型数据。 但是你要看具体统计一下每天的数据增量和是否真的有必要保存那么多数据统计中。用hadoop不是为了快,而是因为mysql或者oracle都无法及时处理这么巨量的数据。是能和不能的区别。
    还有一些小公司用hadoop,那是政治考量。或者说前瞻性考量。

    我同意张云聪的建议。

    而且,其实你可以做一个summary的表,然后summary还有summaryhistory,这样可以保留每一天的结果。甚至按小时,分钟来保留,对数据库来说都是小菜一碟。
    每天统计时候,只需要做增量统计就可以了。速度肯定是飞快的。
    当前yelp开源了一套实时流的数据处理框架就支持将mysql导入至kafka中处理。engineeringblog.yelp.com
    用elasticsearch是个好办法
    可以每天先批量跑出结果数据放到mysql中,这样就只需要一些简单计算了
    如果来源数据是实时产生的,可以考虑storm或spark streaming这样的流处理器实时的做计算
    总之就是先把复杂的计算通过流式处理或提前批量的方式算好得到一个中间结果,这个中间结果中包含的数据应该就是极小且不需要很多步骤就可以得到最终结果的
    最后,按照你需要的方式,考虑包括elasticsearch、mysql、redis之类的存储
    你们一定在寻找一个关系性数据库的使用习惯,但是同时能兼顾容量扩展的数据存储系统,找了一圈发现hive是做离线数据处理的太慢,hbase做实时的够快,但是和自己系统MySQL的使用习惯相差甚远。
    首先,我觉得,你们一定要考虑明白到底需不需要用hadoop,数据量少的情况下用hadoop不一定比MySQL快。如果只是单纯想加快hive的速度,那么推荐试试impala,如果公司内部大部分程序员还是关系数据库的设计方式和开发习惯,那么推荐试试greenplum。
    最后说一下,还是不要简单认为上了hadoop,你们系统的性能一下就提高了,就能满足MySQL搞不定的东西,不是这样的。
    如果是个实时监控分析的需求的话,那可能需要搭一套实时OLAP的系统了,mysql就用来存一些结果数据和web server就好了。实时计算的话可能需要搭一套storm/samza/flink了,然后用flume专门来采集下数据。如果没有这么实时的需求的话,离线的嫌慢就把hive换成spark吧
    大概四年前,我们使用sqoop来做hadoop和mysql的数据转换
    使用greenplum
    难道不是用impala吗,多准备点内存。
    如果数据是需要增删改的用hbase存储,然后使用hive外表关联 ,用hive算出结果在导回mysql,目前基本都这样玩。
    可以将细粒度的数据保存到hdfs上,小时天等聚合粒度的数据导回到mysql做在线查询
    推荐一个工具clodera还是coldera来的 突然忘记了, 我是做oracle与hadoop实时交互的 没有做过mysql oracle与hadoop实时交互用的是odch组件,mysql应该会有相同的组件,这个没有了解过。一点点意见。。。
    耶!我又被要请回答这种程序员的问题了诶!可是我什么都不知道
    我们公司用的一套东西叫做,ETL,适合离线计算。

    这个在MySQL上本来就有现成的解决方案吧。

    hive这种东西也拿出来说。。。你们没人懂大数据吗

    需求说的不太明确,所以我也没法明确的给方案。。。你可能会用到,mycat canal/ogg storm drill MySQLcluster ignite kyrin,总有一款适合你

    cloudera附赠的那几个导数据的小东西我就不提了

    1 条评论

    Joker
    Joker4 个月前
    cloudera-scm-agent起不来,log日志也没有,只有out文件,out文件表示Python问题;cm安装过程报错无法安装cloudera-manager-agent包,yum源找不到镜像或者相关包,怎么破
    下载知乎客户端
    与世界分享知识、经验和见解
    相关 Live 推荐
    不可不知的 HBase 高级实践
    高端数据科学家养成
    实用统计分析与 R 入门(一)
    如何通过数据分析提升互联网流量的价值?
    「能源大数据」如何玩转光伏大数据
    刘看山知乎指南知乎协议应用工作
    联系我们 © 2017 知乎

    展开全文
  • 原标题:震惊!数据分析还能这样数据分析概述数据分析完整工作流程关于数据分析的大体流程这里以图形的...传统的统计方法是先假定数据服从某种分布,然后运用这种模型进行预测,以概率论为基础,参数检验。...

    原标题:震惊!数据分析还能这样做?

    数据分析概述

    数据分析完整工作流程

    关于数据分析的大体流程这里以图形的形式展现给大家,就不做过多的讲述。

    数据探索与相关性分析

    这一部分是直接从数据分析工作流程中的数据整理与清洗开始。

    数据探索,探索性数据分析(Exploratory Data Analysis),简称EDA。传统的统计方法是先假定数据服从某种分布,然后运用这种模型进行预测,以概率论为基础,做参数检验。而EDA则是强调数据,“抛开”概率的理论,从数据出发,主要手段是汇总统计,可视化。

    在进行EDA时,我们可以分为三个阶段,分别是:

    数据概况分析

    单变量分析

    多变量分析

    用图形来展示如下:

    接下来跟大家简单的分享一下数据探索性分析的流程,下面的所有过程都会使用到Python的pandas包。

    数据概况分析

    在数据概况分析阶段,我们主要了解数据整体的基本情况,比如数据的离散程度,数据的分布等,以及数据中是否存在异常值/缺失值。这里以二手车价格预测的数据来做个例子。(代码看不懂没关系,看结果就好,不妨碍理解)

    结果如下图所示。

    count:该属性下数据的总数;

    mean:平均数;

    std:标准差,数据的偏离均值程度;

    min~max:中间是四分位数,用于判断样本数据的分布情况和离群值等;

    注:上面的描述统计针对的是数值型的变量,不包含类别型变量。

    对于类别型的属性,首先查看一下这个属性有什么类别,如果类别数量不多的话,后面可以考虑将它转变为哑变量方便分析和建模。

    类别型的统计描述与数值型的数据不一样,具体如下图所示。

    类别型数据描述统计的参数含义是:

    unique: 唯一值数

    top: 频数最高者

    freq: 最高频数

    单变量分析

    连续型数值变量分析

    这里我们拿二手车数据的price字段来举个例子,见下图。

    无论是单变量分析还是多变量分析阶段,都需要做大量的图对变量进行分析,因为通过图形的展示能够更加的直观看到问题所在。除了上面的直方图,我们还可以采用箱线图对数据进行可视化分析。

    通过可视化分析后,如果数据存在离群值,我们可以看看它在数据中的占比,再酌情删除,避免其对后续的模型构建造成影响。

    如果变量数据存在缺失值,我们会看看缺失值占比,如果占比不高,我们可以通过填充均值的方式(适用于数值型(连续型)变量)来对缺失值进行填充。

    离散型变量分析

    对于离散型变量,我们可以用value_counts()函数来统计各类别数量和占总数比,也可以用直方图来进行可视化分析,如下图所示,X轴即为离散型变量的值。

    如果离散型数据的类别过多,我们可以用先验知识查看各类别型数据,找到其区分点,对其进行一个特征衍生。

    举个例子,如下,是邮箱属性下的类别数值。

    假设通过先验知识,我们得知到某个邮箱类别是匿名的,那么我们就可以将这个邮箱属性里的类别分为两类,一类是无匿名的,一类是匿名的,经过处理后,便衍生除了一个新的特征——邮箱是否匿名,同时也方便了对值多的离散型变量的处理。

    相关性分析

    一般来说,相关性分析是我们建模前的最后一个步骤。为什么要相关性分析呢?

    当特征(属性)间的相关性达到0.99甚至1这种程度时,需要对特征(属性)进行删除处理。当特征(属性)相关性高时,模型会偏向采样这些高相关的特征,导致最后模型会依赖这些相关性高的特征,最终结果就是降低模型的泛化性能。

    通过删除高相关性的数据,一方面可以节约内存,另一方面可以提高算法模型的泛化能力。

    关于计算相关性的一个问题

    最好使用全量数据进行相关性计算。

    Pandas的corr函数(采用的是皮尔逊相关系数)计算相关性存在一个问题,就是如果两个特征存在较多的缺失值,那么计算出来的结果的偏差是很大的。举个例子:

    相关系数只会计算二者都不缺失的位置,对于上面的相关性计算来说,也就是5,那么算出来的结果是1。

    显然这是错误的,所以我们要先进行缺失值的搜索,把缺失值恰好完全相同的特征放在一起,这样后续我们进行相关性的计算才是合理的

    类别型数据的相关性无法使用皮尔逊相关系数去计算,需要使用一些特殊的指标去衡量。

    相关性分析的可视化结果如下,采用的是热力图。

    关于相关性高特征删除的一个问题

    当两个特征,假设C1和C2两个特征相关性达到0.97,那么此时该删除哪个特征呢?

    看C1和C2完全不相同的取值有多少个。

    这里选择删除C4,对于数来说,取值不同的越多,相对来说可能分裂的地方也就越多,也就意味着这个特征包含的信息量越多。

    当然也可以看特征的IV值,但是较为麻烦,计算耗费时间,还不如用上面的方法,更加方便快速。

    建模

    一般情况下,在经过探索性数据分析和相关性分析后,我们就可以利用数据进行建模分析了。在建模分析或者说数据分析开始前,我们第一个需要明确的,就是我们为什么要进行数据分析,我们数据分析的目的是什么?

    拿二手车价格预测举个例子,我们对二手车的数据进行分析,目的就是为了预测某种类型的二手车它大概能卖多少钱?这就是我们建模中的因变量——价格。而二手车的型号、品牌、使用年限等数据就是自变量。

    对于建模来说,我们不需要一股脑的把所有的自变量都加入模型当中,并不是喂给模型的自变量越多出来的模型就越壮,它可能会被“撑死”,即表现为训练出来的模型效果不好,跟瞎猜没两样。

    我们自变量的投喂是要依据前面的相关性的分析,去除高度一致(相关性高)的自变量中的一个,选取与因变量的相关性高的自变量,来进行建模。

    而对于建立的模型的选择,根据你的目的,如果你是对一连串数值的预测,你可以选择线性回归模型,也可以选择CART算法的回归树模型。

    如果你是想预测分类数据,且是二分类的问题,比如预测用户是否购买,则采用二元逻辑回归模型,当然,也可以采用使用CART算法的分类树模型。

    如果你是想建模解决多分类问题,则也可以采取建立多个决策树模型来解决当然也可以采用多元逻辑回归模型。

    如果你是想解决空间数据的分类问题,那么SVM算法模型是个不错的选择。

    当然以上都只是我个人的建议,模型并不只局限上面几种。

    模型评估

    输出为连续型数值的模型评估

    建立好模型后,我怎么知道模型的优劣呢?这个时候就需要对建立好的模型进行一个评估,相应的,python的sklearn库中就有相应的评分函数,我们可以调用来计算。

    对于模型输出的结果是连续的数值类的模型,我们通常采用偏差均值和绝对值差均值来衡量模型的效果。通过将数据切割为训练集和测试集,测试集的数据拿来进行测试,训练集的数据拿来进行训练模型。

    训练集数据训练出来模型后,将测试集的数据投喂给模型,最后得出模型预测的测试集的因变量的数值,我们用Vt表示,而测试集原来的因变量用Vd表示

    则绝对值偏差均值为:

    则二乘偏差均值为:

    模型优化的目标就是使得绝对值偏差(LAD)均值,或者二乘偏差(LSD)均值最小。

    对于无划分测试集的输出问连续型的模型评估

    这里可以采用K折交叉验证的方法,详情可以自行百度,这里不多解释。

    输出结果为离散型数值的模型评估

    这里的模型指的就是分类问题的模型,这类模型一般输出结果固定为0(是)或1(否),可以通过划分训练集,测试集的方法直接比对结果就可。

    模型优化

    对于评估效果不好的模型,一般我们会调整模型的自变量,带入不同的特征(自变量),看看哪个自变量组合对模型输出的结果的准确率最高,就拿哪个自变量组合作为建模变量。

    此外,还可以调整模型的迭代次数或通过数据进行一些变换处理,使得模型得到优化。

    这里拿二手车价格预测的模型优化前后的可视化展示来做个例子。

    这是一开始的模型结果可视化图。

    红色的线条是测试集因变量的数据,蓝色的线条是模型预测的测试集的因变量数据,可以看到两种颜色的线条差异较大,说明模型效果并不好。

    通过对数据进行一些变换处理后的模型结果可视化如下:

    可以发现,经过处理后,模型的性能得到了很大的优化。

    模型的优化方法还有很多,我这里就不一一列举了,今天分享的内容就到这里,希望能对大家有所帮助。

    大家可以关注我的个人网站,搜索everweekup,后续会有更多干货和大家分享!

    码字不易,希望大家如果觉得“文”有所值,帮忙我转发一下吧,谢谢大家!返回搜狐,查看更多

    责任编辑:

    展开全文
  • 这边系统大致情况: 外业人员每人一个手持终端,大约在线同时有200多号人,然后每一个终端隔一段时间...但是还是不能解决问题,当这个表有几千万条数据时,做统计分析功能很慢,因为还要关联别的表,group这种常用...
  • Druid (大数据实时统计分析数据存储)

    万次阅读 2016-12-18 09:48:14
    原文见此 : Druid White PaperDruid 是一个为在大数据集之上实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级...
  • 在地统计分析模块的安装盘上,附有本次联系所需要的数据。这些数据包括: 数据集 描述 Ca_outline 加州轮廓图 Ca_ozone_pts 臭氧采样点数据(单位:ppm) Ca_cities 加州主要城市位置图 Ca_hilshade 加州山体阴影图 ...
  • 数据分析是指利用适当的统计分析方法,对大量收集到的数据进行分析,提取有用的信息,形成结论,对数据进行详细的研究和总结的过程,也是质量管理体系的支撑过程。那么数据分析的具体流程是什么呢?主要有以下几个...
  • BI就是数据分析吗?两者的关系是怎样的?BI是如何进行数据分析的?要知道,数据分析与BI并不是完全等同的关系。本文就来解读数据分析与BI。 675bbec1dd125d2 ...数据分析(DA)是用适当的统计分析原理,在专...
  • 节前写了一篇文章,通过统计指标分析渠道投放的效果(点击链接查看),今天想说下怎样辨别渠道作弊,分析渠道的效果,还有反作弊手段。欢迎拍砖。 有的运营人员渠道投放,每个渠道都投放了,点击量特别高,但激活...
  • 费用都花光了,但是效果没有出来。自己做数据分析,但是却得不到结论。 我们做数据分析的前提...获取准确的数据,首先需要我们选择靠谱的统计分析平台。即便在平台靠谱的情况下,也有可能出现一些不靠谱的情况。俗...
  • 友盟:教你如何使用统计分析工具运营 数据能真实的反映一款APP的运营状况,帮助开发者进一步了解产品、了解用户。统计分析工具基本上已成为APP开发的标配。但新的问题是,面对如此多的数据报表,该关注哪些指标...
  • 原标题:Python 爬取分析全国 12 个城市...通过对二手房作数据分析,得到北上广深等(新)一线城市四地房价的纵向比较,同时对各个城市各个区的房价横向对比,并将对比结果可视化出来。主要用到的库或模块包括 Reque...
  • Druid 是一个为在大数据集之上实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级以内对十亿行级别的表进行任意的...
  • 不管是数据分析,统计分析数据挖掘、商业智能都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过,学习方法,一般是先学软件开始,再去应用,再学会理论和原理。没有软件工具的方法...
  • ...费用都花光了,但是效果没有出来。自己做数据分析,但是却得不到结论。   我们做数据分析的前提是...获取准确的数据,首先需要我们选择靠谱的统计分析平台,平台的选择可以参考我的前一篇文章。即便在平台靠谱...
  • 数据分析师作为未来的“潜力股”行业,非常值得大家学习,那么成为一名数据分析师需要些什么呢? 数据分析师,需要什么样的资格: 统计分析 数学 计算机科学 信息管理 商业信息系统 财经 统计学 ...
  • 是抽象的统计公式吗? 是繁琐的数据来源吗? 以上都不是!老板们真正关心的是能直观体现企业的经营状况:盈利能力、营运能力、偿债能力、发展能力的财务分析报表。 先贴出三张根据不同商业需求做出的可视化财务...
  • 2019-06-12 08:27:38 “产品经理的5分钟统计课” “产品经理的5分钟统计课”是一个系列,记录了一些事后反思,针对产品经理理解运营数据的日常。...我们不是专业的数据分析师,也不需要一把...
  • 数据分析师,需要什么样的资格:统计分析数学计算机科学信息管理商业信息系统财经统计学市场营销管理财务或投资等等数据分析师主要职责是什么:将花费大部分时间沉浸在原始数据中,试图找出如何最好地使用它来驱动...
  • 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(三):看图像识选手 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(四)...
  • 相信大家身处职场,最常听到的一句话就是:“请你用数据说话。...回到正题,制作页面模板只是最基础的一个步骤,在页面模板发布以后,我们最终还是要回归到数据上来,通过分析页面模板的UV 和PV才能帮助我们更好地了...
  • Druid实时大数据分析

    2018-11-16 14:23:43
    Druid 是一个为在大数据集之上实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级以内对十亿行级别的表进行任意的探索...
  • 是搜素还是直通车,只有分析好竞品的数据,最好统计最后总结出对手的玩法,我们才能够结合自己的资金和供应链,后期进行有计划的阶段性的制定不同的运营方式。查看完品的各项数产品竞争优势分解日据。找出自身的优势...
  • 分享给大家看下,如果是你,会如何做数据分析方案?01 仓储成本如何计算?相较往年,物流进程明显提前,付定金之后,货物已经进入配送,尾款之后立即到货。快速到货的商品,用户的退货概率较小,超前发货降低的仓储...
  • 从零开始学数据分析,什么程度可以找到工作?( 内附20G、5000分钟数据分析工具教程大合集 )   我现在在Coursera上面学data science 中的R programming,过去很少接触过...4.想要深度做数据分析怎样的建议?...
  • 最近在思考怎样使用经普数据,进行分析并一些有意义的研究,正好在国家统计局的网站上看到了第二次经普资料的开发培训教材,就转了一篇关于统计分析基本方法的文章。 经济普查资料开发应用的基本方法 ...
  • 在观察、使用统计数据时,类似“大数据时代怎样用好数据”这样的话题,再次引起人们的关注。 7月20日出版的《人民日报》,刊发了清华大学统计学研究中心主任刘军做客人民日报、人民网《文化讲坛》时,对相关问题所...

空空如也

空空如也

1 2 3 4 5 ... 9
收藏数 173
精华内容 69
关键字:

怎样做数据统计分析