精华内容
下载资源
问答
  • 创业公司做数据分析)开篇

    万次阅读 多人点赞 2016-12-01 23:14:06
    作为系列文章的第篇,本文采用“WHY->WHAT->HOW”的思考方式来介绍三点:1. 创业公司为什么需要做数据分析?2. 创业公司做数据分析,需要哪些事情?3. 如何实现这些数据上的需求?

     

          了解“认知心理学”的朋友应该知道:人类对事物的认知,总是由浅入深。然而,每个人思考的深度千差万别,关键在于思考的方式。通过提问三部曲:WHAT->HOW->WHY,可以帮助我们一步步地从事物的表象深入到事物的本质。比如学习一个新的技术框架,需要逐步搞清楚她是什么、如何使用、为什么这样设计,由浅入深。

        “WHY+HOW+WHAT”,是笔者最钟爱的一种思维模式。其使用方法不仅限于上述认知过程中的思考方式,通过不同的顺序组合,可以使用在不同的场景。比如,在筹划一个项目时,采用“WHY->WHAT->HOW”的思考方式,先搞清楚为什么要做这个项目,然后是需要做哪些工作来完成这个项目,最后考虑怎么做、技术选型。这个思考方式也将被广泛使用在本系列的各个文章中。

           在过去的一年里,笔者加入了一家移动互联网创业公司,工作之一便是负责数据业务的建设,陆陆续续完成了一些数据系统的实现,来满足公司的数据需求。在创业公司中做数据相关的事情,而且是从零做起,肯定不像很多大公司那样分工明细,所有的工作都要保证在有限的资源下来满足需求。回想起来也蛮有意思,因此想做些总结分享,结合我们的系统来谈一谈如何做数据分析。如果有写的不好的地方,还请网友指正。

           作为系列文章的开篇,本文将按照“WHY->WHAT->HOW”的思考方式来阐述下面三个问题:

    1. 创业公司为什么需要做数据分析?

    2. 创业公司做数据分析,需要做哪些事情?

    3. 如何实现这些数据上的需求?

            随着移动互联网的发展和大数据思维的普及,越来越多的创业者、投资人开始重视数据的作用,而不再是随便拍脑袋。“数据驱动决策”、“精准化运营”、“产品快速迭代”这些概念被越来越多的人提出和使用,其背后都离不开精准的数据分析。对于大多数互联网创业公司来说,其背后没有强大的资源与财主支撑,如何在有限的人力、物力下快速摸索、少走弯路是至关重要的,而基于“数据驱动”来做决策、运营与产品将起到一个关键的作用。让我们来看两个例子。

    【例一】

            微信公众号早已成为各家运营的主战场之一,利用微信的关系链来转发H5海报页面是众多线上活动和拉新的一个重要方式。然而,不管是做某个线上推广活动,还是通过线下某个渠道引导用户分享、注册,我们都需要指标来衡量活动效果,从而摸清运营的方向。数据,便是关键!该活动带来的浏览量、分享量、新注册用户数、用户留存率都是重要的指标,而这一切都离不开有效的数据追踪与分析。如果同时有100个这样的渠道活动,如何统筹各个数据分析也将是一件无法忽视的事情。(下图呈现的是某次活动的传播网络的一部分)

    【例二】

           每逢节假日,国内各个旅游景点都是人山人海,尽管大家都知道外出游玩会遭遇这种情况,但是还是抱着一丝侥幸心理出行,毕竟好不容易有了假期嘛。在今年十一时,笔者就曾利用百度景区热力分布图来提前观察,从而避开了一些高峰期和人满为患的景区,大家不妨也试一试。

           回到正题,对于很多创业公司,特别基于LBS提供服务的企业来说,都期望搞清楚“用户在哪里”、“哪里是用户感兴趣的地方”,从而摸清早期的投入方向,毕竟全面开花、四处征战的方式是不适于创业公司的。通过位置数据,来分析用户集中在哪些区域,主要分布在商业区还是高校,是否受到交通因素影响等等,当然,具体需要结合业务来做了。另一方面,还可以聚合出用户的常驻位置,可以对用户位置与商户位置的距离进行分析等等,从而形成推荐方案,优化产品与服务。

           对于大多数互联网创业公司,在做数据分析时,一定要结合自己的业务,把握一个度,在投入可控的范围内达到效果即可。数据深度挖掘、机器学习、推荐算法等等,这些技术名词背后都需要投入一定的人力、物力来支撑,即使是大厂来玩,产出也相对有限,而且很多时候实际工程效果不尽人意。举个列子,很多高端的“推荐算法”在投入使用后,其效果远不如“看了又看”来的简单有效。当然,如果你的公司就是做数据这方面的业务,那是另一回事了。

           要搞清楚需要做什么,不妨先结合自身业务思考一下,现阶段自己需要什么数据来驱动决策、运营与产品。具体业务方面的数据需求,各家都不一样。从笔者接触的情况来看,早期大部分的数据需求集中在两块:运营数据的统计分析、产品使用情况的统计分析。后期随着产品线的发展,一般会延伸出一些与产品相关的数据业务,比如线上推荐。

          从流程上看,需要做的事情集中在三部分:数据采集、数据处理和数据可视化,伴随着数据的变迁:原始数据->分析结果->图表呈现。首先,基础数据源的建设是做好数据分析的关键,因为如果数据源本身出了问题,那么后面做的所有工作都是没有意义的,而且如果没有提前做好数据采集,后期想做分析时也没有数据可做。其次,数据分析的最终结果是需要呈现给别人看的,可能是公司高层,也可能是市场业务人员,直接将一堆数据丢给他们显然是不现实的,通常都需要转换为图表的形式,这便是数据可视化的工作。而从原始数据源到分析结果的过程,便归纳为数据处理,其涵盖了数据提取、数据建模、数据分析等多个步骤。

            现如今国内的互联网环境发展的越来越好,第三方服务提供商越来越多。所以很多情况下我们都有两个选择:接入第三方、自己做。

          数据分析这块,便有很多第三方服务,笔者将其划分为传统数据统计服务与新兴的数据公司。前者以百度统计、google analysis为代表,通过嵌入其SDK在前端采集数据,在后台便可以查看相应的统计数据。这种方式的好处是简单、免费,使用非常普及,是很多初创企业的首选。缺点也很明显,一是这样的统计只能分析一些基本的访问量、点击率、活跃用户量,满足基本需求,无法结合业务数据来做深度分析;二是需要在前端很多地方埋点上报,耦合性较强;三是数据存储在第三方的服务器中,无法直接获取到数据源。后者以神策、GrowingIO、诸葛IO为代表,这些公司也正是看到了传统数据统计服务的缺点,从而提出相应的解决方案,各有特色。但是,需要不菲的接入费用,私有部署的费用更多,而这笔费用对于一个初创企业来说,还是蛮多的。另一方面他们更加侧重于电商领域的数据分析,因为这个领域的分析模式已经基本成型,适合做成模板来使用。

          选择自己做的话,可以结合自身的业务,做的更灵活,同时也可以尽早摸索数据业务,逐步建立相应的数据系统。当然,自己做并不代表是造轮子,而是要充分利用开源框架来实现相应的功能。

          鉴于各家的业务都不同,而抛开业务谈架构都是耍流氓,所以在接下来的文章中,笔者将结合自己接触的业务来探讨一些数据系统的实现。下图所示便是现阶段我们的数据系统架构,主要分为数据采集、数据处理与数据应用三层。从下往上,数据采集层负责从前端App、H5页面、服务器日志采集数据,通过Kafka接入后存入Elasticsearch与neo4j中,同时业务数据库也是很重要的数据源;数据处理层负责数据的抽取、清洗、建模,然后存入MongoDB与MySQL中,整个过程由Airflow任务调度管理系统来进行管理与监控;产出的数据最终提供给应用层使用。也许有人要说,连Hadoop都没用到,怎么号称自己在做数据分析呢。笔者曾经也做过考虑和尝试,最终暂时搁置了Hadoop,主要是数据增长相对缓慢并且没有很明显的需求,目前这个架构可以在较长一段时间内应对数据需求了。

     

     

     

    (本文完,地址:http://blog.csdn.net/zwgdft/article/details/53244366

    Bruce,2016/11/30

     

     

    展开全文
  • 相信不少人在实验或者嵌入式软件测试的时候会遇到需要利用FFT进行频谱分析的情况,我们通过Simulink仿真可以快速地进行简单的频谱分析可以省去写堆代码(当然用matlab代码实现也利于我们理解FFT相关原理、...

    相信不少人在做实验或者做嵌入式软件测试的时候会遇到需要利用FFT进行频谱分析的情况,我们通过Simulink仿真可以快速地进行简单的频谱分析,可以省去写一堆代码(当然用matlab代码实现也利于我们理解FFT相关原理、参数和解算过程)。
    本文主要针对从实际示波器获取的数据或者从单片机/微控制器发送至电脑的数据进行分析,它们的共同特点是数据均来源于matlab外部。

    具体操作流程

    1.导入数据到工作区

    这里以单片机发送给电脑的数据为例,首先将接收到的采样值暂时存在EXCEL里面(这里只发送了采样值数据,已知采样频率)。然后打开MATLAB命令行建立两列数据(也可以创建一个.m文件),分别是采样时间点和每一个采样时刻对应的采样值。通过 ts=(0:0.00005:0.05)'可以建立一个时间值的列向量,其中0是起始时刻,0.00005是步进值(取决于我们的采样频率,此处20kHz),0.05是终止时刻,这些取值根据实际情况自行改动, ’ 是表示转置为列向量;然后建立采样值的列向量ia=0(任意给个初值),我们在工作区点开该变量,通过复制我们ECXEL里面的采样值到该变量的表格里完成其赋值(这里也可以通过“导入数据”进行)。
    将时间和数值导入工作区

    2.建立仿真模型

    创建一个simulink仿真模型并保存,在模型中导入“powergui”、示波器“scope”和“From Workspace”,使用“From Workspace”将数据ts和ia输入到示波器中。
    alt此时我们运行仿真便可在示波器上看到波形。
    alt

    3.设置示波器数据输出

    点击示波器左上角齿轮图标,设置‘Configuration Propeties’的Logging项,选中log data to workspace,创建变量名(自定义)和保存形式(设为Structure With Time)。保存simulink文件,并仿真一次。
    alt

    4.打开FFT分析工具

    双击powergui,选择FFT分析工具,在可用信号中选择刚刚自定义过名字的那个信号,设置好起始时间,周期数,最大频率等参数就可以点击Display就得到了FFT分析结果。
    在这里插入图片描述alt

    PS.

    当发现FFT工具下没有可用信号时需要设置一下菜单栏的*simulation>>model configuration parameters>>Data Import/Export>>single simulation output*,前面的勾勾取消掉,再重新仿真一次就可以在FFT工具的Available Signals窗口看到变量了。

    因为本例中信号值数据来源于仿真文件外部,所以要事先导入,示波器来源的数据也是类似的操作,只不过它既有时间也有采样值,都无需自己建立时间轴数据。如果是利用仿真框图搭建的电路,直接对电路中的信号进行FFT的话则从上面第3个步骤开始即可。
    本实验所用Matlab版本为2019a。以上内容由博主亲测有效,第一次写博客,疏漏出错之处望批评指正。

    致谢!本文参考的链接如下:
    [1] https://blog.csdn.net/tuxinbang1989/article/details/80593502.
    [2] https://blog.csdn.net/jiekencuo5135/article/details/97235233.
    [3] https://ww2.mathworks.cn/matlabcentral/answers/472454-fft-analysis-through-powergui-block-is-showing-empty-in-signal-options.
    [4] https://wenku.baidu.com/view/cc7fb7a6172ded630a1cb600.html.

    展开全文
  • 数据分析数据质量分析

    千次阅读 2018-11-19 11:03:35
    数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析数据。脏数据包括以下内容: 1、缺省值 2、异常值 3、不一致的值 4、重复数据以及含有特殊符号(如#...

    数据分析的前提就是数据的质量,一个好的数据质量才是数据分析可靠性的必要保障。今天就来讨论一下数据质量的分析:

    数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:

    1、缺省值

    2、异常值

    3、不一致的值

    4、重复数据以及含有特殊符号(如#、¥、*)的数据

    第一点:缺失值分析

    首先来看一下缺失值是指怎么产生的:

    1、有些信息暂时无法获取,或者获取信息的代价太大

    2、有些信息是被遗漏的,人为或者信息采集机器故障

    3、属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入

    缺失值的影响:

    1、会丢失大量的有用信息

    2、数据额挖掘模型锁表现出的不确定性更加显著,模型中蕴含的规律更加难以把握

    3、包含空值的数据回事建模过程陷入混乱,导致不可靠输出

    缺失值分析:

    通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率

    解决方法:

    删除含有缺失值的记录、对可能值进行插补和不处理三种情况

    第二点:异常值分析

    异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值得存在是十分危险的,不加提出的把异常值包括进数据的计算分析过程中,对结果会产生不良影响

    1、简单统计量分析

    可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围

    2、3σ原则

    如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

    第三点:

    一致性分析

    数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

    不一致数据的产生主要发生在数据集成的过程中,这可能是被挖掘数据来源于不同的数据源比如说两张表格都存储了用户的电话号码,但在用户的电话号码发生改变是只更新了一张表格中的数据,那么这两张表就有了不一致的数据。

     

    展开全文
  • 032一组惯导参考数据

    千次阅读 热门讨论 2018-10-23 20:00:35
    一组数据可以做很多事,比如作为验证自己目前程序的数据。哈哈,收获不小,不敢独享,特来分享。注意,我贴出来的数据是读取完的,直接处理就可以,原数据为txt格式一同给出。另外,请尊重数据提供者。 我的: 严...

      翻看严恭敏老师的博客发现一组实测惯导数据,特地下载下来用其工具箱处理了一下,肉眼看起来跟原图没有差别。到这算是终于有了一组珍贵的数据(实测数据,又有处理好的结果作参考)。一组数据可以做很多事,比如作为验证自己目前程序的数据。哈哈,收获不小,不敢独享,特来分享。注意,我贴出来的数据是读取完的,直接处理就可以,原数据为txt格式一同给出。另外,请尊重数据提供者。


    我的:

    严老师的:


    最后要注意,该数据处理过程中没有添加误差,所以用工具箱纯惯导方式处理的时候,记得把陀螺加计以及气压高度计的修正部分去掉。

    1、纯惯导数据-资源汇总页中下载

    2、原文地址

    展开全文
  • pandas做数据分析():基本数据对象

    千次阅读 2017-04-13 19:21:20
    Pandas的两个基本数据对象Series和DataFrame介绍
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2018-05-28 13:58:14
    数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...
  • 作者:唐先生全文共 5353 字,阅读需要 13 分钟题图来自 Unsplash ,基于 CC0 协议———— / BEGIN / ————需求分析师是否适合做数据分析?这是我最近在想的问题。需求分析是基于业务场景的商业化分析,不是技术...
  • 数据分析

    万次阅读 2016-02-21 17:25:12
    引子编译器后端会对前端生成的中间代码很多优化,也就是在保证程序语义不变的前提下,提高程序执行的效率或减少代码size等优化目标。优化需要依靠代码分析给出的“指导信息”来相应地改进代码... 数据分析指的是
  • 数据分析与可视化()1.1 数据分析1.1.1数据、信息与数据分析 1.1 数据分析 1.1.1数据、信息与数据分析 数据数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的...
  • 数据分析

    千次阅读 2020-03-05 16:20:08
    狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到个特征统计量结果的过程。 数据挖掘则是从大量...
  • 创业公司做数据分析(六)数据仓库的建设

    万次阅读 多人点赞 2017-02-02 19:36:58
    本文重点探讨了数据处理层中数据仓库的建设,旨在构建个适于分析数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于...
  • Excel+Access做数据分析和报表分析

    万次阅读 2015-07-15 17:33:37
    目录前言 设计思路 一切从简单开始 深入解剖 三分之Excel引用外部数据源 使用外部数据创建透视表透视图 使用外部数据创建图 ...使用ODBC导入数据前言在写这遍文章之前啰嗦一下,最近公司在BI分析,突然有一下想法,
  • 数据挖掘之售房数据分析

    千次阅读 2019-12-12 14:18:55
    最近再做一批关于售房的数据,感觉自己陷入个死胡同里: 该批数据是存储再postgresql里面,是从某售房网站上爬下来的,以数据库中的列字段作为存储数据,该列字段是以json的数据形式存储的,这里跟我打开了个...
  • 微生物16S rRNA数据分析

    千次阅读 2019-03-13 16:52:53
    微生物16sRNA 数据分析常规流程:划分OTU , 构造距离矩阵,分析物种多样性指数,构建序列的进化树及物种注释信息。 可以使用USEARCH、VSearch、Qiime来进行分析。 1、划分OTU OTU为操作分类单元,基于序列...
  • 在很多模型及假设检验中都需要满足个假设条件:数据需服从正态分布。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。 描述统计方法 描述统计就是用描述的数字或...
  • 做到了这一步,就可以进行一些快速的描述性分析了! 要查看数据与选取数据,我们首先得了解python里数据存储的方式,然后才能进行数据查看、数据选择、数据清洗、数据分析数据建模等。。 所以本文将分为: ...
  • 加入过程分析

    千次阅读 2019-06-05 21:24:40
    网络中的台主机如果希望能够接收到来自网络中其它主机发往某数据报,那么这么主机必须先加入该,然后就可以地址接收数据包。在广域网中,还涉及到路由器支持播路由等,但本文希望以个...
  • 从零开始用Python3做数据分析

    万次阅读 多人点赞 2018-05-19 13:35:59
    如今,Python已成为数据分析数据科学事实上的标准语言和标准平台之。我们将为读者展示一张思维导图,图1-1中将给出Python生态系统为数据分析师和数据科学家提供的各种程序库。NumPy、SciPy、Pandas和Matplotli.....
  • 对商品标题进行文本分析 词云可视化2. 不同关键词word对应的sales的统计分析3. 商品的价格分布情况分析4. 商品的销量分布情况分析5. 不同价格区间的商品的平均销量分布6. 商品价格对销量的影响分析7. 商品价格对...
  • 用Python优雅的做数据分析

    千次阅读 2017-12-22 20:01:02
    本文主要就笔者在实际工作中遇到的一些在统计分析领域的编程风格和代码技巧做一汇总;由于是想到哪就写到哪,所以文档... 笔者在数据分析主要是用到了Python(2.7)以及两个主要的依赖:Numpy 和 Pandas,有关这两...
  • SPSS数据分析

    千次阅读 2018-06-29 23:02:27
    甚至在线网页SPSS软件直接可以数据分析结果指标人工智能地分析出来,这有多难呢?本文章将周老师(统计学专家)8年的数据分析经验浓缩,便于让不会数据分析的同学,在学习数据分析的过程中可以少走弯路,树立数据...
  • 数据分析数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    概述:简介、思路、发展...数据分析方法:描述统计、假设检验、信度分析相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等; 数据可视化:Excel、PowerBI、Tableau、Python;
  • 数据分析思路

    万次阅读 多人点赞 2018-09-14 16:08:06
    大致能把搜到的书分为两类:第类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们所购买的书基本都是某类工具如何使用去进行数据分析,但是看完过后还是不太懂什么是数据分析,应用到...
  • 描述性数据分析

    万次阅读 2018-07-22 16:33:38
    描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析数据的集中趋势分析数据离散程度分析数据的分布、以及一些基本的统计图形。 Excel里的分析工具库里的数据分...
  • 使用JAVA找出一组数据的最大值

    千次阅读 2015-12-13 14:38:45
    设有一组N个数而要确定...下面我们使用JAVA语言来编程找出一组数据中的最大值。  public class SelectMaxNum { /** * @param args * 找出一组数据中的最大值或者最小值 */ public static void main(String
  • 数据分析总结二:业务与数据分析

    千次阅读 多人点赞 2019-01-02 15:16:29
    接前篇文章讲的数据分析思维,可以直接产生业务分析指标。 各部门与指标之间的联系如下: 1,要确定核心指标 2,好的指标应该是比率 3,好的指标要带来显著效果 4,好的指标不应该...
  • 基于Python的数据分析

    万次阅读 多人点赞 2019-02-25 15:50:02
    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用 Python进行数据分析的学习方法...在此背景下,数据分析成为数据科学领域中个全新的研究 课题。...
  • 数据建模及数据分析浅析

    万次阅读 多人点赞 2018-08-31 10:53:20
    数据分析项实践性很强的工作,涉及到很多交叉学科,需要不同的岗位和角色,来实现不同的性质的工作。 数据分析师中的角色和职责 数据分析团队师应该在科技部门内部还在业务部门内部一直存在争议。在业务...
  • Python数据分析实战(1)数据分析概述

    千次阅读 多人点赞 2020-08-23 21:51:03
    数据分析师的任务是分析了、预测未来和优化选择;成为数据分析师必须具备多种技能,利用好Python等工具。Python有多个版本;根据不同系统安装;需要添加环境变量;需要安装pip;可以选择PyCharm开发。Anaconda是科学...
  • 数据特征分析之分布分析

    千次阅读 2019-03-21 15:08:40
    利用python做数据分析数据特征分析之分布分析,个人学习笔记,欢迎指正 (1)导入数据分析包 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline (2)数据读取,利用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 708,337
精华内容 283,334
关键字:

一组数据可以直接做相关分析