数据分析_数据分析师 - CSDN
数据分析 订阅
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2] 展开全文
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2]
信息
数据也称
观测值,实验、测量、观察结果
外文名
Data Analysis
中文名
数据分析
目    的
最大化地开发数据的功能
数据分析简介
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [2]  数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。 [1] 
收起全文
精华内容
参与话题
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø 什么是数据分析-知其然才...
  • Python数据分析与挖掘

    万人学习 2020-08-20 10:09:26
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 数据分析基础面试题

    千次阅读 多人点赞 2020-01-04 15:08:49
    数据分析 1.同比与环比表示什么 同比:与历史同时期比较,就是与不同年份的同一时期作比较 例如:2019年7月份与2018年7月分相比 环比:与上一统计段比较,就是与前一个相邻的时期作比较 例如:2019年7月分与...

    数据分析

    1.同比与环比表示什么

    • 同比:与历史同时期比较,就是与不同年份的同一时期作比较
      • 例如:2019年7月份与2018年7月分相比
    • 环比:与上一统计段比较,就是与前一个相邻的时期作比较
      • 例如:2019年7月分与2019年6月份相比

    2.阐述一个数据分析的主要流程(例子:航空客户价值分析)

    ​ 业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈

    在这里插入图片描述

    3.如何进行异常值处理

    ​ 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。

    异常值处理方法 方法描述
    删除含有异常值的记录 直接将含有异常值的记录删除
    视为缺失值 将异常值视为缺失值,利用缺失值处理的方法进行处理
    平均值修正 可用前后两个观测的平均值修正该异常值
    不处理 直接在具有异常值的数据上进行挖掘建模

    4.什么是数据规约?如何进行数据规约

    ​ 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

    ​ 数据规约的意义在于:

    -  降低无效、错误数据对建模的影响,提高建模的准确性
    
    • 少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
    • 降低储存数据的成本

    数据规约分为属性规约和数值规约

    属性规约常用的方法

    属性规约方法 方法描述 方法解析
    合并属性 将一些旧属性合为新属性 初始属性集:{A1,A2,A3,B1,B2,C}
    {A1,A2,A3} ——>A
    {B1,B2} ——>B
    ---->规约后属性集:{A,B,C}
    逐步向前选择 从一个空属性集开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
    {} —>{A1} —>{A1,A4}
    ---->约束后属性集:{A1,A4,A6}
    逐步向后选择 从一个空属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,直到无法选择出最差属性为止或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
    —>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6}
    ---->约束后属性集:{A1,A4,A6}
    决策数归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集 初始属性集:{A1,A2,A3,A4,A5,A6}
    在这里插入图片描述
    ---->规约后属性集:{A1,A4,A6}
    主成分分析 用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转换为彼此相互独立或并不相关的变量

    数值规约

    ​ 数值规约指通过选择代替的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际数据,例如:直方图、聚类、抽样(采样)

    • 直方图

      直方图使用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对,则该桶称为单桶。通常,桶表示给定属性的一个连续区间。例如:
      在这里插入图片描述

    • 聚类

      聚类技术将数据元组(即记录,数据表中的一行)视为对象。它将对象划分为簇,使一个簇中的对象相互’相似’,而与其他簇中的对象’相异’。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合数据的分布性质。

    • 抽样

      抽样也是一种数据规约技术,它用比原始数据小得多的随机样本(子集)表示原始数据集。假定原始数据集D包含N个元组,可以采用抽样方法对D进行抽样。下面介绍常用的抽样方法。

      • s个样本无放回简单随机抽样:从D的N个元组中抽取s个样本(s<N),其中D中任意元组被抽取的概率为1/N,即所有元组的抽取是等可能的。
      • s个样本有放回简单随机抽样:该方法类似于无放回简单随机抽样,不同在于每次一个元组从D中抽取后,记录它,然后放回原处。
      • 聚类抽样:如果D中的元组放入M个互不相交的簇,则可以得到s个簇的简单随机抽样,其中s<M。例如,数据库中元组通常一次检索一页,这样每页就可以视为一个簇。
      • 分层抽样:如果D划分成互不相交的部分 ,称作层,则通过对每一层的简单随机抽样就可以得到D的分层样本。例如,可以得到关于顾客数据的一个分层样本,按照顾客的每个年龄创建分层。

      用于数据规约时,抽样最常用来估计聚集查询的结果。在指定的误差范围内,可以确定(使用中心极限定理)估计一个给定的函数所需的样本大小。通常样本的大小s相对于N非常小。而通过简单的增加样本大小,这样的集合可以进一步求精。

    • 参数回归

      简单线性模型和对书性模型可以用来近似描述给定的数据。(简单)线性模型对数据建模,使之拟合一条直线。

    5. pandas如何进行两个表的合并?内连接、外连接、左连接、右连接查询有什么区别?

    ​ pandas提供了一个类似于关系数据库的连接(join)操作方法merge,可以根据一个或多个键将不同DataFrame中的行连接起来,语法:

    merge(left, right, how='inner', on=None, left_on=None, right_on=None,
    		left_index=False, right_index=False, sort=True,
    		suffixes=('_x', '_y'), copy=True, indecator=False)
    
    • left与right:两个不同的Dataframe

    • how:指的是合并(连接)的方式,有inner(内连接)、left(左外连接)、right(右外连接)、outer(完全外连接)

    • on:指的是用于连接的列索引名称。必须存在左右两个DataFrame对象中,如果每有指定且其他也未指定则以两个DataFrame的列名交集作为连接键

    • left_index/right_index:使用左/右侧DataFrame中的行索引作为连接键

      以上几个参数使常用到的

    不同连接之间的区别

    - 内连接(pd.merge(left, right, on='xxx')):统计重叠的键并,没有重叠的就不记录
    - 左连接(pd.merge(left, right, how='left',  on='xxx')):以左表为主,在右表中找与左表xxx列数据形同的,没有为NaN
    - 右连接(pd.merge(left, right, how='right', on='xxx')):以右表为主,在左表中找与右表xxx列数据形同的,没有为NaN
    - 外连接(pd.merge(left, right, how='outer', on='xxx')):两张表数据全部统计,没有的为NaN
    

    6. 为什么要进行数据规范化?标准规范化的计算公式是什么?

    ​ 数据规范化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

    • 最大-最小规范化

      对原始数据的线性变换,将数值值映射到[0,1]之间,公式:

    在这里插入图片描述

    • 零-均值规范化(最常用)

      也称标准差标准化,经过处理的数据的均值为0,标准差为1,公式:

    在这里插入图片描述

    σ为原始数据的标准差

    • 小数定标规范化

      通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值,公式:

    在这里插入图片描述

    7. 有哪些缺失值处理方法

    ​ 处理缺失值的方法可分为3类:删除记录、数据插补和不处理。

    • 数据插补

      插补方法 方法描述
      均值/中位数/众数插补 根据属性值的类型,用该属性值的平均数/中位数/众数进行插补
      使用固定值 将缺失的属性值用一个常量替换
      最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补
      回归方法 对带有缺失值的变量,根据已有数据和与其有关的其他变量(因变量)的数据建立拟合模型来预测缺失的属性值
      插值法 插值法是利用已知点建立合适的插值函数f(x),未知值由对应点xi求出的函数值f(xi)近似代替
    • 删除小部分记录如果能达到既定目标,那么删除含有缺失值的记录是最有效的,但是该方法有很大的局限性,这是以减少历史数据来换取数据的完备,会浪费大量资源。尤其是在数据比较少的情况下,删除少量记录可能会严重影响到分析结果的客观性和正确性。

    8. 统计量分析中有哪些常见的统计量,列出计算方法。

    ​ 用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

    ​ 平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反应变异程度的指标是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。

    1. 集中趋势度量

    • 均值

      均值是所有数据的平均值

      如果求n个原始观察数据的平均数,计算公式:

    在这里插入图片描述
    加权均值的公式:

    在这里插入图片描述

    频率分布表的平均数计算公式:
    在这里插入图片描述

    作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据是偏态分布的,那么均值就不能很好的度量数据的集中趋势。为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。截断均值是去掉高、低极端值之后的平均数。

    • 中位数

      中位数时将一组观察值从小到大的顺序排列,位于中间的那个数。

      当总数为奇数时:

    在这里插入图片描述

    为偶数时:

    在这里插入图片描述

    • 众数

      众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。当然,众数一般用于离散型变量而非连续性变量。

    2. 离中趋势度量

    • 极差:最大值 - 最小值

    • 标准差:在这里插入图片描述

    • 变异系数

      变异系数度量标准差相对于均值的离中趋势,计算公式:

    在这里插入图片描述

    变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

    • 四分位数间距

      四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。

      [外链图片转存中…(img-fNT6LohT-1578120951598)]

      变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

    • 四分位数间距

      四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。

      四分位数间距,是上四分位数于下四分位数之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大;反之,说明变异程度越小。

    展开全文
  • 16种常用的数据分析方法汇总

    万次阅读 多人点赞 2017-04-04 16:16:33
    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运用制表和...

    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。

    一、描述统计

    描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

    2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1、参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。

    1)U验   使用条件:当样本含量n较大时,样本值符合正态分布

    2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布

    A  单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B  配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    2、非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    检査测量的可信度,例如调查问卷的真实性。

    分类:

    1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    用于分析离散变量或定型变量之间是否存在相关。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

    七、回归分析

    分类:

    1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2、多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法:

    A 残差检验: 观测值与估计值的差值要艰从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3、Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1、性质分类:

    Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

    R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2、方法分类:

    1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

    2)逐步聚类法 :适用于大样本的样本聚类

    3)其他聚类法 :两步聚类、K均值聚类等

    九、判别分析

    1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

    2、与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    3、进行分类 :

    1)Fisher判别分析法 :

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

    适用于多类判别。

    2)BAYES判别分析法 :

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

    十一、因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

    与主成分分析比较:

    相同:都能够起到済理多个原始变量内在结构关系的作用

    不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

    1、包含内容:

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2、方法:

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

    用途:

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    用途 ;

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    展开全文
  • 基于Python的数据分析

    万次阅读 多人点赞 2019-02-25 15:50:02
    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用 Python进行数据分析的学习方法及步骤; 随着大数据和人工智能时代的到来,网络和信息技术开始...

    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用
    Python进行数据分析的学习方法及步骤;

    随着大数据和人工智能时代的到来,网络和信息技术开始渗透到人类日常生活的方方面面,产生的数据量也呈现指数级增长的态势,同时现有数据的量级已经远远超过了目前人力所能处理的范畴。在此背景下,数据分析成为数据科学领域中一个全新的研究
    课题。在数据分析的程序语言选择上,由于Python语言在数据分析和处理方面的优势,大量的数据科学领域的从业者使用Python
    来进行数据科学相关的研究工作。

    1、数据分析的概念

    数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。随着信息技术的高速发展,企业生产、收集、存储和处理数据的能力大大提高,同时数据量也与日俱增。把这些繁杂的数据通过数据分析方法进行提炼,以此研究出数据的发展规律和预测趋势走向,进而帮助企业管理层做出决策。

    2、数据分析的流程

    数据分析是一种解决问题的过程和方法,主要的步骤有需求分析、数据获取、数据预处理、分析建模、模型评价与优化、部署:

    1)需求分析

    数据分析中的需求分析是数据分析环节中的第一步,也是非常重要的一步,决定了后续的分析方法和方向。主要内容是根据业务、生产和财务等部门的需要,结合现有的数据情况,提出数据分析需求的整体分析方向、分析内容,最终和需求方达成一致。

    2)数据获取

    数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据获取主要有两种方式:网络爬虫获取和本地获取。网络爬虫获取指的是通过Python编写爬虫程序合法获取互联网中的各种文字、语音、图片和视频等信息;本地获取指的是通过计算机工具获取存储在本地数据库中的生产、营销和财务等系统的历史数据和实时数据。

    3)数据预处理

    数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。其中,数据合并可以将多张互相关联的表格合并为一张;数据清洗可以去掉重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据交换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。在数据分析过程中,数据预处理的各个过程互相交叉,并没有固定的先后顺序。

    4)分析建模

    分析建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型和算法,发现数据中的有价值信息,并得出结论的过程。

    5)模型评价与优化

    模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。模型的优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。

    6)部署

    部署是指将数据分析结果与结论应用至实际生产系统的过程。根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。在多数项目中,数据分析员提供的是一份数据分析报告或者一套解决方案,实际执行与部署的是需求方。

    3、Python是功能强大的数据分析工具

    Python具有丰富和强大的库,它常被称为胶水语言,能够把用其他语言制作的各种模块很轻松地连接在一起,是一门更易学、更严谨的程序设计语言,常用于数据分析、机器学习、矩阵运算、科学数据可视化、数字图像处理、网络爬虫、Web应用等;R语言常用于统计分析、机器学习、科学数据可视化等;MATLAB则用于矩阵运算、数值分析、科学数据可视化、机器学习、符号运算、数字图像处理及信号处理等。可以看出,以上三种语言均可进行数据分析。

    4、Python进行数据分析的优势

    Python是一门应用非常广泛的计算机语言,在数据科学领域具有无可比拟的优势。Python正在逐渐成为数据科学领域的主流语言。Python数据分析具有以下几方面优势:

    1》语法简单精炼。对于初学者来说,比起其他编程语言,Python更容易上手;

    2》有许多功能强大的库。结合在编程方面的强大实力,可以只使用Python这一种语言就可以去构建以数据为中心的应用程序;

    3》不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,能给企业带来显著的组织效益,并降低企业的运营成本;

    4》Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。例如,Python的C语言API可以帮助Python程序灵活地调用C程序,这意味着用户可以根据需要给Python程序添加功能,或者在其他环境系统中使用Python;

    5》Python是一个混合体,丰富的工具集使它介于系统的脚本语言和系统语言之间。Python不仅具备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。

    5、Python数据分析常用类库介绍

    Python拥有IPython、Num Py、Sci Py、pandas、Matplot⁃lib、scikit-learn和Spyder等功能齐全、接口统一的库,能为数据分析工作提供极大的便利。其中,Num Py主要有以下特点:

    1)具有快速高效的多维数组对象ndarray;
    2)具有对数组执行元素级计算及直接对数组执行数学运算的函数;
    3)具有线性代数运算、傅里叶变换及随机数生成的功能;
    4)能将C、C++、Fortran代码集成到Python;
    5)可作为算法之间传递数据的容器。

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 数据仓库系列:初识数仓 前言: 本节是数据仓库系列文章的第一篇,本系列的目的在于快速的构建一套最小化可运行的基础数据体系,过程中也会涉及一些数仓的理论知识,但更偏重的是数仓的实现和背后的思考逻辑、...

    数据仓库系列:初识数仓

    前言:

    本节是数据仓库系列文章的第一篇,本系列的目的在于快速的构建一套最小化可运行的基础数据体系,过程中也会涉及一些数仓的理论知识,但更偏重的是数仓的实现和背后的思考逻辑、所以在开发实施过程中会提供相对多的代码示例和具体的实现细节。

    另外需要对数仓的界限做下限制,本系列所讨论的数仓是从数据接入后到数据结果表生成。

    最后需要指明的是本系列只涉及离线数仓,不涉及实时数仓,有关实时数仓和离线数仓的区别等,请进一步阅读其它资料。

    最后,本系列参考了很多前辈在数据仓库建设方面的经验文章,本系列将其纳入到体系中,部分相关的参考会在文中列出,但更多的会集结起来,在问题汇总章节或者以篇外的形式给出,请知悉。

     

    本系列的大纲规划如下(实际执行可能会有调整)

    1、初识数仓:什么是数仓、数仓的用途等

    2、数仓规划:数仓矩阵、分层分线、分主题设计等

    3、数仓设计:数仓模型、事实表(拉链表、累积表)、维表的设计等

    4、数仓开发:数仓表初始化和更新方式、任务调度、数据处理的一些思想

    5、数据计算:大盘指标(新增、活跃、留存、回流)的计算框架、LTV的计算框架等

    6、数仓规范:元数据规范(表命名、存储周期等)、生成规范、调度规范、代码规范

    7、数仓问题:数仓相关的技术问题、经验问题和发展问题汇总

          首先会对数仓是什么和数仓建设包含哪些内容有基本的认知,并将数仓建设的内容分解成各个模块来讲解。需求强调的是,数仓建设虽然有套路和一些模式可遵循,但数据团队的组成不同、业务场景各异、需求也千变万化,数仓建设的成败取决于多种因素,需要根据自身的实际情况因地制宜。

    通过以下方面的认知:

    1. 什么是数仓

    2. 为什么要建设数仓

    3. 怎样建设数仓

    一  什么是数仓

    先概览下数仓几个重要的相关概念:

    • 数据仓库的定义:数据管理、存储、计算、建模的方法论,是一种过程处理方法论。

    • 数据仓库的特点:面向主题的、集成的、稳定的、反映历史变化

    • 数据仓库的组成:元数据、数据建模、实现代码、血缘关系、规范准则

    • 数仓在整个数据体系中的位置:数据采集->数据接入->数据仓库->数据报表/数据分析/数据挖掘

    为了加深对数仓的认识,我们以普遍熟悉的数据库和数据仓库的对比来看待什么是数仓:

    数据库 数据仓库 备注
    用于记录状态,面向事务 用于分析决策,面向主题  
    服务业务系统,作为数据源 服务数据分析师等  
    一般存储最新状态的业务数据 存储历史数据 数据仓库存在部分清除机制,历史数据并不是永久保存
    严格遵循范式,避免冗余 为了方便使用故意引入部分冗余  
    数据量偏小 大数据量 分布式数据库也能存储大量数据
    承载体一般为mysql、oracle等传统的关系型数据库 承载体一般为hive、greenplum等 也有部分使用oracle等传统数据库做数仓的

    通过对比,可以发现数据库和数据仓库的本质区别在于传统的数据库是一个存储引擎,而数据仓库是一套数据组织和应用的方法论,是需要很多的支持系统来协助(包含类似数据库这样的存储系统),最后达到支持分析决策的目的。

    到此你可能还不明白什么是数仓?

    那举一个例子:

    假设D盘中有一个1M左右的Excel文件F的Sheet1有2000行,每行记录的是深圳市福田区梅林街道用户User1-User10一周的消费记录,包含用户标识、消费时间、消费商铺、消费商品、消费金额、消费数量、消费方式等信息。

    需求阶段1:

    求User2当月最高消费金额是在那个商铺消费的,对于这个问题你简单地通过排序筛选和计算得到了想要的信息;

    需求阶段2:

    数据不再是D盘的上的一个文件A,而是深圳市所有用户得到一个月的消费的记录,每个区一个文件夹内有N个以街道名称命名的文件,每个文件内部记录的是该街道用户一个月的消费记录。而此时的数据需求是本月内同时消费过商品1和商品2的人的消费方式分布,或许此时你通过较强的Excel技能或者将数据转存到Oracle等关系数据库中借助SQL最后也完成了需求。

    需求阶段3:

    数据急剧扩展,线上消费数据存储在各自的手机上,线下消费数据存储在每个人的账簿本上,且每天的记录都在递增。此时需求也变得异常复杂,比如增量计算每天首次消费商品1的人的年龄、性别、职业分布,消费商品的间隔等。这种情况下数据仓库就登场了,其完成数据接入(数据采集之后)、数据清洗和转换、存放策略、数据字典的制定、自动执行的方式等

     

    二  为什么要建设数仓

    问题

    无数仓或者数仓建设得不好常见的问题:

    1.数据资产模糊

    • 不知道有什么数据、该找谁要数据

    • 数据如何生成和更新的

    • 数据存储和计算资源评估缺乏必要的信息

     

    2.数据质量低

    • 字段命名不规范、口径不一致

    • 条件的过滤和规则等的理解差异带来的算法不一致

    3.重复建设

    • 无中间表或中间表建设的差,每次从原始数据取,数据开发周期长

    • 代码臃肿

    • 最底层取数据,带来存储和计算资源的浪费,同时滋生数据口径不一致问题

    4.底层轻微的改变对上层影响巨大

    • 业务数据轻微改动

    • 底层逻辑轻微改动

    • 底层数据异常

    5.问题定位难,周期长

    • 上下游依赖混乱

    • 任务上线容易,下线难,生命周期难以管理

    • 复杂问题耦合在一起

    1. 频繁的临时性需求

    2. 多维度拆解:OLAP、培养提高需求提出人的能力

    3. 同质类似的小需求:即席查询、固化、详细自查、模板、培养提高需求提出人的能力

    方案

    建设数仓可以带来以下的好处:

    1. 方便沟通交流

    2. 提高排查问题的效率

    3. 提高数据开发的效率

    • 代码复用、表复用等

    • 复杂任务解耦(分散到各层或层内的不同表上)

    1. 提高数据质量,避免数据口径不一致等问题

    2. 减少存储成本和计算成本

    问题痛点和解决方案

     

    需要注意的是,虽然数仓建设能带来诸多的益处,但其是一个庞大复杂耗时的工程,需要一些支持系统的配合,比如说元数据管理系统、调度系统等,而且也并不是所有的业务一开始都要建设数仓,要根据业务发展所处的状态和未来的发展趋势以及分析决策的复杂性等综合评判。
    虽然数仓可以不做,但是要做的话一定要提前规划和基本的规范制定,自由散漫野性生长的数仓有不如无。

    三  怎样建设数仓

    数仓建设的本质目的是支撑分析决策,那分析决策依赖什么样的数据,数仓建设是如何保障这些数据高效正确产出的。面向业务数据指标建设数仓,同时兼顾其它可能的扩展情况,是数仓建设的整体思路。
    数仓对上层数据应用的支持主要体现在三个方面:业务监控数据(大盘数据洞察)、数据挖掘(用户画像、推荐等)、数据分析(业务诊断、提升优化等)。其中按支持的优先级来分,首先就是业务监控数据,然后是数据分析、再然后数据挖掘。这也是数据应用由浅到深的递进。

    思路

    业务监控支持

    业务监控支持是数仓建设的主要也是最基础的服务对象。首先梳理业务,划分出业务主题,然后梳理指标体系,自顶向下的建设,主要体现在以下方面:

    • 对指标体系进行分类,根据指标分类来建设数据主题集市

    • 对维度进行抽象,根据抽象出的维度来建设维表,然后根据维表的生成方式配置调度策略、是线下录入还是线上生成,更新机制是日定时更新还是触发更新,以及维度的变化情况等

    数据分析支持

    业务监控搭建起来了数据体系的基本框架,然而还是框架外的灵活数据分析需求,比如OLAP多维分析、交叉分析等,从这个角度来讲,数仓建设的中间表的维度一定要足够丰富,模型的选择上为了兼顾使用的方便性,一般以星型模型为主,同时尽可能的采用维度退化的方式,另外单主题多行为阶段的漏斗宽表和多主题多行为的宽表也能为数据分析提供极大的便利。

    数据挖掘支持

    数据挖掘支持是在数据分析的基础上对用户行为宽表的要求更进步强化了,同时要兼顾维度的丰富性。

    活动分解

    数据仓库设计的具体流程,从业务需求分析、逻辑设计、物理设计、数仓的初始化方法以及更新方法
    从数仓的组成上来分以下几个模块进行数仓的建设:

    • 数仓规划策略

                            分层、分线、分主题(数据集市)

    • 数仓模型思想

                           ER模型、雪花模型、星星模型、维度模型、、数据仓库

    • 数仓设计原则

                             下沉、分区、扩展、融合、拆解、主题

    • 数据开发实施

                              代码、调度

    • 数仓规范建设

                           表命名规范、字段命名、表头规范、代码开发规范、任务调度规范

     

     

    展开全文
  • 数据分析&数据仓库系列

    万次阅读 2020-05-13 10:57:17
    https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&album_id=1337764531464093698&__biz=MzI4MzE4MjQxOQ==#wechat_redirect
  • 上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库。学习数据仓库,你一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball。...
  • 数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。 数据仓库收集了整个组织的主题信息,因此它是企业范围的。数据集市(data mart)是数据仓库的一个部门子集,它聚焦在选定的主题上,...
  • 数据分析常用6种分析思路

    万次阅读 多人点赞 2019-03-19 14:20:57
    作为数据分析师,你是否常因为缺乏分析思路,而被以下问题影响到幸福感(甚至怀疑人生)? 1. 新上线某个产品,需要监控转化率效果,既要看总体情况,也要看细分渠道; 2. 策划营销活动,预算有限...
  • 掌握这5个常用数据分析方法,做分析不再没思路 原创数据分析不是个事儿2020-04-08 16:00:36 想必做过数据分析的同学一定接触过很多分析方法,比如漏斗法,同期群,A/B测试等等。并且由于不同版本的演绎,造成了...
  • 做大数据开发好还是大数据分析比较好一些?哪个薪资高? 零基础学习大数据开发,还是大数据分析?哪方面比较好? 今天我们来从技术角度和薪资角度全面进行分析,方便你的选择。 技术区别 在做选择之前,需要了解...
  • 数据分析-傅里叶变换

    2019-01-23 08:56:02
    数据分析 矩阵的特征值与特征向量 对于n阶方阵,如果存在数a和非零n维列向量x, 使得Ax=ax, 则称a是矩阵A的一个特征值, x是矩阵A属于特征值a的特征向量. # 已知n阶方阵A, 求特征值与特征向量 # eigvals: 找到的所有...
  • 最常用的四种大数据分析方法

    万次阅读 多人点赞 2017-09-19 10:18:53
    本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。
  • 题库1 题库2 题库3 题库4 题库5,百度文库的,感觉有点贵
  • 一个合格的数据分析师要有怎样的知识体系?下面九个方面必不可少:统计相关的数学知识数学知识是数据分析师的基础知识。对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用...
  • 在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和差别。大讲台老师通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、...
  • R语言数据分析案例合集

    万次阅读 2018-04-05 21:37:15
    案例一、汽车数据可视化分析(R)-ggplot2案例二、房价指数的分析与预测-时间序列
  • 数据挖掘与数据分析的区别

    万次阅读 2018-11-24 02:21:55
    数据分析: 1 概念 2 具体方法 3 分析方法 数据挖掘: 1 概念 2 数据挖掘起源 3 分析方法 4 九大经验 5 十大算法 结论 想尝试自己做一...
  • python数据分析

    万次阅读 多人点赞 2020-03-15 14:02:40
    python绘图、python数据分析、python库、股票分析
1 2 3 4 5 ... 20
收藏数 2,811,894
精华内容 1,124,757
关键字:

数据分析