数据分析_数据分析师 - CSDN
数据分析 订阅
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2] 展开全文
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2]
信息
数据也称
观测值,实验、测量、观察结果
外文名
Data Analysis
中文名
数据分析
目    的
最大化地开发数据的功能
数据分析简介
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [2]  数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。 [1] 
收起全文
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø 什么是数据分析-知其然才...
  • Python数据分析与挖掘

    万人学习 2020-08-20 10:09:26
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 数据分析基础面试题

    千次阅读 多人点赞 2020-01-04 15:08:49
    数据分析 1.同比与环比表示什么 同比:与历史同时期比较,就是与不同年份的同一时期作比较 例如:2019年7月份与2018年7月分相比 环比:与上一统计段比较,就是与前一个相邻的时期作比较 例如:2019年7月分与...

    数据分析

    1.同比与环比表示什么

    • 同比:与历史同时期比较,就是与不同年份的同一时期作比较
      • 例如:2019年7月份与2018年7月分相比
    • 环比:与上一统计段比较,就是与前一个相邻的时期作比较
      • 例如:2019年7月分与2019年6月份相比

    2.阐述一个数据分析的主要流程(例子:航空客户价值分析)

    ​ 业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈

    在这里插入图片描述

    3.如何进行异常值处理

    ​ 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。

    异常值处理方法 方法描述
    删除含有异常值的记录 直接将含有异常值的记录删除
    视为缺失值 将异常值视为缺失值,利用缺失值处理的方法进行处理
    平均值修正 可用前后两个观测的平均值修正该异常值
    不处理 直接在具有异常值的数据上进行挖掘建模

    4.什么是数据规约?如何进行数据规约

    ​ 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

    ​ 数据规约的意义在于:

    -  降低无效、错误数据对建模的影响,提高建模的准确性
    
    • 少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
    • 降低储存数据的成本

    数据规约分为属性规约和数值规约

    属性规约常用的方法

    属性规约方法 方法描述 方法解析
    合并属性 将一些旧属性合为新属性 初始属性集:{A1,A2,A3,B1,B2,C}
    {A1,A2,A3} ——>A
    {B1,B2} ——>B
    ---->规约后属性集:{A,B,C}
    逐步向前选择 从一个空属性集开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
    {} —>{A1} —>{A1,A4}
    ---->约束后属性集:{A1,A4,A6}
    逐步向后选择 从一个空属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,直到无法选择出最差属性为止或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
    —>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6}
    ---->约束后属性集:{A1,A4,A6}
    决策数归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集 初始属性集:{A1,A2,A3,A4,A5,A6}
    在这里插入图片描述
    ---->规约后属性集:{A1,A4,A6}
    主成分分析 用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转换为彼此相互独立或并不相关的变量

    数值规约

    ​ 数值规约指通过选择代替的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际数据,例如:直方图、聚类、抽样(采样)

    • 直方图

      直方图使用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对,则该桶称为单桶。通常,桶表示给定属性的一个连续区间。例如:
      在这里插入图片描述

    • 聚类

      聚类技术将数据元组(即记录,数据表中的一行)视为对象。它将对象划分为簇,使一个簇中的对象相互’相似’,而与其他簇中的对象’相异’。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合数据的分布性质。

    • 抽样

      抽样也是一种数据规约技术,它用比原始数据小得多的随机样本(子集)表示原始数据集。假定原始数据集D包含N个元组,可以采用抽样方法对D进行抽样。下面介绍常用的抽样方法。

      • s个样本无放回简单随机抽样:从D的N个元组中抽取s个样本(s<N),其中D中任意元组被抽取的概率为1/N,即所有元组的抽取是等可能的。
      • s个样本有放回简单随机抽样:该方法类似于无放回简单随机抽样,不同在于每次一个元组从D中抽取后,记录它,然后放回原处。
      • 聚类抽样:如果D中的元组放入M个互不相交的簇,则可以得到s个簇的简单随机抽样,其中s<M。例如,数据库中元组通常一次检索一页,这样每页就可以视为一个簇。
      • 分层抽样:如果D划分成互不相交的部分 ,称作层,则通过对每一层的简单随机抽样就可以得到D的分层样本。例如,可以得到关于顾客数据的一个分层样本,按照顾客的每个年龄创建分层。

      用于数据规约时,抽样最常用来估计聚集查询的结果。在指定的误差范围内,可以确定(使用中心极限定理)估计一个给定的函数所需的样本大小。通常样本的大小s相对于N非常小。而通过简单的增加样本大小,这样的集合可以进一步求精。

    • 参数回归

      简单线性模型和对书性模型可以用来近似描述给定的数据。(简单)线性模型对数据建模,使之拟合一条直线。

    5. pandas如何进行两个表的合并?内连接、外连接、左连接、右连接查询有什么区别?

    ​ pandas提供了一个类似于关系数据库的连接(join)操作方法merge,可以根据一个或多个键将不同DataFrame中的行连接起来,语法:

    merge(left, right, how='inner', on=None, left_on=None, right_on=None,
    		left_index=False, right_index=False, sort=True,
    		suffixes=('_x', '_y'), copy=True, indecator=False)
    
    • left与right:两个不同的Dataframe

    • how:指的是合并(连接)的方式,有inner(内连接)、left(左外连接)、right(右外连接)、outer(完全外连接)

    • on:指的是用于连接的列索引名称。必须存在左右两个DataFrame对象中,如果每有指定且其他也未指定则以两个DataFrame的列名交集作为连接键

    • left_index/right_index:使用左/右侧DataFrame中的行索引作为连接键

      以上几个参数使常用到的

    不同连接之间的区别

    - 内连接(pd.merge(left, right, on='xxx')):统计重叠的键并,没有重叠的就不记录
    - 左连接(pd.merge(left, right, how='left',  on='xxx')):以左表为主,在右表中找与左表xxx列数据形同的,没有为NaN
    - 右连接(pd.merge(left, right, how='right', on='xxx')):以右表为主,在左表中找与右表xxx列数据形同的,没有为NaN
    - 外连接(pd.merge(left, right, how='outer', on='xxx')):两张表数据全部统计,没有的为NaN
    

    6. 为什么要进行数据规范化?标准规范化的计算公式是什么?

    ​ 数据规范化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

    • 最大-最小规范化

      对原始数据的线性变换,将数值值映射到[0,1]之间,公式:

    在这里插入图片描述

    • 零-均值规范化(最常用)

      也称标准差标准化,经过处理的数据的均值为0,标准差为1,公式:

    在这里插入图片描述

    σ为原始数据的标准差

    • 小数定标规范化

      通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值,公式:

    在这里插入图片描述

    7. 有哪些缺失值处理方法

    ​ 处理缺失值的方法可分为3类:删除记录、数据插补和不处理。

    • 数据插补

      插补方法 方法描述
      均值/中位数/众数插补 根据属性值的类型,用该属性值的平均数/中位数/众数进行插补
      使用固定值 将缺失的属性值用一个常量替换
      最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补
      回归方法 对带有缺失值的变量,根据已有数据和与其有关的其他变量(因变量)的数据建立拟合模型来预测缺失的属性值
      插值法 插值法是利用已知点建立合适的插值函数f(x),未知值由对应点xi求出的函数值f(xi)近似代替
    • 删除小部分记录如果能达到既定目标,那么删除含有缺失值的记录是最有效的,但是该方法有很大的局限性,这是以减少历史数据来换取数据的完备,会浪费大量资源。尤其是在数据比较少的情况下,删除少量记录可能会严重影响到分析结果的客观性和正确性。

    8. 统计量分析中有哪些常见的统计量,列出计算方法。

    ​ 用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

    ​ 平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反应变异程度的指标是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。

    1. 集中趋势度量

    • 均值

      均值是所有数据的平均值

      如果求n个原始观察数据的平均数,计算公式:

    在这里插入图片描述
    加权均值的公式:

    在这里插入图片描述

    频率分布表的平均数计算公式:
    在这里插入图片描述

    作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据是偏态分布的,那么均值就不能很好的度量数据的集中趋势。为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。截断均值是去掉高、低极端值之后的平均数。

    • 中位数

      中位数时将一组观察值从小到大的顺序排列,位于中间的那个数。

      当总数为奇数时:

    在这里插入图片描述

    为偶数时:

    在这里插入图片描述

    • 众数

      众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。当然,众数一般用于离散型变量而非连续性变量。

    2. 离中趋势度量

    • 极差:最大值 - 最小值

    • 标准差:在这里插入图片描述

    • 变异系数

      变异系数度量标准差相对于均值的离中趋势,计算公式:

    在这里插入图片描述

    变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

    • 四分位数间距

      四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。

      [外链图片转存中…(img-fNT6LohT-1578120951598)]

      变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

    • 四分位数间距

      四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。

      四分位数间距,是上四分位数于下四分位数之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大;反之,说明变异程度越小。

    展开全文
  • 基于Python的数据分析

    万次阅读 多人点赞 2019-02-25 15:50:02
    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用 Python进行数据分析的学习方法及步骤; 随着大数据和人工智能时代的到来,网络和信息技术开始...

    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用
    Python进行数据分析的学习方法及步骤;

    随着大数据和人工智能时代的到来,网络和信息技术开始渗透到人类日常生活的方方面面,产生的数据量也呈现指数级增长的态势,同时现有数据的量级已经远远超过了目前人力所能处理的范畴。在此背景下,数据分析成为数据科学领域中一个全新的研究
    课题。在数据分析的程序语言选择上,由于Python语言在数据分析和处理方面的优势,大量的数据科学领域的从业者使用Python
    来进行数据科学相关的研究工作。

    1、数据分析的概念

    数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。随着信息技术的高速发展,企业生产、收集、存储和处理数据的能力大大提高,同时数据量也与日俱增。把这些繁杂的数据通过数据分析方法进行提炼,以此研究出数据的发展规律和预测趋势走向,进而帮助企业管理层做出决策。

    2、数据分析的流程

    数据分析是一种解决问题的过程和方法,主要的步骤有需求分析、数据获取、数据预处理、分析建模、模型评价与优化、部署:

    1)需求分析

    数据分析中的需求分析是数据分析环节中的第一步,也是非常重要的一步,决定了后续的分析方法和方向。主要内容是根据业务、生产和财务等部门的需要,结合现有的数据情况,提出数据分析需求的整体分析方向、分析内容,最终和需求方达成一致。

    2)数据获取

    数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据获取主要有两种方式:网络爬虫获取和本地获取。网络爬虫获取指的是通过Python编写爬虫程序合法获取互联网中的各种文字、语音、图片和视频等信息;本地获取指的是通过计算机工具获取存储在本地数据库中的生产、营销和财务等系统的历史数据和实时数据。

    3)数据预处理

    数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。其中,数据合并可以将多张互相关联的表格合并为一张;数据清洗可以去掉重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据交换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。在数据分析过程中,数据预处理的各个过程互相交叉,并没有固定的先后顺序。

    4)分析建模

    分析建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型和算法,发现数据中的有价值信息,并得出结论的过程。

    5)模型评价与优化

    模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。模型的优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。

    6)部署

    部署是指将数据分析结果与结论应用至实际生产系统的过程。根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。在多数项目中,数据分析员提供的是一份数据分析报告或者一套解决方案,实际执行与部署的是需求方。

    3、Python是功能强大的数据分析工具

    Python具有丰富和强大的库,它常被称为胶水语言,能够把用其他语言制作的各种模块很轻松地连接在一起,是一门更易学、更严谨的程序设计语言,常用于数据分析、机器学习、矩阵运算、科学数据可视化、数字图像处理、网络爬虫、Web应用等;R语言常用于统计分析、机器学习、科学数据可视化等;MATLAB则用于矩阵运算、数值分析、科学数据可视化、机器学习、符号运算、数字图像处理及信号处理等。可以看出,以上三种语言均可进行数据分析。

    4、Python进行数据分析的优势

    Python是一门应用非常广泛的计算机语言,在数据科学领域具有无可比拟的优势。Python正在逐渐成为数据科学领域的主流语言。Python数据分析具有以下几方面优势:

    1》语法简单精炼。对于初学者来说,比起其他编程语言,Python更容易上手;

    2》有许多功能强大的库。结合在编程方面的强大实力,可以只使用Python这一种语言就可以去构建以数据为中心的应用程序;

    3》不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,能给企业带来显著的组织效益,并降低企业的运营成本;

    4》Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。例如,Python的C语言API可以帮助Python程序灵活地调用C程序,这意味着用户可以根据需要给Python程序添加功能,或者在其他环境系统中使用Python;

    5》Python是一个混合体,丰富的工具集使它介于系统的脚本语言和系统语言之间。Python不仅具备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。

    5、Python数据分析常用类库介绍

    Python拥有IPython、Num Py、Sci Py、pandas、Matplot⁃lib、scikit-learn和Spyder等功能齐全、接口统一的库,能为数据分析工作提供极大的便利。其中,Num Py主要有以下特点:

    1)具有快速高效的多维数组对象ndarray;
    2)具有对数组执行元素级计算及直接对数组执行数学运算的函数;
    3)具有线性代数运算、傅里叶变换及随机数生成的功能;
    4)能将C、C++、Fortran代码集成到Python;
    5)可作为算法之间传递数据的容器。

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 16种常用的数据分析方法汇总

    万次阅读 多人点赞 2017-04-04 16:16:33
    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运用制表和...

    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。

    一、描述统计

    描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

    2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1、参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。

    1)U验   使用条件:当样本含量n较大时,样本值符合正态分布

    2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布

    A  单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B  配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    2、非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    检査测量的可信度,例如调查问卷的真实性。

    分类:

    1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    用于分析离散变量或定型变量之间是否存在相关。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

    七、回归分析

    分类:

    1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2、多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法:

    A 残差检验: 观测值与估计值的差值要艰从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3、Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1、性质分类:

    Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

    R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2、方法分类:

    1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

    2)逐步聚类法 :适用于大样本的样本聚类

    3)其他聚类法 :两步聚类、K均值聚类等

    九、判别分析

    1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

    2、与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    3、进行分类 :

    1)Fisher判别分析法 :

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

    适用于多类判别。

    2)BAYES判别分析法 :

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

    十一、因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

    与主成分分析比较:

    相同:都能够起到済理多个原始变量内在结构关系的作用

    不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

    1、包含内容:

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2、方法:

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

    用途:

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    用途 ;

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    展开全文
  • Python数据分析与应用习题答案(黄红梅,张良君为主编)
  • 电商数据分析

    万次阅读 2018-09-12 22:37:44
    电商数据分析 一、数据来源、分析目的和思路 1. 数据来源 为了做商品、用户购物行为分析,从阿里云天池搜索获取数据集: ...

    电商数据分析

    一、数据来源、分析目的和思路
    1. 数据来源
    为了做商品、用户购物行为分析,从阿里云天池搜索获取数据集:
    https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.100073.0.0.30a36fc1OydpSl&dataId=649
    该数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(点击、购买、加购、喜欢),数据集信息如下:
    表1 变量信息

    编号 变量 说明 数量
    1 userid 用户id 987,994
    2 itemid 商品id 4,162,024
    3 categoryid 商品类目id 9,439
    4 type 行为类型:pv(商品详情页pv,等价于点击)、buy(商品购买)、cart(将商品加入购物车)、fav(收藏商品) 100,150,807
    5 timestamp 时间戳 -

    2. 分析目的
    网站、商品、用户的购物行为分析。

    二、 分析正文
    1. 数据清洗
    因数据量太大,随机选取了3000个用户的行为日志进行分析。共有304920条行为数据,假定该数据为网站总数据。没有缺失值。为考察异常值,绘制变量5的箱线图如下。
    这里写图片描述
    图1 timestamp异常值分析

    由图可知timestamp中有异常值,查询发现,数据集中含有129条时间小于11月25日的记录,和50条时间大于12月3日的记录,不符合要求,因此删除此179条记录,得到304741条行为记录,包含3000个用户,163438个商品,4349个商品类目。

    2.网站分析
    2.1 PV
    网站每天的PV(与行为类型中的pv区别)统计如下;日均PV为33860。
    这里写图片描述
    图2 网站日PV

    由图可知,PV在11月25日到12月1日较为平稳,12月2日大幅增加,达到本周最大值,12月3日小幅回落,推测因12月2、3日为双休日,所以PV增加。但此段时间不涉及节日,11月25、26日也为双休日,其PV理应与12月2、3日类似,可作为异常点分析,定位原因。 根据PV可调整广告等资源投放的时间、数量,节约成本,使营销更高效。

    2.2 DAU
    网站DAU如下图:
    这里写图片描述
    图3 网站DAU

    由此份数据计算得到日活,变化趋势与日PV一致。异常点也是11月25日和11月26日,可以进一步分析原因。先定位出现异常的用户群体,再从内部、外部用排除法寻找原因。外部影响因素有PEST、竞争对手,内部因素有网站调整、商品的价值和用户需求、营销方案。

    2.3 访客
    定义:在当天之前没有行为的用户为新用户,否则为老用户。将每天的新老用户数统计如下:
    这里写图片描述
    图4 用户数
    针对此份数据,从11月26日开始,新增用户数缓慢减少,12月1日为0;老用户数缓慢增加,12月2日突增。新老用户数总体平稳。

    2.4 留存率
    将留存率整理如下。
    表2 网站留存率(%)

    日期 次日留存率 3日留存率 5日留存率 7日留存率
    11-25 78.68 77.80 78.12 98.98
    11-26 67.59 68.02 69.51 97.87
    11-27 66.18 64.73 96.14 -
    11-28 65.22 69.57 94.57 -
    11-29 71.11 97.78 - -
    11-30 91.18 97.06 - -
    12-01 - - - -
    12-02 - - - -
    12-03 - - - -

    因12月1日-12月3日的新增用户数为0,所以无法计算留存率;12月2日和12月3日的活跃用户多,对应这两日的留存率也较高。留存率一般趋势为逐渐减小到平稳,总体来说因为数据较少,时间较短,未能得到常见留存曲线,但可锻炼计算方法。此外根据留存和新增可以预测日活。
    2.5 转化率
    在304741条行为记录中,统计行为类型数据,假定cart、buy、fav都基于pv,计算各转化率见下图。
    这里写图片描述
    图5 网站行为类型转化率

    结合经验,根据各个转化率能判断2017年11月25日至2017年12月3日这段时间,产品质量、网站的销售等情况。

    3.商品分析
    categoryid为2885642的商品类和itemid为1927740的商品在此段时间被购买次数(buy)最多,为热销商品。店铺根据商品销售情况,可进行引流和促销。
    categoryid为4756105的商品类目和itemid为812879的商品被访问(总行为数)最多,但被购买次数较少。部分浏览量高,却卖不出去的商品,可收集详细信息,专题分析其原因。

    4.用户分析
    用户分析包含行为事件、转化、留存、分布、点击、用户行为路径、分群、属性、粘性分析等方面。根据数据进行用户分群分析。
    根据userid,将每位用户cart、fav、buy和pv的4种行为计数,因样本量较大,采用K-means方法聚类,经分析数据符合聚类要求,对比聚类数目3和4的结果,根据变量对分类的贡献和实际类别特征,选择聚类数3。聚类结果如下:
    表3 最终聚类结果

    聚类中心 第1类 第2类 第3类
    cart 3 12 8
    fav 1 8 4
    buy 2 3 2
    pv 44 286 133
    各类别用户数 1850 262 888

    聚类结果将3000个用户分为了3类,方差分析结果表明4个变量(pv、buy、fav、cart)都对分类贡献显著。根据类别,统计计数3000个用户的各个行为(pv、buy、fav、cart)总数,绘制条形图如下(其中“pv”数据按比例缩小,乘系数0.2)。
    这里写图片描述
    图6 不同聚类类别type行为计数条形图

    被分为的3类中,第1类人数最多,该类的用户特点为商品浏览次数较少,将商品加入购物车率(cart)和购买率(buy)相对最大;第2类人数最少,该类用户特点为将商品加入购物车率、收藏率和购买率相对最少,是最不活跃的一类用户;第3类用户人数和特点介于第1、2类之间,商品浏览次数相对最多,比其它两类用户更喜欢收藏商品。针对分类,可进行精准营销。

    浏览商品是用户购买的前提,用户购买是商家最终目的,因此,选取各用户pv和buy计数数据,绘制散点图,采用矩阵关联分析法。其中浏览(pv)行为均值为91.1813,购买(buy)行为均值为2.0017。
    这里写图片描述
    图7 pv-buy矩阵图

    根据矩阵图,将用户分类,对不同类的用户采取不同措施,达到精准营销的目的。由图可知,第I象限为浏览量大,购买量大的用户,此类用户购物较谨慎,喜欢多对比物品。第II象限为浏览量少,购买量大的用户,购物快准狠,主动性强,对该类用户无需投入过多资源维护。第III象限的用户浏览量少,购买量少,该类用户可能不喜欢网购,也可能是购物目的性强,对该类用户可采取投放广告、优惠券的措施。第IV象限用户浏览量大,购买量少,对该类用户可投放满减活动。确定营销方案后,随机抽取不同类的用户进行营销方案测试,再通过假设检验评判实施效果。

    三、总结
    以上分析了2017年11月25日至2017年12月3日此段时间,网站(PV、DAU、访客、留存、转化)总体运营,商品以及用户的一些指标。根据K-means方法,用户被聚为3类;根据浏览量-购买量(pv-buy)矩阵分析,将用户分为4部分;以上两种方法从不同角度对用户进行了分类,目的是精准营销。因本例未包含商品、用户详细数据,如用户性别、年龄,用户购物数量、金额等,未能进一步分析;且网站分析部分计算得到了一些绝对数据,有一定局限性。本文旨在锻炼思维、练习工具的使用和代码撰写的能力,希望以后结合业务经验,能做出更深入的分析。

    展开全文
  • 数据分析师—Excel实战篇

    千次阅读 2018-03-15 22:22:26
    这也是通常数据分析的简化流程。————明确目的数据分析的大忌是不知道分析方向和目的,拿着一堆数据不知所措。一切数据分析都是以业务为核心目的,而不是以数据为目的。数据用来解决什么问题?是进行汇总统计制作...
  • 数据分析笔试题目(一)

    万次阅读 2019-03-07 14:14:49
    1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准...
  • 【秋招】京东_数据分析岗_面试题整理

    万次阅读 多人点赞 2018-08-09 23:27:28
    1. 怎么做恶意刷单检测 分类问题用机器学习方法建模解决,我想到的特征有:  1)商家特征:商家历史销量、信用、产品类别、发货快递公司等 ...  3)环境特征(主要是避免机器刷单):地区、ip、手机型号等 ...
  • 数据分析常用6种分析思路

    万次阅读 多人点赞 2019-03-19 14:20:57
    作为数据分析师,你是否常因为缺乏分析思路,而被以下问题影响到幸福感(甚至怀疑人生)? 1. 新上线某个产品,需要监控转化率效果,既要看总体情况,也要看细分渠道; 2. 策划营销活动,预算有限...
  • 做大数据开发好还是大数据分析比较好一些?哪个薪资高? 零基础学习大数据开发,还是大数据分析?哪方面比较好? 今天我们来从技术角度和薪资角度全面进行分析,方便你的选择。 技术区别 在做选择之前,需要了解...
  • 数据分析思路

    万次阅读 多人点赞 2018-09-14 17:08:13
    数据分析是在当今每个企业都所需要涉及的一门学科,数据分析的书随便一搜就会有太多教大家如何的去使用。大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们...
  • 数据分析-傅里叶变换

    2019-01-23 08:56:02
    数据分析 矩阵的特征值与特征向量 对于n阶方阵,如果存在数a和非零n维列向量x, 使得Ax=ax, 则称a是矩阵A的一个特征值, x是矩阵A属于特征值a的特征向量. # 已知n阶方阵A, 求特征值与特征向量 # eigvals: 找到的所有...
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2019-12-13 10:21:13
    一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...
  • 数据分析的工作流程

    万次阅读 2018-12-04 14:26:59
    数据分析的工作流程1. 定义问题 在做具体的分析前,你需要确定要分析的问题是什么?你想得出哪些结论?比如某地区空气质量变化的趋势是什么?影响公司销售额增长的关键因素是什么?生产环节中影响产能和质量的核心...
  • 数据分析-PART2--10大数据分析模型

    万次阅读 多人点赞 2019-04-25 07:41:55
    数据分析-PART0--数据分析综合 数据分析-PART1--数据获取和步骤 数据分析-PART2--10大数据分析模型 数据分析-PART3--数据分析常用指标 数据分析-PART4--数据分析方法 数据分析-PART5--数据分析可视化 数据分析...
  • 作为一个学习用Python进行数据分析的新手来说,通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作,目的是熟悉numpy以及pandas基础操作,所有操作利用Excel均可以方便...
  • 从零开始用Python3做数据分析

    万次阅读 多人点赞 2018-05-19 13:35:59
    ​点击关注 异步图书,置顶公众号每天与你分享 IT好书 技术干货 职场知识​​参与文末话题讨论,每日赠送异步图书——异步小编​欢迎来到Python数据分析的世界!如今,Python已成为数据分析和数据科学事实上的标准...
  • 本门课程作为电商数据分析师的开篇导论,将从数据分析师的岗位及透过岗位理解业务为切入点,讲解数据分析师的职业诉求,发展路径,及数据分析在业务中的存在价值,如何通过数据分析理解业务的价值和发现机会点。...
1 2 3 4 5 ... 20
收藏数 2,774,430
精华内容 1,109,772
关键字:

数据分析