精华内容
下载资源
问答
  • 2020互联网数据分析师教程视频 统计学分析数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战
    展开全文
  • 1.描述性统计学 分类数据的描述性统计:单纯计数就可以 数据描述统计: 统计度量:平均数--数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位) 图形: 权重预估(分位数) 数据...

    1.描述性统计学

    1. 分类数据的描述性统计:单纯计数就可以
    2. 数据描述统计:
    3. 统计度量:平均数--数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位)
    4. 图形:
    5. 权重预估(分位数)
    6. 数据分布(波动情况,标准差,方差)
    7. 数据标准化:

     

    在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较

    用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。

    xi:数据的具体值

    u:平均值

    σ:标准差

    • 标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。
    • 但是,标准化的办法还需要根据实际数据类型确认,不同标准化办法的实际标准化意义不同。
    • 关于销量等特征与时间的关系,需要从多个时间维度去分析才能得到更多结论。如,周期、月份和年份。
    • 切比雪夫定理是一个经验定理,可以用来排除大部分异常值。数据量越大,精确度更高。

    2.描述统计可视化

    1.箱线图:描述一组数据的分布情况。

    Excel中能直接对数据进行作图,并且还能添加许多对比条件。

    2.直方图:数值数据分布的精确图形表示

    • 标准型:分布均匀,出现在大多数场景下。
    • 陡壁型:比较容易出现在收费领域
    • 锯齿型:说明数据不够稳定
    • 孤岛型:要研究分析孤岛产生的原因
    • 偏峰型:销售数据一般会产生偏锋,一般会出现长尾(或左或右)
    • 双峰型:两者数据混合一般会形成双峰

    直方图引出另外一个概念:偏度,统计数据分布偏斜方向和程度的度量

    正态分布:也称“常态分布”

    以上公式成立是,有标准正态分布。

    可以用来进行异常值排查,或者假设的数据分布。

    3.概率推断统计

    统计推断(statistical inference),指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。

    重要概念:贝叶斯定理

    在知道结果A已经发生,想要推导出各种原因发生的可能性情况。

    贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

    展开全文
  • 作者 | 莱恩7来源 | 知乎https://zhuanlan.zhihu.com/p/34444750统计学是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据,以便给出...

    作者 | 莱恩7

    来源 | 知乎

    https://zhuanlan.zhihu.com/p/34444750


    统计学是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。如果要学习数据分析,那么扎实的统计知识是必备的。

    本文参考《深入浅出统计学》二 、三、 四、 五 章知识,对重点内容进行归纳总结。最后有几个统计概率应用的例子以及使用python分析6家上市公司股票的干货。

    01

    统计学基础

    1.均值

    平均数的一般量度:

    有时候一些数据重复了,这时候需要用到频数:

    2.中位数

    偏斜数据和异常值使均值误导的时候,用它,它是中间值。

    3.众数

    数据中出现最多的数值。

    4.四分数

    四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

    注意:由小到大排列。

    • 第一四分位数 (Q1):又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

    • 第二四分位数 (Q2):又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

    • 第三四分位数 (Q3):又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

    • 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。

    5.方差(Variance)

    统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数

    6.标准差(Standard deviation) 

    离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根

    标准差能反映一个数据集的离散程度平均数相同的两组数据,标准差未必相同

    方差所得的数值之平方根就是总体的标准偏差

    7.标准分

    是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。

    02

    概率计算

    概率是对随机事件发生的可能性的度量,一般以一个在0到1之间的实数表示一个事件发生的可能性大小。

    1.对立事件

    若A交B为不可能事件,A并B为必然事件,那么称A事件与事件B互为对立事件。其含义是:事件A和事件B必有一个且仅有一个发生。

    对立事件概率之间的关系:P(A)+P(B)=1

    例如:在掷骰子试验中,A={出现的点数为偶数},b={出现的点数为奇数},A∩B为不可能事件,A∪B为必然事件,所以A与B互为对立事件。

    2.相交事件

    可能同时发生的两件事。

    3.互斥事件

    两件事中只可能发生一件

    抛硬币,正反面是互斥,抛出正面就不可能有反面。

    4.独立事件

    发生概率不受其他事件影响

    你抛一个硬币三次,结果全是"正面"……下一次抛掷的结果也是"正面"的可能性是多少?

    可能性是 ½(0.5),和任何一次抛掷一样。

    以前的抛掷不会影响这次抛掷!

    贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法

    在介绍贝叶斯定理之前,先简单地介绍一下条件概率,描述的是事件 A 在另一个事件 B 已经发生条件下的概率

    A 和 B 可能是相互独立的两个事件,也可能不是。

    03

    概率统计的应用

    1.期望值 

    在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和

    2.夏普比率

    现代投资理论的研究表明,风险的大小在决定组合的表现上具有基础性的作用。风险调整后的收益率就是一个可以同时对收益与风险加以考虑的综合指标,以期能够排除风险因素对绩效评估的不利影响。夏普比率就是一个可以同时对收益与风险加以综合考虑的三大经典指标之一。

    如果夏普比率为正值,说明在衡量期内基金的平均净值增长率超过了无风险利率,在以同期银行存款利率作为无风险利率的情况下,说明投资基金比银行存款要好。

    夏普比率越大,说明基金的单位风险所获得的风险回报越高。

    夏普比率为负时,按大小排序没有意义。夏普比率以资本市场线作为评价基准,对投资绩效作出评估。

    3.利用Python分析6家公司股票(阿里巴巴 亚马逊 腾讯 苹果 facebook 谷歌)

    首先导入包

    创建字典

    获取阿里巴巴股票数据

    会得到如下股票数据:

    查看数据集描述

    会得到下面的数据:

    分析涨跌得到如下数据:

    绘图步骤

    可以得到‘阿里巴巴’的股票走向

    其他几家公司同理:

    END

    本文为转载分享,如侵权请联系后台删除

    别了,腾讯微博。

    取数,取数,取个屁啊!

    后台回复“入群”即可加入小z数据干货交流群
    
    展开全文
  • 统计学 分类数据分析

    2020-06-08 19:31:14
    统计学 分类数据分析 分类数据和x2x^2x2统计量 拟合优度检验 列联分析: 独立性检验 列联表的相关系(三个系数) 1.分类数据和x2x^2x2统计量 分类数据 x2x^2x2统计量 其中 k为求和的项数, l 为要估计的参数个数 ...

    统计学 分类数据分析

    • 分类数据和x2x^2统计量
    • 拟合优度检验
    • 列联分析: 独立性检验
    • 列联表的相关系(三个系数)

    1.分类数据和x2x^2统计量

    分类数据

    在这里插入图片描述

    x2x^2统计量

    在这里插入图片描述
    其中 k为求和的项数, l 为要估计的参数个数
    具体的参数含义可以结合下面的案例来理解

    2.拟合优度检验

    直接进入案例

    例1

    在这里插入图片描述

    • 步骤1:分析 H0与H1
      H0 :观察频数与期望频数一致

    • 步骤2: 构造统计量
      在这里插入图片描述

      • 1.在本题中不用估计参数,参与求和的项数为2,所以自由度为2-0-1=1
      • 2.根据原来的男女比例估计期望的男女存活 的人数在这里插入图片描述
      • 3.代入计算
    • 步骤3.得出结论
      在这里插入图片描述

    例2

    在这里插入图片描述

    • 步骤1:分析 H0与H1
      H0 :观察频数与期望频数一致
    • 步骤2: 构造统计量
      在这里插入图片描述
      • 1.在本题中估计参数为λ,l=1,参与求和的项数为4,所以自由度为2-0-1=1
        注,这里的 k=4是因为手动把 >=3的数据都归为一类
        λ的估计: 因为H0假设服从参数为λ的泊松分布,泊松分布的表达式入下
        在这里插入图片描述
        因此使用频数分布表计算出期望
        λ=0109/200+165/200+222/200+33/200+41/200=0.61000000000000010.61λ = 0*109/200 + 1*65/200+2*22/200+3*3/200+4*1/200=0.6100000000000001 ≈0.61
        根据泊松分布的表达式计算出k为0,1,2,3时的概率,得到下表在这里插入图片描述
        带入公式求得统计量
    • 步骤3: 带入得出结论在这里插入图片描述

    3.列联分析: 独立性检验

    RT/CT为该行/列的求和
    在这里插入图片描述
    在这里插入图片描述
    话不多说,看例题来理解

    例1

    在这里插入图片描述
    在这里插入图片描述
    解析
    H0:地区和原料等级之间是独立的(不存在依赖关系)
    H1:地区和原料等级之间不独立 (存在依赖关系)
    计算
    其中45.36=140/500162/500500=140162/500=45.36=140/500*162/500*500=140*162/500=
    在这里插入图片描述
    统计量
    自由度为(3-1)*(3-1)=4
    累加(5245.36)2/45.36(52-45.36)^2/45.36 以此类推
    得出结论
    在这里插入图片描述

    4.3个相关系数的计算

    注,下文中的x2x^2均为统计量

    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 统计学方法与数据分析
  • 该报告时由本人根据自己所开发的以项目进行编写,图形化展示
  • 统计学(statistics)是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。
  • 数据分析统计学基础

    千次阅读 多人点赞 2017-11-14 18:28:53
    数据分析中的统计学基础--数理统计基础  数据分析统计学基础--描述性统计  数据分析统计学基础--抽样估计  数据分析统计学基础-假设检验 数据分析统计学基础--方差分析 数据分析统计学基础--相关及...
  • 数据分析是新时代的产物,数据分析和传统的数据统计有什么关系,是不是有了数据分析就不需要统计学了,统计学是一门理论学科,其中的理论以及依据也是作为数据分析的理论和依据,虽然时代在变,但是统计学依旧重要。...
  • 统计学与大数据分析

    万次阅读 2017-10-28 22:16:30
    在谈大数据分析之前我想应该说一说统计学统计学到底是怎样一种学问呢。先看看我们的周围,其实有无限多的数据。所谓数据呢就是一系列数字的集合或者符号的集合体。我们傻傻的看着这些数据也看不出什么。所以我们会...
  • 统计学方法与数据分析引论【重要】下册统计学方法与数据分析引论【重要】下册统计学方法与数据分析引论【重要】下册统计学方法与数据分析引论【重要】下册统计学方法与数据分析引论【重要】下册统计学方法与数据分析...
  • 学习数据分析离不开统计学的相关知识,在这块我自己属于零基础,上学的时候也是文科生没有开设任何数学相关课程,所以选择了《深入浅出统计学》这本书入门,下面对这块基础知识做一些整理。一、集中趋势的度量:均值...
  • spss 数据分析工具,“统计产品与服务解决方案”软件,SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。
  • 数据分析统计学基础之数据的趋势

    千次阅读 2019-05-15 18:01:25
      集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。 1.1平均数   平均数为集中趋势的最常用测度值,目的是确定一组数据的均衡点。平均数表示一组数据的情况,有直观、简明的特点,...
  • 描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。 分析[2]:透过对于数据资料的进行图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况...
  • Dips 地质数据的几何学和统计学分析软件
  • 统计学(Statistics): 收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学主要分为描述统计(Discriptive Statistics)和推断统计(Inferential Statistics)。 描述统计 研究的是数据收集、处理、汇总、图表...
  • 在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间...
  • 统计学常用分析方法,数据分析工具,是数据调查的好帮手
  • 在观察、使用统计数据时,类似“大数据时代怎样数据”这样的话题,再次引起人们的关注。 7月20日出版的《人民日报》,刊发了清华大学统计学研究中心主任刘军做客人民日报、人民网《文化讲坛》时,对相关问题所做...
  • 面向数据科学家的实用统计学第一章
  • 统计学分析工具

    千次阅读 2018-10-18 16:11:45
    SPSS数据统计学分析工具:  https://pan.baidu.com/s/1i3ZPD8T#list/path=%2F100%2B%2Fspss22.0%2FSPSS%2022&parentPath=%2F100%2B 安装与破解 https://blog.csdn.net/wzl1997/article/details/79056689...
  • 统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 57,187
精华内容 22,874
关键字:

如何用统计学分析数据