精华内容
下载资源
问答
  • 统计学有趣吗?

    2020-07-24 08:18:00
    来源:数据氧气作者:拿破仑的DO君做数据分析的朋友一定知道统计学,是我们工作的基础。在我们眼中,统计学是很多数字和模型组成的,略显枯燥。最近看了一个纪录片《The joy of sta...
    
    

    来源:数据氧气

    作者:拿破仑的DO君

    做数据分析的朋友一定知道统计学,是我们工作的基础。在我们眼中,统计学是很多数字和模型组成的,略显枯燥。

    最近看了一个纪录片《The joy of stats》,中文译名有趣的统计学,今天给大家分享个有意思的瑞典统计学家汉斯.罗斯林,以及他眼中有意思的统计学。

    《时代》杂志在2012年将汉斯·罗斯林评为了全球100位最有影响力的人物之一,称赞他使用“令人惊叹的数据展示,让全球数百万人从全新的角度审视自己和这座星球”。

    01

    统计学的起源与核心

    首先谈到的是统计学的起源。statistics与status同源,意思是现象或现状,也与国家(states)相似含有国情调查意思,统治阶级利用数据监控老百姓,而现代统计学,是用于监控政府动态,研究社会现象的有力工具。瑞典政府是世界上第一个对人口进行统计的国家,1749年的人口统计报告表明瑞典只有两百万人口,而不是期待的2千万。

    我喜欢的其中罗斯林说到的一句话是 “分析资料才是最重要的,这是统计学的核心”。回顾数据分析工作中,数据是基础,但不要沉迷于数据,要用有目的地的分析数据,找到数据背后的规律和信息,从而影响业务工作,产生价值。

    02

    可视化让统计变成故事

    这部片子里好展示了统计学在人口、安全、卫生、健康、机器翻译、天文、自然界的变化、甚至情感等众多领域的应用。让我印象深刻和有意思是数据可视化领域。将数据背后的信息用故事传达个观众。

    可视化的先驱是英国的护士和统计学家南丁格尔,她用玫瑰图,以表达军医院季节性的死亡率,对象是那些不太能理解传统统计报表的公务人员,从而推动医改。

    而罗斯林也用了自己的方式来讲述有意思的数字。他自己创立了可视化软件 Trendalyzer,后被谷歌收购。他用的最多的一个可视化作品,散点图的方式描述了各国健康水平(预期寿命)和经济发展(人均GDP)的正相关性,并利用动画演示。

    03

    可视化实践

    为了向大师致敬,我特地用可视化神器POWER BI来复现这一动态效果。

    【1】数据导入与清洗:是将数字源导入POWER BI,然后在transform模式下编辑这3个数据(将第一行变成表头-1),还需要剔除国家一列中的空值-2;

    【2】数据转换与重命名:由于源数据表格是表头是年份,需要用unpivot的转换成我们正常使用的行记录的形式(选择转换其它列)-3,然后对列名进行重命名。

    【3】建立关系:3个数据集直接要进行关联(也就是vlookup匹配),采用间接辅助列的方式,使用国家和年份组合的方式形成唯一列country_year,然后在3个表中建立一对一关系;

    【4】可视化预处理:使用散点图组件进行作图,然后注意由于人均gdp的数值很大,需要进行对数转换才能让散点图更明显(新建log10的计算列) 

    【5】可视化:分别拖入图例,x轴,y轴,以及需要播放的维度 play,大功告成,神奇的动态散点图完成。

    ◆ ◆ ◆  ◆ 

    号主新书已经在京东上架了,厉害了!麟哥新书登顶京东销量排行榜!目前京东正在举行100-50的活动,大家可以用原价5折的价格购买:

    扫描下方二维码即可进入京东的购买链接(https://item.jd.com/12686131.html):


    数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

    管理员二维码:

    猜你喜欢

     笑死人不偿命的知乎沙雕问题排行榜

     用Python扒出B站那些“惊为天人”的阿婆主!

     全球股市跳水大战,谁最坑爹!

     华农兄弟、徐大Sao&李子柒?谁才是B站美食区的最强王者?

     你相信逛B站也能学编程吗

    点击阅读原文即可参与京东100-50购书活动

    展开全文
  • 这是学习笔记的第1913篇文章 今天在学习统计学的时候,碰到了一个很有趣统计学问题。这个场景是如何统计大学生中考试作弊的比例,假设样本是100个学生。看起来这个问...
        

    这是学习笔记的第 1913 篇文章


      今天在学习统计学的时候,碰到了一个很有趣的统计学问题。这个场景是如何统计大学生中考试作弊的比例,假设样本是100个学生。

    看起来这个问题很好解决,我们可以直接问这100个学生,一对一来问或者是举手来投票统计即可。 但是从一个客观的事实来说,人对于这类敏感的问题都有先天的排斥性,所以能够主动承认和反馈问题的相比会是少数。

    假设做调查的人拍胸脯说会对学生的信息保密,那么从人性的角度来说,我们也不一定放心,因为我们毕竟通过一种直接的交流方式来承认了一件难以直接坦白的事情,如果真有什么其他的目的和原因,我们也无法控制。

    我们把这件事情的难度升级,假设这件事情发生在一个大教室内,大家都互相认识,虽然举手表决很容易分辨出来是谁有作弊的行为,一目了然,但是我们肯定都不愿意这么做,得到的数据是严重失衡的。 

    怎么能够让大家不带有心理压力,同时还能够真诚的反馈这个数据呢, 我们用统计的方法来协助,我们可以把这个问题拆分为两个问题:

    1. 一个无关痛痒的问题,比如你的手机尾号是否为奇数 

    2. 你大学考试的时候是否有作弊的行为

    可能很多同学说,这不跟没问一样吗?

    我们可以加一些策略,通过严密的统计方法来实现,我们把这个场景改进一下。现在大家需要从1和2两个数选择一个数,这个数字不能说出来,自己记在心里即可,然后下面的两个问题只需要回答一次。 

    我们把问题重新修正一下:

    1. 你选择的数字是否为1?                         回答是或者否

    2. 你大学考试的时候是否有作弊的行为?     回答是或者否

    然后我们按照这样的策略来回答,如果你选择的是1,则回答第1个问题即可,如果你选择的是2,则回答第2个问题。 

    按照这样的测试方案,其实大家坐在一起,无论是说是还是否,其实互相都不知道你在回答哪个问题,这是一种透明而且开放的环境,那么你说真话的概率就很大许多,没有了心理压力。

    我会在最后给出答案。

    第2个问题是如果一个班级里面有70个人,那么一个班级里面的学生同一天生日的概率有多大,按照我们常规的理念,可能概率很小吧,其实这个概率有99.9%以上。 

    我们直接用程序来做论证,年龄段的时间范围是1970-2001年,样本从9个学生到70个学生,测试测试是1万次。 

    # _#_ coding:utf-8 _*_

    from __future__ import division

    import time

    import random

    a1=(1970,1,1,0,0,0,0,0,0)

    a2=(2000,1,1,0,0,0,0,0,0)

    start=time.mktime(a1)    #生成开始时间戳

    end=time.mktime(a2)      #生成结束时间戳

    result_list = []

    date_list = []

    SAMPLE_START = 9

    SAMPLE_MAX = 70

    RUN_TIMES = 10000

    for i in range(SAMPLE_START,SAMPLE_MAX+1):

        SAMPLE_NO = i

        for j in range(RUN_TIMES):

            for k in range(SAMPLE_NO):

                t=random.randint(start,end)

                date_touple=time.localtime(t)

                rand_date=time.strftime("%m-%d",date_touple)

                date_list.append(rand_date)

            if len(set(date_list)) < len(date_list):

                result_list.append(1)

                date_list = []

        print SAMPLE_NO,round(len(result_list)/RUN_TIMES,4)

        result_list=[]

    运行结果如下:

    9 0.3127

    10 0.3384

    11 0.3697

    12 0.4

    13 0.4299

    14 0.4478

    15 0.4738

    16 0.5006

    17 0.5213

    18 0.5466

    19 0.567

    20 0.5823

    21 0.6037

    22 0.6269

    23 0.6465

    24 0.6639

    25 0.6879

    26 0.7011

    27 0.7195

    28 0.737

    29 0.7537

    30 0.7666

    31 0.7857

    32 0.7966

    33 0.8185

    34 0.8303

    35 0.8401

    36 0.8548

    37 0.8713

    38 0.881

    39 0.8904

    40 0.9068

    41 0.9049

    42 0.9211

    43 0.9341

    44 0.935

    45 0.9436

    46 0.9524

    47 0.9548

    48 0.9643

    49 0.9661

    50 0.9711

    51 0.9763

    52 0.9776

    53 0.9822

    54 0.9847

    55 0.9859

    56 0.9878

    57 0.9891

    58 0.9933

    59 0.9932

    60 0.9935

    61 0.9943

    62 0.9958

    63 0.9962

    64 0.9978

    65 0.9979

    66 0.9988

    67 0.9985

    68 0.9987

    69 0.9986

    70 0.9993

    把这个结果用图表来表示,就是如下的形式了。

    640?wx_fmt=png

    然后对第一个问题做下解释,如果200个学生,有70个人说是,那么作弊的概率就是 (70-(200/4))/(200/2)=20%

    相关链接:

    640?

    展开全文
  • 统计学面试经典问题

    万次阅读 多人点赞 2019-12-29 21:22:00
    1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。 1) 大数定律 弱大数定律(通常指辛钦大数定律): a) 马尔科夫大数定律: 随机变量满足马尔科夫条件:1n2D(∑k=1nξk)→0\frac {...

    1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。

    1) 大数定律

    • 弱大数定律(通常指辛钦大数定律):
      a) 马尔科夫大数定律:
      随机变量满足马尔科夫条件:1n2D(k=1nξk)0\frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0,则样本均值依概率收敛于期望值。
      b) 辛钦大数定律:
      随机变量独立同分布,一阶矩存在且等于 aa,样本均值依概率收敛于期望值 aa

    • 强大数定律(柯尔莫哥洛夫):
      随机变量独立同分布,一阶矩存在且等于 aa,样本均值以概率1收敛于期望值 aa

    2) 中心极限定理

    • Lindeberg-Levy 中心极限定理(最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布):

    随机变量 X1,X2,,XnX_{1},X_{2},\cdots ,X_{n} 独立同分布, 且具有有限的数学期望和方差 E(Xi)=μE(X_{i})=\muD(Xi)=σ20(i=1,2,,n)D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n),记 Xˉ=1ni=1nXi,{\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}, ζn=Xˉμσ/n\zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}},

    limnP(ζnz)=Φ(z)\lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right)

    其中 Φ(z)\Phi (z) 是标准正态分布的分布函数。

    3) 大数定律的应用

    抛硬币,抛的次数足够多,正反面出现的概率近乎是一致的。

    4) 中心极限定理应用

    在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布。


    2. 说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。

    极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。

    矩估计法(也称数字特征法):

    • 直观意义比较明显,但要求总体 k 阶矩存在。
    • 缺点是不唯一,此时尽量使用样本低阶矩。
    • 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
    • 估计值可能不落在参数空间

    极大似然估计法:

    • 具有一些理论上的优点(不变性、相合性、渐近正态性)
    • 缺点是如果似然函数不可微,没有一般的求解法则。

    3. 详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点

    非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

    机器学习:决策树,随机森林,SVM;
    假设检验:符号,符号秩,秩和检验

    优点:

    • 非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
    • 多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

    缺点:

    • 由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
    • 对于大样本,如不采用适当的近似,计算可能变得十分复杂。

    4. 常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。

    逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选

    • 基本原理: 投影
    • 作用: 降维

    可参考:一些变量筛选方法——1、综述


    5. ① 依概率收敛、② 概率1收敛(几乎处处收敛)的定义分别是什么?二者有什么关系?

    依概率收敛( d(Xn,X)d(X_{n},X) 表示距离,通常可用XnX|X_{n}-X|):P(d(Xn,X)ε)0,ε>0.\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.
    概率1收敛:P(limnXn=X)=1\mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1

    接着考虑 ③ 依分布收敛,④ r阶矩收敛,有下述关系:

    ④ -> ①
    ② -> ①
    ① -> ③
    ③ -> ① (当①③ -> 常数C)


    6. 阐述极大似然估计法的基本思想、缺陷及解决方案。

    • 基本思想: 出现的认为是最有可能发生的。

    • 具体定义:
      给定一个概率分布 DD,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 fDf_D,以及一个分布参数 θ\theta ,我们可以从这个分布中抽出一个具有 nn 个值的采样 X1,X2,,XnX_1, X_2,\ldots, X_n,利用 fDf_D 计算出其似然函数:
      L(θx1,,xn)=fθ(x1,,xn).{\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} DD 是离散分布, fθ{\displaystyle f_{\theta }} 即是在参数为 θ\theta 时观测到这一采样的概率。若其是连续分布, fθ{\displaystyle f_{\theta }} 则为 X1,X2,,XnX_1, X_2,\ldots, X_n 联合分布的概率密度函数在观测值处的取值。一旦我们获得 X1,X2,,XnX_1, X_2,\ldots, X_n,我们就能求得一个关于 θ\theta 的估计。最大似然估计会寻找关于 θ\theta 的最可能的值(即,在所有可能的 θ\theta 取值中,寻找一个值使这个采样的 “可能性” 最大化)。从数学上来说,我们可以在 θ\theta 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ^\widehat{\theta} 值即称为 θ\theta 的最大似然估计。

      由定义,最大似然估计是样本的函数。

    • 缺陷及解决方案:

    1. 均匀分布参数,正态分布的尺度参数的极大似然估计是有偏的,可以乘以一个系数进行校正。
    2. 极大似然估计的方差在高维情况下会很大,贝叶斯方法通过加先验一定程度上克服了这个问题,形式上就是现在的各种正则化方法,使得估计结果更稳定,更有效。

    7. 参数点估计量的评价标准有哪些?

    相合性,无偏性(参数估计的期望等于参数),有效性(两个估计均为无偏估计,则方差越小越有效),完备性,渐进正态性……

    • 相合性(通常指弱):
      弱:θn^θ\hat{\theta_n} \to \theta,依概率
      强:θn^θ\hat{\theta_n} \to \theta,几乎处处

    • 完备性:
      ϕ(x)dPθ=0,θΘ\int \phi(x)dP_\theta = 0, \forall \theta \in \Theta ϕ(x)=0,a.s.Pθ\phi(x) = 0, a.s. P_\theta
      ϕ(x)\phi(x) 是可测函数,则分布族是完备的。


    8. 谈谈你对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。

    • 假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程
    • 第一类错误(type I error):拒绝了正确零假设
    • 第二类错误(type II error):接受了不正确零假设
    • 显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)
    • 检验功效(power) : 拒绝了不正确零假设概率
    • 检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率


    9. 什么是统计学?人工智能?机器学习?深度学习?

    1) 统计学

    • 是利用数据解释自然规律的科学,内容包括如何收集和分析数据。
    • 是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。

    2) 人工智能

    • 指由人制造出来的机器所表现出来的智能。

    3) 机器学习

    • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
    • 机器学习是对能通过经验自动改进的计算机算法的研究。
    • 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
    • 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

    4) 深度学习

    • 深度学习(DL)是一类机器学习算法,使用多个层逐步从原始数据中提取更高层的特征。——wiki
    • 深度学习就是构建由参数化功能模块构成的网络,并利用基于梯度的优化方法进行样本训练。——Yann LeCun

    其他相关知识点

    • 概率的三个公理化条件
      非负性,规范性,可列可加性

    • 回归分析中的F test 与 t test
      OLS 线性回归的假设检验:t 检验和 F 检验

    • 样本点:试验可能出现的结果

    • 样本空间:样本点全体

    • 概率:对于随机事件A,用一个数P(A)表示该事件发生的可能性大小,则此数称为随机事件A的概率。

    • 随机变量:给定样本空间 (S,F)(S,{\mathbb {F}}),如果其上的实值函数 X:SRX:S\to {\mathbb {R}}F\mathbb{F} (实值)可测函数,则称 XX 为(实值)随机变量。初等概率论中通常不涉及到可测性的概念,而直接把任何 X:SRX:S\to {\mathbb {R}} 的函数称为随机变量。

    • 概率空间:(样本空间,事件域,概率)

    • 统计量:是样本测量的一种属性(例如,计算样本算术平均值),它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。

    • 充分统计量:对于统计量 t=T(X)t = T(X),若数据 XX 在已知 t=T(X)t = T(X) 时的条件分布不依赖于参数 θ\theta,则称其是关于参数 θ\theta 的充分统计量。

    • 数学期望:

      • 离散:设 ξ\xi 为一离散型随机变量,它取值 x1,x2,x3,x_1, x_2, x_3, … 对应的概率为 p1,p2,p3,p_1, p_2, p_3, … 如果级数 i=1xipi\sum^\infty_{i=1}x_i p_i 绝对收敛,则称之为 ξ\xi 的数学期望
      • 连续:设 ξ\xi 为具有密度函数 p(x)p(x) 的连续型随机变量,当积分 xp(x)dx\int xp(x)dx 绝对收敛时,称之为 ξ\xi 的数学期望。
    • 方差:若 E(ξEξ)E(\xi – E\xi) 存在,则称随机变量 ξ\xi 的方差

    • U统计量:所有对称核(无偏估计+样本的对称函数)的平均。

    • UMVUE(一致最小方差无偏估计):
      g(θ)g(\theta) 是可估参数,若 T(X)T(X)g(θ)g(\theta) 的无偏估计,且对 UgU_g(所有无偏估计组成的类)中任一估计 ϕ(X)\phi(X),有:
      Varθ(T(X))Varθ(ϕ(X)),θΘVar_\theta(T(X)) \leq Var_\theta(\phi(X)), \forall \theta \in \Theta

    • AIC,BIC(越小越好):
      AIC=2k2ln(L)AIC=2k-2\ln(L) BIC=ln(n)k2ln(L)BIC=\ln(n)k-2\ln(L)训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

    • 损失函数:
      Hinge 损失(SVM),指数损失函数(Adaboost),平方损失函数(最小二乘法, Ordinary Least Squares ),对数损失函数(逻辑回归,交叉熵损失)

    展开全文
  • 统计学中的三大检验问题.pptx
  • 关于χ2检验在教育统计学中应用问题探讨,江育奇,,χ2检验是一种重要的检验方法,在现行《教育统计学》书籍中,都介绍了利用χ2检验方法分析教育问题的方法。然而就《教育统计学》中
  • 关于教育统计学中的一些问题探讨,江育奇,,中位数、标准分是《教育统计学》中两个重要的概念,然而现行《教育统计学》关于这两个概念的定义及其算法上却存在严重的错误。作
  • 适合于像学习PKPD的人
  • 使用禁忌搜索算法来解决01背包问题,之前搜索了很多资料,有很多解决背包问题的现成代码,但是基本没有搜到使用禁忌搜索算法来解决背包问题的代码,于是在计算统计学的作业要求下补充上使用禁忌搜索算法求解01背包...
  • 统计学

    2017-01-02 18:20:20
    1.古典概率经典例题 2.几何概率 投针问题求π值
    1.古典概率经典例题

    2.几何概率 投针问题求π值



    展开全文
  • 箱形图:https://blog.csdn.net/Dulpee/article/details/86660905 正态分布:https://blog.csdn.net/Dulpee/article/details/86662035
  • 1、我们是要进行空间插值工作,干嘛要了解地统计学的中的空间变异函数? 2、知道了空间变异函数的概念,绘制出来了h和r(h)之间的散点图,为什么要利用各种模型去拟合它? 3、采用高斯模型、球状模型等各种模型拟合...
  • 统计学中的基台值问题

    千次阅读 2018-12-19 20:42:02
    最近在做一个关于提取一幅遥感影像中,比如9*9的格网基台值的问题。 "基台值"这个词听起来是不是不太熟悉?是的,我也不熟悉。所以对这个词先进行简单的一个介绍。 这个词是地统计学中的一个术语。地...
  • 医学统计学

    2018-09-14 11:04:08
    《医学统计学》分21章,本次再版侧重于三个方面:第一部分主要介绍医学统计基础理论与基本方法,针对《卫生统计学》多元分析方法薄弱的情况,加强了不同类型资料的回归分析方法与软件结果解释,增加了诊断试验的分析...
  • 要发展分形理论在地质科学中的应用,就必须加强对地质现象分形统计学的研究。文中对地质现象分形统计学...同时,对分形概念的拓广、分维求法及意义、幂律问题、分数布朗运动、方位-分维估值法等问题也作了初步的探讨。
  • 4、问:统计学意义(P值) 答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标...
  • 统计学计算器软件介绍这是一个可以帮助你解决繁琐无趣的中学统计学问题的计算器。目前的功能很简陋,包括 求和、中位数、方差、标准差、平均数、最小二乘法求线性回归方程。这是适用于各类专业人士...
  • 统计学自动分组问题 学过统计学或者做过 BI 的应该知道,很多报表 需要以区间统计的方式来实现,怎么分组比较合理,什么的组距比较合适,会困扰很多人;本文给出一个自动分组的方法,稍微修改一下,便可以做成通用...
  • 统计学 David Freedman

    2018-09-25 07:04:03
    非常有名的统计学经典书籍,这本书读起来是比较轻松的,因为不需要太多的概率论基础,也没有很复杂的推导或公式。本书采用概率论的频率理论来讨论统计学,重视统计思想及引导如何应用统计学解决实际问题
  • 来源:量化研究方法本文约3000字,建议阅读5分钟。数学科学学院耿直老师为你介绍统计学中的因果推断问题。今天,小编带来了数学科学学院耿直老师关于统计学中因果推断问题的介绍。文中介绍了几种...
  • 统计学Excel应用

    2013-11-11 23:34:02
    统计学中Excel的应用实例,详细介绍如何应用Excel解决统计学中的问题
  • Head First 统计学

    2019-03-16 17:18:46
    《深入浅出统计学》具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视...
  • [面试题][统计学] 放球问题

    千次阅读 2018-05-07 21:17:18
    有100个球,其中50个红球、50个蓝球,有两个框,请问如何放置这100个球,使得从这两个框中任选一个,然后再从框里任选一个球时得到红球的概率最大? 考虑到第一步选择每个框的概率都是1/2,那么可以先在一个框里放...
  • 关于SQLServer2005的学习笔记——统计学自动分组问题 学过统计学或者做过BI的应该知道,很多报表需要以区间统计的方式来实现,怎么分组比较合理,什么的组距比较合适,会困扰很多人;本文给出一个自动分组的方法,...
  • 《深入浅出统计学》具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视...
  • 你是不是曾经被统计学里奇怪的名词和繁琐的计算所困?不知道在说什么,也不知道该从哪里人手进行学习? 技术宅都有点偏爱二次元?什么你也是,那这本书太适合你了。小白学这个相当于看漫画(即使看不懂也能继续看下去...
  • 统计学认识

    2020-12-24 22:11:00
    统计学认识 总论:统计学是在资料分析的基础上,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确消息的科学。这一门学科自17世纪中叶产生并逐步发展起来,它广泛地应用在各门学科,从自然科学、社会科学...
  • 统计学】论统计学知识点

    千次阅读 2018-10-30 14:55:24
    文章目录论统计学知识点前言一、 图形可视化说明具有哪些图形?二、数据度量标准三、概率分布四、统计假设检验五、相关和回归总结 论统计学知识点 前言 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&...
  • 统计学知识

    2016-03-02 13:47:12
    一、给定一个分类器p,它有0.5的概率输出1,0.5的概率输出0。Q1:如何生成一个分类器使该分类器输出1的概率为0.25,输出0的概率为... Tip:小明正在做一道选择题,问题只有A、B和C三个选项,通过抛一个硬币来使选择3个
  • 统计学中假设检验的原假设问题

    千次阅读 2019-05-23 22:42:25
    平均数比较的原假设是:平均数相等。 正态分布的原假设是:服从正态分布。 方差齐次性检验的原假设是:方差相等。 相关性检验的原假设是:不相关。 差异性检验中原假设是无差别假设 eg: 列联表中的卡方检验原假设为:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 58,121
精华内容 23,248
关键字:

统计学有趣的问题