精华内容
下载资源
问答
  • 2021-06-29 12:10:27

    站在马路边,下一辆经过的汽车,车牌尾号是双号的概率是多少? 在没有附加其它任何信息的情况下,我们有理由认为这个概率最接近50%。最后的实验表明,单号和双号的总数量基本是相等的。

    统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。

    【发展过程】

    统计在金融上应用广泛统计学的英文statistics最早源于现代拉丁文statisticum collegium(国会)以及意大利文statista(国民或政治家)。德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。在十九世纪统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。

    统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”,“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说:它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而属于数学的范畴。

    更多相关内容
  • 统计学有趣吗?

    2020-07-24 08:18:00
    来源:数据氧气作者:拿破仑的DO君做数据分析的朋友一定知道统计学,是我们工作的基础。在我们眼中,统计学是很多数字和模型组成的,略显枯燥。最近看了一个纪录片《The joy of sta...
    
    

    来源:数据氧气

    作者:拿破仑的DO君

    做数据分析的朋友一定知道统计学,是我们工作的基础。在我们眼中,统计学是很多数字和模型组成的,略显枯燥。

    最近看了一个纪录片《The joy of stats》,中文译名有趣的统计学,今天给大家分享个有意思的瑞典统计学家汉斯.罗斯林,以及他眼中有意思的统计学。

    《时代》杂志在2012年将汉斯·罗斯林评为了全球100位最有影响力的人物之一,称赞他使用“令人惊叹的数据展示,让全球数百万人从全新的角度审视自己和这座星球”。

    01

    统计学的起源与核心

    首先谈到的是统计学的起源。statistics与status同源,意思是现象或现状,也与国家(states)相似含有国情调查意思,统治阶级利用数据监控老百姓,而现代统计学,是用于监控政府动态,研究社会现象的有力工具。瑞典政府是世界上第一个对人口进行统计的国家,1749年的人口统计报告表明瑞典只有两百万人口,而不是期待的2千万。

    我喜欢的其中罗斯林说到的一句话是 “分析资料才是最重要的,这是统计学的核心”。回顾数据分析工作中,数据是基础,但不要沉迷于数据,要用有目的地的分析数据,找到数据背后的规律和信息,从而影响业务工作,产生价值。

    02

    可视化让统计变成故事

    这部片子里好展示了统计学在人口、安全、卫生、健康、机器翻译、天文、自然界的变化、甚至情感等众多领域的应用。让我印象深刻和有意思是数据可视化领域。将数据背后的信息用故事传达个观众。

    可视化的先驱是英国的护士和统计学家南丁格尔,她用玫瑰图,以表达军医院季节性的死亡率,对象是那些不太能理解传统统计报表的公务人员,从而推动医改。

    而罗斯林也用了自己的方式来讲述有意思的数字。他自己创立了可视化软件 Trendalyzer,后被谷歌收购。他用的最多的一个可视化作品,散点图的方式描述了各国健康水平(预期寿命)和经济发展(人均GDP)的正相关性,并利用动画演示。

    03

    可视化实践

    为了向大师致敬,我特地用可视化神器POWER BI来复现这一动态效果。

    【1】数据导入与清洗:是将数字源导入POWER BI,然后在transform模式下编辑这3个数据(将第一行变成表头-1),还需要剔除国家一列中的空值-2;

    【2】数据转换与重命名:由于源数据表格是表头是年份,需要用unpivot的转换成我们正常使用的行记录的形式(选择转换其它列)-3,然后对列名进行重命名。

    【3】建立关系:3个数据集直接要进行关联(也就是vlookup匹配),采用间接辅助列的方式,使用国家和年份组合的方式形成唯一列country_year,然后在3个表中建立一对一关系;

    【4】可视化预处理:使用散点图组件进行作图,然后注意由于人均gdp的数值很大,需要进行对数转换才能让散点图更明显(新建log10的计算列) 

    【5】可视化:分别拖入图例,x轴,y轴,以及需要播放的维度 play,大功告成,神奇的动态散点图完成。

    ◆ ◆ ◆  ◆ ◆

    号主新书已经在京东上架了,厉害了!麟哥新书登顶京东销量排行榜!目前京东正在举行100-50的活动,大家可以用原价5折的价格购买:

    扫描下方二维码即可进入京东的购买链接(https://item.jd.com/12686131.html):


    数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

    管理员二维码:

    猜你喜欢

     笑死人不偿命的知乎沙雕问题排行榜

     用Python扒出B站那些“惊为天人”的阿婆主!

     全球股市跳水大战,谁最坑爹!

     华农兄弟、徐大Sao&李子柒?谁才是B站美食区的最强王者?

     你相信逛B站也能学编程吗

    点击阅读原文即可参与京东100-50购书活动

    展开全文
  • 这是学习笔记的第1913篇文章 今天在学习统计学的时候,碰到了一个很有趣统计学问题。这个场景是如何统计大学生中考试作弊的比例,假设样本是100个学生。看起来这个问...

    这是学习笔记的第 1913 篇文章


      今天在学习统计学的时候,碰到了一个很有趣的统计学问题。这个场景是如何统计大学生中考试作弊的比例,假设样本是100个学生。

    看起来这个问题很好解决,我们可以直接问这100个学生,一对一来问或者是举手来投票统计即可。 但是从一个客观的事实来说,人对于这类敏感的问题都有先天的排斥性,所以能够主动承认和反馈问题的相比会是少数。

    假设做调查的人拍胸脯说会对学生的信息保密,那么从人性的角度来说,我们也不一定放心,因为我们毕竟通过一种直接的交流方式来承认了一件难以直接坦白的事情,如果真有什么其他的目的和原因,我们也无法控制。

    我们把这件事情的难度升级,假设这件事情发生在一个大教室内,大家都互相认识,虽然举手表决很容易分辨出来是谁有作弊的行为,一目了然,但是我们肯定都不愿意这么做,得到的数据是严重失衡的。 

    怎么能够让大家不带有心理压力,同时还能够真诚的反馈这个数据呢, 我们用统计的方法来协助,我们可以把这个问题拆分为两个问题:

    1. 一个无关痛痒的问题,比如你的手机尾号是否为奇数 

    2. 你大学考试的时候是否有作弊的行为

    可能很多同学说,这不跟没问一样吗?

    我们可以加一些策略,通过严密的统计方法来实现,我们把这个场景改进一下。现在大家需要从1和2两个数选择一个数,这个数字不能说出来,自己记在心里即可,然后下面的两个问题只需要回答一次。 

    我们把问题重新修正一下:

    1. 你选择的数字是否为1?                         回答是或者否

    2. 你大学考试的时候是否有作弊的行为?     回答是或者否

    然后我们按照这样的策略来回答,如果你选择的是1,则回答第1个问题即可,如果你选择的是2,则回答第2个问题。 

    按照这样的测试方案,其实大家坐在一起,无论是说是还是否,其实互相都不知道你在回答哪个问题,这是一种透明而且开放的环境,那么你说真话的概率就很大许多,没有了心理压力。

    我会在最后给出答案。

    第2个问题是如果一个班级里面有70个人,那么一个班级里面的学生同一天生日的概率有多大,按照我们常规的理念,可能概率很小吧,其实这个概率有99.9%以上。 

    我们直接用程序来做论证,年龄段的时间范围是1970-2001年,样本从9个学生到70个学生,测试测试是1万次。 

    # _#_ coding:utf-8 _*_

    from __future__ import division

    import time

    import random

    a1=(1970,1,1,0,0,0,0,0,0)

    a2=(2000,1,1,0,0,0,0,0,0)

    start=time.mktime(a1)    #生成开始时间戳

    end=time.mktime(a2)      #生成结束时间戳

    result_list = []

    date_list = []

    SAMPLE_START = 9

    SAMPLE_MAX = 70

    RUN_TIMES = 10000

    for i in range(SAMPLE_START,SAMPLE_MAX+1):

        SAMPLE_NO = i

        for j in range(RUN_TIMES):

            for k in range(SAMPLE_NO):

                t=random.randint(start,end)

                date_touple=time.localtime(t)

                rand_date=time.strftime("%m-%d",date_touple)

                date_list.append(rand_date)

            if len(set(date_list)) < len(date_list):

                result_list.append(1)

                date_list = []

        print SAMPLE_NO,round(len(result_list)/RUN_TIMES,4)

        result_list=[]

    运行结果如下:

    9 0.3127

    10 0.3384

    11 0.3697

    12 0.4

    13 0.4299

    14 0.4478

    15 0.4738

    16 0.5006

    17 0.5213

    18 0.5466

    19 0.567

    20 0.5823

    21 0.6037

    22 0.6269

    23 0.6465

    24 0.6639

    25 0.6879

    26 0.7011

    27 0.7195

    28 0.737

    29 0.7537

    30 0.7666

    31 0.7857

    32 0.7966

    33 0.8185

    34 0.8303

    35 0.8401

    36 0.8548

    37 0.8713

    38 0.881

    39 0.8904

    40 0.9068

    41 0.9049

    42 0.9211

    43 0.9341

    44 0.935

    45 0.9436

    46 0.9524

    47 0.9548

    48 0.9643

    49 0.9661

    50 0.9711

    51 0.9763

    52 0.9776

    53 0.9822

    54 0.9847

    55 0.9859

    56 0.9878

    57 0.9891

    58 0.9933

    59 0.9932

    60 0.9935

    61 0.9943

    62 0.9958

    63 0.9962

    64 0.9978

    65 0.9979

    66 0.9988

    67 0.9985

    68 0.9987

    69 0.9986

    70 0.9993

    把这个结果用图表来表示,就是如下的形式了。

    640?wx_fmt=png

    然后对第一个问题做下解释,如果200个学生,有70个人说是,那么作弊的概率就是 (70-(200/4))/(200/2)=20%

    相关链接:

    640?

    展开全文
  • 高校统计学教育问题分析.doc
  • 使用禁忌搜索算法来解决01背包问题,之前搜索了很多资料,有很多解决背包问题的现成代码,但是基本没有搜到使用禁忌搜索算法来解决背包问题的代码,于是在计算统计学的作业要求下补充上使用禁忌搜索算法求解01背包...
  • 统计学面试经典问题

    万次阅读 多人点赞 2019-12-29 21:22:00
    1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。 1) 大数定律 弱大数定律(通常指辛钦大数定律): a) 马尔科夫大数定律: 随机变量满足马尔科夫条件:1n2D(∑k=1nξk)→0\frac {...

    1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。

    1) 大数定律

    • 弱大数定律(通常指辛钦大数定律):
      a) 马尔科夫大数定律:
      随机变量满足马尔科夫条件: 1 n 2 D ( ∑ k = 1 n ξ k ) → 0 \frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0 n21D(k=1nξk)0,则样本均值依概率收敛于期望值。
      b) 辛钦大数定律:
      随机变量独立同分布,一阶矩存在且等于 a a a,样本均值依概率收敛于期望值 a a a

    • 强大数定律(柯尔莫哥洛夫):
      随机变量独立同分布,一阶矩存在且等于 a a a,样本均值以概率1收敛于期望值 a a a

    2) 中心极限定理

    • Lindeberg-Levy 中心极限定理(最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布):

    随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,,Xn 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E(Xi)=μ D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯   , n ) D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n) D(Xi)=σ2=0(i=1,2,,n),记 X ˉ = 1 n ∑ i = 1 n X i , {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}, Xˉ=n1i=1nXi, ζ n = X ˉ − μ σ / n , \zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}, ζn=σ/n Xˉμ

    lim ⁡ n → ∞ P ( ζ n ≤ z ) = Φ ( z ) \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right) nlimP(ζnz)=Φ(z)

    其中 Φ ( z ) \Phi (z) Φ(z) 是标准正态分布的分布函数。

    3) 大数定律的应用

    抛硬币,抛的次数足够多,正反面出现的概率近乎是一致的。

    4) 中心极限定理应用

    在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布。


    2. 说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。

    极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。

    矩估计法(也称数字特征法):

    • 直观意义比较明显,但要求总体 k 阶矩存在。
    • 缺点是不唯一,此时尽量使用样本低阶矩。
    • 观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。
    • 估计值可能不落在参数空间

    极大似然估计法:

    • 具有一些理论上的优点(不变性、相合性、渐近正态性)
    • 缺点是如果似然函数不可微,没有一般的求解法则。

    3. 详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点

    非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

    机器学习:决策树,随机森林,SVM;
    假设检验:符号,符号秩,秩和检验

    优点:

    • 非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
    • 多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

    缺点:

    • 由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
    • 对于大样本,如不采用适当的近似,计算可能变得十分复杂。

    4. 常见的数据降维方法有哪些?详细介绍主成分分析的基本原理与作用。

    逐步回归,SIS,LASSO,PCA,ICA,随机森林等一些机器学习方法变量重要性筛选

    • 基本原理: 投影
    • 作用: 降维

    可参考:一些变量筛选方法——1、综述


    5. ① 依概率收敛、② 概率1收敛(几乎处处收敛)的定义分别是什么?二者有什么关系?

    依概率收敛( d ( X n , X ) d(X_{n},X) d(Xn,X) 表示距离,通常可用 ∣ X n − X ∣ |X_{n}-X| XnX): P ( d ( X n , X ) ≥ ε ) → 0 , ∀ ε > 0. \mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0. P(d(Xn,X)ε)0,ε>0.
    概率1收敛: P ( lim ⁡ n → ∞ X n = X ) = 1 \mathbb {P} \left(\lim _{n\to \infty }X_{n}=X\right)=1 P(nlimXn=X)=1

    接着考虑 ③ 依分布收敛,④ r阶矩收敛,有下述关系:

    ④ -> ①
    ② -> ①
    ① -> ③
    ③ -> ① (当①③ -> 常数C)


    6. 阐述极大似然估计法的基本思想、缺陷及解决方案。

    • 基本思想: 出现的认为是最有可能发生的。

    • 具体定义:
      给定一个概率分布 D D D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f D f_D fD,以及一个分布参数 θ \theta θ ,我们可以从这个分布中抽出一个具有 n n n 个值的采样 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn,利用 f D f_D fD 计算出其似然函数:
      L ( θ ∣ x 1 , … , x n ) = f θ ( x 1 , … , x n ) . {\displaystyle {L}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).} L(θx1,,xn)=fθ(x1,,xn). D D D 是离散分布, f θ {\displaystyle f_{\theta }} fθ 即是在参数为 θ \theta θ 时观测到这一采样的概率。若其是连续分布, f θ {\displaystyle f_{\theta }} fθ 则为 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn 联合分布的概率密度函数在观测值处的取值。一旦我们获得 X 1 , X 2 , … , X n X_1, X_2,\ldots, X_n X1,X2,,Xn,我们就能求得一个关于 θ \theta θ 的估计。最大似然估计会寻找关于 θ \theta θ 的最可能的值(即,在所有可能的 θ \theta θ 取值中,寻找一个值使这个采样的 “可能性” 最大化)。从数学上来说,我们可以在 θ \theta θ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 θ ^ \widehat{\theta} θ 值即称为 θ \theta θ 的最大似然估计。

      由定义,最大似然估计是样本的函数。

    • 缺陷及解决方案:

    1. 均匀分布参数,正态分布的尺度参数的极大似然估计是有偏的,可以乘以一个系数进行校正。
    2. 极大似然估计的方差在高维情况下会很大,贝叶斯方法通过加先验一定程度上克服了这个问题,形式上就是现在的各种正则化方法,使得估计结果更稳定,更有效。

    7. 参数点估计量的评价标准有哪些?

    相合性,无偏性(参数估计的期望等于参数),有效性(两个估计均为无偏估计,则方差越小越有效),完备性,渐进正态性……

    • 相合性(通常指弱):
      弱: θ n ^ → θ \hat{\theta_n} \to \theta θn^θ,依概率
      强: θ n ^ → θ \hat{\theta_n} \to \theta θn^θ,几乎处处

    • 完备性:
      ∫ ϕ ( x ) d P θ = 0 , ∀ θ ∈ Θ \int \phi(x)dP_\theta = 0, \forall \theta \in \Theta ϕ(x)dPθ=0,θΘ ϕ ( x ) = 0 , a . s . P θ \phi(x) = 0, a.s. P_\theta ϕ(x)=0,a.s.Pθ
      ϕ ( x ) \phi(x) ϕ(x) 是可测函数,则分布族是完备的。


    8. 谈谈你对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。

    • 假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程
    • 第一类错误(type I error):拒绝了正确零假设
    • 第二类错误(type II error):接受了不正确零假设
    • 显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)
    • 检验功效(power) : 拒绝了不正确零假设概率
    • 检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率


    9. 什么是统计学?人工智能?机器学习?深度学习?

    1) 统计学

    • 是利用数据解释自然规律的科学,内容包括如何收集和分析数据。
    • 是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。

    2) 人工智能

    • 指由人制造出来的机器所表现出来的智能。

    3) 机器学习

    • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
    • 机器学习是对能通过经验自动改进的计算机算法的研究。
    • 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
    • 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

    4) 深度学习

    • 深度学习(DL)是一类机器学习算法,使用多个层逐步从原始数据中提取更高层的特征。——wiki
    • 深度学习就是构建由参数化功能模块构成的网络,并利用基于梯度的优化方法进行样本训练。——Yann LeCun

    其他相关知识点

    • 概率的三个公理化条件
      非负性,规范性,可列可加性

    • 回归分析中的F test 与 t test
      OLS 线性回归的假设检验:t 检验和 F 检验

    • 样本点:试验可能出现的结果

    • 样本空间:样本点全体

    • 概率:对于随机事件A,用一个数P(A)表示该事件发生的可能性大小,则此数称为随机事件A的概率。

    • 随机变量:给定样本空间 ( S , F ) (S,{\mathbb {F}}) (S,F),如果其上的实值函数 X : S → R X:S\to {\mathbb {R}} X:SR F \mathbb{F} F (实值)可测函数,则称 X X X 为(实值)随机变量。初等概率论中通常不涉及到可测性的概念,而直接把任何 X : S → R X:S\to {\mathbb {R}} X:SR 的函数称为随机变量。

    • 概率空间:(样本空间,事件域,概率)

    • 统计量:是样本测量的一种属性(例如,计算样本算术平均值),它计算的通过对数据集进行某种函数(统计算法)的运算后得到的值。

    • 充分统计量:对于统计量 t = T ( X ) t = T(X) t=T(X),若数据 X X X 在已知 t = T ( X ) t = T(X) t=T(X) 时的条件分布不依赖于参数 θ \theta θ,则称其是关于参数 θ \theta θ 的充分统计量。

    • 数学期望:

      • 离散:设 ξ \xi ξ 为一离散型随机变量,它取值 x 1 , x 2 , x 3 , … x_1, x_2, x_3, … x1,x2,x3, 对应的概率为 p 1 , p 2 , p 3 , … p_1, p_2, p_3, … p1,p2,p3, 如果级数 ∑ i = 1 ∞ x i p i \sum^\infty_{i=1}x_i p_i i=1xipi 绝对收敛,则称之为 ξ \xi ξ 的数学期望
      • 连续:设 ξ \xi ξ 为具有密度函数 p ( x ) p(x) p(x) 的连续型随机变量,当积分 ∫ x p ( x ) d x \int xp(x)dx xp(x)dx 绝对收敛时,称之为 ξ \xi ξ 的数学期望。
    • 方差:若 E ( ξ – E ξ ) E(\xi – E\xi) E(ξEξ) 存在,则称随机变量 ξ \xi ξ 的方差

    • U统计量:所有对称核(无偏估计+样本的对称函数)的平均。

    • UMVUE(一致最小方差无偏估计):
      g ( θ ) g(\theta) g(θ) 是可估参数,若 T ( X ) T(X) T(X) g ( θ ) g(\theta) g(θ) 的无偏估计,且对 U g U_g Ug(所有无偏估计组成的类)中任一估计 ϕ ( X ) \phi(X) ϕ(X),有:
      V a r θ ( T ( X ) ) ≤ V a r θ ( ϕ ( X ) ) , ∀ θ ∈ Θ Var_\theta(T(X)) \leq Var_\theta(\phi(X)), \forall \theta \in \Theta Varθ(T(X))Varθ(ϕ(X)),θΘ

    • AIC,BIC(越小越好):
      A I C = 2 k − 2 ln ⁡ ( L ) AIC=2k-2\ln(L) AIC=2k2ln(L) B I C = ln ⁡ ( n ) k − 2 ln ⁡ ( L ) BIC=\ln(n)k-2\ln(L) BIC=ln(n)k2ln(L)训练模型时,增加参数数量,也就是增加模型复杂度,会增大似然函数,但是也会导致过拟合现象,针对该问题,AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。

    • 损失函数:
      Hinge 损失(SVM),指数损失函数(Adaboost),平方损失函数(最小二乘法, Ordinary Least Squares ),对数损失函数(逻辑回归,交叉熵损失)

    展开全文
  • 生物等效性试验中的统计学相关问题讨论.doc
  • 适合于像学习PKPD的人
  • 论文中数据的统计学问题.doc
  • 关于教育统计学中的一些问题探讨,江育奇,,中位数、标准分是《教育统计学》中两个重要的概念,然而现行《教育统计学》关于这两个概念的定义及其算法上却存在严重的错误。作
  • 统计学_David Freedman

    2018-06-09 10:51:27
    本书采用概率论的频率理论来讨论统计学,重视统计思想及引导如何应用统计学解决实际问题。书中所采用的例子和习题采用的数据绝大多数都是实际的数据(与国内教材的造的数据与例子形成鲜明对比,有点遗憾的数据几乎都...
  • 医学统计学

    2018-09-14 11:04:08
    《医学统计学》分21章,本次再版侧重于三个方面:第一部分主要介绍医学统计基础理论与基本方法,针对《卫生统计学》多元分析方法薄弱的情况,加强了不同类型资料的回归分析方法与软件结果解释,增加了诊断试验的分析...
  • 统计学中的三大检验问题.pptx
  • 统计学统计学-——典型案例、问题和思想.pdf
  • 统计学统计学-——典型案例、问题和思想.doc
  • 新冠肺炎防控期间问题驱动型医学统计学教学策略——以学习通为例.pdf
  • 《深入浅出统计学》具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视...
  • 要发展分形理论在地质科学中的应用,就必须加强对地质现象分形统计学的研究。文中对地质现象分形统计学...同时,对分形概念的拓广、分维求法及意义、幂律问题、分数布朗运动、方位-分维估值法等问题也作了初步的探讨。
  • 关于χ2检验在教育统计学中应用问题探讨,江育奇,,χ2检验是一种重要的检验方法,在现行《教育统计学》书籍中,都介绍了利用χ2检验方法分析教育问题的方法。然而就《教育统计学》中
  • 商务统计学笔试复习题.pdf
  • 引入基于MCMC算法的地质统计学反演技术对曙光煤矿采区内薄煤层进行厚度预测。预测结果与常规解释结果进行对比,并利用已有钻孔资料进行验证,发现该方法的分辨率可达到1m,对煤层厚度、煤中夹矸厚度的预测误差分别...
  • 1. 存在图表玄机问题,在横向和纵向以及坐标轴上动手脚能够忽悠人 2. 学习统计学,让我们理清思路,学会分析事物之间各种各样的关系, 例如A越多,B越多,这样的句子能说明A和B的相关性,不能说明因果关系,但因果...
  • 作者:陈希孺 摘要:一,数理统计学的性质和任务数理统计学是关于收集,...关键词:随机性影响 数理统计学 概率论 样本 系统误差 数理统计方法 时间变化 统计推断 抽样方法 统计问题 DOI:CNKI:SUN:ZRZZ.0.1982-02-008
  • 4、问:统计学意义(P值) 答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标...
  • 现代贝叶斯统计学

    2018-03-20 17:05:12
    贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方渚上用贝叶斯定理的方式依赖于一个统计学家如何看待“概率”的基本概念。这些统计学家“推崇”概率为不确定性的度量,对于任何实际客体它将会...
  • 《深入浅出统计学》具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视...
  • 生物统计学

    2018-08-13 03:28:50
    生物统计(shengwu tongji,biostatistics,biometry,biometrics)含义 应用于中的数理统计方法。即用数理统计的原理和方法,分析...凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。-----陆建身
  • 在前人的研究基础上,我们进一步的发现问题并探讨问题,运用统计学方法去解决大数据时代下的一些问题,并提出自己的看法。 关键词:大数据;统计学;数据挖掘;数据分析 引言 本文写作的目的在于阐述大数据的定义、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 65,912
精华内容 26,364
关键字:

统计学有趣的问题