精华内容
下载资源
问答
  • 参数估计的实际应用案例
    千次阅读
    2021-04-18 17:10:19

    第章编程简介

    1.1MATLAB工作界面布局与路径设置

    1.1.1MATLAB工作界面布局

    1.1.2MATLAB路径设置

    1.2变量的定义与数据类型

    1.2.1变量的定义与赋值

    1.2.2MATLAB中的常量

    1.2.3MATLAB中的关键字

    1.2.4数据类型

    1.2.5数据输出格式

    1.3常用函数

    1.4数组运算

    1.4.1矩阵的定义

    1.4.2特殊矩阵

    1.4.3高维数组

    1.4.4定义元胞数组()

    1.4.5定义结构体数组

    1.4.6几种数组的转换

    1.4.7矩阵的算术运算

    1.4.8矩阵的关系运算

    1.4.9矩阵的逻辑运算

    1.4.10矩阵的其他常用运算

    1.5MATLAB语言的流程结构

    1.5.1条件控制结构

    1.5.2循环结构

    1.5.3trycatch试探结构

    1.5.4break、、和函数

    1.6M代码的编写与调试

    1.6.1脚本文件

    1.6.2函数文件

    1.6.3匿名函数和内联函数

    1.6.4子函数与嵌套函数

    1.6.5函数的递归调用

    1.6.6M代码的调试()

    1.6.7MATLAB常用快捷键和快捷命令

    1.7MATLAB绘图基础

    1.7.1图形对象与图形对象句柄

    1.7.2二维图形绘制

    1.7.3三维图形绘制

    1.7.4图形的打印和输出

    第章数据的导入与导出

    2.1案例:从文件中读取数据

    2.1.1利用数据导入向导导入文件

    2.1.2调用高级函数读取数据

    2.1.3调用低级函数读取数据

    2.2案例:把数据写入文件

    2.2.1调用函数写入数据

    2.2.2调用函数写入数据

    2.3案例:从文件中读取数据

    2.3.1利用数据导入向导导入文件

    2.3.2调用函数读取数据

    2.4案例:把数据写入文件

    第章数据的预处理

    3.1案例:数据的平滑处理

    3.1.1smooth函数

    3.1.2smoothts函数

    3.1.3medfilt1函数

    3.2案例:数据的标准化变换

    3.2.1标准化变换公式

    3.2.2标准化变换的实现

    3.3案例:数据的极差归一化变换

    3.3.1极差归一化变换公式

    3.3.2极差归一化变换的实现

    第章概率分布与随机数

    4.1案例:概率分布及概率计算

    4.1.1概率分布的定义

    4.1.2几种常用概率分布

    4.1.3概率密度、分布和逆概率分布函数值的计算

    4.2案例:生成一元分布随机数

    4.2.1均匀分布随机数和标准正态分布随机数

    4.2.2RandStream类

    4.2.3常见一元分布随机数

    4.2.4任意一元分布随机数

    4.2.5一元混合分布随机数

    4.3案例:生成多元分布随机数

    4.4案例:蒙特卡洛方法

    4.4.1有趣的蒙提霍尔问题

    4.4.2抽球问题的蒙特卡洛模拟

    4.4.3用蒙特卡洛方法求圆周率π

    4.4.4用蒙特卡洛方法求积分

    4.4.5街头骗局揭秘

    第章描述性统计量和统计图

    5.1案例背景

    5.2案例描述

    5.3案例:描述性统计量

    5.3.1均值

    5.3.2方差和标准差

    5.3.3最大值和最小值

    5.3.4极差

    5.3.5中位数

    5.3.6分位数

    5.3.7众数

    5.3.8变异系数

    5.3.9原点矩

    5.3.10中心矩

    5.3.11偏度

    5.3.12峰度

    5.3.13协方差

    5.3.14相关系数

    5.4案例:统计图

    5.4.1箱线图

    5.4.2频数(率)直方图

    5.4.3经验分布函数图

    5.4.4正态概率图

    5.4.5pp图

    5.4.6qq图

    5.5案例扩展:频数和频率分布表

    5.5.1调用函数作频数和频率分布表

    5.5.2调用自编函数作频数和频率分布表

    第章参数估计与假设检验

    6.1案例:参数估计

    6.1.1常见分布的参数估计

    6.1.2自定义分布的参数估计

    6.2案例:正态总体参数的检验

    6.2.1总体标准差已知时的单个正态总体均值的检验

    6.2.2总体标准差未知时的单个正态总体均值的检验

    6.2.3总体标准差未知时的两个正态总体均值的比较检验

    6.2.4总体均值未知时的单个正态总体方差的χ检验

    6.2.5总体均值未知时的两个正态总体方差的比较检验

    6.2.6检验功效与样本容量的计算

    6.3案例:常用非参数检验

    6.3.1游程检验

    6.3.2符号检验

    6.3.3Wilcoxon符号秩检验

    6.3.4MannWhitney秩和检验

    6.3.5分布的拟合与检验

    6.4案例:核密度估计

    6.4.1经验密度函数

    6.4.2 核密度估计

    6.4.3核密度估计的实现

    6.4.4核密度估计的案例分析

    第章理论及应用实例

    7.1Copula函数的定义与基本性质

    7.1.1二元函数的定义及性质

    7.1.2多元函数的定义及性质

    7.2常用的函数

    7.2.1正态函数

    7.2.2tCopula函数

    7.2.3阿基米德函数

    7.3Copula函数与相关性度量

    7.3.1Pearson线性相关系数ρ

    7.3.2Kendall秩相关系数τ

    7.3.3Spearman秩相关系数ρ

    7.3.4尾部相关系数λ

    7.3.5基于函数的相关性度量

    7.3.6基于常用二元函数的相关性度量

    7.4案例:沪深股市日收益率的二元模型

    7.4.1案例描述

    7.4.2确定边缘分布

    7.4.3选取适当的函数

    7.4.4参数估计

    7.4.5与有关的函数

    7.4.6案例的计算与分析

    第章方差分析

    8.1案例:单因素一元方差分析

    8.1.1单因素一元方差分析的实现

    8.1.2案例分析

    8.2案例:双因素一元方差分析

    8.2.1双因素一元方差分析的实现

    8.2.2案例分析

    8.3案例:多因素一元方差分析

    8.3.1多因素一元方差分析的实现

    8.3.2案例分析一

    8.3.3案例分析二

    8.4案例:单因素多元方差分析

    8.4.1单因素多元方差分析的实现

    8.4.2案例分析

    8.5案例:非参数方差分析

    8.5.1非参数方差分析的实现

    8.5.2KruskalWallis检验的案例分析

    8.5.3Friedman检验的案例分析

    第章回归分析

    9.1MATLAB回归模型类

    9.1.1线性回归模型类

    9.1.2非线性回归模型类

    9.2案例:一元线性回归

    9.2.1数据的散点图

    9.2.2模型的建立与求解

    9.2.3回归诊断

    9.2.4稳健回归

    9.3案例:一元非线性回归

    9.3.1数据的散点图

    9.3.2模型的建立与求解

    9.3.3回归诊断

    9.3.4利用曲线拟合工具作一元非线性拟合

    9.4案例:多元线性和广义线性回归

    9.4.1可视化相关性分析

    9.4.2多元线性回归

    9.4.3多元多项式回归

    9.4.4拟合效果图

    9.4.5逐步回归

    9.5案例:多元非线性回归

    9.5.1案例描述

    9.5.2模型建立

    9.5.3模型求解

    9.6案例:多项式回归

    9.6.1多项式回归模型

    9.6.2多项式回归的实现

    9.6.3多项式回归案例

    第章聚类分析

    10.1聚类分析简介

    10.1.1距离和相似系数

    10.1.2系统聚类法

    10.1.3K均值聚类法

    10.1.4模糊均值聚类法

    10.2案例:系统聚类法的案例分析

    10.2.1系统聚类法的函数

    10.2.2样品聚类案例

    10.2.3变量聚类案例

    10.3案例:均值聚类法的案例分析

    10.3.1K均值聚类法的函数

    10.3.2K均值聚类法案例

    10.4案例:模糊均值聚类法的案例分析

    10.4.1模糊均值聚类法的函数

    10.4.2模糊均值聚类法案例

    第章判别分析

    11.1判别分析简介

    11.1.1距离判别

    11.1.2贝叶斯判别

    11.1.3Fisher判别

    11.2案例:距离判别法的案例分析

    11.2.1classify函数

    11.2.2案例分析

    11.3案例:贝叶斯判别法的案例分析

    11.3.1NaiveBayes类

    11.3.2案例分析

    11.4案例:判别法的案例分析

    11.4.1Fisher判别分析的实现

    11.4.2案例分析

    第章主成分分析

    12.1主成分分析简介

    12.1.1主成分分析的几何意义

    12.1.2总体的主成分

    12.1.3样本的主成分

    12.1.4关于主成分表达式的两点说明

    12.2主成分分析的函数

    12.2.1pcacov函数

    12.2.2princomp函数

    12.2.3pcares函数

    12.3案例:从协方差矩阵或相关系数矩阵出发求解主成分

    12.3.1调用函数做主成分分析

    12.3.2结果分析

    12.4案例:从样本观测值矩阵出发求解主成分

    12.4.1调用函数做主成分分析

    12.4.2结果分析

    12.4.3调用函数重建观测数据

    第章因子分析

    13.1因子分析简介

    13.1.1基本因子分析模型

    13.1.2因子模型的基本性质

    13.1.3因子载荷阵和特殊方差阵的估计

    13.1.4因子旋转

    13.1.5因子得分

    13.1.6因子分析中的现象

    13.2因子分析的函数

    13.3案例:基于协方差矩阵或相关系数矩阵的因子分析

    13.4案例:基于样本观测值矩阵的因子分析

    13.4.1读取数据

    13.4.2调用函数作因子分析

    第章利用生成和文档

    14.1组件对象模型()

    14.1.1什么是

    14.1.2COM接口

    14.2MATLAB中的控件接口技术

    14.2.1actxcontrol函数

    14.2.2actxcontrollist函数

    14.2.3actxcontrolselect函数

    14.2.4actxserver函数

    14.2.5利用调用对象

    14.2.6调用函数创建组件服务器

    14.3案例:利用生成文档

    14.3.1调用函数创建服务器

    14.3.2建立文本文档

    14.3.3插入表格

    14.3.4插入图片

    14.3.5保存文档

    14.3.6完整代码

    14.4案例:利用生成文档

    14.4.1调用函数创建服务器

    14.4.2新建工作簿

    14.4.3获取工作表对象句柄

    14.4.4插入、复制、删除、移动和重命名工作表

    14.4.5页面设置

    14.4.6选取工作表区域

    14.4.7设置行高和列宽

    14.4.8合并单元格

    14.4.9边框设置

    14.4.10设置单元格对齐方式

    14.4.11写入单元格内容

    14.4.12插入图片

    14.4.13保存工作簿

    14.4.14完整代码

    附录图像处理中的统计应用案例

    A.1基于图像资料的数据重建与拟合

    A.1.1案例描述

    A.1.2重建图像数据

    A.1.3曲线拟合

    A.2基于均值聚类的图像分割

    A.2.1灰度图像分割案例

    A.2.2真彩图像分割案例

    A.3基于中位数算法的运动目标检测

    A.3.1案例描述

    A.3.2中位数算法原理

    A.3.3本案例的实现一

    A.3.4本案例的实现二

    A.3.5本案例的实现三

    A.4基于贝叶斯判别的手写体数字识别

    A.4.1样本图片的预处理

    A.4.2创建朴素贝叶斯分类器对象

    A.4.3判别效果

    A.5基于主成分分析的图像压缩与重建

    A.5.1基于主成分分析的图像压缩与重建原理

    A.5.2图像压缩与重建的实现

    附录统计工具箱函数大全参考文献

    更多相关内容
  • 统计学在业内的应用1:分布、参数估计与假设检验及工业界应用统计学的方法应用框架1、统计学的学科逻辑2、分布2.1 何为分布2.2 概率分布函数(通常直接简称为分布函数)一、离散情况二、连续情况2.3、总体分布、样本...


    写在前面,由于篇幅比较长,我也是零散时间写的,所以文章总体上是有框架的,但是一些细节所放置的位置可能有所不妥当,可能需要辛苦读者朋友多次上下跳转。很是抱歉。

    统计学的方法应用框架

    在一线互联网公司技术岗工作了一年多的时间,先后从事了算法、统计学习方面的工作,作为一名本科数理统计出身的玩家,今天想对统计学的主要方法及在业内落地应用的场景做一个回顾和总结,利己利他,为大家讲明白,巩固一下自己的基本功,也是为以后留下一份比较好的笔记。

    篇幅可能比较长,读者朋友可以选取自己感兴趣的地方参考,也可以mark一下,以后用到的时候互相交流。

    在这篇Blog中,我主要会涉及到以下几个方面:

    1. 统计学的学科逻辑:统计学是一门方法论,是一个寄生学科,寄生在各行各业的数据中,脱离了行业场景和数据,统计学基本没有独立的用武之地;统计学的核心就是用样本数据(数据中的一部分数据)取描述甚至推断总体数据(全部数据),因为实际工作中,哪怕是在当下号称大数据时代的场景中,也很少有真真切切的全部数据,或者各种各样的原因无法获取全部数据,即使有全部数据,统计学依然有它发挥作用之处;
    2. 统计学的基础-抽样分布:一切的统计推断都是建立在某种分布假设或前提下的,抽样分布奠定了统计学一系列的方法论;
    3. 统计推断之参数估计:统计学宏观的讲我理解可以分为两部分,其一是描述统计,基本会以各种基础统计量(均值、标准差等)描述数据的分布情况,或以各种可视化的方式更好的理解数据,对数据做出洞察和洞见,这部分本篇中不会涉及,描述统计更像艺术,一个好的描述统计足以让阅读者了解数据的基本情况,描述统计的方式也多种多样,一千个人眼里有一千个哈姆雷特;其二是推断统计,及用样本数据的样子去推断(估计)总体数据的样子,本篇主要会回顾统计推断,首先是参数估计;
    4. 统计推断之假设检验:统计推断中比较重要的两块儿内容,其一是上述的参数估计,其二就是假设检验,假设检验通常更会直接影响决策;
    5. 统计学常用方法:本节会简单介绍一些统计学常用的方法,如实验设计常用的方差分析、预测问题常用的回归分析、降为问题常用的PCA,本篇不涉及具体原理,以后有空可以再其他篇幅中另外详细回顾;
    6. 统计学在业内的落地和应用场景:读者一定也很感兴趣统计学在工业界到底有哪些用途,本节会就我个人遇到的部分场景做一些介绍。

    1、统计学的学科逻辑

    统计学是一门寄生学科,是一门方法论,本质上要依托于实际工业而产生作用和价值。统计学的本质就是在有限的样本下,推断总体的情况。

    例1:比如说,我看好了一家公司的某个职位,我想了解一下应该要多少工资比较好,即所有员工的平均工资,而我又没有公司所有员工的工资条,那应该怎么办呢?比如说公司有200人,我随机在门口先后拦截了15个人套近乎,问道了他们的工资,假设他们都说了实话,那我求一个平均数和标准差,而我对自己的能力有比较强的自信,认为自己在平均水平之上,那我就在平均数上加上0.8倍的标准差,定为自己想要的薪资(当然,如果我不幸的选中了两个老板级别的人物,工资太高,我自然会对这两个样本进行删除,这便是离群值的处理),这样我就用了一部分数据推断了总体数据的平均水平。

    例2:再比如我想看该公司是否男女平等,同样的,选了15个男员工和15个女员工询问其工资,建立假设检验,检验男女员工工资是否存在差异,具体的后面会详细说明。

    综上所述,统计学是一门研究样本,使用样本对总体做出科学推断的学科。

    2、分布

    2.1 何为分布

    统计学的基础便是分布,何为分布?顾名思义,就是数据长什么样子,首先,分布是建立在随机变量上的,所谓随机变量,通常认为是随机事件的结果变量,例如掷骰子(6面骰),抛硬币(正反面),结果的情况就是概率分布,以掷6面的均匀骰子为例:

    投掷结果123456
    概率 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61

    这便是概率分布。

    2.2 概率分布函数(通常直接简称为分布函数)

    我会先统一以离散情况(抛硬币,掷骰子这样结果可以逐一列出来的,不管结果是否是有限个,就属于离散随机变量,比如每天的温度这样无法一一列出来的的属于连续型随机变量,ps:原则上说,0摄氏度-1摄氏度直接有无限多个温度值,无法列出来)对分布相关的知识做回顾。
    为什么需要分布函数呢?因为实际情况中,像掷骰子这种只可能有6种结果的情况不在少数,但更多的情况下是结果非常多,100个,100万个,是指是无穷个可能的结果,这样我们编写表格是困难的甚至是不可实现的,那么我们就应当用一个高度概括的函数 f ( x ) f(x) f(x)去代替这个分布表格,取解决哪些数不过来的情况。

    一、离散情况

    依然以掷骰子的例子来说,一般教材中会先介绍一个概念叫做 “分布律”,也可能叫做“概率函数”,也有很多海归背景的人会叫他“概率质量函数”(感觉第三种叫法用的人比较多)它是啥呢?

    P ( X = X k ) = p k ( k = 1 , 2 , 3... , 对 于 掷 骰 子 , k = 1 , 2 , 3 , 4 , 5 , 6 ) P(X = X_k)=p_k (k=1,2,3...,对于掷骰子,k=1,2,3,4,5,6) P(X=Xk)=pk(k=1,2,3...,,k=1,2,3,4,5,6)

    切记,上面这个是分布率,不是概率分布函数。分布律描述的是出现某种结果(科学的说应该是每种各个结果)的概率。
    在分布律的基础下,就是概率分布函数:

    F ( x ) = P ( X < = x ) = ∑ x k < = x p k F(x)=P(X<=x)=\sum_{x_k<=x}p_k F(x)=P(X<=x)=xk<=xpk

    F ( x ) F(x) F(x)是概率分布函数(简称分布函数),概率分布函数是概率函数的累加,所以它又被叫做累计概率函数。本质上,概率函数(分布律)和累计概率函数(概率分布函数)是描述随机变量结果的两种方式,前者是描述单一结果的概率,后者则是累加多个单一结果的概率。(我承认各种概率函数、概率分布函数、累计概率函数特别烦人,各种名字,只能怪从外文翻译过来的种类太多了,大家习惯一下。。。我做了如下总结)

    对于离散型随机变量,有如下主要信息:
    1、概率函数(分布律,概率质量函数):probability mass function,简称PMF;描述的是离散随机变量出现某特定结果的概率;
    2、概率分布函数(分布函数,累积分布函数):cumulative distribution function,简称CDF,是对PMF的累加,能完整描述一个实随机变量X的概率分布
    3、另有 F ( a < x < b ) = F ( b ) − F ( a ) F(a < x < b)=F(b)-F(a) F(a<x<b)=F(b)F(a)

    PS:嗯。。。如果和别人就概率分布函数等概念交流起来有问题就用英文简称吧,一般不会有歧义。

    二、连续情况

    连续情况下,其实就没有分布律一说了,比如说在[1,100]实数范围内,取到1的概率是多少呢?0,在二维空间中求一维对象的任何值都是没有意义的。[1,100]实数集就是连续的,而[1,100]的整数就是离散的~。
    既然如此,连续随机变量下的PMF如何定义呢?在一个区间中,一个点的统计没有意义,但是一群点组成的一个子区间就是有意义的,好比一根线,你统计一个点的长度,是无法计算的,但是统计一段线的长度就是可以的。
    为了在连续型随机变量情况下给出PMF等价的概念,引入了“概率密度函数”probability density function简记PDF(可以简称密度函数)。如何理解“密度”这一概念,引用陈希孺老师所著的《概率论与数理统计》这本书中的讲解:
    Alt
    所以说,概率密度描绘的是随机变量落在一个点邻域(附近)的概率的变化情况(注意:并非概率本身而是变化情况),而概率分布函数(CDF)则是概率密度的积分(广义的说也就是求和),如下图所示:

    引用简书讲解
    Alt
    概率密度函数是概率分布函数的导函数,反之,概率密度函数的积分则是概率分布函数。如上图所示,曲线为概率分布函数曲线,它的斜率就是概率密度,切记,概率密度是变化速率,不是随机变量落在某范围内的概率值
    Alt

    对于连续型随机变量,有如下主要信息:
    1、概率密度函数(概率密度):probability density function,简称PDF;给出了 x i x_i xi落在某值 x x x邻域内的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率
    2、概率分布函数:cumulative distribution function,简称CDF,是对PDF的积分,即面积,是 x i x_i xi落在某范围的概率。

    引用原文链接:https://blog.csdn.net/anshuai_aw1/article/details/82626468的说明,我觉得很形象:

    概率密度函数在某一参数下值的意义:比较容易理解的意义,某点的概率密度函数即为概率在该点的变化率(或导数)。该点概率密度值并非概率值.
    比如: 距离(概率)和速度(概率密度)的关系.
    某一点的速度,不能以为是某一点的距离,没意义;因为距离是从XX到XX的概念。所以概率也需要有个区间。这个区间可以是x的邻域(邻域大小可以无限趋近于0)。对x邻域内的 f ( x ) f(x) f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

    写在后面(参考出处):

    1、为何需要有概率分布函数:对于离散型随机变量,可以直接用分布律来描述其统计规律性,而对于连续型随机变量,无法一一列举出随机变量的所有可能取值,所以它的概率分布不能像随机变量那样进行描述,于是引入PDF,用积分来求随机变量落入某个区间的概率。
    分布律不能描述连续型随机变量,密度函数不能描述离散随机变量,因此需要找到一个统一方式描述随机变量统计规律,这就有了分布函数。另外,在现实生活中,有时候人们感兴趣的是随机变量落入某个范围内的概率是多少,如掷骰子的数小于3点的获胜,那么考虑随机变量落入某个区间的概率就变得有现实意义了,因此引入分布函数很有必要。
    2、概率分布函数的意义:分布函数在点处的函数值表示落在区间内的概率,所以分布函数就是定义域内的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。

    2.3、总体分布、样本分布、抽样分布

    一、总体、样本、抽样分布

    大数据时代下经常认为我们可以有总体数据,所谓总体数据,就是你研究对象的全集,就好比上文中公司员工工资的例子,你如果拿到了财务的员工工资清单,就有了所有人的工资,那便不需要做推断,有了全部的数据,你看到的即为真实的情况,这便是总体;但在没有这个清单的情况下,我选择随机的选取一部分人做调查,这部分人的工资就是样本,样本可大可小,可想而知,样本量越大(越接近总体),那样本产生的信息就越可信,越和总体真实情况一样。对应的,就有了总体分布和样本分布:

    • 总体分布:总体中各元素的观测值所形成的相对频数分布,称为总体分布。
    • 样本分布:从总体中抽取一个容量为 n n n的样本,由这 n n n个观测值形成的相对频数分布,称为样本分布。
      读者们应该还常听说一个名词,叫做抽样分布,抽样分布在课本中出现的频次甚至高于总体分布和样本分布,那么何为抽样分布?
    • 抽样分布:在重复选取样本量为 n n n的样本时,由该样本统计量的所有可能取值形成的相对频数分布。举个例子,你从一个容量为 N N N的总体中,抽取了1000次样本量未 n ( n < N ) n(n<N) n(n<N)的样本,统计这1000个样本的某个统计量,比如样本均值,那样本均值这个随机变量就是有分布的,它的分布叫做抽样分布。切记,抽样分布是统计量的分布。
      OK,了解了总体分布、样本分布和抽样分布后,补充介绍统计推断的两个奠基理论:大数定律&中心极限定理

    二、大数定律

    百度百科解释:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。即大量重复试验,随机事件发生的频率为其概率
    大数定律不会对已经发生的情况进行平衡,而是利用新的数据来削弱它的影响力,直至前面的结果从比例上看影响力非常小,可以忽略不计。 这就是大数定律发生作用的原理。 简而言之,大数定律发挥作用,是靠大数对小数的稀释作用。举个例子,你抛一个均匀正常的1元硬币,即使你十分的幸运,连续10次抛出正面,但是再抛1000次后,你会发现这1010次中正面出现的频数基本在一半左右,起初10次100%正面的作用在大量重复(大数)试验的作用下微乎其微,下图为用计算机模拟的10000次跑硬币得到正面的频率,可以发现,最终会收敛在0.5,这就是抛硬币得到正面的概率。
    归纳为一句话:随着样本量的增大,样本的均值几乎必然的等于真实总体的均值。()
    在这里插入图片描述

    三、中心极限定理

    中心极限定理的说明如下:

    大量的独立随机变量之和具有近似于正态的分布,教科书定义如下:
    设 随 机 变 量 X 1 , X 2 , … 独 立 同 分 布 , E X 1 = μ , V a r ( X 1 ) = σ 2 > 0 。 如 果 S n = ∑ j = 1 n X j , 则 S n 的 标 准 化 ξ n = S n − n μ n σ 2 → N ( 0 , 1 ) , 即 对 任 何 x i , lim ⁡ n → ∞ P ( ξ n ≤ x ) = P ( Z ≤ x ) , 其 中 Z ∼ N ( 0 , 1 ) 设随机变量X_1,X_2,…独立同分布,EX_1=\mu,Var(X_1)=\sigma^2>0。如果S_n=\sum\limits_{j=1}^{n}X_j,则S_n的标准化\xi_n=\frac{S_n-n\mu}{\sqrt{n\sigma^2}}\rightarrow N(0,1),即对任何x_i,\lim\limits_{n\rightarrow \infty}P(\xi_n\le x)=P(Z\le x),其中Z \sim N(0,1) X1,X2,EX1=μVar(X1)=σ2>0Sn=j=1nXjSnξn=nσ2 SnnμN(0,1)xinlimP(ξnx)=P(Zx)ZN(0,1)

    中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布近似正态分布。
    PS:关于大数率和中心极限定理一些理论概念的补充可以参考这个博客
    关于中心极限定理证明可以参考知乎回答

    2.4、常见分布

    一、二项分布

    回顾二项分布之前先来回顾伯努利分布:
    伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。例如掷一次硬币的结果(正vs反);买一注彩票(中vs不中);某篮球队伍一场比赛的结果(赢vs输)。

    其概率分布称为伯努利分布(Bernoulli distribution),也称为两点分布或者0-1分布,是最简单的离散型概率分布。我们记成功概率为 p ( 0 ≤ p ≤ 1 ) p(0≤p≤1) p(0p1),则失败概率为 q = 1 − p q=1-p q=1p

    若随机变量 X X X服从二项分布,则其数学期望和方差为:
    E ( X ) = p E(X)=p E(X)=p
    V a r ( X ) = p q Var(X)=pq Var(X)=pq

    接下来是二项分布:
    如前所述,某个伯努利实验,其成功概率用 p p p表示,失败的概率为 q = 1 − p q=1-p q=1p。进行 n n n次这样的试验,成功了 x x x次,则失败次数为 n − x n-x nx,发生这种情况的概率可用下面公式来计算(PMF):
    p ( x ) = C n x p x ( 1 − p ) n − x p(x)=C_n^{x}p^{x}(1-p)^{n-x} p(x)=Cnxpx(1p)nx

    若随机变量 X X X服从伯努利分布,记做 X ∼ B ( n , p ) X \sim B(n, p) XB(n,p),则其数学期望和方差为:
    E ( x ) = n p E(x)=np E(x)=np
    V a r ( x ) = n p ( 1 − p ) Var(x)=np(1-p) Var(x)=np(1p)

    当二项分布n较大(通常认为大于等于30)时,其分布近似于 N ( n p , n p ( 1 − p ) ) N(np, np(1-p)) N(np,np(1p))的正态分布。

    二、正态分布

    正态分布实际上是由二项分布经过一些推导得来的,具体的可以参考文章
    期望为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的正态分布记为 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)
    正态分布的概率密度函数如下所示:
    f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π σ1exp(2σ2(xμ)2)
    正态分布PDF图如下所示:
    在这里插入图片描述

    三、泊松分布

    泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数(也是二项分布推导而来)。
    其概率质量函数如下:
    p ( X = k ) = e − λ λ k k ! p(X=k)=\frac{e^{-\lambda} \lambda^k}{k!} p(X=k)=k!eλλk
    若随机变量 X X X服从泊松分布 P ( λ ) P(\lambda) P(λ),在其期望和方差分别为:
    E ( X ) = λ E(X)=\lambda E(X)=λ
    V a r ( X ) = λ Var(X)=\lambda Var(X)=λ

    四、样本方差的抽样分布

    样本方差的抽样分布用 χ 2 \chi^2 χ2分布表示。设 μ 1 \mu_1 μ1 μ 2 \mu_2 μ2、…、 μ m \mu_m μm为m个独立同分布的标准正态变量,则其平方和 Y = ∑ i = 1 n μ i 2 Y=\sum_{i=1}^{n}\mu_i^2 Y=i=1nμi2的分布为自由度为 m m m χ 2 \chi^2 χ2分布,记做 χ 2 ( m ) \chi^2(m) χ2(m)
    E ( y ) = m E(y)=m E(y)=m
    V a r ( y ) = 2 m Var(y)=2m Var(y)=2m
    不同自由度的卡方分布如下图所示, n n n越大,其越近似与正态分布。
    在这里插入图片描述
    另,记样本方差为 s 2 s^2 s2,则:
    ( n − 1 ) s 2 σ 2 ∼ χ ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim\chi(n-1) σ2(n1)s2χ(n1)

    五、样本均值与样本标准差只比的t分布

    由中心极限定理可知,样本均值 x ‾ \overline{x} x的分布为 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) N(μ,nσ2),其标准化变量 x ‾ − μ σ / n \frac{\overline{x}-\mu}{\sigma/{\sqrt{n}}} σ/n xμ服从 N ( 0 , 1 ) N(0,1) N(0,1),其中 μ \mu μ σ \sigma σ为总体均值和总体标准差。如果把标准化变量中的总体标准差更换为样本标准差 s s s,则前述标准化变量将服从自由度为 n − 1 n-1 n1 t t t分布,记做 t ( n − 1 ) t(n-1) t(n1)
    另,若 X X X~ N ( 0 , 1 ) N(0,1) N(0,1) Y Y Y ~ χ 2 ( n ) \chi^2(n) χ2(n),且 X X X Y Y Y相互独立,则 x Y / n \frac{x}{\sqrt{Y/n}} Y/n x~ t ( n ) t(n) t(n)

    • n = 1 n=1 n=1时, t t t分布为柯西分布,不存在数学期望;
    • n > 1 n>1 n>1时, t t t分布存在数学期望, E ( t ) = 0 E(t)=0 E(t)=0
    • n > 2 n>2 n>2时, t t t分布存在方差, V a r ( t ) = n n − 2 Var(t)=\frac{n}{n-2} Var(t)=n2n
      t t t分布的期望和方差可以看出,它很接近 N ( 0 , 1 ) N(0,1) N(0,1),尤其是当 n n n比较大的时候,二者是趋于一致的。如下图所示,样本量不太大时,t分布也是一个钟型线(同正态分布一样),只是它要更“矮”和更“平坦”一些。
      在这里插入图片描述

    六、两个独立正态样本方差之比的F分布

    X 1 ∼ χ 2 ( n 1 ) X_1\sim\chi^2(n_1) X1χ2(n1) X 2 ∼ χ 2 ( n 2 ) X_2\sim\chi^2(n_2) X2χ2(n2),且 X 1 X_1 X1 X 2 X_2 X2独立,则: F = X 1 / n 1 X 2 / n 2 F=\frac{X_1/n_1}{X_2/n_2} F=X2/n2X1/n1,记为 F ( n 1 , n 2 ) F(n_1,n_2) F(n1,n2)( X 1 X_1 X1 X 2 X_2 X2可以视作样本方差的分布,这样就记住F分布的含义了,样本方差服从卡方分布,两个卡方分布之比是 F F F分布)。

    • n 2 > 2 n_2>2 n2>2时, F F F分布数学期望存在, E ( F ) = n 2 n 2 − 2 E(F)=\frac{n_2}{n_2-2} E(F)=n22n2
    • n 2 > 4 n_2>4 n2>4时, F F F分布方差存在, E ( F ) = 2 n 2 2 ( n 1 + n 2 − 2 ) n 1 ( n 2 − 2 ) 2 ( n 2 − 4 ) E(F)=\frac{2n_2^2(n_1+n_2-2)}{n1(n_2-2)^2(n_2-4)} E(F)=n1(n22)2(n24)2n22(n1+n22)
    • KaTeX parse error: Undefined control sequence: \simF at position 2: F\̲s̲i̲m̲F̲(n_1,n_2),则 1 F ∼ F ( n 2 , n 1 ) \frac{1}{F}\sim F(n_2,n_1) F1F(n2,n1)
    • t ∼ t ( n ) t\sim t(n) tt(n),则 t 2 ∼ F ( 1 , n ) t^2\sim F(1, n) t2F(1,n)
      不同自由度的 F F F分布的分布图如下所示:
      在这里插入图片描述

    3、参数估计

    参数估计是统计学中的核心方法之一,所谓“估计”——就是在我们不知道真实值的情况下推真实值进行一个推断,通常有点估计、区间估计两种方式。因为往往,我们并不知道总体的全部数据,例如我们想知道某个时间结点下北京市所有人的平均身高 H H H,这是 H H H就是我们的未知参数。总体就是北京市全部人口的身高,而在不进行普查的情况下,我们是获取不到这个数据的,这就需要我们使用一些方法,推测这个 H H H,这就是参数估计。

    3.1、点估计

    点估计推断总体阐述的方式基本思路是获取到一个样本,用样本的平均值 H ^ \hat{H} H^代替总体的平均值。这就叫做“点估计”。
    常见的点估计方法包括:矩法估计、极大似然估计(暂时不详细展开了)。
    点估计的可靠性是由其抽样分布的标准误差(通常也叫做标准误)来衡量的。

    这里,要说明一下标准差(standard deviation)标准误差(standard error) 的差异:

    • 标准差就不多说了,描述数据的离散程度,任何一个总体都有其总体标准差(通常用 σ \sigma σ 表示),当我们无法获取总体全部,而是使用一个样本的时候,对应的产生样本标准差(通常用 s s s表示, s = 1 n − 1 ∑ i = 1 n ( x i 2 − x ‾ ) 2 s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i^2-\overline x)^2} s=n11i=1n(xi2x)2 )
    • 而标准误差( S E SE SE)是抽样分布(样本统计量的分布)的标准差。通常是在推断统计例如参数估计的过程中用来评价估计的有多准确或者有多离谱的场景下使用的(本质也是描述离散程度)。当我们无法获取总体,我们可以尽可能多的从标准差为 σ \sigma σ的总体中抽取样本量为 n n n的样本,每个样本有一个均值 x ‾ \overline x x,样本平均值的标准差 S D x ‾ = σ n SD_{\overline x}=\frac{\sigma}{\sqrt n} SDx=n σ,这是大数定律告诉我们的,而我们并不知道总体标准差,所以用样本标准差 s s s代替 σ \sigma σ,即 S E x ‾ = s n SE_{\overline x}=\frac{s}{\sqrt n} SEx=n s
      二者的核心差异在于标准差是某一次抽样得到样本后的样本离散程度度量,而标准误是多次抽样后得到了多个样本均值组成的新样本(比如100次抽样,得到了100个 x ‾ \overline x x,这就是咱们算 S E SE SE用的新样本)的离散程度。
      请牢记标准误差,它将是后面推断统计中的一个重要因素!

    下面简单回顾一下无偏估计和有偏估计:
    有偏估计和无偏估计
    左侧是一个估计值 A ^ \hat A A^的概率密度函数(代表了它的抽样分布),虚线对应的 A ^ \hat A A^的数学期望等于总体分布的总体均值 A A A,这就是无偏估计,若二者不等,如右图,则为有偏估计。还有一个概念叫做“渐进无偏估计”,是说当n很大(趋于无穷)时,估计值为渐进无偏估计。例如,样本方差( s 2 = 1 n − 1 ∑ ( x i 2 − x ‾ ) 2 s^2=\frac{1}{n-1}\sum(x_i^2-\overline x)^2 s2=n11(xi2x)2)是总体方差 σ 2 \sigma^2 σ2的无偏估计,而样本的平均偏差平方和( s n 2 = 1 n ∑ ( x i 2 − x ‾ ) 2 s_n^2=\frac{1}{n}\sum(x_i^2-\overline x)^2 sn2=n1(xi2x)2)则是总体方差 σ 2 \sigma^2 σ2总体的渐进无偏估计,显而易见,n很大时二者趋于相等。

    3.2、区间估计

    用一个样本得到的估计值代表总体参数的估计值可能或多或少有点儿“一言堂”,有些中央集权了,而区间估计是在点估计的基础上给出总体参数估计的一个估计区间(上下限),该区间是由样本统计量加减估计误差得到的,这样就比较民主,且把握更大(好比射击打靶,命中靶心是很难得,就那一个点,但是命中靶子或者命中靠近靶心的区域是简单的、更有把握的)。区间估计示意图如下所示:
    在这里插入图片描述
    样本均值 x ‾ \overline x x的数学期望为 μ \mu μ,标准误差为 σ n \frac{\sigma} {\sqrt n} n σ,则样本均值落在总体均值1个标准误差范围内的概率是68%;2个标准误差内的概率为95%,3个标准误差范围内的概率是99.7%。实际用用中, μ \mu μ是未知的, x ‾ \overline x x是已知的,所以反其道而行之,若样本均值落在总体均值1个标准误差范围内,则说明总体均值包括在以 x ‾ \overline x x为中心,左右两侧1个标准误差范围内。( x ‾ \overline x x落在 μ \mu μ的1.65、1.96、2.58倍标准误差范围内的概率分别为90%、95%、99%)。
    由样本估计量构造出的总体参数在一定置信水平下的估计区间称为置信区间。何为“置信”,就是在一定程度上确信该区间会包含真实的总体参数。例如95%置信区间的含义是:重复抽样若干次(比如100次),每次抽样都可以构造出一个估计区间,其中95个区间包含了真实的总体参数值,5%没有包含。95%称为置信水平或置信度或置信系数。

    3.3、评价估计量的标准

    1、无偏性(前面已经提及,不重复赘述);
    2、有效性:估计量的方差尽可能小。用估计量的方差或标准误来度量;
    3、一致性:随着样本量的增大,点估计量的值与被估计的总体参数越来越仅仅。

    3.4、常见区间估计

    一、单总体参数区间估计
    单总体均值区间估计的核心思想是:
    x ‾ ± ( 分 位 数 值 × x ‾ 的 标 准 误 差 ) \overline x±(分位数值×\overline x的标准误差) x±(×x)
    单总体比例区间估计的核心思想是( p p p为样本比例):
    p ± ( 分 位 数 值 × p 的 标 准 误 差 ) p±(分位数值×p的标准误差) p±(×p)
    在这里插入图片描述
    二、两总体参数区间估计
    两总体均值区间估计核心思想:
    ( x 1 ‾ − x 2 ‾ ) ± 分 位 数 值 × ( x 1 ‾ − x 2 ‾ ) 的 标 准 误 差 (\overline {x_1}-\overline {x_2})±分位数值×(\overline {x_1}-\overline {x_2})的标准误差 (x1x2)±×(x1x2)
    两总体比例区间估计核心思想:
    ( p 1 − p 2 ) ± 分 位 数 值 × ( p 1 − p 2 ) 的 标 准 误 差 (p_1-p_2)±分位数值×(p_1-p_2)的标准误差 (p1p2)±×(p1p2)
    在这里插入图片描述
    其中,上图中 s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)s22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}} v=n11(s12/n1)2+n21(s22/n2)2(n1s12+n2s22)2 d ‾ \overline d d表示各组配对样本差值的均值。
    三、区间估计样本量确定
    E E E代表允许的估计误差
    1、估计总体均值时样本量确定:

    • 估计单总体均值: n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{(z_{\alpha/2})^2\sigma ^2}{E^2} n=E2(zα/2)2σ2
    • 估计两总体均值差: n 1 = n 2 = ( z α / 2 ) 2 ( σ 1 2 + σ 2 2 ) E 2 n_1=n_2=\frac{(z_{\alpha/2})^2(\sigma_1^2+\sigma_2^2)}{E^2} n1=n2=E2(zα/2)2(σ12+σ22)

    2、估计总体比例时样本量确定:

    • 估计一个总体比例: n = ( z α / 2 ) 2 π ( 1 − π ) E 2 n=\frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2} n=E2(zα/2)2π(1π),其中 π \pi π为总体比例;
    • 估计两个总体比例差: n 1 = n 2 = ( z α / 2 ) 2 ( π 1 ( 1 − π 1 ) + π 2 ( 1 − π 2 ) ) E 2 n_1=n_2=\frac{(z_{\alpha/2})^2(\pi_1(1-\pi_1)+\pi_2(1-\pi_2))}{E^2} n1=n2=E2(zα/2)2(π1(1π1)+π2(1π2))

    4、假设检验

    4.1、假设检验基本概念

    假设检验是推断统计中另一个重要的分支,与参数估计地位不相上下。参数估计是用样本信息推断未知的总体参数,而假设检验是对总体参数提出一个假设值,然后利用样本去判断这个假设是否成立。假设检验中分位两种假设:

    • 原假设(零假设,null hypothesis):通常是我们想要推翻的假设,用 H 0 H_0 H0表示;
    • 备择假设(alternative hypothesis):通常是我们希望证明成立的假设,用 H 1 H_1 H1表示。

    例如:
    H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0:μ1=μ2
    H 1 : μ 1 ≠ μ 2 H_1:\mu_1≠\mu_2 H1:μ1=μ2
    原假设最初被假设为成立的,然后根据样本数据确定是否有足够的证据拒绝(推翻)这个假设。
    假设检验中,若备择假设没有方向性,使用 ≠ ≠ =,这样的假设检验称为双侧检验,如果备择假设有方向性,并含有 > > > < < <的假设检验称为单侧检验( < < <对应左侧检验, > > >对应右侧检验)。

    4.2、如何完成假设检验

    一、两类错误与显著性水平

    我们知道,样本具有随机性,我们用具有随机性的样本去推断总体是存在一定风险的,也就是说在假设检验的场景中,我们不一定能做到100%的正确,存在犯错误的风险。理想情况是:当原假设正确时,我们不拒绝它;当它不正确时,我们拒绝了它。对应的,我们就会用两种错误:

    • 1、原假设正确,但是我们拒绝了原假设,称为第一类错误,也叫拒真错误,犯第一类错误的概率记为 α \alpha α,故这类错误也成为 α \alpha α错误;
    • 2、原假设错误,但我们没能拒绝它,称为第二类错误,也叫取伪错误,犯错误的概率记为 β \beta β,故这类错误也成为 β \beta β错误。

    也就是拒绝原假设时我们就有可能犯第一类错误;未拒绝原假设时有可能犯第二类错误; α \alpha α β \beta β在样本来量一定时,是跷跷板的关系,无法同时减小(其加和不是1)。同时减少二者的唯一方式就是增加样本量。按道理说,哪种错误会导致更严重的后果,我们就应当首先降低这种错误(比如原假设是某个病毒对人类无害,不需要注意,如果我们犯了第二类错误,即病毒对人有害,而我们没有拒绝原假设,认为病毒无害,可能就会带来一场空前绝后的传染病,但如果我们犯第一类错误,即病毒对人无害,但我们拒绝了它,认为病毒对人有害,我们进行了一系列措施防治,顶多是多花费了一些金钱,老话说得好,有备无患,钱能解决的问题都不叫问题,花钱买平安,那么其实犯第二类错误的后果更严重,那么我们可以努力降低 β \beta β,对应的,适当放松对 α \alpha α的要求)。实际情况中, α \alpha α可以由研究者实现控制,而 β \beta β相对难以计算,所以我们通常是先控制 α \alpha α
    假设检验中犯第一类错误的概率称为显著性水平,记为 α \alpha α显著性水平是研究者事先指定的犯第一类错误概率的最大允许值( α \alpha α越小,对应 β \beta β就会越大, α \alpha α通常为 0.05 0.05 0.05,或 0.01 0.01 0.01,或 0.1 0.1 0.1)。

    二、如何决策

    1、用统计量决策

    我们用样本可以对总体参数(比如总体均值)做出点估计,将这个点估计标准化后,就可以度量它与原假设参数值之间的差异程度(在均值和比例的假设检验下通常是这样的方法):
    标 准 化 检 验 统 计 量 = 点 估 计 量 − 假 设 值 点 估 计 量 的 标 准 误 差 标准化检验统计量=\frac{点估计量-假设值}{点估计量的标准误差} =
    该量反映了点估计量与假设的总体参数相比差了多少个标准差的距离。
    有了样本,就可以计算标准化检验统计量,我们实现给定显著性水平 α \alpha α后,可以在统计量的分布上找到临界值,根据您显著性水平和对应的临界值围成的区域称为==“拒绝域”==,若统计量落在拒绝域内就拒绝原假设,反之不拒绝。用统计量判断是否拒绝原假设的方式,在双侧和单侧检验的情况如下图所示:
    在这里插入图片描述

    2、用p值决策

    用统计量检验,不管统计量的值是大还是小,只要它落入拒绝域就会拒绝原假设,此时,我们只能说犯第一类错误的概率是 α \alpha α,但实际上,统计量不同值,或者说它落在拒绝域的不同位置,对应犯第一类错误的概率是不同的。所以如果能把犯第一类错误的概率计算出来,是更好的选择。这个概率就是 P P P值。
    P P P值的意义是:如果原假设正确,那么得到的样本结果会像实际观测结果那么极端或更极端的概率称为 P P P值,也称为观察到的显著性水平。
    判断规则很简单:如果 P P P值小于显著性水平则拒绝原假设,反之不拒绝。

    三、多说一些

    1、p值的含义

    关于p值,我想多说一些:

    美国统计学会(American Statistical Association, ASA)明确告诉我们:
    P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
    ( p值不是“我们研究的假设是真的”的概率,也不是“数据仅仅由随机因素产生的”的概率)

    p值解释的并非假设本身,而是数据和假设的关系(比如,我们收集到的A组和B组的数据,和假设“A与B的平均值存在明显差异”的关系)。这是因为,假设本身要么就是对的,要么就是错的,不存在一个概率的问题
    举个例子:我们得到了A公司中部分普通职员中男性员工的工资和女性工资数据,其中男性平均月薪7500元,女性平均月薪7300元,我们想证明男女员工工资存在明显差异,即原假设是男员工工资=女员工工资,备择假设是二者不等。进行两双样本t检验后,得到了p值为0.013,那么这个p值的含义是什么呢?它的含义是:如果我们的假设是正确的(即男性员工工资与女性员工工资没有差异),那么我们在这个样本下得到男性员工与女性员工工资相差200元这个结果,甚至于更极端(差异大于200元)的结果的概率是0.013。

    p值描述的是:如果原假设是正确的,我们得到某次观测值甚至更极端的值的概率

    其实,p值描述的是数据和一个特定的统计学模型(原假设)的不匹配程度:p值越小,数据和该统计学模型的不匹配程度就越大。

    可以看到,如果我们的原假设正确,我们得到如同当前样本表现或者更极端表现结果的概率只有0.013(1.3%),相当低,所以我们有比较充分的理由怀疑原假设的正确性,如果将显著性水平定为0.05,我们可以拒绝原假设,即拒绝男女工资无差异的原假设。

    2、显著≠大效应

    所谓效应,对于上述案例,就是这个差异的大小,上述案例在7000+工资范围上存在200的差异,看起来不太小,假如大家的公司不是7000+这个水位,而是700000+(好有钱啊。。。。),那么200这个差异可以说是微乎其微,效应很小,所以,pvalue很小,我们可能认为存在统计显著,但和存在大的效应是两码事。

    3、p>0.05(或某个显著性水平)≠无效

    如果pvalue大于显著性水平下,我们通常认为无统计显著性,但正如之前所说的,pvalue说的是假设与样本数据之间的关系,我们只能说pvalue带给我们的信息是目前的样本无法作为拒绝原假设证据,而不是原假设成立的证据,不拒绝原假设不代表原假设为真的概率很高。对应到例子就是,加入pvalue比较大,为0.3,那么它的含义是说当前没有足够的证据说明男女工资存在差异,并不能说明我们可以证明男女工资相等。
    上述说明主要受到于个人图书馆360doc文章的启发,这个文章讲的很好。

    四、总体参数的检验

    1、单个总体参数的假设检验

    单个总体参数(如总体均值、总体比例、总体方差)的假设检验通常是通过样本检验总体参数是否等于(或大于或小于)某个常数值,比如通过一个班的男生学生身高作为样本,检验全校男生学生平均身高是否等于175cm。
    总体均值、方差的检验,要求总体服从正态分布。
    在这里插入图片描述

    2、两个总体参数的假设检验

    首先是两总体均值差的检验,统计量如下所示,其中: s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)S_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)S22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 n 1 ) 2 n 1 − 1 + ( s 2 2 n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} v=n11(n1s12)2+n21(n2s22)2(n1s12+n2s22)2
    在这里插入图片描述
    两总体比例差有两种情况:检验二者相等或二者差为某固定值,如下所示,其中 p p p为两样本中合并的比例: p = p 1 n 1 + p 2 n 2 n 1 + n 2 p=\frac{p_1n_1+p_2n_2}{n_1+n_2} p=n1+n2p1n1+p2n2。比例检验中通常要求 n 1 p 1 、 n 1 ( 1 − p 1 ) 、 n 2 p 2 、 n 2 ( 1 − p 2 ) n_1p1、n_1(1-p_1)、n_2p_2、n_2(1-p_2) n1p1n1(1p1)n2p2n2(1p2)都大于等于10,就认为是大样本,大样本下可得到样本比例差的抽样分布为正态分布。
    在这里插入图片描述
    两总体方差比,要求两总体独立,服从正态:
    H 0 : σ 1 2 σ 2 2 = 1 H_0:\frac{\sigma_1^2}{\sigma_2^2}=1 H0:σ22σ12=1
    H 1 : σ 1 2 σ 2 2 ≠ 1 H_1:\frac{\sigma_1^2}{\sigma_2^2}≠1 H1:σ22σ12=1
    检验统计量为:
    F = s 1 2 s 2 2 F=\frac{s_1^2}{s_2^2} F=s22s12

    写在后面:这里着重说一下独立样本和配对样本,所谓独立样本,顾名思义,两组样本是独立的,顾不干扰,例如选取两个班级男生的身高,作为两个组,他们就是独立的;而配对样本是说他们是有联系的,比如10个患者用药前的效果,和他们用药后效果的差异,这就属于配对样本了。对应的区间估计和假设检验的统计量是不同的。

    5、统计学常用方法梳理

    待补充

    6、业内应用场景

    待补充

    展开全文
  • 论文研究-半参数STAR模型的估计应用.pdf, 文中首次提出了一个新的STAR模型,在保留了转换函数的前提下,让转换变量以非参数的形式进入转换函数,从而有效减少了模型误...
  • 它是在大量实际应用中实现的计算机视觉的一个分支,例如监视、机器人导航、人机交互等。它的主要目标是自动化任何给定的操作,并通过取代工作人员来减少人力用计算机处理和分析数字图像或视频以收集(或使用“收集”...
  • 本书从实际应用的角度出发,以大量的案例详细介绍了MATLAB环境下的统计分析与应用。 本书主要内容包括:利用MATLAB制作统计报告或报表;从文件中读取数据到MATLAB;从MATLAB中导出数据到文件;数据的平滑处理、标准...
  • 在尝试用脚本实现这一功能的过程中发现一些新的东西,记录一下。 搜索“EstimateModelParameters”发现了...给定一个初始值和评估范围,与参数的处理方法相似。选中后,在参数评估过程中,初始状态也会被评估。 ...

    在尝试用脚本实现这一功能的过程中发现一些新的东西,记录一下。

    搜索“Estimate Model Parameters”发现了以下几个例子,可能有用。

    一、Estimate Model Parameters and Initial States (GUI)

    为每组实验选择需要评估的初始状态。给定一个初始值和评估范围,与参数的处理方法相似。选中后,在参数评估过程中,初始状态也会被评估。

    初值的脚步实现方式参考“Estimate Model Parameters and Initial States (Code)”中的“Estimate the Initial State”。

    Exp.InitialStates = sdo.getStateFromModel('sdoRCCircuit','C1');
    Exp.InitialStates.Value = 1;


    二、Estimate Model Parameters Per Experiment (GUI)

    关于Experiment中Initial States和Parameters属性的理解

    (目前是这么理解的,后续发现有误的话再修改)

    从被选内容来看Initial States是Parameters的一个子集

    从功能上看,Initial States用于指定当前Experiment对象的初始状态,Parameters用于指定哪些参数会被估算,此处指定的参数只会使用当前Experiment的数据来进行估算。

    (注意区别:在Parameters处指定的参数可以选择多个Experiment里的数据来估算。)

    以本例为例,估算过程中一共涉及四个变量,K、V、Q0、Loss。其中K、V两个参数的估计会用到Charge Exp和DCharge Exp两组实验的数据;Loss的估算只用到Charge Exp的数据;Q0是初始荷电状态,分别指定为固定值,不对其进行估算,Charge Exp的初值设为0,DCharge Exp的初值设为6.5。

    注意此案例中的初值并不进行估算,只是指定为固定值,对比“1、Estimate Model Parameters and Initial States (GUI)”案例中的初值勾选了Estimate,因此会进行估算。

      

     

    如果将Q0在Experiment Parameters中,而不在Initial States选项中(也就是help中的处理方式),得到的优化结果是一样的,即初始值的指定也可以放到Experiment Parameters中。(在此例中是如此,后续发现有误会再修改)

      

      

    PS:将Q0放在Initial States选项仿真,有如下报错“Invalid OutputTimes specified in the Configuration Parameters dialog for block diagram”。按下图所示,将求解器改为定步长解决。

    https://ww2.mathworks.cn/matlabcentral/answers/106957-invalid-output-times-specified-in-the-configuration-parameters-dialog-for-block-diagram-untitled1

     

    三、Estimate Model Parameters Per Experiment (Code)

    此例与第二节调用的是同一模型,完成相同的任务,能帮助理解代码用法以及参数设置。

    1、创建Experiment对象

    DCharge_Exp = sdo.Experiment('sdoBattery');

    其中,sdoBattery是仿真模型(Model),一般会随后对InputData、OutputData、InitialStates和Parameters进行赋值。一次参数评估中可以创建多个Experiment对象。

    2、对指定待评估参数Parameters进行赋值

    (为了方面描述,以下叙述中,把只使用指定实验进行评估的参数称为指定参数,把使用所有实验进行评估的参数称为通用参数。)

    用getParameterFromModel命令提取Model中的待处理参数,如Q0 = sdo.getParameterFromModel('sdoBattery','Q0'),后续可对参数进行赋值(Value属性),并配置该参数是否需要评估(Free属性)。

    参数配置好后直接赋值即可,如DCharge_Exp.Parameters = Q0。

    3、应用Experiment中的配置创建一个SimulationTest对象并进行仿真

    用createSimulator创建一个SimulationTest对象,用sim进行仿真。

    Simulator  = createSimulator(Exp(1));
    Simulator  = sim(Simulator);

    我理解的是,Experiment对象中包含了仿真需要的信息:Model名、输入数据InputData、相关参数Parameters、初始状态InitialStates。关于仿真中涉及的参数和初值,如果在Experiment中有赋值,就使用Exp中的值,如果Experiment中没有定义,就沿用Model中已设置好的值。

    其中需要区分Experiment.OutputData和SimulationTest.LoggedData.logsout,前者是实际实验中测试到的输出,即在仿真过程中期望得到的输出,后者是以当前参数配置下,用Model仿真得到的输出。整个参数估计的过程,就是希望后者逼近前者。

    在整个参数估计过程中,分清楚Experiment和SimulationTest两个对象,对代码理解就容易多了。Experiment是服务于参数估计的,SimulationTest是服务于模型仿真的。 

    4、对通用待评估参数的设置

    sdo.getParameterFromModel创建通用参数,创建后一般会对参数的Minimum、Maximum、Free属性进行赋值。

    getValuesToEstimate创建指定参数。

    注意通用参数与第2小节的指定参数配置区别,第2小节的指定参数配置后还赋值给了对应Experiment对象的Parameters属性,即将配置好的参数指定给对应Experiment,在对该参数进行估算时,就只使用对应Experiment的值。而对那些需要用所有Experiment来估算的参数,配置好后不需要再指定给特定的Experiment。

    5、理解estFcn = @(v) sdoBattery_Objective(v,Simulator,Exp)

    sdoBattery_Objective函数命名规范是“[ModelName]_Objective”,此参数是用来评估当前参数值的仿真结果与期望结果之间的差距大小。其中v是所有待评估参数,包括指定参数在内;Simulator是Model对应的SimulationTest对象,Exp是所有Experiment对象。

    疑问:

    % Update the experiments with the estimated parameter values.
    Exp  = setEstimatedValues(Exp,v);

    这句之后,所有experiment中都只新增了通用参数,而没有增加指定参数,怎么做到的???

    从数据结构上看,通用参数k、v和指定参数loss并没有不同。

    可能的原因:

    setEstimatedValues is used with the getValuesToEstimate method. You use getValuesToEstimate to obtain the parameters that you want to estimate from an experiment. When you estimate parameters for multiple experiments, getValuesToEstimate tags each parameter to track its corresponding experiment. You use setEstimatedValues to update the experiments with their corresponding estimated parameter values.

    根据help里的解释,在用getValuesToEstimate 创建参数时,已经将这些参数与相应的experiment进行了关联,所以在用setEstimatedValues 更新参数时,通用参数会全部更新,而指定参数只更新到对应的experiment下。

    (⊙o⊙)…参数结构体里确实看不出这点来,它说是就是吧。。。

     

    6、sdo.optimize优化参数

    % Estimate the parameters.
    vOpt = sdo.optimize(estFcn,v,opt)

    其中estFcn是评估函数;v是所有待评估参数,含通用参数和指定参数;opt是优化选项。

    返回值vOpt是优化过的所有参数值。

    优化后:

    用setEstimatedValues更新experiment中的参数值,Exp  = setEstimatedValues(Exp,vOpt);

    用sdo.setValueInModel更新Model里面的参数值,sdo.setValueInModel('sdoBattery',vOpt)。

     

    四、Estimate Model Parameters Using Multiple Experiments (Code)

    本例与Estimate Model Parameters and Initial States (GUI)是同一仿真模型。

    其他大致与前例类同,不同的是,此例的独立优化参数是初始状态。初始状态Initial States和参数Parameters都可以作为待评估参数。

    另,getValuesToEstimate 除了能返回指定实验的待评估参数外param.Continuous class(如例三),也可以返回状态量param.State class(如本例)。

    % Get the position initial state values to be estimated from the
    % experiment. 
    s = getValuesToEstimate(Exp);

     

    PS:发现help中个别模型打开后没有自动载入相关数据,可以从模型属性中找到原路径,相关数据一般在同一路径下。

     

     

    展开全文
  • 进行非参数估计 首先,让我们尝试使用传统的普通最小二乘回归。 reg perf2 income grant Source | SS df MS Number of obs = 10,000 -------------+---------------------------------- F(2, 9997) = 5734.77 Model...

    作者: 崔颖(中央财经大学)

    Source: Non-Parametric Regression Discontinuity (Francis, 2013)

    连享会计量方法专题……

    本篇推文介绍Stata方便实现断点回归 (Regression Discontinuity, RD) 的实用命令rdrobust, 此命令是由哥伦比亚大学 Sebastian Calonico教授、普林斯顿大学 Matias D. Cattaneo教授及众合作者共同开发。Google的网页RD software package提供了丰富的学习资料,包括许多相关论文的原始数据及复制结果代码。

    1. 命令安装与方法介绍

    net install rdrobust, from(http://www-personal.umich.edu/~cattaneo/rdrobust) 
    

    RD可以用来识别自然实验或结构性政策变化附近的局部处理效应。

    例如,如果你关心政府奖金对大学入学情况有怎样的影响,你可能会想要将那些获得政府奖金的学生和未获得政府奖金的学生进行比较。但这种方法是存在问题的,因为获得政府奖金的低收入家庭学生与未获得政府奖金的学生可能在多方面均存在差异。

    应用RD方法的前提条件是个人不能通过合理低报收入水平而获得政府奖金,那些在断点附近的人自报收入分布情况应该和非断点附近的人基本上保持一致。

    如果政府奖金资格确定的收入线是未知的,那么,此前提条件可能是合理的。即使学生会系统性地低报他们的收入,但因他们并不知道实际确认资格的收入分界线,可以认为那些收入在断点上下的学生随机抽取自相同的池子,仅是否收到政府奖金这一项差异。

    缺乏实验数据的计量经济学识别方法往往需要建立在外生性假定基础之上。也就是说,xy 的影响与误差项 u 不相关。在外生变量直接导致被解释变量变化的情况下,回归识别因果效应才是充分有效的。

    在上述例子中,显然,不能简单地将 y (GPA、出勤率、毕业率等)的变化归结为政府奖金的功劳,因为那些收到奖金和未收到奖金的学生存在多方面差异。然而,由于确认资格的收入分界线是未知的,在断点两侧小邻域内的个体可以被视为是相同的。因此,我们有理由认为未知的收入线外生随机地将断点附近的个体分成了两组,一组收到了政府奖金,一组未收到。

    2. 模拟生成非线性相关数据

    这里,我们假设被解释变量与收入的关系是非线性的 (线性相关性的举例和分析可以参见 Sharp Regression Discontinuity Example and Limitations)。Stata 随机生成一些非线性相关的自变量收入 income 和因变量学习表现 perfo 并绘制二者散点关系图。

    clear
    set obs 10000
    
    gen income=3^((runiform()-0.75)*4)
    label var income "Reported Income"
    
    sum income
        Variable |        Obs        Mean    Std. Dev.       Min        Max
    -------------+---------------------------------------------------------
          income |     10,000    .6789349    .7606786   .0370671   2.999232
    
    gen perfo=ln(income)+sin((income-r(min))/r(max)*4*_pi)/3+3
    label var perfo "Performance Index - Base"
    
    scatter perfo income
    

    下图展示了自变量与因变量的非线性关系:

    现在,让我们加入一些随机扰动。

    gen perf1=perfo+rnormal()*0.5
    label var perf1 "Performance Index - with noise"
    
    scatter perf1 income
    

    接着,使用命令rcspline,可以将局部平均的学习表现视作收入的三次样条 (Cubic Spline) 函数。

    ssc install rcspline
    
    rcspline perf1 income, nknots(7) showknots title(Cubic Spline)
    
    

    此时,样条曲线是平滑的。接下来,让我们在0.5处设置一个断点。

    gen grant=income<0.5
    sum grant
    
        Variable |        Obs        Mean    Std. Dev.       Min        Max
    -------------+---------------------------------------------------------
           grant |     10,000       .5921     .491469          0          1
    
    *样本中大约有59%低收入学生是具备获得政府奖金资格的
    *现在加入政府奖金对学生表现的正向效应
    *首先生成以政府奖金资格确认收入线为中心的收入变量
    gen income_center=income-0.5
    gen perf2=perf1+0.5*grant-0.1*income_center*grant
    *这样政府奖金对低收入学生将更加有效
    label var perf2 "Observed Performance"
    

    连享会计量方法专题……

    3. 进行非参数估计

    首先,让我们尝试使用传统的普通最小二乘回归。

    reg perf2 income grant
    
          Source |       SS           df       MS      Number of obs   =    10,000
    -------------+----------------------------------   F(2, 9997)      =   5734.77
           Model |   7041.8845         2  3520.94225   Prob > F        =    0.0000
        Residual |  6137.80314     9,997  .613964504   R-squared       =    0.5343
    -------------+----------------------------------   Adj R-squared   =    0.5342
           Total |  13179.6876     9,999  1.31810057   Root MSE        =    .78356
    
    ------------------------------------------------------------------------------
           perf2 |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
          income |   .9003367   .0168801    53.34   0.000     .8672482    .9334251
           grant |  -.3767682   .0261265   -14.42   0.000    -.4279814    -.325555
           _cons |   1.924569   .0267009    72.08   0.000      1.87223    1.976909
    ------------------------------------------------------------------------------
    

    显然,估计结果是错误的。政府奖金 grant 的估计系数为负,表明政府奖金会阻碍学习表现,这显然与常理相违背。

    接下来,我们尝试使用RD命令rdrobust

    *默认断点在0点处,因此我们使用中心化后的变量 income_centered
    rdrobust perf2 income_center
    
    Sharp RD estimates using local polynomial regression.
    
          Cutoff c = 0 | Left of c  Right of c            Number of obs =      10000
    -------------------+----------------------            BW type       =      mserd
         Number of obs |      5921        4079            Kernel        = Triangular
    Eff. Number of obs |       683         530            VCE method    =         NN
        Order est. (p) |         1           1
        Order bias (q) |         2           2
           BW est. (h) |     0.129       0.129
           BW bias (b) |     0.197       0.197
             rho (h/b) |     0.652       0.652
    
    Outcome: perf2. Running variable: income_center.
    --------------------------------------------------------------------------------
                Method |   Coef.    Std. Err.    z     P>|z|    [95% Conf. Interval]
    -------------------+------------------------------------------------------------
          Conventional | -.48486     .06467   -7.4971  0.000   -.611614     -.358102
                Robust |     -          -     -6.1641  0.000   -.633493     -.327828
    --------------------------------------------------------------------------------
    
    

    回归结果中估计系数为负,原因是RD方法通常默认断点处处置变量由0变为1,与本案例中“收入高于收入线,获得政府奖金的资格取消”正好相反。因此,我们需要改变RD估计量的符号方向。这可以通过将收入取相反数来实现。

    gen nincome_center=income_center*(-1)
    rdrobust perf2 nincome_center
    
    Sharp RD estimates using local polynomial regression.
    
          Cutoff c = 0 | Left of c  Right of c            Number of obs =      10000
    -------------------+----------------------            BW type       =      mserd
         Number of obs |      4079        5921            Kernel        = Triangular
    Eff. Number of obs |       530         683            VCE method    =         NN
        Order est. (p) |         1           1
        Order bias (q) |         2           2
           BW est. (h) |     0.129       0.129
           BW bias (b) |     0.197       0.197
             rho (h/b) |     0.652       0.652
    
    Outcome: perf2. Running variable: nincome_center.
    --------------------------------------------------------------------------------
                Method |   Coef.    Std. Err.    z     P>|z|    [95% Conf. Interval]
    -------------------+------------------------------------------------------------
          Conventional |  .48486     .06467   7.4971   0.000    .358102      .611614
                Robust |     -          -     6.1641   0.000    .327828      .633493
    --------------------------------------------------------------------------------
    

    同时,我们可以将rdrobust新命令的回归结果与 Stata 传统RD回归命令rd的结果相比较。

    rd perf2 nincome_center
    
    Two variables specified; treatment is 
    assumed to jump from zero to one at Z=0. 
    
     Assignment variable Z is nincome_center
     Treatment variable X_T unspecified
     Outcome variable y is perf2
    
    Estimating for bandwidth .1832282339354582
    Estimating for bandwidth .0916141169677291
    Estimating for bandwidth .3664564678709164
    ------------------------------------------------------------------------------
           perf2 |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
           lwald |   .4860547   .0539727     9.01   0.000     .3802703    .5918392
         lwald50 |   .4929885   .0744274     6.62   0.000     .3471136    .6388635
        lwald200 |   .5737225   .0377565    15.20   0.000     .4997212    .6477238
    ------------------------------------------------------------------------------
    

    rd命令的好处在于它可以同时汇报出不同带宽下的估计结果,默认的带宽 (100 50 200) 分别代表最小化 MSE(mean squared error) 的带宽及其一半与两倍的带宽。

    我们可以将不同带宽的估计结果绘制在一张图上。

    gen effect_est = .
    label var effect_est "Estimated Effect"
    
    gen band_scale = .
    label var band_scale "Bandwidth as a Scale Factor of Bandwidth that Minimizes MSE"
    
    forv i = 1/16 {
      rd perf2 nincome_center, mbw(100 `=`i'*25')
        if `i' ~= 4 replace effect_est = _b[lwald`=`i'*25'] if _n==`i'
        if `i' == 4 replace effect_est = _b[lwald] if _n==`i' 
        replace band_scale = `=`i'*25'     if _n==`i'   
    }
    
    gen true_effect = .5
    label var true_effect "True effect"
    
    two (scatter effect_est band_scale) (line true_effect band_scale)
    

    从图上可以看出,最小化 MSE (即100%) 带宽估计出的结果最为准确,且估计系数在其附近区间内也相对稳定。

    总结

    本文介绍了 Stata 实现断点回归的最新命令 rdrobust。选取政府奖学金影响学生学业表现的案例,通过数值模拟随机生成观测数据,分别运用 rdrobustrd命令对模拟数据进行回归分析并比较回归结果。

    参考资料

    1. RD Software Packages (https://sites.google.com/site/rdpackages/).

    2. Calonico S, Cattaneo M D, Farrell M H, et al. rdrobust: Software for regression-discontinuity designs[J]. The Stata Journal, 2017, 17(2): 372-404.PDF

    连享会计量方法专题……

    关于我们

    联系我们

    • 欢迎赐稿: 欢迎将您的文章或笔记投稿至Stata连享会(公众号: StataChina),我们会保留您的署名;录用稿件达五篇以上,即可免费获得 Stata 现场培训 (初级或高级选其一) 资格。
    • 意见和资料: 欢迎您的宝贵意见,您也可以来信索取推文中提及的程序和数据。
    • 招募英才: 欢迎加入我们的团队,一起学习 Stata。合作编辑或撰写稿件五篇以上,即可免费获得 Stata 现场培训 (初级或高级选其一) 资格。
    • 联系邮件: StataChina@163.com

    往期精彩推文

    Stata连享会推文列表


    欢迎加入Stata连享会(公众号: StataChina)

    展开全文
  • KNN算法及其应用案例

    千次阅读 2018-08-20 22:27:01
    简单、易实现、易理解,无需参数估计及训练 (2).适用于多分类问题 (3).总的思想是:"物以类聚" KNN算法模块: #KNN算法模块: def knn(k,testdata,traindata,labels): #k代表分类数,测试数据,训练数据,所得到...
  • 机器学习 逻辑回归算法应用案例

    千次阅读 2020-09-12 16:41:41
    机器学习 逻辑回归算法应用案例 时间:2020.09.12 出处:https://www.kesci.com/home/project/5bfe39b3954d6e0010681cd1 注明:初学逻辑回归,跟着博客大佬文章过了一遍,自己留个记录以便之后翻阅,也供大家学习。...
  • 从总体中抽取一个样本(batchsize=n),得到样本均值u’,样本标准差σ‘,(推荐系统中)样本点击率ctr等,这些样本参数都是对总体的一个点估计。 标注误差SE 抽取n个样本,分别计算其均值u’1,u’2,… 这些值的...
  • 18种Eviews方程参数估计方法汇总​

    千次阅读 2021-02-06 13:19:38
    原标题:18种Eviews方程参数估计方法汇总​目录1、LS最小二乘法,可以用于线性回归模型、ARMA等模型2、TSLS两阶段最小二乘法3、GMM 广义矩估计方法4、ARCH 自回归条件异方差,还可以估计其他各种ARCH模型,如 GARCH...
  • 统计案例 | 二战时期德军坦克数量的估计?一、一则故事二、点估计三、矩估计背后的故事 一、一则故事 今天小编和各位同学来聊一则故事,在二战时期,西方盟国一直在努力确定德国的生产速度(典型的就是坦克产量),...
  • 通过构筑进度安排指南,估计工作量和实际工作量的比较,估计进度与实际进度的比较这些历史数据的统计和应用,为软件组织的历史数据统计分析提供了一套切实可行的思路,对软件过程改进工作具有较大的参考价值。
  • H无穷控制理论与应用案例分析

    万次阅读 多人点赞 2020-10-30 21:45:54
    其中,主要包括受控对象模型和参数的不确定性、外干扰的多样性和复杂性、系统结构和参数的未知变化等。解决这类系统的稳定性和有效控制问题属于鲁棒控制问题。 状态反馈:状态反馈,就是将系统的每一个状态变量乘以...
  • 希望这篇文章能讲清楚什么是“最大似然估计”。通过前文的推理,我们已经得到了二项Probit和二项Logit的模型表达式。在二项Probit模型中,决策者n选择方案i的概率为: 在二项Logit模型中,相应的概率为: 具体的推导...
  • 1. 随机变量的数字特征 0x1:为什么我们需要统计随机变量的数字特征 随机变量的分布函数(或概率函数...在很多实际问题中(特别是一些具体的非物理的问题域),从实际问题场景中采样得到的样本集,一般时候都不会...
  • 面试官:如何进行 JVM 调优(附真实案例

    千次阅读 多人点赞 2022-03-27 18:34:50
    JVM启动时输出所有参数值,方便查看参数是否被覆盖 -XX:+PrintFlagsFinal // 打印GC时应用程序的停止时间 -XX:+PrintGCApplicationStoppedTime // 打印在GC期间处理引用对象的时间(仅在PrintGCDetails时启用) -XX:...
  • 最小二乘法及应用实例

    千次阅读 2022-01-08 22:01:21
    文章目录最小二乘法问题**实例1:线性模型****方法一:极值法****...利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。 最小二乘法还可用于曲线拟合,其他一些优化
  • 通过构筑进度安排指南,估计工作量和实际工作量的比较,估计进度与实际进度的比较这些历史数据的统计和应用,为软件组织的历史数据统计分析提供了一套切实可行的思路,对软件过程改进工作具有较大的参考价值。
  • Q-Q图可以用来可在分布的位置-尺度范畴上可视化的评估参数。  从图上可以看出,回归效果比较理想,但不是最理想的  4)以下代码可以同样实现上述图示: import numpy as np import scipy....
  • 我发现很多人学了很久的统计学,仍然搞不清楚什么是点估计、区间估计,总是概念混淆,那今天我们来盘一盘统计推断基础的点估计、区间估计。这个系列统计推断基础5部分分别是: 总体、样本、标准差、标准误【定量...
  • GMM算法应用实例介绍及参数详解

    千次阅读 2020-03-10 15:50:57
    高斯混合模型(CMMs)是统计学习理论的基本模型,在可视媒体领域应用广泛。近些年来,随着可视媒体信息的增长和分析技术的深入,GMMs在(纹理)图像分割、视频分析、图像配准、聚类等领域有了进一步的发展。从GMMs的基本...
  • 第9章 大数据应用案例 本章中主要介绍了具体的大数据的应用,首先通过例子讲解了如何开发一个计算实时 UV (Unique Visitor,是指不同的、通过互联网访问、浏览的自然人)数的程序,随后引入推荐、广告、搜索等常用...
  • 用Python实现极大似然估计

    千次阅读 2021-03-06 14:45:11
    极大似然估计(Maximum likelihood estimation, 简称MLE)是很常用的参数估计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对...
  • 诸如核密度估计(KDE)的平滑方法被用于控制用于计算每种疾病率的空间支持的群体基础。平滑程度由用户定义的参数(带宽或阈值)控制,该参数影响疾病图的分辨率和计算的速率的可靠性。 方法 内核,带宽的大小,是...
  • ML之NB:朴素贝叶斯Naive Bayesian算法的简介、应用、经典案例之详细攻略 目录 朴素贝叶斯Naive Bayesian算法的简介 1、朴素贝叶斯计算流程表述 2、朴素贝叶斯的优缺点 2.1、优点 2.2、缺点 3、分类模型...
  • 来源|智驾最前沿编辑 |焉知智能汽车随着全球智能驾驶进入产业化与商业化的准备期,车载激光雷达凭借其优异性能已成为不可或缺的环境感知传感器并在硬件技术和应用算法上得到迅猛发展。文章以激...
  • viterbi算法求解案例 viterbi算法代码实现 HMM模型应用 中文分词 股市分析 历史简述 对于马尔可夫链,比较多的说法是:由俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков)在1906-1907年...
  • 同时,数据结构技术也广泛地应用于信息科学、系统工程、应用数学以及各种工程技术领域。数据结构的研究涉及的知识面十分广,可以认为它是介于数学、计算机硬件和软件之间的一门核心课程。 图1-3 数据结构与其他课程...
  • 一个示例应用可以是基于先前的连续观察来估计植物,树木甚至动物的生长,以预测其产量,评估其水需求或预防疾病的发生。这些模型也可以在环境信息学中找到适用性,以了解气候变化,预测天气状况和现象,估算各种物理...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,610
精华内容 6,644
热门标签
关键字:

参数估计的实际应用案例

友情链接: GPSProxy-2.2-Source.zip