精华内容
下载资源
问答
  • 应用统计学-西北工业大学 史晓燕 统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不...
  • 统计学在业内的应用1:分布、参数估计与假设检验及工业应用统计学的方法应用框架1、统计学的学科逻辑2、分布2.1 何为分布2.2 概率分布函数(通常直接简称为分布函数)一、离散情况二、连续情况2.3、总体分布、样本...


    写在前面,由于篇幅比较长,我也是零散时间写的,所以文章总体上是有框架的,但是一些细节所放置的位置可能有所不妥当,可能需要辛苦读者朋友多次上下跳转。很是抱歉。

    统计学的方法应用框架

    在一线互联网公司技术岗工作了一年多的时间,先后从事了算法、统计学习方面的工作,作为一名本科数理统计出身的玩家,今天想对统计学的主要方法及在业内落地应用的场景做一个回顾和总结,利己利他,为大家讲明白,巩固一下自己的基本功,也是为以后留下一份比较好的笔记。

    篇幅可能比较长,读者朋友可以选取自己感兴趣的地方参考,也可以mark一下,以后用到的时候互相交流。

    在这篇Blog中,我主要会涉及到以下几个方面:

    1. 统计学的学科逻辑:统计学是一门方法论,是一个寄生学科,寄生在各行各业的数据中,脱离了行业场景和数据,统计学基本没有独立的用武之地;统计学的核心就是用样本数据(数据中的一部分数据)取描述甚至推断总体数据(全部数据),因为实际工作中,哪怕是在当下号称大数据时代的场景中,也很少有真真切切的全部数据,或者各种各样的原因无法获取全部数据,即使有全部数据,统计学依然有它发挥作用之处;
    2. 统计学的基础-抽样分布:一切的统计推断都是建立在某种分布假设或前提下的,抽样分布奠定了统计学一系列的方法论;
    3. 统计推断之参数估计:统计学宏观的讲我理解可以分为两部分,其一是描述统计,基本会以各种基础统计量(均值、标准差等)描述数据的分布情况,或以各种可视化的方式更好的理解数据,对数据做出洞察和洞见,这部分本篇中不会涉及,描述统计更像艺术,一个好的描述统计足以让阅读者了解数据的基本情况,描述统计的方式也多种多样,一千个人眼里有一千个哈姆雷特;其二是推断统计,及用样本数据的样子去推断(估计)总体数据的样子,本篇主要会回顾统计推断,首先是参数估计;
    4. 统计推断之假设检验:统计推断中比较重要的两块儿内容,其一是上述的参数估计,其二就是假设检验,假设检验通常更会直接影响决策;
    5. 统计学常用方法:本节会简单介绍一些统计学常用的方法,如实验设计常用的方差分析、预测问题常用的回归分析、降为问题常用的PCA,本篇不涉及具体原理,以后有空可以再其他篇幅中另外详细回顾;
    6. 统计学在业内的落地和应用场景:读者一定也很感兴趣统计学在工业界到底有哪些用途,本节会就我个人遇到的部分场景做一些介绍。

    1、统计学的学科逻辑

    统计学是一门寄生学科,是一门方法论,本质上要依托于实际工业而产生作用和价值。统计学的本质就是在有限的样本下,推断总体的情况。

    例1:比如说,我看好了一家公司的某个职位,我想了解一下应该要多少工资比较好,即所有员工的平均工资,而我又没有公司所有员工的工资条,那应该怎么办呢?比如说公司有200人,我随机在门口先后拦截了15个人套近乎,问道了他们的工资,假设他们都说了实话,那我求一个平均数和标准差,而我对自己的能力有比较强的自信,认为自己在平均水平之上,那我就在平均数上加上0.8倍的标准差,定为自己想要的薪资(当然,如果我不幸的选中了两个老板级别的人物,工资太高,我自然会对这两个样本进行删除,这便是离群值的处理),这样我就用了一部分数据推断了总体数据的平均水平。

    例2:再比如我想看该公司是否男女平等,同样的,选了15个男员工和15个女员工询问其工资,建立假设检验,检验男女员工工资是否存在差异,具体的后面会详细说明。

    综上所述,统计学是一门研究样本,使用样本对总体做出科学推断的学科。

    2、分布

    2.1 何为分布

    统计学的基础便是分布,何为分布?顾名思义,就是数据长什么样子,首先,分布是建立在随机变量上的,所谓随机变量,通常认为是随机事件的结果变量,例如掷骰子(6面骰),抛硬币(正反面),结果的情况就是概率分布,以掷6面的均匀骰子为例:

    投掷结果123456
    概率 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61 1 6 \frac{1}{6} 61

    这便是概率分布。

    2.2 概率分布函数(通常直接简称为分布函数)

    我会先统一以离散情况(抛硬币,掷骰子这样结果可以逐一列出来的,不管结果是否是有限个,就属于离散随机变量,比如每天的温度这样无法一一列出来的的属于连续型随机变量,ps:原则上说,0摄氏度-1摄氏度直接有无限多个温度值,无法列出来)对分布相关的知识做回顾。
    为什么需要分布函数呢?因为实际情况中,像掷骰子这种只可能有6种结果的情况不在少数,但更多的情况下是结果非常多,100个,100万个,是指是无穷个可能的结果,这样我们编写表格是困难的甚至是不可实现的,那么我们就应当用一个高度概括的函数 f ( x ) f(x) f(x)去代替这个分布表格,取解决哪些数不过来的情况。

    一、离散情况

    依然以掷骰子的例子来说,一般教材中会先介绍一个概念叫做 “分布律”,也可能叫做“概率函数”,也有很多海归背景的人会叫他“概率质量函数”(感觉第三种叫法用的人比较多)它是啥呢?

    P ( X = X k ) = p k ( k = 1 , 2 , 3... , 对 于 掷 骰 子 , k = 1 , 2 , 3 , 4 , 5 , 6 ) P(X = X_k)=p_k (k=1,2,3...,对于掷骰子,k=1,2,3,4,5,6) P(X=Xk)=pk(k=1,2,3...,,k=1,2,3,4,5,6)

    切记,上面这个是分布率,不是概率分布函数。分布律描述的是出现某种结果(科学的说应该是每种各个结果)的概率。
    在分布律的基础下,就是概率分布函数:

    F ( x ) = P ( X < = x ) = ∑ x k < = x p k F(x)=P(X<=x)=\sum_{x_k<=x}p_k F(x)=P(X<=x)=xk<=xpk

    F ( x ) F(x) F(x)是概率分布函数(简称分布函数),概率分布函数是概率函数的累加,所以它又被叫做累计概率函数。本质上,概率函数(分布律)和累计概率函数(概率分布函数)是描述随机变量结果的两种方式,前者是描述单一结果的概率,后者则是累加多个单一结果的概率。(我承认各种概率函数、概率分布函数、累计概率函数特别烦人,各种名字,只能怪从外文翻译过来的种类太多了,大家习惯一下。。。我做了如下总结)

    对于离散型随机变量,有如下主要信息:
    1、概率函数(分布律,概率质量函数):probability mass function,简称PMF;描述的是离散随机变量出现某特定结果的概率;
    2、概率分布函数(分布函数,累积分布函数):cumulative distribution function,简称CDF,是对PMF的累加,能完整描述一个实随机变量X的概率分布
    3、另有 F ( a < x < b ) = F ( b ) − F ( a ) F(a < x < b)=F(b)-F(a) F(a<x<b)=F(b)F(a)

    PS:嗯。。。如果和别人就概率分布函数等概念交流起来有问题就用英文简称吧,一般不会有歧义。

    二、连续情况

    连续情况下,其实就没有分布律一说了,比如说在[1,100]实数范围内,取到1的概率是多少呢?0,在二维空间中求一维对象的任何值都是没有意义的。[1,100]实数集就是连续的,而[1,100]的整数就是离散的~。
    既然如此,连续随机变量下的PMF如何定义呢?在一个区间中,一个点的统计没有意义,但是一群点组成的一个子区间就是有意义的,好比一根线,你统计一个点的长度,是无法计算的,但是统计一段线的长度就是可以的。
    为了在连续型随机变量情况下给出PMF等价的概念,引入了“概率密度函数”probability density function简记PDF(可以简称密度函数)。如何理解“密度”这一概念,引用陈希孺老师所著的《概率论与数理统计》这本书中的讲解:
    Alt
    所以说,概率密度描绘的是随机变量落在一个点邻域(附近)的概率的变化情况(注意:并非概率本身而是变化情况),而概率分布函数(CDF)则是概率密度的积分(广义的说也就是求和),如下图所示:

    引用简书讲解
    Alt
    概率密度函数是概率分布函数的导函数,反之,概率密度函数的积分则是概率分布函数。如上图所示,曲线为概率分布函数曲线,它的斜率就是概率密度,切记,概率密度是变化速率,不是随机变量落在某范围内的概率值
    Alt

    对于连续型随机变量,有如下主要信息:
    1、概率密度函数(概率密度):probability density function,简称PDF;给出了 x i x_i xi落在某值 x x x邻域内的概率变化快慢,概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率
    2、概率分布函数:cumulative distribution function,简称CDF,是对PDF的积分,即面积,是 x i x_i xi落在某范围的概率。

    引用原文链接:https://blog.csdn.net/anshuai_aw1/article/details/82626468的说明,我觉得很形象:

    概率密度函数在某一参数下值的意义:比较容易理解的意义,某点的概率密度函数即为概率在该点的变化率(或导数)。该点概率密度值并非概率值.
    比如: 距离(概率)和速度(概率密度)的关系.
    某一点的速度,不能以为是某一点的距离,没意义;因为距离是从XX到XX的概念。所以概率也需要有个区间。这个区间可以是x的邻域(邻域大小可以无限趋近于0)。对x邻域内的 f ( x ) f(x) f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

    写在后面(参考出处):

    1、为何需要有概率分布函数:对于离散型随机变量,可以直接用分布律来描述其统计规律性,而对于连续型随机变量,无法一一列举出随机变量的所有可能取值,所以它的概率分布不能像随机变量那样进行描述,于是引入PDF,用积分来求随机变量落入某个区间的概率。
    分布律不能描述连续型随机变量,密度函数不能描述离散随机变量,因此需要找到一个统一方式描述随机变量统计规律,这就有了分布函数。另外,在现实生活中,有时候人们感兴趣的是随机变量落入某个范围内的概率是多少,如掷骰子的数小于3点的获胜,那么考虑随机变量落入某个区间的概率就变得有现实意义了,因此引入分布函数很有必要。
    2、概率分布函数的意义:分布函数在点处的函数值表示落在区间内的概率,所以分布函数就是定义域内的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。

    2.3、总体分布、样本分布、抽样分布

    一、总体、样本、抽样分布

    大数据时代下经常认为我们可以有总体数据,所谓总体数据,就是你研究对象的全集,就好比上文中公司员工工资的例子,你如果拿到了财务的员工工资清单,就有了所有人的工资,那便不需要做推断,有了全部的数据,你看到的即为真实的情况,这便是总体;但在没有这个清单的情况下,我选择随机的选取一部分人做调查,这部分人的工资就是样本,样本可大可小,可想而知,样本量越大(越接近总体),那样本产生的信息就越可信,越和总体真实情况一样。对应的,就有了总体分布和样本分布:

    • 总体分布:总体中各元素的观测值所形成的相对频数分布,称为总体分布。
    • 样本分布:从总体中抽取一个容量为 n n n的样本,由这 n n n个观测值形成的相对频数分布,称为样本分布。
      读者们应该还常听说一个名词,叫做抽样分布,抽样分布在课本中出现的频次甚至高于总体分布和样本分布,那么何为抽样分布?
    • 抽样分布:在重复选取样本量为 n n n的样本时,由该样本统计量的所有可能取值形成的相对频数分布。举个例子,你从一个容量为 N N N的总体中,抽取了1000次样本量未 n ( n < N ) n(n<N) n(n<N)的样本,统计这1000个样本的某个统计量,比如样本均值,那样本均值这个随机变量就是有分布的,它的分布叫做抽样分布。切记,抽样分布是统计量的分布。
      OK,了解了总体分布、样本分布和抽样分布后,补充介绍统计推断的两个奠基理论:大数定律&中心极限定理

    二、大数定律

    百度百科解释:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。即大量重复试验,随机事件发生的频率为其概率
    大数定律不会对已经发生的情况进行平衡,而是利用新的数据来削弱它的影响力,直至前面的结果从比例上看影响力非常小,可以忽略不计。 这就是大数定律发生作用的原理。 简而言之,大数定律发挥作用,是靠大数对小数的稀释作用。举个例子,你抛一个均匀正常的1元硬币,即使你十分的幸运,连续10次抛出正面,但是再抛1000次后,你会发现这1010次中正面出现的频数基本在一半左右,起初10次100%正面的作用在大量重复(大数)试验的作用下微乎其微,下图为用计算机模拟的10000次跑硬币得到正面的频率,可以发现,最终会收敛在0.5,这就是抛硬币得到正面的概率。
    归纳为一句话:随着样本量的增大,样本的均值几乎必然的等于真实总体的均值。()
    在这里插入图片描述

    三、中心极限定理

    中心极限定理的说明如下:

    大量的独立随机变量之和具有近似于正态的分布,教科书定义如下:
    设 随 机 变 量 X 1 , X 2 , … 独 立 同 分 布 , E X 1 = μ , V a r ( X 1 ) = σ 2 > 0 。 如 果 S n = ∑ j = 1 n X j , 则 S n 的 标 准 化 ξ n = S n − n μ n σ 2 → N ( 0 , 1 ) , 即 对 任 何 x i , lim ⁡ n → ∞ P ( ξ n ≤ x ) = P ( Z ≤ x ) , 其 中 Z ∼ N ( 0 , 1 ) 设随机变量X_1,X_2,…独立同分布,EX_1=\mu,Var(X_1)=\sigma^2>0。如果S_n=\sum\limits_{j=1}^{n}X_j,则S_n的标准化\xi_n=\frac{S_n-n\mu}{\sqrt{n\sigma^2}}\rightarrow N(0,1),即对任何x_i,\lim\limits_{n\rightarrow \infty}P(\xi_n\le x)=P(Z\le x),其中Z \sim N(0,1) X1,X2,EX1=μVar(X1)=σ2>0Sn=j=1nXjSnξn=nσ2 SnnμN(0,1)xinlimP(ξnx)=P(Zx)ZN(0,1)

    中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布近似正态分布。
    PS:关于大数率和中心极限定理一些理论概念的补充可以参考这个博客
    关于中心极限定理证明可以参考知乎回答

    2.4、常见分布

    一、二项分布

    回顾二项分布之前先来回顾伯努利分布:
    伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。例如掷一次硬币的结果(正vs反);买一注彩票(中vs不中);某篮球队伍一场比赛的结果(赢vs输)。

    其概率分布称为伯努利分布(Bernoulli distribution),也称为两点分布或者0-1分布,是最简单的离散型概率分布。我们记成功概率为 p ( 0 ≤ p ≤ 1 ) p(0≤p≤1) p(0p1),则失败概率为 q = 1 − p q=1-p q=1p

    若随机变量 X X X服从二项分布,则其数学期望和方差为:
    E ( X ) = p E(X)=p E(X)=p
    V a r ( X ) = p q Var(X)=pq Var(X)=pq

    接下来是二项分布:
    如前所述,某个伯努利实验,其成功概率用 p p p表示,失败的概率为 q = 1 − p q=1-p q=1p。进行 n n n次这样的试验,成功了 x x x次,则失败次数为 n − x n-x nx,发生这种情况的概率可用下面公式来计算(PMF):
    p ( x ) = C n x p x ( 1 − p ) n − x p(x)=C_n^{x}p^{x}(1-p)^{n-x} p(x)=Cnxpx(1p)nx

    若随机变量 X X X服从伯努利分布,记做 X ∼ B ( n , p ) X \sim B(n, p) XB(n,p),则其数学期望和方差为:
    E ( x ) = n p E(x)=np E(x)=np
    V a r ( x ) = n p ( 1 − p ) Var(x)=np(1-p) Var(x)=np(1p)

    当二项分布n较大(通常认为大于等于30)时,其分布近似于 N ( n p , n p ( 1 − p ) ) N(np, np(1-p)) N(np,np(1p))的正态分布。

    二、正态分布

    正态分布实际上是由二项分布经过一些推导得来的,具体的可以参考文章
    期望为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的正态分布记为 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)
    正态分布的概率密度函数如下所示:
    f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2\pi} \sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=2π σ1exp(2σ2(xμ)2)
    正态分布PDF图如下所示:
    在这里插入图片描述

    三、泊松分布

    泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数(也是二项分布推导而来)。
    其概率质量函数如下:
    p ( X = k ) = e − λ λ k k ! p(X=k)=\frac{e^{-\lambda} \lambda^k}{k!} p(X=k)=k!eλλk
    若随机变量 X X X服从泊松分布 P ( λ ) P(\lambda) P(λ),在其期望和方差分别为:
    E ( X ) = λ E(X)=\lambda E(X)=λ
    V a r ( X ) = λ Var(X)=\lambda Var(X)=λ

    四、样本方差的抽样分布

    样本方差的抽样分布用 χ 2 \chi^2 χ2分布表示。设 μ 1 \mu_1 μ1 μ 2 \mu_2 μ2、…、 μ m \mu_m μm为m个独立同分布的标准正态变量,则其平方和 Y = ∑ i = 1 n μ i 2 Y=\sum_{i=1}^{n}\mu_i^2 Y=i=1nμi2的分布为自由度为 m m m χ 2 \chi^2 χ2分布,记做 χ 2 ( m ) \chi^2(m) χ2(m)
    E ( y ) = m E(y)=m E(y)=m
    V a r ( y ) = 2 m Var(y)=2m Var(y)=2m
    不同自由度的卡方分布如下图所示, n n n越大,其越近似与正态分布。
    在这里插入图片描述
    另,记样本方差为 s 2 s^2 s2,则:
    ( n − 1 ) s 2 σ 2 ∼ χ ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim\chi(n-1) σ2(n1)s2χ(n1)

    五、样本均值与样本标准差只比的t分布

    由中心极限定理可知,样本均值 x ‾ \overline{x} x的分布为 N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n}) N(μ,nσ2),其标准化变量 x ‾ − μ σ / n \frac{\overline{x}-\mu}{\sigma/{\sqrt{n}}} σ/n xμ服从 N ( 0 , 1 ) N(0,1) N(0,1),其中 μ \mu μ σ \sigma σ为总体均值和总体标准差。如果把标准化变量中的总体标准差更换为样本标准差 s s s,则前述标准化变量将服从自由度为 n − 1 n-1 n1 t t t分布,记做 t ( n − 1 ) t(n-1) t(n1)
    另,若 X X X~ N ( 0 , 1 ) N(0,1) N(0,1) Y Y Y ~ χ 2 ( n ) \chi^2(n) χ2(n),且 X X X Y Y Y相互独立,则 x Y / n \frac{x}{\sqrt{Y/n}} Y/n x~ t ( n ) t(n) t(n)

    • n = 1 n=1 n=1时, t t t分布为柯西分布,不存在数学期望;
    • n > 1 n>1 n>1时, t t t分布存在数学期望, E ( t ) = 0 E(t)=0 E(t)=0
    • n > 2 n>2 n>2时, t t t分布存在方差, V a r ( t ) = n n − 2 Var(t)=\frac{n}{n-2} Var(t)=n2n
      t t t分布的期望和方差可以看出,它很接近 N ( 0 , 1 ) N(0,1) N(0,1),尤其是当 n n n比较大的时候,二者是趋于一致的。如下图所示,样本量不太大时,t分布也是一个钟型线(同正态分布一样),只是它要更“矮”和更“平坦”一些。
      在这里插入图片描述

    六、两个独立正态样本方差之比的F分布

    X 1 ∼ χ 2 ( n 1 ) X_1\sim\chi^2(n_1) X1χ2(n1) X 2 ∼ χ 2 ( n 2 ) X_2\sim\chi^2(n_2) X2χ2(n2),且 X 1 X_1 X1 X 2 X_2 X2独立,则: F = X 1 / n 1 X 2 / n 2 F=\frac{X_1/n_1}{X_2/n_2} F=X2/n2X1/n1,记为 F ( n 1 , n 2 ) F(n_1,n_2) F(n1,n2)( X 1 X_1 X1 X 2 X_2 X2可以视作样本方差的分布,这样就记住F分布的含义了,样本方差服从卡方分布,两个卡方分布之比是 F F F分布)。

    • n 2 > 2 n_2>2 n2>2时, F F F分布数学期望存在, E ( F ) = n 2 n 2 − 2 E(F)=\frac{n_2}{n_2-2} E(F)=n22n2
    • n 2 > 4 n_2>4 n2>4时, F F F分布方差存在, E ( F ) = 2 n 2 2 ( n 1 + n 2 − 2 ) n 1 ( n 2 − 2 ) 2 ( n 2 − 4 ) E(F)=\frac{2n_2^2(n_1+n_2-2)}{n1(n_2-2)^2(n_2-4)} E(F)=n1(n22)2(n24)2n22(n1+n22)
    • KaTeX parse error: Undefined control sequence: \simF at position 2: F\̲s̲i̲m̲F̲(n_1,n_2),则 1 F ∼ F ( n 2 , n 1 ) \frac{1}{F}\sim F(n_2,n_1) F1F(n2,n1)
    • t ∼ t ( n ) t\sim t(n) tt(n),则 t 2 ∼ F ( 1 , n ) t^2\sim F(1, n) t2F(1,n)
      不同自由度的 F F F分布的分布图如下所示:
      在这里插入图片描述

    3、参数估计

    参数估计是统计学中的核心方法之一,所谓“估计”——就是在我们不知道真实值的情况下推真实值进行一个推断,通常有点估计、区间估计两种方式。因为往往,我们并不知道总体的全部数据,例如我们想知道某个时间结点下北京市所有人的平均身高 H H H,这是 H H H就是我们的未知参数。总体就是北京市全部人口的身高,而在不进行普查的情况下,我们是获取不到这个数据的,这就需要我们使用一些方法,推测这个 H H H,这就是参数估计。

    3.1、点估计

    点估计推断总体阐述的方式基本思路是获取到一个样本,用样本的平均值 H ^ \hat{H} H^代替总体的平均值。这就叫做“点估计”。
    常见的点估计方法包括:矩法估计、极大似然估计(暂时不详细展开了)。
    点估计的可靠性是由其抽样分布的标准误差(通常也叫做标准误)来衡量的。

    这里,要说明一下标准差(standard deviation)标准误差(standard error) 的差异:

    • 标准差就不多说了,描述数据的离散程度,任何一个总体都有其总体标准差(通常用 σ \sigma σ 表示),当我们无法获取总体全部,而是使用一个样本的时候,对应的产生样本标准差(通常用 s s s表示, s = 1 n − 1 ∑ i = 1 n ( x i 2 − x ‾ ) 2 s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i^2-\overline x)^2} s=n11i=1n(xi2x)2 )
    • 而标准误差( S E SE SE)是抽样分布(样本统计量的分布)的标准差。通常是在推断统计例如参数估计的过程中用来评价估计的有多准确或者有多离谱的场景下使用的(本质也是描述离散程度)。当我们无法获取总体,我们可以尽可能多的从标准差为 σ \sigma σ的总体中抽取样本量为 n n n的样本,每个样本有一个均值 x ‾ \overline x x,样本平均值的标准差 S D x ‾ = σ n SD_{\overline x}=\frac{\sigma}{\sqrt n} SDx=n σ,这是大数定律告诉我们的,而我们并不知道总体标准差,所以用样本标准差 s s s代替 σ \sigma σ,即 S E x ‾ = s n SE_{\overline x}=\frac{s}{\sqrt n} SEx=n s
      二者的核心差异在于标准差是某一次抽样得到样本后的样本离散程度度量,而标准误是多次抽样后得到了多个样本均值组成的新样本(比如100次抽样,得到了100个 x ‾ \overline x x,这就是咱们算 S E SE SE用的新样本)的离散程度。
      请牢记标准误差,它将是后面推断统计中的一个重要因素!

    下面简单回顾一下无偏估计和有偏估计:
    有偏估计和无偏估计
    左侧是一个估计值 A ^ \hat A A^的概率密度函数(代表了它的抽样分布),虚线对应的 A ^ \hat A A^的数学期望等于总体分布的总体均值 A A A,这就是无偏估计,若二者不等,如右图,则为有偏估计。还有一个概念叫做“渐进无偏估计”,是说当n很大(趋于无穷)时,估计值为渐进无偏估计。例如,样本方差( s 2 = 1 n − 1 ∑ ( x i 2 − x ‾ ) 2 s^2=\frac{1}{n-1}\sum(x_i^2-\overline x)^2 s2=n11(xi2x)2)是总体方差 σ 2 \sigma^2 σ2的无偏估计,而样本的平均偏差平方和( s n 2 = 1 n ∑ ( x i 2 − x ‾ ) 2 s_n^2=\frac{1}{n}\sum(x_i^2-\overline x)^2 sn2=n1(xi2x)2)则是总体方差 σ 2 \sigma^2 σ2总体的渐进无偏估计,显而易见,n很大时二者趋于相等。

    3.2、区间估计

    用一个样本得到的估计值代表总体参数的估计值可能或多或少有点儿“一言堂”,有些中央集权了,而区间估计是在点估计的基础上给出总体参数估计的一个估计区间(上下限),该区间是由样本统计量加减估计误差得到的,这样就比较民主,且把握更大(好比射击打靶,命中靶心是很难得,就那一个点,但是命中靶子或者命中靠近靶心的区域是简单的、更有把握的)。区间估计示意图如下所示:
    在这里插入图片描述
    样本均值 x ‾ \overline x x的数学期望为 μ \mu μ,标准误差为 σ n \frac{\sigma} {\sqrt n} n σ,则样本均值落在总体均值1个标准误差范围内的概率是68%;2个标准误差内的概率为95%,3个标准误差范围内的概率是99.7%。实际用用中, μ \mu μ是未知的, x ‾ \overline x x是已知的,所以反其道而行之,若样本均值落在总体均值1个标准误差范围内,则说明总体均值包括在以 x ‾ \overline x x为中心,左右两侧1个标准误差范围内。( x ‾ \overline x x落在 μ \mu μ的1.65、1.96、2.58倍标准误差范围内的概率分别为90%、95%、99%)。
    由样本估计量构造出的总体参数在一定置信水平下的估计区间称为置信区间。何为“置信”,就是在一定程度上确信该区间会包含真实的总体参数。例如95%置信区间的含义是:重复抽样若干次(比如100次),每次抽样都可以构造出一个估计区间,其中95个区间包含了真实的总体参数值,5%没有包含。95%称为置信水平或置信度或置信系数。

    3.3、评价估计量的标准

    1、无偏性(前面已经提及,不重复赘述);
    2、有效性:估计量的方差尽可能小。用估计量的方差或标准误来度量;
    3、一致性:随着样本量的增大,点估计量的值与被估计的总体参数越来越仅仅。

    3.4、常见区间估计

    一、单总体参数区间估计
    单总体均值区间估计的核心思想是:
    x ‾ ± ( 分 位 数 值 × x ‾ 的 标 准 误 差 ) \overline x±(分位数值×\overline x的标准误差) x±(×x)
    单总体比例区间估计的核心思想是( p p p为样本比例):
    p ± ( 分 位 数 值 × p 的 标 准 误 差 ) p±(分位数值×p的标准误差) p±(×p)
    在这里插入图片描述
    二、两总体参数区间估计
    两总体均值区间估计核心思想:
    ( x 1 ‾ − x 2 ‾ ) ± 分 位 数 值 × ( x 1 ‾ − x 2 ‾ ) 的 标 准 误 差 (\overline {x_1}-\overline {x_2})±分位数值×(\overline {x_1}-\overline {x_2})的标准误差 (x1x2)±×(x1x2)
    两总体比例区间估计核心思想:
    ( p 1 − p 2 ) ± 分 位 数 值 × ( p 1 − p 2 ) 的 标 准 误 差 (p_1-p_2)±分位数值×(p_1-p_2)的标准误差 (p1p2)±×(p1p2)
    在这里插入图片描述
    其中,上图中 s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)s22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}} v=n11(s12/n1)2+n21(s22/n2)2(n1s12+n2s22)2 d ‾ \overline d d表示各组配对样本差值的均值。
    三、区间估计样本量确定
    E E E代表允许的估计误差
    1、估计总体均值时样本量确定:

    • 估计单总体均值: n = ( z α / 2 ) 2 σ 2 E 2 n=\frac{(z_{\alpha/2})^2\sigma ^2}{E^2} n=E2(zα/2)2σ2
    • 估计两总体均值差: n 1 = n 2 = ( z α / 2 ) 2 ( σ 1 2 + σ 2 2 ) E 2 n_1=n_2=\frac{(z_{\alpha/2})^2(\sigma_1^2+\sigma_2^2)}{E^2} n1=n2=E2(zα/2)2(σ12+σ22)

    2、估计总体比例时样本量确定:

    • 估计一个总体比例: n = ( z α / 2 ) 2 π ( 1 − π ) E 2 n=\frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2} n=E2(zα/2)2π(1π),其中 π \pi π为总体比例;
    • 估计两个总体比例差: n 1 = n 2 = ( z α / 2 ) 2 ( π 1 ( 1 − π 1 ) + π 2 ( 1 − π 2 ) ) E 2 n_1=n_2=\frac{(z_{\alpha/2})^2(\pi_1(1-\pi_1)+\pi_2(1-\pi_2))}{E^2} n1=n2=E2(zα/2)2(π1(1π1)+π2(1π2))

    4、假设检验

    4.1、假设检验基本概念

    假设检验是推断统计中另一个重要的分支,与参数估计地位不相上下。参数估计是用样本信息推断未知的总体参数,而假设检验是对总体参数提出一个假设值,然后利用样本去判断这个假设是否成立。假设检验中分位两种假设:

    • 原假设(零假设,null hypothesis):通常是我们想要推翻的假设,用 H 0 H_0 H0表示;
    • 备择假设(alternative hypothesis):通常是我们希望证明成立的假设,用 H 1 H_1 H1表示。

    例如:
    H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H0:μ1=μ2
    H 1 : μ 1 ≠ μ 2 H_1:\mu_1≠\mu_2 H1:μ1=μ2
    原假设最初被假设为成立的,然后根据样本数据确定是否有足够的证据拒绝(推翻)这个假设。
    假设检验中,若备择假设没有方向性,使用 ≠ ≠ =,这样的假设检验称为双侧检验,如果备择假设有方向性,并含有 > > > < < <的假设检验称为单侧检验( < < <对应左侧检验, > > >对应右侧检验)。

    4.2、如何完成假设检验

    一、两类错误与显著性水平

    我们知道,样本具有随机性,我们用具有随机性的样本去推断总体是存在一定风险的,也就是说在假设检验的场景中,我们不一定能做到100%的正确,存在犯错误的风险。理想情况是:当原假设正确时,我们不拒绝它;当它不正确时,我们拒绝了它。对应的,我们就会用两种错误:

    • 1、原假设正确,但是我们拒绝了原假设,称为第一类错误,也叫拒真错误,犯第一类错误的概率记为 α \alpha α,故这类错误也成为 α \alpha α错误;
    • 2、原假设错误,但我们没能拒绝它,称为第二类错误,也叫取伪错误,犯错误的概率记为 β \beta β,故这类错误也成为 β \beta β错误。

    也就是拒绝原假设时我们就有可能犯第一类错误;未拒绝原假设时有可能犯第二类错误; α \alpha α β \beta β在样本来量一定时,是跷跷板的关系,无法同时减小(其加和不是1)。同时减少二者的唯一方式就是增加样本量。按道理说,哪种错误会导致更严重的后果,我们就应当首先降低这种错误(比如原假设是某个病毒对人类无害,不需要注意,如果我们犯了第二类错误,即病毒对人有害,而我们没有拒绝原假设,认为病毒无害,可能就会带来一场空前绝后的传染病,但如果我们犯第一类错误,即病毒对人无害,但我们拒绝了它,认为病毒对人有害,我们进行了一系列措施防治,顶多是多花费了一些金钱,老话说得好,有备无患,钱能解决的问题都不叫问题,花钱买平安,那么其实犯第二类错误的后果更严重,那么我们可以努力降低 β \beta β,对应的,适当放松对 α \alpha α的要求)。实际情况中, α \alpha α可以由研究者实现控制,而 β \beta β相对难以计算,所以我们通常是先控制 α \alpha α
    假设检验中犯第一类错误的概率称为显著性水平,记为 α \alpha α显著性水平是研究者事先指定的犯第一类错误概率的最大允许值( α \alpha α越小,对应 β \beta β就会越大, α \alpha α通常为 0.05 0.05 0.05,或 0.01 0.01 0.01,或 0.1 0.1 0.1)。

    二、如何决策

    1、用统计量决策

    我们用样本可以对总体参数(比如总体均值)做出点估计,将这个点估计标准化后,就可以度量它与原假设参数值之间的差异程度(在均值和比例的假设检验下通常是这样的方法):
    标 准 化 检 验 统 计 量 = 点 估 计 量 − 假 设 值 点 估 计 量 的 标 准 误 差 标准化检验统计量=\frac{点估计量-假设值}{点估计量的标准误差} =
    该量反映了点估计量与假设的总体参数相比差了多少个标准差的距离。
    有了样本,就可以计算标准化检验统计量,我们实现给定显著性水平 α \alpha α后,可以在统计量的分布上找到临界值,根据您显著性水平和对应的临界值围成的区域称为==“拒绝域”==,若统计量落在拒绝域内就拒绝原假设,反之不拒绝。用统计量判断是否拒绝原假设的方式,在双侧和单侧检验的情况如下图所示:
    在这里插入图片描述

    2、用p值决策

    用统计量检验,不管统计量的值是大还是小,只要它落入拒绝域就会拒绝原假设,此时,我们只能说犯第一类错误的概率是 α \alpha α,但实际上,统计量不同值,或者说它落在拒绝域的不同位置,对应犯第一类错误的概率是不同的。所以如果能把犯第一类错误的概率计算出来,是更好的选择。这个概率就是 P P P值。
    P P P值的意义是:如果原假设正确,那么得到的样本结果会像实际观测结果那么极端或更极端的概率称为 P P P值,也称为观察到的显著性水平。
    判断规则很简单:如果 P P P值小于显著性水平则拒绝原假设,反之不拒绝。

    三、多说一些

    1、p值的含义

    关于p值,我想多说一些:

    美国统计学会(American Statistical Association, ASA)明确告诉我们:
    P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
    ( p值不是“我们研究的假设是真的”的概率,也不是“数据仅仅由随机因素产生的”的概率)

    p值解释的并非假设本身,而是数据和假设的关系(比如,我们收集到的A组和B组的数据,和假设“A与B的平均值存在明显差异”的关系)。这是因为,假设本身要么就是对的,要么就是错的,不存在一个概率的问题
    举个例子:我们得到了A公司中部分普通职员中男性员工的工资和女性工资数据,其中男性平均月薪7500元,女性平均月薪7300元,我们想证明男女员工工资存在明显差异,即原假设是男员工工资=女员工工资,备择假设是二者不等。进行两双样本t检验后,得到了p值为0.013,那么这个p值的含义是什么呢?它的含义是:如果我们的假设是正确的(即男性员工工资与女性员工工资没有差异),那么我们在这个样本下得到男性员工与女性员工工资相差200元这个结果,甚至于更极端(差异大于200元)的结果的概率是0.013。

    p值描述的是:如果原假设是正确的,我们得到某次观测值甚至更极端的值的概率

    其实,p值描述的是数据和一个特定的统计学模型(原假设)的不匹配程度:p值越小,数据和该统计学模型的不匹配程度就越大。

    可以看到,如果我们的原假设正确,我们得到如同当前样本表现或者更极端表现结果的概率只有0.013(1.3%),相当低,所以我们有比较充分的理由怀疑原假设的正确性,如果将显著性水平定为0.05,我们可以拒绝原假设,即拒绝男女工资无差异的原假设。

    2、显著≠大效应

    所谓效应,对于上述案例,就是这个差异的大小,上述案例在7000+工资范围上存在200的差异,看起来不太小,假如大家的公司不是7000+这个水位,而是700000+(好有钱啊。。。。),那么200这个差异可以说是微乎其微,效应很小,所以,pvalue很小,我们可能认为存在统计显著,但和存在大的效应是两码事。

    3、p>0.05(或某个显著性水平)≠无效

    如果pvalue大于显著性水平下,我们通常认为无统计显著性,但正如之前所说的,pvalue说的是假设与样本数据之间的关系,我们只能说pvalue带给我们的信息是目前的样本无法作为拒绝原假设证据,而不是原假设成立的证据,不拒绝原假设不代表原假设为真的概率很高。对应到例子就是,加入pvalue比较大,为0.3,那么它的含义是说当前没有足够的证据说明男女工资存在差异,并不能说明我们可以证明男女工资相等。
    上述说明主要受到于个人图书馆360doc文章的启发,这个文章讲的很好。

    四、总体参数的检验

    1、单个总体参数的假设检验

    单个总体参数(如总体均值、总体比例、总体方差)的假设检验通常是通过样本检验总体参数是否等于(或大于或小于)某个常数值,比如通过一个班的男生学生身高作为样本,检验全校男生学生平均身高是否等于175cm。
    总体均值、方差的检验,要求总体服从正态分布。
    在这里插入图片描述

    2、两个总体参数的假设检验

    首先是两总体均值差的检验,统计量如下所示,其中: s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)S_2^2}{n_1+n_2-2} sp2=n1+n22(n11)s12+(n21)S22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 n 1 ) 2 n 1 − 1 + ( s 2 2 n 2 ) 2 n 2 − 1 v=\frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{s_2^2}{n_2})^2}{n_2-1}} v=n11(n1s12)2+n21(n2s22)2(n1s12+n2s22)2
    在这里插入图片描述
    两总体比例差有两种情况:检验二者相等或二者差为某固定值,如下所示,其中 p p p为两样本中合并的比例: p = p 1 n 1 + p 2 n 2 n 1 + n 2 p=\frac{p_1n_1+p_2n_2}{n_1+n_2} p=n1+n2p1n1+p2n2。比例检验中通常要求 n 1 p 1 、 n 1 ( 1 − p 1 ) 、 n 2 p 2 、 n 2 ( 1 − p 2 ) n_1p1、n_1(1-p_1)、n_2p_2、n_2(1-p_2) n1p1n1(1p1)n2p2n2(1p2)都大于等于10,就认为是大样本,大样本下可得到样本比例差的抽样分布为正态分布。
    在这里插入图片描述
    两总体方差比,要求两总体独立,服从正态:
    H 0 : σ 1 2 σ 2 2 = 1 H_0:\frac{\sigma_1^2}{\sigma_2^2}=1 H0:σ22σ12=1
    H 1 : σ 1 2 σ 2 2 ≠ 1 H_1:\frac{\sigma_1^2}{\sigma_2^2}≠1 H1:σ22σ12=1
    检验统计量为:
    F = s 1 2 s 2 2 F=\frac{s_1^2}{s_2^2} F=s22s12

    写在后面:这里着重说一下独立样本和配对样本,所谓独立样本,顾名思义,两组样本是独立的,顾不干扰,例如选取两个班级男生的身高,作为两个组,他们就是独立的;而配对样本是说他们是有联系的,比如10个患者用药前的效果,和他们用药后效果的差异,这就属于配对样本了。对应的区间估计和假设检验的统计量是不同的。

    5、统计学常用方法梳理

    待补充

    6、业内应用场景

    待补充

    展开全文
  • 河南工业大学统计学试卷.pdf
  • 应用统计学》卢冶飞的答案 ,大数据方向课程 应用统计学
  • 本文将结合作者在工业领域多年的实践应用经验,力图对工业大数据分析技术的应用思路、方法和流程进行总结,旨在为企业开展大数据分析工作提供技术和业务的借鉴。本文中我们将一起研讨和思考:工业大数据分析的...
  • 上传一份很不错的应用统计学的参考书,对初学者有帮助
  • 20.10月西工大《统计学》机考随机作业答案.pdf
  • 在工业领域中,计算机视觉技术的应用有效降低了许多工作的复杂度,它能够将工业中大量的信息进行采集,并应用工业生产中,提高效率的同时还实现了资源投入的减少。本文将对计算机视觉技术在工业领域中的实际应用...

    杨俊叶 刘佳 王丽

    摘   要:在现代社会各行各业发展的过程中,计算机技术的应用已经变得十分广泛。在工业领域中,计算机视觉技术的应用有效降低了许多工作的复杂度,它能够将工业中大量的信息进行采集,并应用于工业生产中,在提高效率的同时还实现了资源投入的减少。本文将对计算机视觉技术在工业领域中的实际应用进行探索研究。

    关键词:计算机视觉技术  工业领域  视觉检测  图像处理  模版匹配

    中图分类号:TP391                                 文献标识码:A                        文章编号:1674-098X(2020)01(a)-0108-02

    在传统的工业生产中,想要获取完善精确的数据,需要投入大量的人力物力资源,且耗费的时间成本巨大,即使如此也无法有效地保障数据的精确度。在引入计算机视觉技术之后,这一问题获得了有效的解决,该技术主要是利用先进的高端数据处理技术对工业生产的相关数据进行采集整理,之后将其中具有价值的数据精炼提取出来。除此之外,计算机视觉技术还能够对信息之间的关联性进行分析,对工业发展具有良好的推动作用。

    1  计算机视觉技术简介

    1.1 计算机视觉技术及其发展变化

    计算机视觉技术是一项综合了识别技术、场景重建技术、图像恢复技术以及运动技术等多项先进技术种类的现代化信息技术,它可以对特定内容进行图像提取、对图像中的文字信息进行识别鉴定,最终转化为方便编辑的文档。场景重建则可以实现计算机模型或是三维模型的建立。图像恢复则能够有效移除图像内的噪声。计算机视觉技术涉及到多个专业领域,如计算机科学和工程、应用数学和统计学、神经生物学和认知科学等,因此其在制造业、医疗诊断、军事、检验等多个行业领域中均得到了广泛的应用。

    和传统的技术相比,计算机视觉技术获得了大幅度的改进,尤其是在图像处理方面展现出了更加强大的功能,从过去的二进制图像处理转变为更高分辨率的图像转化技术,同时还实现了的工作内容的简化,使得图像处理质量获得了有效提高。就目前来看,计算机视觉技术在我国的发展速度很快,而且随着工业的发展,该技术的应用领域也获得了极大的拓展,促进了工业生产效率的持续增长。而从计算机技术的发展来看,高端视觉技术已经成为计算机领域发展的一个新的趋势。在不断的研发和改进完善过程中,计算机视觉技术所拥有的优势不断展现出来,其所具备的高效获取信息的能力是很多领域生产所需要的,其获取的信息规模十分庞大,而且还是在非接触以及远距离的条件下实现的,因此应用时的限制很小,可以在工业活动中发挥出巨大的效能。

    1.2 计算机视觉技术应用的具体内容

    在应用计算机视觉技术的过程中,计算机所发挥的功能相当于人体的视觉,在此基础上对获得的信息进行分辨和检测,筛选出其中具有价值的部分,将其余无意义的信息剔除。在信息时代背景下,计算机已经成功走进千家万户,对人们的工作生活带来了巨大的影响,计算机技术在信息采集方面所具有的巨大优势也逐渐得到了人们的认可。而在工业领域中,这种对信息进行采集并筛选的模式可以大幅度地减轻工作人员的负担,并提高数据采集处理的效率和准确性。计算机视觉技术是通过计算机模拟人体视觉进行数据的采集和监测处理,将CCD技术高度应用到设备零件图像检测方面。计算机在完成图像采集之后,会对其进行动态模拟,以获得高分辨率的真实图像,最终实现三维图像。之后将动态化的图像模拟和实际所需检测的图像进行比对分析就可以获得准确性较高的数据,这将大幅度简化传统工业领域中一些复杂度较高的工作,实现工业生产效率的提升。

    2  计算机视觉技术在工业领域中的应用

    计算机具有强大的功能,在识别能力上要远超过人类的视觉,这使得计算机视觉技术在工业领域中的应用相较于人工具有更高的可靠性。医学图像识别、工业检测、国防工业等都是计算机视觉技术应用的热门领域。而在民用工业中,计算机视觉技术的应用则满足了激烈竞争下成本缩减的需求。在我国工业自动化水平不断提高的时代背景下,计算机视觉技术的应用符合工业整体发展趋势。

    2.1 视觉检测技术在工业领域的应用

    视觉检测技术是计算机视觉技术在工业领域中应用最广泛的技术门类,在具体应用的过程中,需要遵循的一项原则就是严格按照步骤进行操作,绝对不能出现省略、跳过某个步骤的行为,否则必然会对检测结果的可靠性造成严重的影响。首先,要利用传感器或是光源进行信息的获取,就当前工作实践来看,主要应用的是256度的灰度图像。在这一步骤中,要对图像的输出格式进行合理的设置,之后根据所需图像的特征进行深度的分析处理,如此才能保障图像的精确度。其次,对于源图像,一定要进行预先处理,这将显著影响着检测结果的质量。最后,通过建立一定的模版模型和所检测物体进行对比,获得真实的行为效果分析以及分配效果。在输出提前处理效果时,一定要做好预测结果以及检测结果一致性的把控,尤其是在数据精度方面,一定要严格控制,以确保检测工作的效果和质量。

    2.2 图像预处理技术在工业领域的应用

    图像预处理技术的主要功能是对图像进行分析处理,从其中提取出符合要求的图像,这样可以在一定程度上为后续工作步骤的实施提供方便,减少工作量,提高效率。在计算机视觉技术应用中,图像预处理处于模版匹配之前,基于特定的模版对最终所需的图像进行处理,结合图像输出的分辨率对其准确性做出判断。经过图像预处理之后可以将图像中的二值边缘化图像提取出来,进一步提升图像处理的效果。在经过一定的创新发展之后,当前计算机视觉技术中的图像预处理技术已经发展成一阶段微分算子和二阶段微分算子,即首先经过一阶段微分算子的图像提取,在分析检测之后再次通过二阶段微分算子的零交叉来获取图像的边缘宽度像素,这样就可以省略对图像的细化步骤,获得更加可观的边缘效果,最终结果的精确度也可以得到更好的保障,而且在细致的检测环节之下,图像处理的精准化程序将获得大幅度的提高,这使其在工业生产中展现出巨大的应用优势。

    2.3 模版匹配技术在工业领域的应用

    模版匹配是基于预先设定的模版和工业生产中所需检测的物体进行匹配对比分析,之后利用所获得的结论解决源物体存在的实际问题,尤其是一些比较细微的问题。简单来讲,模版匹配技术的功能就是对模版和所检测物体之间图形的相似程度进行分析。在实际应用的过程中,首先要基于所检测的物体进行模版预设,模版和实际物体图像的相似度分析可以获得最终的真实结果。此外,计算机视觉技术的模版匹配在将模版和实际物体进行匹配比对的过程中,还可以同步引入平移或是旋转等操作,实现立体化和全方位的对比,用于工业领域的数据核算工作。该技术的优势在于抗干扰能力强,能够尽可能地强化數据处理的精确度。

    综上所述,在工业领域中,计算机视觉技术的应用取代传统人工识别的方式,可以大幅度提高数据采集、图像处理的效率和精确度,一方面降低了工人的负担,另一方面也可以将源物体存在的问题完全找出来,并加以改进和完善,由此可见,计算机视觉技术具有极高的推广价值。

    参考文献

    [1] 伊新铜.计算机视觉在工业上的应用和未来的发展[J].中国新通信,2019,21(15):118.

    [2] 吕东生.计算机视觉技术在工业领域中的应用分析[J].现代信息科技,2018,2(1):103-104.

    [3] 柴媛媛.计算机视觉技术及其在自动化中的应用[J].信息与电脑:理论版,2018(15):27-28,31.

    [4] 张媛媛.计算机视觉技术及其在工业中应用的研究[J].赤子(上中旬),2017(5):236.

    [5] 尹晓东.基于计算机视觉检测技术的机加工零件测量研究[D].湖北工业大学,2017.

    展开全文
  • 统计学原理》课后习题答案
  • 应用统计学电子书

    2008-08-05 13:07:13
    应用统计学电子书应用统计学电子书应用统计学电子书
  • 为了使大学生和专业人员掌握统计学原理的基础能够正确地运用计算机做各种统计分析,掌握统计分析软件的操作是非常有必要的。现将常用的SPSS统计分析软件处理数据和分析数据的基本方法编辑成册,供高校学生及对...
  • 概念0 引言现实生活中,数理统计学无时无刻不身边,工程机械、经济统计、社会科学、自然科学、科学实验等领域,应用及其广泛。经过数据采集、数据统计及数据计算,数理统计的目的就是对数据...

    摘要:为了研究随机抽样在实际生产生活中的应用,本文分析了随机抽样在各个领域的重要性,对随机抽样的概念及操作步骤、方法进行了详细阐述,最后研究了随机抽样的步骤,举例说明了随机抽样应用的广泛性。

    关键字:随机抽样;应用研究;概念

    0 引言

    在现实生活中,数理统计学无时无刻不在身边,工程机械、经济统计、社会科学、自然科学、科学实验等领域,应用及其广泛。经过数据采集、数据统计及数据计算,数理统计的目的就是对数据的深度挖掘,发现数据内部联系,然后进行科学研究,对生活、生产具有指导意义。在科学研究中,对数据的研究不可能面面俱到,只能通过随机抽样总结整体规律,因此,随机抽样在数理统计中扮演着重要角色,透过部分数据反映总体特征,透过现象看本质,对其应用研究具有重要意义。

    1 数理统计学中的随机抽样

    从总体中选取一部分样本进行分析,推断总体特征的方法为随机抽样方法。其对其他方法的不同之处是带有随机性,能从一定程度上反映总体情况,具有一定代表性。理论上讲,对随机现象观察足够次数,就能清楚地知道总体的统计规律。但实际上,由于样本容量的限制,仅有少量观测,并不能清楚表达统计规律。这就需要一种有效的统计方法去解决这一问题,从而得到正确结论。因此,进行随机抽样时尽量做到以下几点:第一,根据实验目的进行采集数据,并尽量采集质量较高的数据,其质量的好坏直接影响统计推断;第二,数据处理时注意对数据的标准化、最大值及最小值影响、对数化、去噪等步骤;第三,数据具有代表性,即数据具有随机性、独立性。

    2 随机抽样方法

    常用的随机抽样方法主要有:简单随机抽样法、系统抽样法、分层抽样法及整群抽样法。

    (1)简单随机抽样法

    有抽签法、随机数法,其优点是抽样误差小,缺点是抽样手续复杂,且在总体数量有限的情况下不具有代表性。这种方法适用于所有抽样调查。

    ①抽签法

    把总体中的N个个体编号,并把号码写在形状、大小相同的号签上,将号签放在同一个容器里,搅拌均匀后,每次从中抽出1个号签连续抽取n次,得到一个样本容量为n的样本。

    ②随机数法

    应用随机数表、随机数骰子、计算机等产生随机数进行随机抽样调查。

    (2)系统抽样法

    (3)分层抽样法

    又叫类型抽样法,从一个分成不同于总体的层中,按规定的比例从不同层中随机抽样的方法。其优点是样本代表性好,抽样误差小,缺点是抽样手续比简单随机抽样复杂。这种方法适用于产品质量检验、验收等。

    (4)整群抽样法

    又叫集团抽样法,将总体分成许多群,每个群由个体按一定方式结合而成,然后随机抽群,这些群所有个体组成样本。其优点是实施方便,缺点是代表性差,误差大。这种方法适用于工序控制中。

    这些方法是基于随机抽样的代表性和稳定性而建立的,依据概率统计的大数定理,个别个体的错误或噪声影响并不影响整体水平,适当增加样本容量,对样本观测值平均值是可控的,也可以缩小统计特性误差,从而正确反映总体规律。

    3 随机抽样的应用研究

    随机抽样在各个领域都有涉及,与科学研究息息相关,是人们认识事物的基础。对各个领域的研究主要目的是数据挖掘,挖掘出有价值的结论或规律,指导人们生产生活。对于不同领域,应用随机抽样有着同样的步骤:

    第一步,明确研究对象总体数量N及研究目的;

    第二步,具有针对性地确定样本容量n,并根据上述随机抽样方法权衡各方法的适用范围,选择合适的方法进行研究;

    第三步,根据选定的抽样方法把总体中的个体进行编号;

    第四步,在试验中记录样本中每个个体的测量值y1,y2,···,yn,计算样本总和即∑yi及平均值 ;

    第五步,计算样本的方差、总体平均值、总体的估计量及总体的标准差;

    第六步,确定置信区间;

    第七步,最后总结得到的数据信息,做出结论。

    下面在各个领域中举例说明随机抽样应用的广泛性。在农业中,需要对田间农作物产量进行统计分析,则设计相应的随机抽样,进行样本估计总体试验;在工业中,对新产品和新原材料等进行调查分析,找出新产品中不合格产品率或原材料配料的决策问题,则需要应用随机抽样、回归分析、方差分析等统计方法;在林业方面,需要调查病虫害对树木的损害程度及导致这种虫害的原因,则需要相关人员选择合适的抽样的方法,对病虫害进行准确调查分析,得出具有公信力的结果;在自然科学和技术研发中的应用更加广泛,比如地震频率统计、气象调查、水文测量、地质资源探测、医学突发疾病抽样、技术性试验抽样等等;在社会、经济领域方面,主要有人口普查和预测、市场调查、审计统计、证券研究、交通事故率研究、经济宏观调控效应调查、手机普及率等方方面面;在工程项目中,主要有产品质量调查、服务质量调查等,通过对项目管理中的数据进一步汇总、抽样、总结等一系列工作,发现存在的问题,制定相应的方法去改正;在计算机行业,通过抽样调查才能获取数据,进而对数据进行深度发掘。

    现代社会是信息时代,对信息的充分利用是一笔巨大的财富,随机抽样是信息来源的基本方法,涉及生活中的方方面面,利用好这一工具是发现问题及解决问题的很好途径。

    4 结论

    本文对数理统计学中随机抽样的应用研究,主要从随机抽样的概念、方法、优缺点、操作步骤等进行详细论述,并在生产生活中的各个领域进行举例说明随机抽样的重要性,对推广人们对随机抽样的认识及应用具有重要意义。

    参考文献

    [1] 李振东. 论数理统计学中的随机抽样[J]. 经济师, 2003,(7):269.

    [2] 徐传胜. 数理统计学的发展历程[J]. 高等数学研究, 2007,(10):14-16.

    [3] 柏佳丹. 21世纪统计学在经济发展中的作用[J]. 佳木斯大学社会科学学报, 2004, (08): 6-8.

    [4] 张虎. 统计学的发展与未来[J]. 统计研究, 2011, (02):20-22.

    [5] 许碧娟. 抽样调查方法在我国的应用[J]. 现代商业, 2007, (04):62.

    展开全文
  • 本文将结合作者在工业领域多年的实践应用经验,力图对工业大数据分析技术的应用思路、方法和流程进行总结,旨在为企业开展大数据分析工作提供技术和业务的借鉴。 本文中我们将一起研讨和思考: 工业大数据分析的...

    导读:工业大数据即工业数据的总和,其来源主要包括企业信息化数据、工业物联网数据、“跨界”数据等,它是工业互联网的核心,是智能制造的关键。工业大数据分析作为工业大数据的核心技术之一,是工业智能化发展的重要基础和关键支撑。

    本文将结合作者在工业领域多年的实践应用经验,力图对工业大数据分析技术的应用思路、方法和流程进行总结,旨在为企业开展大数据分析工作提供技术和业务上的借鉴。
    在本文中我们将一起研讨和思考:

    工业大数据分析的特殊性;
    工业大数据分析的困境及难点;
    工业大数据分析的基本框架;
    工业大数据分析该如何开展?
    

    工业大数据分析技术在实践应用中的思路与方法

    01 工业大数据分析与传统数据分析的差异性及特殊性
    工业大数据分析是利用统计学分析技术、机器学习技术、信号处理技术等技术手段,结合业务知识对工业过程产生的数据进行处理、计算、分析并提取其中有价值的信息和规律的过程。从过程与目标角度看,工业大数据分析和传统统计分析、商业智能分析涉及的学科和技术大同小异。但从分析理念和特点上看,工业大数据分析又有其自身的特殊性。
    首先,进入大数据时代,数据的变化往往引发工作方法和价值体现的改变。对于数据的变化,非工业领域往往强调数量上的变化;但在工业领域,则更注重数据完整性和质量的提升。工业现场往往对分析结果的精度、可靠度要求高,加之工业对象和过程本身也很复杂。因此,工业大数据分析方法的重点是通过数据条件的改善,结合相关分析技术的有效应用,得到质量高的分析结果。
    此外,工业场景的边界往往都有专业领域的机理来约束。对于复杂的工业过程数据分析,往往不能仅局限于相关关系分析,需要强调工业领域业务知识和数据分析过程的深度融合;强调复杂业务问题简化和分析结果的可解释性,而不是简单地追求数据量大与分析算法的复杂和先进性。一言以蔽之,工业大数据分析需要在工业具体业务要求的边界下,用数据思维和数理逻辑去严格地定义问题,采用“数据驱动+机理模型”的双轮驱动方式去精确表征、有效解决实际问题。

    02 工业大数据分析的困境及难点

    工业大数据分析的困境及难点主要体现在对工业对象(过程)理解和认知要求的高标准和一致性、工业大数据建模的复杂性和反复性、分析结果的可靠性和确定性三个方面。
    第一. 工业大数据分析对数据分析人员的业务背景认知能力要求较高
    数据分析师不能按照以往思路,对业务相关对象、数据情况初步摸底认知后就匆匆开展具体分析建模工作。而针对工业对象和过程的复杂系统,不同的场景下业务问题之间的关系往往会发生改变,加之数据缺失严重、噪声大、业务含义代表性强等因素,理论体系下的数据分析相关理念与技术很难直接适用于此类场景的变化和复杂度要求。如若数据分析团队对研究工业对象认识不够深入或“片面性”理解,往往会导致分析出来的结果是只是证明了领域内业务机理/常识的正确性或某一公认理念,就会经常出现项目研究投入高、产出低的问题。
    因此,工业大数据分析需坚持的原则是分析和应用都要结合具体的流程,分析工作开展前要保证数据条件符合业务场景要求。
    第二. 工业大数据建模算法的复杂性和过程的反复性使得整个实现过程较为“繁琐和曲折”
    在开展工业建模时,虽然基础算法原理和应用方式的变化不大,但运用此类算法的过程却极大程度地“曲折”,往往需要结合业务知识和数据情况将算法嵌入到实际的工业应用场景与逻辑中去,需要模型基于初次的分析结果不断地修正、迭代和完善,以此来提升模型的鲁棒性与准确性。此外,工业过程数据形式的复杂性、数据质量参差不齐等也使得工业大数据分析建模与有效应用的困难度加大。
    第三. 工业产业模式及应用场景对工业大数据分析结果的可靠性和决策可指导性要求高,导致工业大数据分析应用的成熟化落地变得困难。
    一般情况下,大多数企业的工业现场设备控制、工艺调整、质量管控等都已处在相对优良的阶段,而通过工业数据分析得到的概率性结论和现场实际有一定的偏差。此偏差可能是生产环节本身引起的,也有可能是数据采集环节的数据本身失真引起的,单从数据分析结果角度往往很难发现和解释具体差异引起的原因,导致大家对于分析结果的可靠性存疑。另一方面,企业业务人员对所从事的工业过程/经营管理等业务的认识原本就相对深刻,这就要求工业大数据分析能剖析、给出更深层次的业务实情信息或优化策略,只有分析得到的知识具有更高精度和可靠性时,从业务决策指导层面才具有实用价值,这也是工业大数据分析价值落地应用面临的挑战之一。
    因此,工业领域的数据分析重点强调数据分析技术和领域知识融合来获取有价值的知识。当模型涉及到的因素很多、形成真正的复杂多维度问题且机理不清晰时,且往往没足够的数据来建立和验证模型,这时就需要充分利用专业领域知识进行“降维”,力求从有限的数据中分析出足够可靠的结果。

    我们在实践中认识到工业大数据分析的瓶颈难点,往往不是计算机存储和处理数据的能力,而是蕴含工业机理的数据关联关系的复杂性。这种复杂性使得传统的数据分析方法难以奏效,无法从数据中获得质量更高、价值更大的知识,如果没有合适的思想和技术手段,面对工业大数据价值的蓝海时,就会无从下手。

    展开全文
  • 关于统计学

    2021-11-02 19:42:59
    所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学...
  • 响应曲面法及其食品中的应用摘要:响应面方法是利用合理的试验设计并通过对实验数据进行一定的处理,建立影响因素与响应值之间的函数关系,得到一个回归方程,通过对回归方程进行分析,选择最优工艺参数。...
  • 摘要:随着人们对食品发展更高的需求,计算机广泛地应用于食品工业中。文章主要介绍了计算机食品研究、企业信息化和卫生管理中的应用及其发展前景。关键词:计算机 食品研究 应用一、前言随着经济的发展和生活水平...
  • 近日,图灵奖得主、“贝叶斯网络之父”Judea PearlTwitter分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”(过去50年中最重要的统计思想是什么?) 这篇论文由...
  • 统计学论文

    2021-01-30 01:20:22
    【摘 要】摘要:目的调查各专业医学生对于医学统计学的看法与建议,以及医学生们...综合与实践 如何尊重学生思维发展规律的基础,根据学生的心理特点,设计有效的数学统计活动,引导学生从多个方面、多个角度...
  • 统计学试题

    2021-07-03 08:15:26
    2007年7月广东省高等教育自学考试统计学原理 试卷及答案(课程代码 00974)本试卷共10页,满分100分;考试时间150分钟一、单项选择题(本大题共15小题,每小题1分,共15分)每小题列出的四个备选项中只有一个是符合...
  • 统计学-自然语言处理

    2019-06-03 15:48:23
    常常应用在文本处理、人脸识别、图片识别、自然语言处理等领域。可以做数据预处理阶段非常重要的一环,本文首先对基本概念进行介绍,然后给出PCA算法思想、流程、优缺点等等。最后通过一个综合案例去实现应用。...
  • 统计学认识

    2020-12-24 22:11:00
    总论:统计学资料分析的基础,研究测定、收集、整理、归纳和分析反映数据资料,以便给出正确消息的科学。这一门学科自17世纪中叶产生并逐步发展起来,它广泛地应用在各门学科,从自然科学、社会科学到人文学科...
  • 【www.altdl.com.cn--专业课程】2018年高考填报志愿时大学哪些专业就业前景好是广大考生和家长...最近有很多同学及家长都咨询统计学专业主要学些什么?开设课程有哪些?这个问题,本站老师小编收集整理了以下统计学...
  • 个人认为数据分析其中一大块内容就是对数据的统计分析,而如何用 Python 进行有效且正确的统计分析,就不仅需要掌握数据分析工具 NumPy 及 Pandas 的使用,也需要对常用的统计学概念及统计学方法有一定的掌握。
  • 哈佛大学统计学教材By: Asher Noel and Alicia Wu 作者:Asher Noel和Alicia Wu On May 6, the Group for Undergraduates in Statistics at Harvard College (GUSH) spoke with 6 alumni about their experiences ...
  • 我觉得其中的一个区别是,使用场景...在工业界中,被使用最多的一个统计学的分支是参数统计,其假设总体分布已知,需要预测的是条件均值和方差。模型选择与特征选择的指标之一是P值,但要得到准确的P值,有几个重要的假
  • 数据挖掘电子商务管理的应用 摘要分析数据挖掘技术的概念和电子商务中使用数据挖掘技术的过程探讨数据挖掘技术电子商务中的使用状况以及具体使用方法 关键词计算机工程数据挖掘技术电子商务 1引言 数据挖掘技术...
  • 长春工业大学

    2021-06-18 06:27:24
    计算机科学与技术(本科类)计算机科学与技术专业(四年本科) ...本专业毕业生应掌握现代计算机的组成原理和体系结构,具备从事研究与应用计算机的基本能力,具有较高的外语水平,能计算机相关领域从事教学、科研、...
  • 如果分为3个聚类,可以明显发现北京市的这个聚类各项指标都比较低,说明工业生产少且污染量小,而山西省的聚类各项指标都比较高,说明工业生产量大且污染量大。 变量聚类 17个自变量分为两类,其中三个排放量为1个...
  • 统计学笔记1

    千次阅读 2021-12-05 08:10:27
    如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一一个重要方面。 四、统计指标与指标体系 (统计指标是反映统计总体数量特征的概念和数值。如2002 年我国国内生产总值104790.6亿元。 统计...
  • 本文则主要人工智能的现状与发展进行分析与探讨,主要谈谈这几点:什么样的人工智能才是真正意义的智能?人工智能目前存在的隐忧。 有关人工智能的话题吵吵嚷嚷了很长一段时间。虽然资本的加持、巨头的拥趸...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,723
精华内容 3,089
关键字:

统计学在工业上的应用