精华内容
下载资源
问答
  • 统计学复试问题
    2020-05-04 21:44:31

    学习笔记,仅供参考,有错必纠


    贾俊平统计学


    变量选择与逐步回归


    根据多个自变量建立回归模型时,若试图将所有的自变量都引进回归模型,带来的问题往往让人无所适从,或者是对所建立的模型不能进行有效的解释。

    • 变量选择过程

    在建立回归模型时,总希望尽可能用最少的变量来建立模型。但究竟哪些自变量应该引入模型,哪些自变量不应该引入模型,这就要对自变量进行一定的筛选。

    如果在进行回归时,每次只增加一个变量,并且将新变量与模型中的变量进行比较,若新变量引人模型后以前的某个变量的t统计量不显著,这个变量就会被从模型中剔除。在这种情况下,回归分析就很难存在多重共线性的影响,这就是回归中的搜寻过程。

    选择自变量的原则通常是对统计量进行显著性检验,检验的根据是:将一个或一个以上的自变量引人回归模型中时,是否使残差平方和(SSE)显著减少。如果增加一个自变量使残差平方和(SSE)显著减少,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引人回归模型。确定在模型中引人自变量 x i x_i

    更多相关内容
  • 上海交通大学应用统计学考研复试真题答案经验.docx
  • 十四、假设检验的原理及步骤 ⭐️ 假设检验原理:小概率原理(小概率事件在一次试验中几乎不会发生,当发生了,我们就有理由认为之前的假设有为问题,这里的小概率就是显著性水平的值,一般取0.05或者0.01,有点...

    一、区间估计与假设检验的联系与区别

    • 联系:二者利用样本进行推断,都属于推断统计
    • 区别:
      1. 原理: 前者是基于大概率,后者基于小概率;
      2. 统计量:前者是构造枢轴量(不含未知参数,分布明确),后者是检验统计量;
      3. 结果:前者是区间,后者是对假设作出判断;

    二、原假设和备择假设的选取

    • 原假设是不会轻易否定、传统的、已有的、大众所认为的、被保护的
    • 原假设是我们想要拒绝的,备择假设是我们想要接受的假设

    三、极大释然估计的基本思想和计算流程

    • ⭐️ 基本思想:在已知总体的概率分布时,反推最有可能(最大概率)使得样本结果出现的模型参数值;(出现认为最有可能发生的)
    • 计算流程:
      1. 构造极大似然函数
      2. 取对数
      3. 对未知参数求导并令导数等于0
      4. 反解出未知参数

    四、概率和统计的区别

    • 概率:已知模型和参数----->计算数量特征(均值、方差等)
    • 统计:已知样本数据-------->估计模型和参数

    五、什么是随机变量?

    “随机变量”我们一般讨论的是离散型随机变量和连续型随机变量,,其引入的目的是将试验结果目的化。随机变量的本质是一个映射函数。

    六、大数定理和中心极限定理(⭐️⭐️⭐️)

    • 大数定理:就是样本均值收敛到总体均值(侧重期望本身)
      1. 弱大数定理(辛钦大数定理):样本均值依概率收敛于期望值
      2. 强大数定理:样本均值依概率1收敛于期望值
    • 中心极限定理:当样本量足够大时,样本均值的分布慢慢变成正态分布(侧重期望分布)

    七、大数定理和中心极限定理的应用

    • 大数定理的应用:在没有得到总体全部数据的情况下,可以用样本估计总体(中心极限定理也有这个作用)抛硬币,抛得次数足够得多,正反面出现的概率几乎一致
    • 中心极限定理的应用:在统计推断中,常需要知道统计量的分布,例如假设检验。这时可以借助大样本理论,在样本量很大时,求出统计量的渐进分布

    八、为什么特征函数可以唯一确定分布函数?(不确定)

    将特征函数展开,其展开式中包含有各阶原点矩

    九、依分布收敛、依概率收敛、几乎处处收敛

    几乎处处收敛----->依概率收敛------>依分布收敛

    • 依分布收敛:只需要考虑每个随机序列的累积效应,也就是分布函数,而不关注每个x的取值,它是一种点点收敛;
    • 依概率收敛:不仅蕴含随机序列的累积效应,也蕴含了每个序列具体取值情形,所以依概率收敛更强;

    十、极大释然估计有偏的例子

    经典例子:正态分布中的方差的估计(就是分母为n的那一个,一般用的n-1那个作为无偏估计量)

    十一、什么是充分统计量?⭐️

    简单的说,知道了充分统计量我们就可以扔掉样本,因为样本里的信息全都被包含在充分统计量里面。例如,收集了500条数据,然后你计算了这批数据的均值和方差,然后你出去吃了午饭回来发现数据丢失了,但这时候没关系,因为所计算的均值和方差已经包含了这批数据的全部信息。
    (ps.完备统计量就是基于对总体参数的无偏估计量至多一个;次序统计量就是将Xn按照顺序排列后得到的统计量,其具体形式一般为X1,X2,X3…Xn)

    十二、估计的性质

    • 大样本性质
      相合性(一致性)、渐进正态性(估计分布收敛于正太分布)

    • 小样本性质
      无偏性

    十三、P值?a值?⭐️

    • P值:原假设成立时,样本观测结果或更为极端结果所出现的概率,是观测得到显著性水平。它度量了样本所提供地证据对原假设的支持程度,p值越小,我们拒绝的理由越充分。p<a则拒绝原假设;
    • a值:假设检验中犯第一类错误的上限值;

    十四、假设检验的原理及步骤

    • ⭐️ 假设检验原理:小概率原理(小概率事件在一次试验中几乎不会发生,当发生了,我们就有理由认为之前的假设有为问题,这里的小概率就是显著性水平的值,一般取0.05或者0.01,有点反证的感觉)
    • 假设检验的步骤:
      1. 提出假设
      2. 抽取样本
      3. 确定检验统计量和统计量的分布
      4. 根据显著性水平确定拒绝域
      5. 作出决策

    十五、总体、样本、参数、统计量、变量、抽样分布

    总体:包含所研究的全部个体的集合
    样本:从总体中抽取一部分形成的总体的一个子集
    参数:说明总体特征的概括型数字度量
    统计量:不含有任何未知参数的样本函数,是样本特征的概括型数字度量
    变量:说明现象某种特征的概念
    抽样分布:样本统计量的概率分布

    十六、概率的三条共理

    • 任何事件概率大于0,PA>=0
    • 样本空间发生的可能性大于1
    • 可列可加性(要求事件之间互斥)

    十七、矩估计和极大释然估计的优缺点

    • 矩估计
      1. 优点:事先不需要知道总体的分布,计算简单,在大样本下精度高
      2. 缺点:小样本下估计的精度低,不唯一
    • 极大释然估计
      1. 优点:估计结果更显著,更有效,估计偏差更小,精度高
      2. 缺点:需要事先知道总体的分布

    十八、假设检验涉及的两类错误?为什么要首先控制犯第一类错误的概率?

    • 第一类错误:原假设为真时我们拒绝原假设所犯的错误,也称为弃真错误,其犯错误的概率通常记作a
    • 第二类错误:原假设为伪时我们没有拒绝原假设,也称作纳伪错误,其犯错误的概率通常记作β
    • 控制犯第一类错误的原因:
      1. 统一原则
      2. 原假设往往是确定的,而备择假设往往是模糊的;

    十九、概率空间及三要素

    • 概率空间:总测度为1的测度空间,(Ω,F,P)
      Ω:样本空间
      F:事件的集合,他是样本空间中一些元素构成的子集
      P:概率(3中解释)

    二十、期望和方差

    二者计算式子

    • 期望:数据集中趋势的主要度量
    • 方差:数据离散程度的主要度量(这里注意区分样本方差和总体方差的差别)

    二十一、置信度(水平)、置信区间

    • 置信度:重复多次试验构造置信区间,包含总体参数真值的置信区间个数占总个数的比例。(这里可以用撒渔网来解释);
    • 置信区间:由样本统计量构造的包含或不包含总体参数区间真值的区间(注意这里千万不能说以多大概率包含)

    二十二、概率为0的事件是否必然不会发生?或者说概率为1的事件是否一定发生?

    二者都是否定的。这一定要联系连续情况中的实际的例子。前者可以用均匀分布中一点来说明。而后者主要是用开区间来说明,落在(0,1)的概率为1,但是取到0却不会发生;

    二十三、概率和频率的关系

    在概率的数理统计定义中,随着n的增大,逐渐稳定的频率就是概率。概率更多见于概率论中,是一个理想值;频率更多得见于统计中,是一个实验值。

    二十四、假设检验统计量

    • 在样本均值的假设检验中主要注意一点,在大样本情况下,z和t是可以互换,而在小样本以及总体方差未知时,此时因为总体均值分布会有偏,此时只能用t,否则误差过大;
    • 在总体方差的假设检验中,主要是使用卡方统计量;
    • 方差比的检验主要是使用F统计量;
      这一部分复试前看一哈书中的表即可

    二十五、说明统计量好坏的三个标准

    • 无偏性:指统计量的期望等于被估计的总体的参数值;(如样本均值)
    • 有效性:针对同一无偏估计量,方差越小的越有效;(如样本方差,自由度为n-1的原因)
    • 一致性:随着样本量n的逐渐增大,统计量的值越来越接近被估计的总体参数;(如样本均值)

    二十六、贝叶斯估计和传统估计的区别

    ps.只需回答前2点

    • 参数的解释不同:
      传统:待估参数是确定
      bayes:待估参数是服从某种分布的随机变量
    • 利用的信息不同:
      传统:只利用样本信息
      bayes:要求事先提供一个参数的先验分布
    • 随机误差项的要求不同:
      传统:不要求知道随机误差项的具体分布形式(除最大释然估计)
      bayes:要知道随机误差项的具体分布形式
    • 选择参数估计量的准则不同
      传统:以ols最大似然为准则求解参数估计量
      bayes:构造一个损失函数并以损失函数最小化为准则求得参数估计量.

    二十七、点估计和区间估计的区别

    二者都属于参数估计

    • 点估计:常用的点估计包括矩估计、最大释然估计、最小二乘估计,他所得到的结果就是一个具体值(这里注意参数估计方法的举例);
    • 区间估计:最后的结果是在点估计的基础上,给出一个包含或者不含总体参数真值的一个区间
      当然这里也可以从评判估计的标准来说,点估计主要是用无偏性、有效性、一致性来评估好坏,而区间估计主要是由置信度和精确度评价的;

    二十八、独立与相关性的关系⭐️

    先分别解释两个词语:
    独立:指两变量不包含任何关系,包括线性关系和非线性关系
    相关关系:反映两个变量之间的线性关系
    二者关系:在二维正态中,不相关与独立等价,即独立一定不相关,相关一定不独立;而其它情况中,相关一定不独立,而独立不一定不相关;
    ps.独立是没有传递性的,另外这里也要知道三个变量独立性中的两两独立和三者相互独立的区别

    二十九、矩估计的理论依据是什么?

    其理论依据为格里汶科定理:即当n充分大时,样本分布函数近似地等于总体分布函数

    三十、相关系数?协方差?

    二者的计算式

    • 相关系数:度量两个变量之间的线性相关性程度的统计量
    • 协方差:衡量两个变量的总体误差

    三十一、势函数

    样本观测值落在拒绝域内的概率

    三十二、为什么要我们避免“接受H0”这样的说法?⭐️⭐️

    在这里以法庭审判一个例子来解释,在法庭审判中,我们往往当我们没有搜集到足够的证据,此时我们只能说,在这个证据下面无法说明被告有罪,但同时也没有证据说明他清白。在假设检验道理相同,我们在做推翻原假设的小概率事件,如果小概率没有发生,此时只能说明我没有找到拒绝H0的原因,但此时也没有能够说明H0是正确的事件发生

    三十三、细说三大分布?以及t分布和F分布的关系?⭐️

    • 卡方分布:独立同分布的标准正态分布的平方和
    • t分布
    • F分布
      随着n的逐渐增大,t分布以F分布为渐近分布

    这里只强调几点,首先要求各变量独立

    三十四、那些分布有无记忆性?什么是无记忆性?⭐️

    离散型:几何分布
    连续型:指数分布
    无记忆性:用零件的那个例子来回答

    三十五、切比雪夫不等式⭐️

    某个事件与均值的偏离值的概率与方差和该概率值有关
    在这里插入图片描述
    在这里插入图片描述

    三十六、蒙特卡洛方法

    是随机抽样技术,是一种模拟实验

    • 随机投点法
    • 平均值法

    三十七、简述EM算法(缺失数据的估计)

    • 根据观测数据,估计(最大释然估计)出模型参数的值;
    • 根据估计出的参数值估计缺失值
    • 估计出的缺失值加上之前的观测数据重新对模型的参数值进行估计
      反复迭代以上,直到收敛,迭代结束。

    三十八、非参数检验方法

    柯-斯检验法,卡方优度拟合检验、游程检验、符号检验

    三十九、正态性检验方法

    • w检验(适用小样本)
    • D检验(适用大样本)
    • WCM检验
    • 峰度检验

    四十、常见的降维方法?并详细介绍一下主成分分析?

    逐步回归、SIS、LASSO、PCA,ICA、随机森林等
    主成分分析:是一种常用的降低维度的方法(结合项目实际来谈),基本原理就是投影

    应用统计432考研复试复试提问总结精简版【二】

    展开全文
  • 一、自由度是什么? 定义:构成样本统计量的独立的样本观测值的数目 ...=0.05被认为是统计学意义的边界线,但是这显著性水平还是包含了相当高的犯错的可能性。可以根据实际需要来设定,针对高精度需要,可以要求小于

    一、自由度是什么?

    • 定义:构成样本统计量的独立的样本观测值的数目
    • 解释:从书中所给的平均数的角度进行

    二、讲一下对t检验的理解?

    t检验适用于两个变量均数间的差异检验。同时用t检验的前提下:正态性和方差齐性。t检验是目前医学研究中使用频率最高,医学论文中最常见的处理定理资料的假设检验方法。

    三、如何判定结果具有真实的显著性?

    通常,许多科学领域中产生p值的结果<=0.05被认为是统计学意义的边界线,但是这显著性水平还是包含了相当高的犯错的可能性。可以根据实际需要来设定,针对高精度需要,可以要求小于0.01.

    四、卡方检验的结果,值越大越好还是越小越好?

    与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端。另外一般都说显著,而不用好坏来描述。

    五、各统计分布的描述

    • 几何分布
    • 二项分布(伯努利分布)
    • 柏松分布
    • 指数分布
    • 均匀分布
    • 正态分布

    六、如何给没有学过统计学的人解释正态分布?

    正态分布的密度函数曲线是“钟型”曲线。也可以用例子来解释:大多数人在中间,越中间人越多,小部分人在一头一尾且数量相等

    七、列举常用的大数定理及区别

    • 主要有辛钦大数定理、伯努利大数定理、切比雪夫大数定理
    • 区别:伯努利大数定理是辛钦大数定理的特殊形式,若辛钦大数定理的中的随机变量服从特定的伯努利二次分布,就可以得到伯努利大数定理。相比于前者,切比雪夫定理不要求同分布,只要求独立或不相关,因此具有更强的广泛性。

    八、贝叶斯定理和全概率公式的应用

    • 贝叶斯定理定义:公式+说明是后验概率+举例工厂的例子(这一点机器学习中十分常用)
    • 全概率公式:解释完备事件组+正向概率+举例工厂的例子

    九、PCA是什么?为什么PCA要去中心化?PCA的主成分是什么?

    • PCA是主成分分析,是一种简化数据的技术
    • 去中心化的原因?因为要算协方差,单纯的线性变换无法消除量纲的影响
    • 主成分:根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主变量分析,也是数据上处理降维的一种方法。

    十、矩的理解

    先谈矩的分类,分为中心矩和原点矩,矩是在数理统计学中有一类数字特征成为矩

    十一、分布函数属于什么变量?

    分布函数是用于描述随机变量性质的函数。随机变量的取值具有随机性,而分布函数就可以视为这种随机性的一种刻画表述。或者说,定量地把“不确定性”给“确定”下来。所以它并不是一个随机变量,而是一个具有确定性意义的函数。

    十二、偏度峰度公式

    网上详细介绍

    • 偏度—联系3阶中心矩
    • 峰度—联系4阶中心矩

    十三、分布的可加性有哪些满足?

    回答的时候建议回答简单一点的

    • 简单一点的有:泊松分布,正态分布,二项分布,负二项分布,卡方分布
    • 复杂一点的有:gamma分布,复合泊松分布

    十四、经验分布是不是分布函数?

    两者是有区别的。但是根据大数定理,随着样本量的逐渐增加,分布函数收敛于经验分布

    十五、分布函数的定义

    • 连续型随机变量
      请添加图片描述
    • 离散型随机变量:用分布律(概率函数)而不是分布函数来描述离散型随机变量

    十六、讲一讲假设检验的p值法

    • 先解释p值的含义:当原假设为真时,样本观测结果或更为极端结果所出现的概率,就是p值。p值是观测得到的显著性水平。通俗的讲,就是我们的样本出现的概率。
    • 解释一下假设检验的原理:小概率原理。所以需要比较p值和所谓的小概率,这里的小概率是人为规定的小概率。
    • p<a,则拒绝原假设,p越小拒绝的理由越充分。

    十七、特征函数的作用

    特征函数能够用来判断随机变量的分布是否相同!同时,相比如传统的通过概率密度函数通过积分的方式计算各阶矩,通过特征函数求微分在计算上面更加简单!
    请添加图片描述

    十八、什么是概率?

    • 古典定义
    • 统计定义
    • 主观定义

    十九、3σ原则⭐️

    • 如果总体是对程分布
      68%的数据位于1σ内
      95%的数据位于2σ内
      99%的数据位于3σ内
    • 如果总体是非对程分布,由切比雪夫不等式得
      75%的数据位于2σ内
      89%的数据位于3σ内
      94%的数据位于4σ内

    二十、事件的独立性和随机变量的独立性有什么联系和区别?

    • 区别
      1、 相互独立事件(independent events): 事件A(或B)是否发生对事件B(A)发生的概率没有影响,这样的两个事件叫做相互独立事件。
      2、 随机变量独立满足变量独立的定义:P(AB)=P(A)*P(B)

    • 联系
      随机变量的独立性都是在事件独立性的基础上来定义的。因此随机变量的独立性是指由他们生成的所有的事件都独立。

    二十一、举例说明相互独立的意义?

    这一点可以用朴素贝叶斯在实际中的例子来说明。只有各特征相互独立的时候,才方便计算。

    二十二、为什么要把拒绝域叫做a的拒绝域?

    当我们拒绝H0的时候,有可能犯弃真错误,犯此类错误的概率计为a,所以叫做a的拒绝域

    二十三、最小二乘法的思想⭐️

    使得离差平方和最小,这时候脑子里一定要有那张图片!!!!请添加图片描述

    ps.最小二乘法除了由离差最小这一显著特点,注意,他还有一个鲜明的特点就是估计出来的各参数可以计算标准差

    二十四、回归中针对误差项的3个基本假定⭐️

    • 误差项是一个期望值为0的随机变量
    • 对于自变量x1,x2…的所有值,误差项的方差都相同
    • 误差项是一个服从正态分布的随机变量,且相互独立

    二十五、线性回归的前提

    • 因变量与自变量之间具有线性关系
    • x的取值是固定的,即x的取值是非随机的
    • 对误差项的3个基本假定

    二十六、掷骰子二次,样本空间是怎样的?

    • 先解释样本空间:包含所有可能发生的结果的集合
    • 所以样本空间为正正、正反、反反

    二十七、用概率知识谈一谈“多行不义必自毙”这句话?

    • 总结性:小概率事件在大量重复试验中必然发生
    • 解释
      记小概率事件的概率为p(0 < p < 1),重复n次,那么这个事件一次也没发生的概率是(1-p)^n,发生至少一次的概率是 1-(1-p)^n 。可以看出,当n趋向于正无穷时,P趋向于1。也就是说,如果小概率事件重复无穷多次,那么必然发生至少一次。

    二十八、伯努利试验的条件

    • 相同条件下可重复试验
    • 试验只有两种结果:成功或者不成功

    二十九、抽样方法⭐️

    三十、因子旋转、因子分析、因子载荷矩阵

    都是主成分分析当中的步骤,可以使用matlab进行以上操作

    三十一、给出均匀分布U(0,a)中a的参数估计?

    显然这里参数估计

    三十二、统计学怎么理解?

    是一门收集、处理、解释并从数据中得出结论的科学。

    三十三、据估计是什么?

    就是利用样本矩来估计总体参数。以均匀分布为例,假设(0,a),a是未知参数,此时总体均值是a/2,又因为大数定理,样本均值依概率收敛于总体均值,所以样本均值x就等于a/2,反解出a即可。同理若有n各未知数据,我们则需要构造多个中心矩。

    三十四、解释一下变异系数?⭐️

    • 变异系数=方差/均值
    • 在比较两个或两个样本变异程度时,变异系数不受平均数与单位的限制。变异系数是以相对数形式表示的变异指标。
      ps:解释拟合优度:是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²最大值为1。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。

    三十五、解释分位数的含义?

    假如有1000个数字(正数),这些数字的5%, 30%, 50%, 70%, 99%分位数分别是 [3.0,5.0,6.0,9.0,12.0],这表明有5%的数字分布在0-3.0之间,有25%的数字分布在3.0-5.0之间,有20%的数字分布在5.0-6.0之间,有20%的数字分布在6.0-9.0之间,有29%的数字分布在9.0-12.0之间,有1%的数字大于12.0,这就是分位数的统计学理解

    三十六、不同抽样方法的优缺点

    三十八、方差分析和回归分析的几个预先假设

    • 方差分析
      可加性:各效应可加,即观测值是由各主效应,交互作用以及误差通过相加得到的。
      随机性:各样本(观测值)是随机样本
      正态性:各样本来自于正态分布的总体
      独立性:各样本观测值互相独立
      方差齐性:各样本来自的总体方差相同
    • 回归分析
      自变量与因变量之间是线性关系
      在给定自变量x的情况下,随机误差项μ的均值为0,μ与x同方差,μ与x不序列相关。
      随机误差项μ服从零均值、同方差的正态分布
      各个自变量之间不存在严格线性相关性(无共线性)

    三十九、随机变量

    表示随机试验各种结果的实值单值函数

    四十、功效函数

    1-β(β是假设检验中犯第二类错误的概率)

    四十一、箱线图

    以一组数据来说明,先将一组数据排序,分别找出最小值、下四分位数,中位数、上四分位数、最大值。连接下四分位数和上四分位数画出箱子,中位数在箱子中间,连接箱子和最小值和最大值。(注意通过箱线图判断数据的偏态情况)

    四十二、卡方分布

    各随机变量Xi独立同分布,且Xi都服从标准正态分布,则n个Xi的平方服从自由度为n的卡方分布。

    • 卡方分布的期望为n,方差为2n
    • 卡方分布有可加性
    • 当自由度足够大,卡方分布的概率密度曲线趋于对称

    四十三、主成分成分分析中使用协方差矩阵和相关系数矩阵,为什么?

    • 协方差矩阵:它是没有消除量纲的表示变量间相关性的矩阵.
    • 相关系数矩阵:相当于消除量纲的表示变量间相关性的一个矩阵

    四十四、主成分分析和因子分析的区别?

    主成分分析和因子分析的关系是包含与扩展。当因子分析提取公因子的方法是主成分(矩阵线性组合)时,因子分析结论的前半部分内容就是主成分分析的内容,而因子旋转是因子分析的专属(扩展),主成分分析是因子分析(提取公因子方法为主成分)的中间步骤。

    四十五、聚类分析和判别分析的区别?

    聚类分析是无监督分类,就是只有自变量(指标)数据,没有(表示类别的)因变量数据;判别分析是有监督分类,就是既有自变量(指标)数据,又有(表示类别的)因变量数据

    四十六、时间序列、白噪声序列

    • 时间序列:是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列;(比如股票数据、某一月每天早上8点温度)
    • 白噪声序列:均值和方差随着时间的变化都不变;

    四十七、平稳检验方法

    • 图形法
    • 假设检验方法
      DF检验
      ADF检验

    四十八、极大似然估计是否符合相合性?什么是相合性?

    • 极大似然估计一定符合相合性
    • 相合性:随着n的增大,估计值越来越接近被估计的总体参数

    四十九、如何确定置信度?

    置信度也称为置信水平(注意区别显著性水平),等于1-犯第一类错误的概率。

    五十、正定矩阵的性质?⭐️

    • 正定矩阵有以下性质:

      1、正定矩阵的行列式恒为正;

      2、实对称矩阵A正定当且仅当A与单位矩阵合同;

      3、若A是正定矩阵,则A的逆矩阵也是正定矩阵;

      4、两个正定矩阵的和是正定矩阵;

      5、正实数与正定矩阵的乘积是正定矩阵。

    • 判定的方法:

      根据正定矩阵的定义及性质,判别对称矩阵A的正定性有两种方法:

      1、求出A的所有特征值。若A的特征值均为正数,则A是正定的;若A的特征值均为负数,则A为负定的。

      2、计算A的各阶主子式。若A的各阶主子式均大于零,则A是正定的;若A的各阶主子式中,奇数阶主子式为负,偶数阶为正,则A为负定的。

    五十一、一个样本得到的置信区间是随机区间还是特定区间?

    特定区间,样本确定下来,则置信区间不再是一个随机区间
    ps.这个问题在初试中时常出现

    五十二、给出一个具体问题如何建模?

    这里注意一点,模型并不是自己建立的,一般参考他人或者在他人基础上进行修改。同时论文最好可以进行参考对比。

    五十三、直方图的定义及直方图的作用的是什么?相关系数的含义?相关系数和协方差有什么关系?请谈谈你自己对相关系数的理解?

    • 直方图的定义:数据分组,再根据每组频数所画出的纵向条纹即是直方图,与条形图有所不同,直方图横轴和纵抽均有意义
    • 直方图的作用:探究数据的分布情况
    • 相关系数的含义:反映两个数据之间的相关关系的统计量。
    • 区别:相关性是协方差的标准化格式。协方差本身很难做比较。
    • 理解:相关系数是用来证明两个参数是否为线性相关的一种统计方式,相关系数的绝对值越接近1则相关性越强,相关系数的绝对值越接近0,则相关性越弱

    五十四、最小二乘法估计和最大释然估计是不是都是无偏的?

    • 最小二乘法估计是无偏的
    • 而极大释然估计并非都是无偏的

    五十五、什么是EM算法?

    用于缺失数据的估计

    • 根据观测数据,估计(最大释然估计)出模型参数的值;
    • 根据估计出的参数值估计缺失值
    • 估计出的缺失值加上之前的观测数据重新对模型的参数值进行估计
    • 反复迭代以上,直到收敛,迭代结束。

    五十六、各种中心极限定理

    • 棣莫弗-拉普拉斯(De Moivre-Laplace)定理
    • 李雅普诺夫(Lyapunov)定理

    五十七、均方误差

    MSE的M代表平均mean,S代表平方square,E代表误差error;类似的, 代表A因素的均方差。一般而言,
    请添加图片描述

    展开全文
  • 央财应用统计复试书籍 刘杨《统计学》不做任何商业用途,只用于大家交流学习。书中关于主成分分析、因子分析、聚类分析等类型详细讲述了在SPSS中的应用和实际操作
  • 贾俊平统计学 数据的搜集 数据的来源 统计数据主要来自两条渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用。另一个是通过自己的调查或实验活动,直接获得...

    学习笔记,仅供参考,有错必纠


    贾俊平统计学


    数据的搜集


    • 数据的来源

    统计数据主要来自两条渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用。另一个是通过自己的调查或实验活动,直接获得第一手数据,对此我们称为数据的直接来源。

    • 概率抽样与非概率抽样

    概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选人样本。

    调查的实践中经常采用的概率抽样方式有以下几种:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样。

    非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

    非概率抽样的方式有许多种,可以归为以下几种类型:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样

    概率抽样与非概率抽样的比较:

    • 实验组和对照组

    实验组:是指随机抽选的实验对象的子集。在这个子集中,每个单位接受某种特别的处理。

    对照组:每个单位不接受实验组成员所接受的某种特别的处理。

    • 数据的误差
    展开全文
  • 自己做的,花了很久的时间复习。
  • 该资源为2017年西安邮电大学统计学(同等学历加试)考研复试仿真模拟三套题(含参考答案详解),资源高清无水印哦! 该资源为2017年西安邮电大学统计学(同等学历加试)考研复试仿真模拟三套题(含参考答案详解),...
  • 2、2021年(统计学)研究生(初试+复试)总成绩.pdf; filename=utf-8''2、2021年(统计学)研究生(初试+复试)总成绩.pdf
  • 中央财经大学2013年应用统计专业复试真题
  • 应用统计考研复试要点(part2)–统计学 学习笔记,仅供参考,有错必纠 具体原理:统计量及其抽样分布 ;数据的概括性度量 文章目录贾俊平统计学数据的分布特征概率与概率分布统计量及其抽样分布 贾俊平统计学 数据...
  • 首先说一下定专业,因为我认为这是考研的长战线中需要面临的第一个问题。我本人在这方面可以说没有选专业的烦恼,从一开始我就是坚定地选择我自己的原始专业——统计学。统计这一个学科自从2019年水涨船高后,已经...
  • 一、复习要求:要求考生熟练掌握应用统计学课程的基本概念、基本理论和基本方法,具备一定的应用统计思想,能够运用已经学过数理统计、经济统计的方法去分析和解决问题。二、主要复习内容:1、样本和抽样分布(1)理解...
  • 2021年深圳大学经济学院应用统计专硕432统计学考试大纲、考试题型及复试参考书目.docx
  • 保研面试/考研复试机器学习问题整理

    千次阅读 多人点赞 2021-10-03 20:32:13
    数据挖掘:数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,包含了机器学习、统计学、数学等多个学科的知识。 数据挖掘三大常见的任务: ♣ \clubsuit ♣ 回归任务:回归任务是一种对连续型随机...
  • 复试指南
  • :博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。 博客地址:天阑之蓝的博客,学习过程中不免有困难...
  • 该资源为中国人民大学432统计学历年考研真题及复试真题汇编,资源高清无水印哦! 该资源为中国人民大学432统计学历年考研真题及复试真题汇编,资源高清无水印哦!
  • 该资源为上海财经大学432统计学历年考研真题汇编(含复试真题),资源高清无水印哦!
  • 贾俊平统计学 无量纲化处理 统计标准化 这是一种通用的将具体数值转变为标准模式的做法,公式表示为: zi=xi−x‾s z_i= \frac{x_i - \overline{x}}{s} zi​=sxi​−x​ 式中,ziz_izi​,为第iii个指标的标准化值...
  • 贾俊平统计学 分类数据分析 卡方检验 卡方检验是对分类数据的频数进行分析的统计方法。 卡方统计量 χ2=∑(f0−fe)2fe \chi^2 = \sum \frac{(f_0-f_e)^2}{f_e} χ2=∑fe​(f0​−fe​)2​ 拟合优度检验 拟合...
  • 中南财经政法大学432统计学复习资料,本资料经本人考研复习一年整理所得,里面详细介绍了中南财应用统计考研的初试,复试,录取流程及部分真题。
  • 汇总了计算机研究生复试有关机器学习各章节简答题,使用了易于口头表达的语言进行了总结。包括了机器学习的常用概念及相关算法内容。可供研究生复试或相关专业岗位面试使用。 1. 什么是梯度爆炸和梯度消失?如何解决...
  • 文章目录贾俊平统计学参数估计假设检验 贾俊平统计学 参数估计 参数估计 参数估计:就是在抽样及抽样分布的基础上,用样本统计量去估计总体的参数。参数估计是推断统计的重要内容之一。 估计量与估计值 样本...
  • 统计学 分布 χ2\chi^2χ2可用来构造t分布与F分布: t=XY/nY∼χ2(n)t=\cfrac{X}{\sqrt{Y/n}} \qquad Y\sim \chi^2 (n)t=Y/n​X​Y∼χ2(n) F=X/mY/nX∼χ2(m),Y∼χ2(n),X⊥YF=\cfrac{X/m}{Y/n} \qquad X\sim\c
  • 考研复试问题之杂谈

    2020-05-13 16:29:19
    考研复试问题之杂谈 1.冯·诺依曼思想的基本要点 采用二进制的形式表示数据和指令 由输入设备,输出设备,运算器、存储器和控制器五大部件组成 采用存储程序的方式,存储程序方式是诺依曼思想的核心 指令和数据以...
  • 2020年会计考研全国名校会计学综合(含复试)考研真题汇编(含部分答案)。 2020年会计考研全国名校会计学综合(含复试)考研真题汇编(含部分答案)。
  • 保研面试/考研复试概率论与数理统计问题整理

    千次阅读 多人点赞 2021-10-01 20:55:13
    先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现。 6. 什么是后验概率?与先验概率的关系? 1) 后验概率 事情已发生,已有结果,求引起这事发生的因素的可能性,由...
  • 暨大数学复试线平台研学长考研是中国大的考研专业课资料平台。拥有覆盖范围考研最广的院校专业数据库以及专业程度最高的考研复习指导服务团队,涵盖考研路上所需的全部专业课相关信息、资料,为考生的考研专业课复习...
  • 举例说明统计学的广泛性和多样性 统计学的应用领域十分广泛:水文学、工业、语言学、文学、劳动力计划、管理科学、市场营销学、医学诊断、核材料安全管理、质量控制、政治学等 简述中心极限定理以及其意义 林德伯格...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 651
精华内容 260
关键字:

统计学复试问题