-
2018-10-08 19:22:29
统计问题时,研究对象的全体称为总体。组成总体的每个元素称为个体。
实际的统计研究中,研究总体时,我们关心的只是其中的某一项或几项指标以及该指标在总体中的分布情况(即总体数字特征和总体分布函数)。
例如:研究全国高校的学生人数时,总体X是全国高校的学生人数,个体是每所高校的学生人数。
再如研究某个小学的学生健康状况时,主要关心学生的身高和体重,分别用X和Y表示,则总体就是全校学生的身高和体重,用(X,Y)表示,个体就是每个学生的身高和体重。
抽样即为了得到总体的某些特征及分布信息,按照一定规则从总体中抽取若干个体进行观察实验。所抽取的个体即样本。抽取的个体数目即样本容量。
样本的抽取是随机的,每个个体是一个随机变量,容量为n的样本可以看作n维随机变量。当选定样本后,即可得到n个具体的值,即样本值。
统计是从调查得到的资料——样本值,推断总体的情况。
定理表明,当样本容量足够大时,经验分布函数(样本分布函数)依概率收敛于总体分布函数。 这是用样本推断总体的理论依据。
更多相关内容 -
总体,个体,抽样,样本,样本容量,随机变量,期望,方差,离差,残差
2015-05-17 11:17:36开博第一篇先回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:总体,个体,抽样,样本,样本容量。 1 总体 本小节所探讨的总体的概念,特指在统计学中的“总体”。统计学中的“总体”,或称统计...开博第一篇先回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念: 总体,个体,抽样,样本,样本容量,随机变量,期望,方差,离差,残差。1 总体本小节所探讨的总体的概念,特指在统计学中的“总体”。统计学中的“总体”,或称统计总体(population),简称总体,指要调查或统计某一现象或事物全部数据的集合。例如,我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的年龄,那么所有中国人的年龄,就是我们研究和统计的总体;再例如,我们要统计国内互联网从业人员的年薪,那么这些国内互联网从业人员的年薪,就是我们研究的总体;再例如,淘宝公布的“女人胸越大越败家”的调查结论,我们要分析女人胸的大小与败家的相关性,那么所有在淘宝上有购买胸罩的女人的购买记录(包括购买的胸罩的大小,以及此购买人最近一年或半年的总消费额),就可以作为我们研究的总体。总体有三个性质,以下作一个简单的说明,并以“女人胸越大越败家”做例子讲解。(1) 大量性,是指需要研究的总体的数目巨大。例如研究“女人胸越大越败家”,就需要淘宝上所有购买胸罩的女人的交易记录。(2) 同质性,是指总体中研究的每一个数据(也称个体)彼此之间有相同的性质,例如因为是淘宝公布的结论,所以研究数据都是取自淘宝,也即是在淘宝上的消费记录,而非京东;并且这些购买记录中都有消费胸罩这一项,不能拿购买裤子的记录与购买胸罩的数据分析。(3) 变异性,是总体中研究的每一个数据之间,也是有差异的。例如每条购买记录是不同的人操作,都买了不完全相同的胸罩大小,有不同的消费额,特定的某一个数据(个体),其总消费金额也是有差异的等等。2 个体个体,指需要研究的总体中一个特定的主体。以探讨总体时举的例子,我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的平均年龄,那么总体中的一个主体,或者说一个数据,例如题主的年龄--26岁,就是在这个总体--所有中国人的年龄--中的一个样本;同理,某一个特定的互联网从业人员,如某个阿里数据分析师的工资,也是国内互联网从业人员的年薪中的一个特定的主体,也即个体;同理,每一个购买胸罩的消费记录(和前两个例子中的年龄和工资等一维数据构成一个个体不同,购买记录可能会包含多维数据,例如:胸罩大小,此购买人最近一年或半年的总消费额等,这些多维数据共同构成了一个研究的个体),就成为了我们研究女人胸的大小与败家的相关性中的一个个体。3 抽样举一个例子,要检验某食品的出厂合格率,理想的做法,是打开所有总体--食品--的包装,检测总体中每一个个体--也即具体的每一盒食品--是否合格,再计算出出厂合格率。但这显然是不现实的,因为打开所有包装并检查的成本过大。这时我们需要从总体中抽选部分个体构成一个集合(也成为样本,样本中个体的数目小于总体数目),如果抽取的集合中的个体能较全面,无偏地反映出总体的信息,就可以认为该抽样是有效的。抽样按照个体是否放回可以分为有放回抽样和无放回抽样,有放回抽样指从总体中抽取一个个体并记录该抽样结果后,再将该个体放回至总体中;无放回抽样指从总体中抽取一个个体并记录该抽样结果后,不再放回该个体。二者区别就在于,有放回抽样可能抽取重复的个体,而在无放回抽中不存在这种情况。按具体的抽样方法分类,可以分为简单随机抽样,分层抽样,比例抽样,等距抽样,系统抽样等。4 样本,样本容量样本是总体的一部分,它是由从总体中按一定程序抽选出来的那部分总体单位--也即个体--所组成的集合。那么这个集合中,个体的数目称为样本容量。例如统计国内互联网从业人员的年薪,我们经过抽样获得了淘宝,百度,腾讯等互联网公司从业人员的10000条薪资记录,那么这10000条薪资记录就构成了我们研究的一个样本,10000为该样本的样本容量。同理,分析女人胸的大小与败家的相关性,经过抽样获得的5000条消费记录,就构成了一个样本,5000为该样本的样本容量。那么样本与抽样的关系,就可以理解为抽样是过程,抽得的样本是结果。最终得到的样本,也需要尽量能全面地反映出总体的特性,例如统计国内互联网从业人员的年薪,如果只统计了淘宝,百度,腾讯三家公司,肯定是不能代表整个互联网从业人员的年薪,因此可以认为该样本并不是能有效反映总体的抽样样本。最后用一个例子作为今天讲解概念的总结:要研究一所拥有10000名学生的大学中,学生的平均身高。我们从10000名学生中随机抽取了100名学生作为调查对象,那么:1 总体:10000名学生的平均身高;2 个体:某一个学生的身高,例如,学号为00001的学生的身高;3 抽样:从10000名学生中随机抽取了100名学生作为调查对象(样本)的过程;4 样本:抽取的100名学生的身高数据;5 样本容量:100
5 随机变量随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例。一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。离散型随机变量:随机变量取值离散,只能取离散且有限个可列的数值。例如,掷一颗骰子,只能取1,2,3,4,5,6等6个自然数,不可能取到3.5这个数字的值;一个人的年龄,只能取0~150岁之间的可列数值;汽车厂一年生产的汽车数目,只能是从0到某个可数的自然数范围内。连续型随机变量:如果随机变量可以在某个区间内取任一实数,且该区间内的实数数目趋于无限个,则称变量的取值是连续的,称为连续性随机变量。例如,统计一块田中小麦的生长高度,高度取值范围可以从[20,100]cm,在这个范围内的小麦生长高度都是可以取到的;统计18岁以上男子的身高,取值范围从[100,240]cm,在这个范围内的每个实数都可以取到,也称作连续性随机变量。6 期望先讨论离散型随机变量的期望。在概率论和统计学中,一个离散性随机变量的期望(Expectation,符号E,或 μ)是试验中每次某个可能结果的 概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等,期望就是随机试验在同样的机会下重复多次的结果相加,计算出的等概率“期望”的平均值。需要注意的是,期望值也许与每一个结果都不相等,因为期望值是该变量输出值的平均数,期望值并不一定包含于变量的输出值集合里。离散型随机变量期望的公式化表示为如下,假设随机变量为 X,取值 x i( i=1,2,..., n),对应发生概率 p i( i=1,2,..., n), E( X)为随机变量的期望:E(X)=∑ni=1pixi
当 p i( i=1,2,..., n)相等时,也即 p i=1 n时, E( X)可以简化为:E( X)=1 n∑ n i=1 x i连续型随机变量的期望,可以使用求随机变量取值与对应概率乘积的积分求得,设 X为连续性随机变量, f( x)为对应的概率密度函数,则期望 E( X)为:E( X)=∫ x f( x) d x7 方差在概率论和数理统计中,方差(Variance,符号D,或 σ2)用来度量 随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度,方差越大,则数据偏离中心的程度越大。同时,变量的期望相同,但方差不一定相同。依旧以离散型随机变量为例,假设随机变量为 X,取值 x i( i=1,2,..., n), μ为随机变量的数学期望(均值),那么离散型随机变量 X的方差可以表示为:D( X)=1 n∑ n i=1( x i− μ)2在计算上,如果已知随机变量 X的期望 E( X),则方差的计算可以简化为:D( X)= E( X− E( X))2= E( x2)−[ E( x)]28 离差离差也叫差量(符号 η),是 单项数值与平均值之间的差。一般计算离差平方和来表示数据分布的集中程度,此时的离差平方和与方差的关系为:η i= x i− μη2=∑ n i=1 η2 i= n D( X)9 残差残差是指观测值与预测值(拟合值)之间的差, 即是实际观察值与回归估计值的差。把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。例如,在线性回归中,每一点 y i的估计值 y′ i和实际值 y i的差的平方之和称为残差平方和。S=∑ni=1(yi−y′i)2
转自:http://www.cnblogs.com/jackhumeng/p/4371500.html
http://www.cnblogs.com/jackhumeng/p/4379027.html -
样本容量的确定
2018-03-15 08:46:29•样本容量:样本中个体的数目或组成抽样总体的单位数。•必要样本容量:亦称必要样本单位数,是指满足调查目的要求的情况下,至少需要选择的样本单位数。一、估计总体均值时样本容量的确定1.重复抽样一旦确定了置信...• 样本容量:样本中个体的数目或组成抽样总体的单位数。
• 必要样本容量 :亦称必要样本单位数,是指满足调查目的要求的情况下,至少需要选择的样本单位数。
一、估计总体均值时样本容量的确定
1.重复抽样
一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:
由此可以推到出确定样本容量的公式如下:
2.不重复抽样
• 样本容量 n 与总体方差成正比 ,• 与 绝对误差成 反比,• 与 概率度成正比。例:拥有MBA学位的研究生年薪的标准差大约为4000 元,假定想要估计年薪95%的置信区间,希望允许误差为10000 元,应抽取多大的样本容量?
二、估计总体比例时样本容量的确定
1.重复抽样
一旦确定了置信水平(1-α),Zα/2的值就确定了。由于总体比例的值是固定的,所以允许误差由样本容量来确定,样本容量越大允许误差就越小。估计的精度就越好。因此,对于给定的的π值,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:
由此可以推导出重复抽样和无限总体抽样条件确定样本容量的公式如下:
2.不重复抽样
• d 的取值一般小于 0.1• π 未知,以样本比例 p 替代• π 或 p 都未知时,可取 0.5 ,这是一种谨慎估计例:某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在5%,问如果以95%的置信水平进行参数估计,需要多大的样本?
影响样本容量n的因素
a) 总体个单位之间的差异b) 概率保证程度c) 允许误差的大小d) 抽样方式e) 抽样的组织形式确定样本容量的注意事项
一、在实际中采用不重复抽样,但常用重复抽样下的公式代替;
二、若和p未知,其处理方式是:
1.用过去近期的数据代替,
2.用样本数据代替,
3.取p=0.5或最接近0.5的值;
三、对同一总体,若求出的Nx,Np不等,这时取较大的作为必要样本容量,
以同时满足做两种调查的需要;
四、在实际工作中,常使用重复抽样下的简单随机抽样公式。
-
数理统计学习笔记——总体与样本
2014-09-28 10:29:571. 代表性: X1,X2,…,Xn中每一个与所考察的总体有 相同的分布。 2. 独立性: X1,X2,…,Xn是相互独立的随机变量。 总体、样本、样本值的关系 例如:考察某大学一年级2000名男生的身高 总体:...数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出合理的估计和判断。
概率论与数理统计的区别:
概率论所研究的随机变量,其分布都是假设已知的,在这个前提下研究其性质、特点和规律性。
数理统计所研究的随机变量,其分布是未知或不完全知道的。需要通过独立重复的观察并对观察数据进行分析,来推断其分布。
数理统计方法具有“部分推断整体”的特征 .
基础概念:概率论中,对随机现象的观测叫做随机试验。随机变量(random variable)表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等等,都是随机变量的实例。
总体和样本
数理统计中,将研究对象的全体称为总体,构成总体的每个成员称为个体,总体中所包含的个体的个数称为总体的容量。
实际问题中,人们关注的往往是每个成员的某种指标,而不是每个成员的种种具体特性。
例如:我们要研究北京市中学生的身高和体重分布情况,若把北京市全体中学生看做总体则没有抓住事物本质,我们真正的研究对象是该市中学生的身高和体重这两个数量指标。
因而,我们通常把个体所具有的数量指标的全体作为总体,个体即为每一个成员的数量指标,总体中所包含的个体的个数称为总体的容量。
研究灯泡的使用寿命问题灯泡的使用寿命在观测前只知道其一切的可能取值,并不能确定其具体取值,因而我们用随机变量X去描述总体,简称总体X 。
若被研究的对象的数量指标不止一个,不妨设为k个,则他们构成k维向量,称为k维总体,上面例子中的北京市中学生的身高和体重是二维总体。
样本
从总体中抽取的待测个体组成的集合称为样本。样本所含的个体数目称为样本容量。
例如:从国产轿车中抽5辆进行耗油量试验,样本容量为5,抽到哪5辆是随机的。
n称为这个样本的容量。
一旦取定一组样本X1, … ,Xn ,得到n个具体的数 (x1,x2,…,xn),称为样本的一次观察值,简称样本值 。
最常用的一种抽样叫作“简单随机抽样”,其特点:
1. 代表性: X1,X2,…,Xn中每一个与所考察的总体有 相同的分布。
2. 独立性: X1,X2,…,Xn是相互独立的随机变量。
总体、样本、样本值的关系
例如:考察某大学一年级2000名男生的身高
总体:2000名男生身高的所有可能值。等价于某个随机变量X。
样本:例如抽取10名男生,则这10名男生的身高可能值为一个样本。可表示为随机变量X1, … ,X10。
样本值:这10名男生的身高测量值,记为x1,…,x10。
-
概率 + 统计 样本及抽样分布(六)
2020-07-13 00:04:12总体和样本 -
统计学中数据分析方法汇总!
2021-07-27 00:21:32简介 一般,若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c... -
【生信】基因组学中的统计学应用
2022-02-03 20:29:10【生信】基因组学中的统计学应用 -
机器学习|总体与样本|5mins入门|概统学习笔记(十八)
2020-03-30 21:14:10从而可以把这种数量指标看作一个随机变量,因此随机变量的分布就是该数量指标在总体中的分布。 总体的性质,就是这些指标值的集体的性质。这样,总体就可以用一个随机变量及其概率分布来描述。因此理论上,可以将... -
总体统计量的估计方法
2019-06-26 09:56:00总体统计量的估计方法 1 点估计量法 ...$\hat{\mu}$:总体均值的点估计量,在总体均值未知时,其可作为总体均值的估计值。 $\bar{x}$:样本均值,和总体均值的计算方法一样。 如果想要十分近似的估... -
【数理统计】01. 数理统计绪论
2021-03-04 14:52:45本文是数理统计的绪论内容,围绕总体、样本和统计量,主要介绍了相关概念的定义和性质。 -
教育统计与测量【1】
2022-04-02 17:59:052.下列数据中,运算结果只是反映位次顺序关系的是() A.称名变量数据 B.顺序变量数据 C.等距变量数据 D.比率变量数据 3.下列不属于数据的特点的是() A.离散性 B.顺序性 C.变异性 D.规律性 4.某校某班学生的家庭... -
如何确定抽样的样本数量
2019-03-20 21:28:12总体为9200人,预设的整体置信度为95%,最大容许误差为正负5%,求样本容量 网上搜到的第一个有价值的内容如下: 题目 某公司对60000人中的吸烟比例做调查,置信度为95%的情况下,若要使误差保持在4%以内,需要的最小... -
数理统计(第一周)《统计量及其分布》
2020-02-22 15:30:14数理统计(第一周)统计量及其分布 1.什么是数理统计? 1.1 由反复试验得到的观察值x1,x2…xnx_{1},x_{2}…x_{n}x1,x2…xn分析、推断出未知随机变量的分布。 1.2 数理统计是一门应用型很强的学科。它使用... -
常用数据分析方法总结
2019-11-02 14:06:23最近优化一个画像产品,用到一些数据分析方法,这里总结一下。 主要参考:https://www.jianshu.com/p/809fb2261b23,补充一些细节 一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对... -
随机数表法.ppt
2021-07-29 08:21:052005高考考试中,某地有考生有2万名,如果为了了解这些考生数学的主观题的得分情况,我们应该怎样做? 2. 今有某灯泡厂生产的灯泡10000只,怎样才能了解到这批灯泡的使用寿命呢? ???? 数理统计是研究如何有效地... -
抽样与抽样分布——中心极限定理、点估计
2020-06-08 21:11:58从一个无限总体中抽取一个容量为n的样本,如果满足:(1)每个抽取的个体都来自同一个总体;(2)每个个体的抽取都是独立的。则该样本是一个随机样本。 2.点估计 2.1参数 总体的数字特征记为参数。例如总体均值、... -
《概率论与数理统计》—读书笔记
2020-11-11 14:48:28每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果; 进行一次试验之前不能确定哪一个结果会出现。 样本空间、随机事件 样本空间 样本空间:随机试验的所有可能结果组成的集合。 样 -
数据抽样及样本不均衡处理
2018-04-18 08:44:00(3)等距抽样:先将总体中的每个个体按顺序编号,计算抽样间隔,然后按照固定间隔抽取个体。该方法适用于个体分布均匀或呈现明显的均匀分布规律,无明显趋势或周期性规律的数据。 (4)整群... -
数据分析统计学原理第七章:抽样和抽样分布 | 我的统计学原理复习日记
2020-04-09 11:41:35样本只包含了总体的一部分,可以预见会有抽样误差。 抽样总体( sampled population):从中抽取样本的总体 抽样框( frame):用于抽选样本的个体清单 从有限总体的抽样 在从有限总体抽样时,统计学家建议采用概率... -
机器学习笔记
2020-07-20 15:19:44假定一个实例可以用列向量 x=(x1;x2;⋯ ,xn)\mathbf{x}=(x_1;x_2;\cdots,x_n)x=(x1;x2;⋯,xn)表示,每个xix_ixi代表了实例在第iii 个属性上的取值,线性回归的作用就是习得一组参数wi,i=0;1;⋯ ,nw_i,i =0... -
统计学-常用数据分析方法
2022-02-22 18:30:4501 描述统计 描述统计是通过图表或数学方法,对数据...离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教 -
样本及抽样分布
2018-06-04 21:24:45随机样本 ...这些值都不一定不相同,数目上也不一定是有限的,每一个可能的观察值称为个体。 总体中包含的个体的个数称为总体的容量, 容量为有限的称为有限总体, 容量为无限的称为无限总体。... -
机器学习数学知识积累之数理统计
2018-07-06 10:18:00数理统计 概率论是从已知分布出发,来研究随机变量$X$的性质,规律和数字特征等 数理统计以概率论为理论基础,研究怎样用有效的方法去收集...在数理统计中,最基本的研究问题的方法是:“以部分数据信息来推断整体... -
第一章 常用统计学术语
2019-10-04 07:24:42第五版前言第一版前言第一章 概论第一节 生物统计学的概念第二节 统计学发展概况一、古典记录统计学二、近代描述统计学三、现代推断统计学第三节 常用统计学术语一、总体与样本二、参数与统计数三、变量与资料四、... -
统计学:统计学概述(一)
2020-12-23 11:01:30旨在帮助大家建立起一个初步概念。 数据的统计分析主要包括两个方面的内容:一是统计描述,主要是运用一些统计指标诸如均数、标准差以及统计表和统计图等,对数据的数量特征及其分布规律进行客观地描述和表达,不... -
Nature neuroscience:大脑连接在跨哺乳物种中的保留
2020-06-25 20:47:46100多年前,Ramon y Cajal提出假设,在哺乳动物大脑连接的进化过程中,有两种力量在起作用:最大限度地降低连接成本和最大限度地提高传导速度。利用扩散张量MRI,本文作者重建了123种哺乳动物的大脑连接体。网络分析... -
统计学中数据分析方法大全!
2021-10-13 00:08:43Part1描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分...