精华内容
下载资源
问答
  • 抽样设计的主要内容
    2021-06-27 05:36:07

    抽样设计和样本抽选

    抽样设计和样本抽选

    确定样本量2

    计算样本量5

    界定和选择用于计算样本量的核心指标6

    使用样本量表格8

    使用样本量计算公式10

    使用变形的样本量公式13

    确定初级抽样单元的个数和集群规模 — 举例说明13

    确定使用什么样本15

    使用现有样本 — 方案116

    为新样本开发抽样框18

    恰当的概率抽样设计和抽样框18

    人口普查抽样框以及何时必需进行更新21

    使用新样本和进行抽样设计22

    标准细分区域的设计 — 方案224

    改造的细分区域设计 — 方案326

    简化的设计 — 不建议使用29

    如何绘制地图、拆分区域和编制住户列表30

    创建细分区域 — 抽样方案2和331

    针对MICS4样本的其他主题35

    估计变化和分组分析37

    水和厕所指标38

    加权和计算抽样误差39

    样本加权39

    计算抽样误差40

    样本抽选的技术细节42

    PPS抽样的过程 — 方案242

    PPS抽样的过程 — 方案 344

    国家案例46

    黎巴嫩案例46

    莫桑比克案例52

    抽样设计和样本抽选

    本章专业性较强,主要针对抽样人员,但同时也可供调查协调员和其他技术专家使用。本章内容将帮助您:

    确定样本量

    判断现有的样本是否可用,或者为新样本确定合适的抽样框

    为新样本进行抽样设计

    在以下方面有所认知:如果要求分地区的估计值以及水和厕所的估计值

    有代表性,其中所涉及到的样本量、估计值可靠性和调查成本

    进一步熟悉加权、估计和抽样误差

    了解pps(与规模成比例)抽样和潜在分层

    了解两个不同国家的抽样设计

    多指标类集调查(MICS)是一个抽样调查,而不是对整个目标总体来采集数据。调查中会涉及到多种调查对象:住户、15-49岁妇女、5岁以下儿童,或其他年龄段的人群。但是,被访者通常是调查户中孩子的母亲或者看护人。需要注意的是,第四轮多指标类集调查(MICS4)是一个全国性调查,需要从全国所有住户中进行抽样,而不仅仅是抽取有低龄儿童或育龄妇女的住户。

    确定样本量

    样本量是样本设计中最重要的因素,因为相对于其他因素,它对调查精度、成本和调查时长的影响更大。样本量取决于可用的资金以及对精度的要求。而后者,也就是对精度的要求,还需要考虑到估计值是只需要具有全国代表性,还是也要有分地区代表性。并且,总的样本量也与样本区域(初级抽样单位PSU)的数量以及最终集群的规模有关。因此,虽然可以借助数学公式来计算样本量,但是在确定样本量时也需考虑上述各种因素。

    获取帮助

    虽然本章内容比较详尽,但是并不是将读者只定位于专门的抽样统计学家。样本设计中很多方面都可能需要从国家统计部门内部或是统计部门以外来获取帮助。这些方面可能包括:测算样本量、构造抽样框、对多个可选的样本设计方案进行评估、运用pps抽样方法、权数计算,以及估计抽样误差。无论如何,我们都强烈建议您在样本设计阶段能得到国家统计部门的建议。

    在确定初级抽样单位(PSU)个数和集群规模时有两条一般性的经验规则:PSU个数越多越好,因为这样有助于提高地域代表性亦即覆盖面,也有助于提高可靠性;集群规模则是越小越好,这样估计值将更加可靠。

    例子:

    在一个全国性调查中,一个600个PSU、集群规模为10户的样本和一个400个PSU、集群规模为15户的样本虽然样本量都是6,000户,但是前者可以得到更为可靠的估计结果。并且,集群规模为10户优于集群规模为15户,因为集群规模越小,调查的可靠性越高。总之,在其他因素相同的前提下,我们应该尽量增加PSU个数,同时减少集群规模。

    一般来说,抽取的PSU越多,调查效果越好。但是,PSU个数的确定在很大程度上会受制于成本考虑、以及是否需要估计值分地区具有代表性(估计值的分地区代表性将在后面的章节中介绍)。交通成本是一个重要因素。如果PSU之间相距较远,且同一个调查队需要从一个地方到另一个地方开展调查(假设不是在每个PSU都聘用当地访问员),那么减少PSU个数将会显著降低整体调查成本。相反地,如果调查要求估计值具有分地区代表性,则往往不得不增加而非减少PSU个数。

    集群规模是在确定样本量时需要考虑的另一个因素。它的影响可以通过样本设计效应即deff来度量。

    样本设计效应deff是在样本量相同的情况下,实际的分层集群调查样本(在此例中为第四轮多指标类集调查)的抽样方差和简单随机样本 的抽样方差的比值。比如,如果调查中某个指标的deff计算值为2.0,就说明当样本量相同时,该调查估计值的抽样方差是简单随机抽样的两倍。之所以说小集群比大集群更为可靠,是因为deff值会随着集群中住户数的增加而增加。

    本章节末尾讲到样本量时,会给出几个确定PSU个数和集群规模的具体例子。

    简单随机取样由于成本较高,通常不在第四轮多指标类集调查(MICS4)以及其他住户调查中采

    更多相关内容
  • 科学研究设计三:抽样

    千次阅读 2017-11-17 22:18:07
    抽样

    说明

    这是Bangor University 2007年School of Sport Health & Exercise Sciences的教学讲义,大家可以在这里查看原课程的讲义

    课程目录

    为什么要看这个?

    这个在我看来,适合大学生或者刚入学的研究生学习,主要为了提高科学素养、培养科学研究的思维以及一些研究设计中要考虑的很多细节问题。虽然里面没有很多高超的方法,而且课程也是十年前的,但是里面对于科学的理解以及思考问题的思维方式确实值得刚进入科研这条不归路的人学习。

    格式说明

    1. 标题格式都按照markdown排版的,但是标题之间的关系可能没有排好,主要是参考了原课程网站的标题设计
    2. 书中一些专有名词或者大牛们说的话都没有翻译,以防止因为我的问题导致误解
    3. 名人名言和我自己的理解都是用引言格式标注的,不同的是,大牛们的话是英文,我自己的理解是中文
    4. 因为课程中有问答环节,问题我会用加粗来标识,问题的答案一般会用斜体来标识

    最后一句话

    因为本人英文水平有限,有些话翻译得可能很别扭,有能力的话建议大家去看原网址。

    这里写图片描述

    这一课是关于抽样的:抽样是什么,为什么以及如何做,以及问题是什么。 您应该按顺序浏览页面。 为了从本课中获得最大收益,无论我提出一个问题,请花几分钟时间思考一下,然后再继续。

    为什么抽样 Why do we sample?

    有时当我们收集数据时,我们只关心人们的属性(通常是)或者实际提供数据的东西。例如,在SSHES的每个模块的最后,我们收集学生对模块的评估反馈。我们的目的是要找出你,学生对课程模块的想法。理想情况下(尽管在实践中这很少发生),每个学生完成反馈表。然后我们拿这些数据进行一些简单的分析来总结数据,如计算平均数和标准偏差。然后,我们感觉到这门课程的学生对这个模块的感受。当然,这些数据不能也不能告诉我们什么是学生对其他模块的感受,或者其他学生对我们所评估的模块的看法。在这种情况下,样本是感兴趣的人群。描述样本与描述总体相同。

    然而,在大多数研究情况下,我们希望从我们的数据中学到一些比提供数据的特定个人更多的数据。例如,我们可能有兴趣描述精英运动员,久坐的人,适合的人等的属性。问题当然与参加模块的学生人口不同,这些人口往往非常庞大,不可能收集每个人的数据。因此,我们别无选择,只能获得感兴趣的人口样本。

    这里写图片描述

    当人口本身太大时,我们从人口中抽取样本,以便从其每个成员收集数据。

    推理 Inference

    当我们从一个人口中抽样时,我们并不真正对样本的性质感兴趣,而是对样本能够告诉我们的人群的的性质。 换句话说,我们想从样本数据中得出有关所有人群的推论。 这就是推理统计( inferential statistics)(如t-检验,方差分析,相关系数等)的全部内同:从中抽取样本中告诉我们抽样人群的差异(方差)或关系(在相关系数的情况下) 。

    代表 Representativess

    因此,样本必须是其人群的代表。如果不是,那么我们就不能对所有人群进行任何推断,也没有任何统计学的魔法可以使我们这样做。例如,如果我想抽样SHES学生的人数(因为我没有时间或从每个学生那里收集数据),我的样本必须代表SHES学生团体,例如:性别平衡,年龄,学习成绩,健身情况等。假设我们百分之五十的学生是男性,百分之五十是女性。如果我的样本只包括百分之三十的女性,那么它将是有偏见的,不具代表性。同样,如果我想对整个班戈大学的学生团体进行推断,那么对SHES学生的人口进行抽样就没有多大用处。 SHES的学生与班戈大学的学生在许多方面会有所不同,比如在运动和锻炼方面的健身和兴趣方面(我希望!)。所以SHES的学生不会成为班戈全体学生的代表。根据我的问题,这可能或可能不重要。例如,我可能会对描述班戈学生的政治背景感兴趣。我不认为有什么理由认为SHES学生比一般学生更有可能以这种或那种方式投票。因此,为此目的,SHES学生的样本可能是班戈大学学生的代表。但如果我有兴趣了解学生对体育锻炼的态度,我会期望SHES学生的态度与普通学生显着不同,所以在这种情况下他们不具有代表性。所以有代表性的样本的另一个方面是它们应该适合他们的目的。

    关于对整体人群的推论只有在样本准确地代表了感兴趣的人群的范围内才是有效的

    获得一个有代表性的样本 Obtaining a representative sample

    确保代表性的最明显的方法是选择一个随机样本。 通过从总体中随机选择,应该能够避免样本中的任何系统偏差。 这个看起来很直截了当,但实际上却充满了困难,正如我希望展示的那样。 样本通常被描述为随机的(特别是由学生),而事实上他们并不是那种样子。

    随机抽样 Random sampling

    随机抽样有两种方法:简单随机抽样和分层随机抽样。 我将更详细地描述分层随机抽样。 简单的随机抽样就是这样的:人口的成员是随机抽取的,通过一些程序或其他。 随机抽样的两种方法都是概率抽样的例子。 在一个简单的随机样本中,每个人都有相同的选择机会。

    在一个简单的随机样本中,每个人都有相同的选择机会

    简单的随机抽样真的很简单吗 Is simple random sampling really so simple?

    现在,简单的随机抽样并不像听起来那么简单。考虑以下抽样方法,这些方法通常被描述为随机的。

    从帽子里抽取名字 Drawing names out of a hat

    想要从研究方法课上的学生中获得N = 20的随机样本。我把他们的名字放在一顶帽子里,抽出20个。这是简单的随机抽样吗?

    采用这种方法,取决于采样的确切程序。 如果我把每个名字都从帽子里拉到一边,那么不行,这样就不会随机抽样了。 假设班上有100人。 第一个名字将有1/100的选择机会。 如果我放弃这个名字,然后再抽,第二个人只有1/99的选择机会,第三个1/98,依此类推。 被选中的几率随着越来越多的名字的抽出而增加。因此,每个人都没有相同的概率被选中。 另一方面,如果我在选择后把每个名字都放回帽子里,帽子里总是会有100个名字,所以每个名字都有相同的选择机会。 这被称为随机抽样与替换。 但是,如果我多次选择同一个名字会发生什么?

    没问题。你只要把这个名字放回帽子里,这样总有一百个可以选择!

    不能理解

    在通知栏上征求志愿者 Putting a notice on the board asking for volunteers

    这可能是学生为他们的研究项目获取样本的最常见方式。是随机抽样吗?

    这绝对不是随机的。首先,只有SHES的人可能会看到通知,所以只能吸引特定人群的成员。这可能是好的,这取决于你想回答的问题。然而,只有那些阅读布告牌的人才会看到这个(排除不那么敏锐,不那么知情的学生)。那么,那些看到的人中,只有一小部分会真正签约。所以样本最终由自选的志愿者组成。志愿者在很大程度上与一般人群有所不同:他们可能更有动力,更关心研究的内容,更需要参与以获得技能单位等。这并不意味着你不应该使用这种方法来为你的研究项目获取样本。对于大多数人来说,这是唯一可行的解决方案。但是这确实意味着你不应该把这样的样本描述成随机的。这个例子说明了随机抽样的问题。很难想象任何情况下都可能获得一个真正的随机样本,代表一般人群的参与者。无论你如何去做,最终都要由每个人选择是否参与。毕竟,研究伦理的原则要求我们给人选择参与研究的选择。

    在联盟里寻找志愿者 Asking people in the Union bar

    学生中另一种常见的方法。是随机抽样吗?

    同样也不是!除了志愿服务的问题以及不是每个人都去吧,这个方法也有潜在的实验者偏见。即使这只是一个潜意识的决定,你也许只会问那些你认为准备同意参与的人。

    阻止大街上的人 Stopping people in the High Street

    有时在民意调查和市场调查中使用,路人在街上停下来,要求提供某种数据。是随机抽样吗?

    再一次,答案是否定的,出于与最后一个例子相同的原因。你会接近一个挥舞着血溅斧头的旋转眼睛的裸体疯子,并要求他花一点时间来填写你的问卷吗?不太可能,是吗?也许是一个极端的例子,但是,可能有很多原因让你不准备在街上接近某个人。

    从电话簿中随机选择姓名 Selecting names ‘at random’ from the phone book

    那么这个方法怎么样?这可以描述为随机抽样?代表性呢?

    那么,你可以随意选择名字,这不是什么大问题。但是并不是每个人都有电话,而不是每个人都在电话簿中。所以样本只能代表在电话簿中有姓名的人群!类似的情况是从选民登记册中随机选择姓名;不是每个人都在登记册上。无论如何,做出选择你还是有志愿者的问题。尽管如此,从实际角度来看,我们可能在这里尽可能接近真正随机的,有代表性的样本。

    什么时候随机样本不具代表性 When random is not representative

    因此,我们在这里有一些经常被描述为随机的抽样方法的例子,它们要么是不随机的,要么不是真正随机的,因为每个人都有平等的参与机会。

    如果不是,则不要将样本描述为随机样本

    另外一个问题是,即使奇迹出现了,我们也能得到一个真正随机的样本,这并不意味着它将代表我们感兴趣的人群。假设我们对精英运动员的心理技能感兴趣。 我们获得一个“随机”的大学运动员样本,并测试他们的技能。 显然,他们不能说是一个有代表性的样本。 所以我们不能把我们的发现推广到给我们真正感兴趣的人群。

    另一个严重的问题是,即使我们能够获得一个真正的随机抽样,也可能不是纯粹偶然的代表。 样本可能恰好是比我们的目标人群更老,更合适,更胖或者其他任何东西。 当我们获得小样本时,这种情况的可能性更大(为什么大样本一般是首选的原因之一)。 一个方法是使用分层随机抽样的方法。

    分层随机抽样 Stratified random sampling

    分层随机抽样旨在基于感兴趣人群的已知属性,确保样本的代表性。 例如,假设我们想随机抽取一些患有冠心病(CHD)的人。 我们知道,冠心病的发病率因年龄而异。 了解冠心病的发病率随着年龄的变化而变化,我们可以选择我们的样本来考虑这个因素。 为了争辩,让我们假设从20多岁到60多岁的每个十年中冠心病的发病率如下:

    这里写图片描述

    因此,在冠心病患者中,5%的年龄在20-30岁之间,10%在30-40岁之间。 这些群体或总人口中的每一个都被称为阶层。 我做了这些数字,但可以想象,他们不是太遥远。 顺便提一句,请想一想,为什么我在60+的范围内比50-60的范围低。

    对我来说,60岁以上的冠心病患者比年轻的冠心病患者更有可能死亡。所以这个阶层的人少了

    有了这些信息,我们可以构建一个准确反映CHD人群年龄平衡的样本。对于每100位参加者,我们选择参加研究,确保5位年龄在20-30岁之间,10位年龄在30-40岁之间,20位年龄在40-50岁之间。

    采用分层随机抽样,不是每个总人口成员都有相同的被抽中机会,像简单的随机抽样一样。但是根据我们对每个阶层人员百分比的了解,任何成员被选中的概率是已知的。在这个例子中,年龄在20-30之间的被选中的概率是5/100(1/20或0.05);对于30-40岁的人来说,这是10/100(1/10或者0.10)等等。如果你考虑50-60岁成员比例最高的阶层,这应该是有意义的。他们中有更多的人,所以他们的选择概率应该大于任何其他阶层的成员。

    不过要注意的是,由于这是分层随机抽样,我们还是要随机抽取20〜30岁有冠心病,30〜40岁有此病的人群,所以我们还是要面对所有人获得一个真正的随机样本的问题。但至少我们知道样本在年龄方面不会有代表性。有一个类似的抽样方法称为配额抽样(Quota sampling)。采用这种方法,我们采用完全相同的程序,但没有从总人口的每个阶层随机抽样。因此,我们可以通过我们掌握的任何方式从每个阶层获得一个参与者的名额。配额抽样是非概率抽样的一个例子。

    非概率抽样 Non-probability sampling

    现在很明显的是,除非总人口是固定的或有限的,而且不是太大(如SHES学生的人口),以便选定任何成员的概率是可知的,否则真正的随机抽样是不可行的。 当我们抽样不知道任何成员被选中的概率时,我们正在进行非概率抽样。 实际上,这是最常用的抽样类型。 非概率抽样有三种方法:我们已经遇到的配额抽样,任意抽样(convenience sampling)和有目的抽样(purposive sampling)。

    任意抽样就是这样的:我们只要把握恰到好处的人就可以了。到目前为止,在人类和行为科学研究中最常用的取样方法是使用本科生的任意抽样。像豚鼠一样,它们相当容易获得,发生的数量相对较多,并且不要过多地抱怨参与,只要保持良好的喂养。与豚鼠不同,他们也可以通过提供某种形式的课程学分而受到诱惑。

    目的抽样涉及针对一个特定的群体,因为它是我们感兴趣的群体。例如,如果我们对精英运动员感兴趣,那么我们针对精英运动员。所以在这种情况下,参与者必须符合一些预先确定的标准。

    减员率和回应率 Attrition and response rates

    消耗,有时被称为主体死亡(subject mortality),意味着退出(而不是参与者死亡)。消耗可能导致纵向研究中的问题,在这些研究中数次从同一样本收集数据。问题是,你可以从一个(相对)随机的样本开始,但如果人们退出,它可能不会保持随机。例如,假设你正在研究健美操班参与者的态度和动机因素。你招募一个“随机”样本100,衡量他们的态度和动机,然后为他们跑健美操课程十二个星期,然后再采取措施。一开始,由于随机选择,你的态度和动机有了合理的变化,一些参与者有积极的态度,有些则不如其他人更积极。在研究过程中30%退出。可能有30%的积极态度较少,动机不如那些坚持。所以最终样本与初始样本完全不同,不再是感兴趣人群的随机表示。

    如果参与者退出,随机抽样可能不会随机抽样

    类似的问题涉及回应率。在基于问卷调查的研究中,通过某种方式(例如选举登记)选择一个相对随机的样本并将问卷打包出去是相当普遍的。通常情况下,只有少数收到包裹的人完成并退回。答复率是返回问卷的参与者的百分比。这样的研究受到了我们已经遇到的自我选择和志愿者问题的困扰,只有更有动机的人或有兴趣的人回答问卷,他们在许多方面与不选择参与者不同。

    解决方法 Solutions?

    这些抽样问题没有真正的解决办法。但是,我们所能做的就是对样本的性质严格诚实。首先,抽样程序应该总是被充分详细地描述,以便读者能够决定样本代表感兴趣的人群。只说“获得随机样本”是不够的。我们想知道它是如何获得的。其次,样本的特征也应该详细描述:他们的年龄,性别平衡,教育水平,职业,身体特征或与学习问题相关的任何事情。这样,读者可以再次确定样本的代表性。在纵向研究中,可以使用这些特征的数据来比较完成研究的退出率。如果他们之间没有明显的差异,那么退出可能没有太大的影响。

    随机抽样与随机分组 Random sampling versus random assignment to groups

    不要混淆随机抽样和随机分组。在谈到抽样时,我们只是首先讨论获得一个研究参与者的池,而不是一旦你拿到了他们就做什么。在实验性研究中,通过抽样感兴趣的人群,您通常会将参与者分配到一个或多个组,例如实验组,治疗组和对照组。这也必须随机完成,否则最终可能导致各组之间的系统差异。我们经常在学生招募他们的研究项目时看到的一个非常糟糕的实践的例子是这样的:学生正在进行一项研究,以确定运动训练对某些生化标记的影响。参加者将在跑步机上以高强度跑步一个小时,每周三次,每周三次,或者是一个没有受过训练的对照组的成员。生化指标将在研究结束时进行评估,并对两组进行比较。学生通过在招募栏上发出通知要求人们报名参加治疗组或控制组招募新人。这有什么问题?

    显然,志愿参加培训组的人比那些报名参加对照组的人可能更适合和/或更好地接受培训。因此,测试后生物化学标志物的任何差异可能是由于适应性在实验研究中,随机抽样是不够的。参与者也必须被随机分配到组开始的差异而不是由于训练所致。

    在实验研究中,随机抽样是不够的。参与者也必须被随机分到不同的组

    展开全文
  • XX公司主要工作流程设计(详)(ppt126).pptx
  • 抽样技术论文 -

    千次阅读 2020-12-24 13:18:14
    分层抽样中各层样本量的分配问题研究姓名:马艳学院:数学科学学院 班级:08(7)班 学号:08213203【摘要】近代和现代统计分析方法中,抽样法是最重要,最常用的方法之一。不论在工业生产过程的质量控制、农产量调查...

    分层抽样中各层样本量的分配问题研究

    姓名:马艳

    学院:数学科学学院 班级:08(7)班 学号:08213203

    【摘要】近代和现代统计分析方法中,抽样法是最重要,最常用的方法之一。不论在工业生产过程的质量控制、农产量调查,还是居民生活水平等方面,抽样法都显示了它的重要作用。在经常使用的抽样组织方式中,分层随机抽样以抽样误差小,抽样效果好的特点被广泛的应用于经济、资源、人口等多个方面,然而在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响。各层样本容量的确定是决定分层随机抽样效果高低、花费费用多少的关键。本文主要是通过介绍几种确定样本容量分配方法进一步加深对分层随机抽样方法的理解与应用。 【关键字】分层随机抽样 分配 样本容量 费用

    一、 引言

    在经济调查、市场调研实践、人口调查等统计抽样分析方法中,分层随机抽样以其效率相对高,费用相对少,精度高,方法灵活等优点而被人们所广泛的应用,成为近代统计分析方法中最重要,最常用的方法之一。分层随机抽样样本容量的确定可以说是:假若总的样本容量n固定,接下来的问题就是如何把这n个样本合理的分配到各层中去。在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响,这一方面是由于层的规模大小不同或在总体中所占的份额不同,另一方面是因为各层的层内方差Sh2不同,所有这些都会影响估计量的精度。因此,样本容量的分配关系到抽样调查的准确性以及抽样样本估计量的精度,因此从理论上来说研究分层抽样中各层样本量的分配问题对于抽样技术这门课程来说变得尤为重要。

    二、 问题的提出

    (一)分层随机抽样中层样本量分配的重要性

    分层抽样也叫做类型抽样,它是实际工作中最常用,最重要的抽样技术之一。分层抽样是在抽样之前,先将总体按一定的标志划分为若干个层,然后在各层内分别独立的进行抽样。由此所得到的样本就成为分层样本,分层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就成为分层随机抽样。分层抽样的实质就是在各层间做全面的调查,而在各层内做抽样调查。因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。所以,为了能有效的降低抽样误差,提高抽样效果,在分层抽样时要遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。

    在分层抽样中,解决层样本容量的分配问题,既是实施分层抽样调查的前提,又是保证抽样精度和估计误差尽可能小的关键因素。在分层随机抽样中考虑层中样本容量的分配问题就是要考虑在进行分层随机抽样调查中调查的精度和调查费用的多少的问题。即如何分配才能在费用一定时使总的精度和各层估计精度达到最高;在分层随机抽样中考虑层中样本容量的分配问题就是要考虑数据的处理问题,即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了;在分层随机抽样中考虑层中样本容量的分配问题就是要考虑各层的样本容量的大小问题,即将总体样本量n各分多少到各层中去。因此对于抽样调查者来说,若要保证抽样调查费用尽可能的低,抽样调查精度尽可能的高,则就要处理好对分层抽样中各层样本容量的分配问题。所以说分层随机抽样中层样本量分配问题在抽样技术研究中非常重要。

    (二)国内外对该问题的研究简述

    对于分层抽样中各层样本量的分配问题的研究由来已久,早在二十世纪五十年代,W.G.科克伦就在他的著作《抽样技术》中讲述了关于分层随机抽样各层样本容量的最优分配方法;在1985年,L?Kish出版的《抽样调查》一书中也介绍了分层抽样中的“元素的按比例抽样”和“不按比例抽样或最优分配”,但是这些内容都不够系统。上世纪九十年代末至本世纪初,中国的统计专家们也陆续出版了一些有关抽样技术的教材或著作,都有对国外分层抽样中层样本容量的分配方法的系统阐述。

    基于上面对分层随机抽样的方法特点以及分层随机抽样中层样本容量的分配问题的重要性的分析介绍,下面重点介绍几种确定层样本容量多少的方法,既包括单变量情况下的也包括多变量情况下的。本文的立足点就是通过介绍几种确定样本容量分配方法进一步加深对分层随机抽样方法的理解与应用。

    三、单变量情况下样本量在各层的分配

    我们由前面知道,在考虑分层抽样中层样本容量的分配问题时要考虑抽样时的费用以及抽样的精度,基于这些问题的考虑总样本量n在各层中的分配方法有以下两大种: (一)比例分配

    在分层抽样中,若各层的抽样比都相同,即fh?f,则称总样本量在各层中的分配为按比例分配(prop:proportional allocation)。此时

    nh

    Nh?nN(h=1,2,…..L)即共有L层

    其中nh为每层的样本量,Nh为每层的总量,的样本量。

    n

    为分层抽样抽得的样本总量,

    N为总

    该种方法最早是由Bowley于1926年提出的。由式

    nhNh?nN可以看出,任何一层中

    的样本被抽中的概率均为fh?f,由此可见,比例分配的分层抽样是一种等概率抽样。这种样本也成为自加权样本。因为我们可以从下面的比例分配情况下总体均值Y与总体总值Y的估计量的表达式可以看出:

    总体均值Y的估计量的表达式为:

    LLh yprop??Wh?1yh??h?1nhn?(1nhnh?yi?1hi)?1Lnhhiy??nh?1i?1?y

    总体总值Y的估计量的表达式为:

    ?Y?Nyprop? propnNLnhhi??yh?1i?1?Nny?1y f因此按比例分配的分层随机样本,估计量的形式特别简单而且它还有一个很优良的性质就是估计量还是无偏的,可以大大简化调查以后的数据处理问题,特别是对于大规模的多变量调查,自加权样本的优点就更明显了。

    比例分配法是在实际工作中最常用的方法。由于它所抽取的样本容量考虑了各层的合理权重Wh,使得综合计算的样本指标能切合实际情况,增强了抽样估计的效果。

    (二)最优分配

    1、一般情形

    在分层随机抽样中,对于给定的费用,使估计量的方差V?yst?达到最小,或者对于给定的估计量方差V,使得总费用达到最小的各层样本量的分配就称为最优分配(opt:optimum allocation)。由于考虑了费用因素,所以这种方法又被称为经济分配法。

    由上述定义可以看出,在最优分配当中,不仅要考虑抽样调查的精度,而且把费用也纳入了考虑的范围之内,这在实际的抽样调查工作中是相当重要的。对于该种分配方法,一个值得考虑的问题就是费用函数该如何定义,在这里为了研究的方便,主要选择费用函数为线性的。即总费用函数为:

    L CT?c0??ch?1hnh

    其中,CT为总费用;c0为与样本量无关的固定费用;ch为在第h层中抽取一个单元的平均费

    用。

    L从总费用函数的公式CT?c0?nh?h?1Lchnh中可以看出,只有?chnh是与各层样本量

    h?1有关的费用。最优分配的目标是同时权衡费用和方差两个指标,在方差给定时使费用尽

    可能的小,或在费用给定时使方差尽可能的小。因此利用Cauchy-Schwarz不等式,可以得出(1)在给定方差V?yst?的情况下,使得总费用最小的层样本量的个数的确定公式为:

    LL(?WhSh n?h?1ch)?(?WhSh/h?1Lch)

    V??Wh?1hSh/N2(2)在给定总费用CT的情况下,使得方差V?yst?最小的层样本量的个数的确定公式为;

    L(CT?c0)?(?WhSh/ n?h?1Lch)

    ?Wh?1hShch 最优分配的结果表明:nh与Nh,Sh成正比,而与ch成反比。从而得出下面的行动准则:倘若(1)第h层所含有的单元数较多;(2)第h层内部单元的差异程度较大;(3)第h层每个样本所需的费用较低,则对第h层需要抽取一个含量较多的样本。

    2、特殊情形—内曼最优分配

    上面所讨论的最优分配是一般情况下的最优分配,如果假定各层的单位抽样费用相等,即ch?c,那么费用函数就变为CT?c0?cn 。此时分配

    nhn的表达式将大大的简化:

    nh n?WhShL?NhShL?Wh?1hSh?Nh?1hSh

    这种形式的分配就被称为内曼最优分配,简称为内曼分配。又称适度法,该种方法是最优分配的一个特例。

    事实上,这一结论早在1923年就由俄国学者楚波罗给出了证明,但一直没有引起注意,直到1934年内曼重新给出它的证明,它才逐渐引起人们的重视,因此这种形式的最优分配常被称为内曼最优分配。

    内曼最优分配法在考虑各层合理权重的情况下,又使抽样方差减小到可能范围,这种分配方法在使用时比比例分配法又前进了一步。

    (三)最优分配与比例分配的精度比较

    分层随机抽样中,依照定义,最优分配时估计量的精度比比例分配时估计量的精度高,但比例分配是自加权的,计算比较方便。而内曼分配考虑到层权和各层变异程度的因素,会使抽样精度大大提高,两者各有优点。但是在实际工作中具体选择哪种分配方法,则此时要对两种方法的估计量的精度进行一下比较。

    我们知道比例分配时估计量的方差为: Vprop(yst)?1?fnS2?1n?S?21N?S

    2而内曼分配时估计量的最小方差为:

    Vopt(yst)?1nL(?WhSh)?h21N?S

    2LL1?21?22V(y)?V(y)?S?(WS)?W(S?S)?0 ??optsthhhh??因此:propstn?h?nh若诸Sh 很接近,则比例分配与内曼最优分配的精度相差无几。只有当各层的Sh 相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的Sh 的离散程度加以分析,以决定是采用比例分配还是最优分配。

    特别地,如果各层的容量、层内差异大小及层内平均每单元的抽样费用十分接近时,也可直接按等额方法分配总样本量。此时nh?nL。

    (四)实际抽样中分配方法的选取原则

    内曼分配是一般最优分配的特例,按比例分配又是内曼分配的特例,所以,一般最优分配是样本容量分配的通用规则。由于不同的分配规则引起的层样本容量不同,产生的抽样效果也会有差别,所以如果分配方式不当,就会引起抽样效果的损失。选取分配方法,应该考虑具体的调查目的,调查目的的不同,样本容量的选取规则也有差别。

    1、调查目的是取得总体特定值的情况

    在这种情况下,分层实际上是为了改进这些特定值估计量的效率。现实中采用分层抽样大多数是为了达到这一目的。

    在实际工作中,比例分配法最常用。由于它所抽取的样本容量考虑了各层的合理权重,

    展开全文
  • 第十章审计测试中的抽样技术.pptx
  • 大数据环境下抽样调查课程的教学改革与实践.docx
  • 数理统计的试验设计与分析介绍
  • 一、抽样评议 二、网上检测 三、答辩要求 四、“百篇”评选 一、选题背景和研究意义 二、主要研究内容 三、研究过程 四、研究成果及创新点 五、导师评语
  • 以CD音质的Wave文件来说,如抽样分辨率为16bit,抽样频率为44.1kHz,声音模式为立体声,那么存储1秒钟CD音质的Wave文件,必须要用掉16bit×44100×2=1411200bit,也就是相当于1411.2kbit的存储容量,存储介质的负担很大。...
  • UPS的测试一般包括稳态测试和动态测试和常规测试三类。稳态测试是在空载、50%额定负载以及100%额定负载条件下,测试输入端...专项测试可用抽样的方式进行,其内容有:  (1)在额定负载为超前及滞后两种情况下,观测UP
  • 目前,FIR滤波器的设计方法主要是建立在对理想滤波器频率特性做某种近似的基础上的。这些近似方法有窗函数法、频率抽样法及最佳一致逼近法。本文介绍了一种在LabVIEW平台下用窗函数法快速设计FIR数字滤波器的方法。
  • 本文档是基于C/C++的通信系统,来实现对输入的即将要编码的值,采用A律13折线进行pcm编码与解码。
  • 本文主要讲解基于SPCA751A的MP3播放器设计
  • 本文介绍的是数据与抽样分布的相关内容。 目录专栏/前文链接前言 前言 大数据时代是否意味着抽样时代的终结?答案是否定的。事实上,正是因为这个大数据时代无时无刻不在涌现着大量质量不一,相关性各异的数据,才...

    专栏/前文链接

    本文为笔者《数据分析与数据科学》专栏中的第二篇,
    专栏的链接在这里.
    第一篇博文的链接在这里.
    希望本文与此专栏能够对接触,学习和研究数据科学的各位有所帮助。
    本文介绍的是数据与抽样分布的相关内容。

    前言

    大数据时代是否意味着抽样时代的终结?答案是否定的。事实上,正是因为这个大数据时代无时无刻不在涌现着大量质量不一,相关性各异的数据,才更加增强了人们对于抽样的需求。抽样能够有效地操作一组数据,并且可以最小化偏差。

    传统统计学总是假想一个总体遵循一个潜在的未知分布,并重点关注如何对总体运用一些基于强假设的理论。而现代统计学则将关注点转移到了抽样数据及其经验分布上,即关注我们手上所拥有的有效数据并对其进行分析。所以一般而言,数据科学家并不需要为总体的理论本质而操心,而是应聚焦于抽样过程和手中的数据。但在某些过程中,我们仍可以通过对总体的理解来获得一些额外的洞见。

    1.抽样与偏差

    1.1 随机抽样

    总体可以指一个大量确实存在的数据集,也可以指一个理论上或构想得到的数据集;而样本就指的是大型数据集中的一个子集。抽样的方法有很多,所有方法的核心都是随机抽样

    简单随机抽样的过程中,以均等的机会从总体的所有可用成员中抽取并得到一个样本。随机抽样得到的样本称为简单随机样本。抽样可以是有放回的,即可以在每次抽取后将所抽取的观测值放回到总体中,并可被随后的抽取重新选中。抽样也可以是无放回的,即一个观测值一旦被抽取,就不会参与随后的抽取。

    分层抽样则是先依据一种或几种特征将总体分为若干个子总体,每一子总体称作一个层;然后从每层中随机抽取一个子样本,这些子样本合起来就是总体的样本。在分层抽样中,需要对不同的层赋予不同的权重,以生成对等的抽样规模。

    系统抽样又称等距抽样,是简单随机抽样的变种。在系统抽样中,先将总体编号,并计算出抽样距离d=N/n,式中N为总体记录总数,n为样本容量。再在编号较小的记录中抽取一随机数,作为样本的第一条记录,接着等距取出接下来的记录,直至抽取够n个记录为止。

    常用的随机抽样方法除了简单随机抽样、分层抽样、系统抽样之外还有整群抽样、多阶段抽样等方法,在此不做过多介绍。

    1.2 偏差

    一般情况下,数据质量对模型的影响是要大于数据规模的影响的。数据质量不仅涉及数据的完整性、格式的一致性、整洁性以及单个数据点的准确性,其还涉及到抽样的代表性这一概念,若样本是以某种有意义的非随机方式选取的,那它就失去了代表大规模总体的能力,就会导致抽样存在样本偏差。但几乎任何样本都无法准确地表示总体,即便是随机抽样也做不到。一旦差异具有意义,就会发生样本偏差。

    在网络社交媒体或电商平台上,我们经常能够看到一些对于餐馆、酒店或咖啡馆等的评论。这些评论很容易产生偏差,因为发表评论的人并非是随机选取的。撰写评论的人总是基于一定的出发点的,这将导致自选择偏差(self-selection sampling bias)的产生。发表评论的人大多是获得了不好的体验的人或是可在评论中获取利益的人。但在对比类似的商家时,尽管自选择样本或许并未可靠地表明事情地真实状态,但它们依然可作为可靠的依据,因为对比的双方都存在同样的自选择偏差。

    统计偏差是一些系统性的测量误差或抽样误差,它是在测量或抽样过程中产生的。我们应严格区分由随机选取所导致的误差和由偏差所导致的误差。虽然无偏过程也会产生误差,但所产生的误差是随机的,并不会强烈地趋于某一方向;而有偏过程的结果中,不仅存在着随机出差还存在着偏差。

    偏差有多种形式,它可能是可以观察到的,也可能是不可见的。如果通过参考基准或实际值等方法发现结果确实存在偏差,这通常表明我们指定了不正确的统计或机器学习模型,或是漏掉了某个重要的变量(特征)。

    选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择地选取数据的操作,其包括自选择偏差样本选择偏差。自选择偏差是指解释变量不是随机的,而是个体选择的结果,而这个选择的过程会使对主效应的估计产生偏差(例如上注释)。样本选择偏差是指样本选择不是随机的,使样本不能反映总体的某些特征,从而产生偏差。

    如果我们指定一个假设,并使用设计良好的实验去验证该假设,理论上就能得到具有高度置信度的结论。但事实上往往并非如此。不断地“拷问”数据会使我们无法得知我们所探究出的数据的模式是真实的还是仅仅是数据窥探(data-snooping)的结果。因为通过实验验证一个假设所得到的现象,与通过研究判断可用数据而发现的现象之间存在着很大的差别。

    例如,如果有一个人说他能够保证做到抛硬币连续十次正面向上,并且他真的做到了,那我们的第一感觉就是他可能拥有某种特异功能,因为抛硬币连续十次正面向上的概率仅有大约千分之一。但如果我们同时让数万人一起抛硬币十次,那么就很可能有不止一人能够做到连续十次正面向上,而我们也不会感觉他们拥有什么特殊能力,这只像是运气使然。

    这就是被称为大规模搜索效应的问题——由于我们不断重复的数据建模,或是使用大量的预测变量对数据建模所导致的偏差或非可重现性。为了避免这一问题,我们就需要使用验证集去验证结果的性能,即用样本外的数据对通过使用样本得到的结果进行测试。

    注:数据窥视偏差(参考网站)(https://www.weivol.cn/2018/03/data-snooping-bias/).数据窥视( data-snooping )是指从数据中发现统计上显著但实际并不存在的关系,是金融分析里面非常普遍和严重的一个问题。在金融分析中,因为我们可以对同一个数据集进行无数次的实证研究,如果有足够的时间、足够的尝试和足够的想象力,我们可以不需要考虑经济上的合理性而直接寻找金融变量统计上的关系,这样我们几乎能从任何数据集中推断出任何规律。通过数据窥探,我们可以让数据分析结果更显著来支持自己的立场,这些行为往往让实验无法重复……

    1.3 趋均值回归

    趋均值回归是指对同一变量做连续预测时出现的一种现象,即在极端观测值之后,会出现更趋向于中心的观测值,这表明对极值给予特殊的意义和关注时,会导致某种形式的选择偏差。例如,一个人抛硬币100次,结果是99次正面向上,这就是一个极端测量值,但如果让这个人继续扔下去,正面向上的概率就会不断减小,趋于均值50%。均值回归的意义主要在于金融学方面,在此不作过多介绍。

    *大数定律:依概率收敛。

    1.4 数据规模:大or小?

    在这个大数据时代,有时数据规模越小,结果反而越好。在抽样上多费些功夫,不仅可以减小偏差,还能让我们更关注于数据探索和数据质量。例如,在缺失的数据和离群值中,可能包含了一些有用的信息。要从上百万条记录中查找缺失值或评估离群值,成本可能会很高,但是仅对数千条记录的样本,这些就是完全可行的了。

    那么,在何种情况下我们需要大量的数据呢?

    用搜索引擎的查询检索就能很好的说明大数据的价值。当我们使用搜索引擎进行查询时,其数据规模非常之大,并且有效数据十分稀疏。但只有积累了巨大的数据量之后,搜索引擎才能更好地返回有效的搜索结果,其积累的数据越多,查询结果就越好。直接返回一个查询者真正想要的结果可能需要上千次相关记录的积累,但获取这样相关的记录可能需要处理数亿万条数据,在处理这样的问题时,随机抽样是不起作用的。

    2.抽样分布与自助法

    2.1 抽样分布

    抽样分布是指从同一总体中抽取多个样本时,一些样本统计量的分布情况。样本是含有总体的丰富的特征的,我们在解决不同的问题时,需要用到总体不同的特征,这时就需要构造不同的有关样本的函数,这就是样本统计量,常用的有样本均值、样本方差等,这样不同的函数可以反映总体的不同的特征。统计量的性质以及使用某一统计量作推断的优良性,取决于其分布。所以抽样分布的研究是统计学中的一个重要课题。在数据科学中,只要数据易于获取,那么我们一般会使用尽可能多的数据去计算估计量或拟合模型,而非总是从总体中抽取更多的样本。

    注:区分单个数据点的分布,数据分布(单个值在数据集中的频数分布)与样本统计量的分布,抽样分布(一个样本统计量在多个样本或重抽样中的频数分布)是非常重要的。

    通常,样本统计量的分布要比数据本身的分布更加规则,分布的形状更趋向于正态分布曲线,且统计所基于的样本规模越大,这种性质就越明显。此外,样本的规模越大,样本统计量的分布就越窄。

    2.2 中心极限定理

    通俗易懂的讲,中心极限定理就是指样本的一种统计值约等于总体的一种统计值。并且不管总体是什么分布,任意一个总体的样本统计值都会围绕在总体的统计值周围,并且这多个统计值会呈正态分布。它是支持假设检验和置信区间的底层机制,因此其在统计学中占有相当重要的地位。但在数据科学中,自助法(bootstrap)几乎适用于任意场景,因为使用这种方法,所以我们很少正式地使用假设检验和置信区间,因此中心极限定理并非处于数据科学实践的中心位置。

    2.3 标准误差

    标准误差是一种单变量度量,它总结了单个统计量抽样分布的变异性。标准误差可以根据样本值的标准偏差s和样本规模n使用基于统计学的方法进行估计,公式如下:

    标 准 误 差 = s n 标准误差=\frac{s}{\sqrt n} =n s

    标准误差会随样本规模的增大而减小。有时,我们称标准误差与样本规模间的关系为n的平方根规则。如果要使标准误差减小一半,那么样本规模应该扩大四倍。

    标准误差计算公式的合理性源于中心极限定理。事实上,我们不必依靠中心极限定理来理解标准误差。我们可以通过采集新样本的方法来估计标准误差,但这种方法通常不可行并且存在着很大的浪费。其实,我们完全不需要抽取新的样本,而是使用自助法进行重抽样。在现代统计学中,自助法已经成为估计标准误差的标准方法。自助法几乎适用于所有的统计量,它不依赖于中心极限定理或其他的分布假设。

    注:与数据分布和抽样分布同样,不能将标准偏差标准误差混为一谈。前者测量的是单个数据点的变异性,而后者测量的是抽样度量的变异性。

    2.4 自助法

    要估计统计量或模型参数的抽样分布,一个简单而有效的方法是,从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型。这一过程被称为自助法(bootstrap)。自助法无须假设数据或抽样统计量符合正态分布。换句话说,自助法就是将原始样本复制成千上万次,得到一个假想的总体,其中包括了原始样本中的全部信息,只是规模更大。然后我们从这一假想总体中抽取样本,用于估计抽样分布。而在实践中,不必真地多次复制样本,只需在每次抽取后将观测值再放回总体中即可。这一方式有效地创建了一个无穷的总体,且其中任一元素被抽取的概率在各次抽取中保持不变。

    自助法也可用于多变量数据,这时该方法使用数据行作为抽样单元。我们可以在自助数据上运行模型,估计模型参数的稳定性或变异性,或是改进模型的预测能力,比如Bagging方法(自助法聚合,装袋方法)。在此不作过多介绍。

    需要注意的是,自助法并不补偿小规模样本。它不创建新的数据,也不会填补已有数据集中的缺口。它只会告知我们,在从原始样本这样的总体中做抽取时,大量额外样本所具有的行为。

    2.5 置信区间

    置信区间可以帮助我们了解一个样本估计量中潜在的误差情况。使用单一数值呈现的估计量被称作点估计,这很少会让人彻底信服;而置信区间则是区间估计,即使用一个范围而不是单一的值去表示估计量。一种对置信区间比较通用的理解是,在采用类似抽样过程的情况下,样本统计量的x%置信区间,表明该区间平均在x%的情况下包含类似的样本估计量。

    置信区间所给出的百分比被称为置信水平置信水平越高,置信区间越宽。此外,样本规模越小,即不确定性越大,估计量的变异性越大,置信区间也就越宽。如果要在数据更少的情况下增加置信度,那么我们必须让置信区间足够宽,以确保捕获真实值。也就是说,置信水平高并不代表对估计量预测的更加精确,而是指估计量在置信区间中的可能性更高,也就是置信区间越宽。置信,本身代表的就是估计量落在区间的可能性。

    对数据科学家而言,置信区间是一种了解样本结果可能的变化情况的工具,我们可以通过置信区间来了解某个估计量的潜在误差情况,由此确定是否需要更大的样本。

    3.正态分布

    呈钟形的正态分布(Normal distribution)是传统统计学中的一个标志性概念。由于样本统计量的分布通常呈现出正态分布的形状,这使得正态分布已成为一种推导样本统计量近似分布的数学公式的强大工具。

    若随机变量x服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度函数为

    f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^2}} f(x)=2π σ1e2σ2(xμ)2

    则称这个随机变量为正态随机变量,正态随机变量服从的分布就称为(一维)正态分布。多维(多元)正态分布的定义类似,不再做过多介绍。有关正态分布的具体介绍和其他性质可自行查阅。

    对正态分布的一个常见误解是,该分布之所以被称为正态分布,是因为其中大部分数据符合正态分布,即数据值是正态的。然而,大多数原始数据通常并不是正态分布的。正态分布这一名词是源于很多统计量(包括误差)在抽样分布中是正态分布的。即使如此,在数据科学项目中,只有当经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。

    均值为0,标准偏差为1的正态分布被称之为标准正态分布。在标准正态分布中,x轴的单位为距离均值的标准偏差。为了使数据能够与标准正态分布做对比,我们需要将数据值减去均值,然后除以标准偏差。这一过程被称为归一化标准化。我们称转化值为z分数,正态分布有时也被称为z分布

    QQ图(Quantile-Quantile plot)用于可视化地确定样本与正态分布间的近似度。QQ图对z分数从低到高进行排序,并将每个值的z分数绘制在y轴上。x轴的单位是该值的正态分布所对应的分位数。由于数据是归一化的,所以单位的个数对应于数据值与均值间的距离是标准偏差的是多少倍。如果数据点大体落在对角线上,那么可以近似地认为样本符合正态分布

    4.长尾效应

    尽管正态分布在统计学历史中具有非常重要的地位,但是数据通常并不符合正态分布,这与其名称实际上是不太相符的。虽然正态分布非常适用于误差和样本统计量的分布,但是它并未表示出原始数据的特性,有时数据的分布会是高度偏斜的,有时数据的分布会是离散的。对称或不对称的分布都可能具有长尾效应。数据分布的尾部,对应着数据中的极值,即极大值和极小值。

    Nassim Taleb提出了黑天鹅理论,该理论预测异常事件(如股市崩盘)发生的可能性远大于正态分布的预测。
    长尾效应(Long Tail Effect),“头”(head)和“尾”(tail)是两个统计学名词。正态曲线中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看,大多数的需求会集中在头部,而这部分我们可以称之为流行,而分布在尾部的需求是个性化的,零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。

    相比于我们期望数据符合正态分布的情况,我们更趋向于观测到一些极值,即数据在中部是正态的,但是具有更长的尾部。如果只是假设数据符合正态分布,这可能导致对极端事件产生错误的估计。

    5.t分布

    由于在实际工作中,往往总体方差是未知的,我们需要用样本方差作为总体方差的估计值,t分布(t-distribution)家族就由此应运而生了,家族中的每个成员根据样本规模的不同而有所不同。样本规模越大,t分布就越趋于正态分布形状。

    假设x服从标准正态分布N(0,1),y服从 χ 2 \chi^2 χ2(n)分布,那么 z = x y / n z=\frac{x}{\sqrt {y/n}} z=y/n x的分布称为自由度为n的t分布,记为 z ∼ t ( n ) z∼t(n) zt(n)。其分布密度函数为:

    f z ( x ) = Γ ( n + 1 2 ) Γ ( n 2 ) n π ( 1 + x 2 n ) − n + 1 2 f_z(x)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac n 2)\sqrt{n\pi}}(1+\frac{x^2}{n})^{-\frac{n+1}{2}} fz(x)=Γ(2n)nπ Γ(2n+1)(1+nx2)2n+1

    6.二项分布

    二项分布(Binomial Distribution)在建模中十分重要,因为它能够表示决策的基本情况。它指在多次二项实验伯努利试验)中,成功次数的分布。实验对于理解二项分布至关重要,二项实验是一种具有两种可能结果的实验,其中一种结果的概率为p,另一种结果的概率为1-p。当试验次数n很大并且p不接近于0(或1)时,二项分布可使用正态分布近似。

    一般地,如果一个随机变量x服从试验次数为n,一次实验成功(此处的成功是指一次实验的输出为我们感兴趣或说想要的结果)的概率为p的二项分布,我们记为 x ∼ B ( n , p ) x∼B(n,p) xB(n,p)。n次试验中正好得到k次成功的概率由概率质量函数给出:

    P { X = k } = C n k p k ( 1 − p ) n − k P\{X=k\}=C^k_np^k(1-p)^{n-k} P{X=k}=Cnkpk(1p)nk

    二项分布的均值是 n p np np,也可以将均值看作是n次实验的期望成功次数。

    二项分布的方差是 n p ( 1 − p ) np(1-p) np(1p)。如果实验的次数足够多(尤其是当p接近于0.5的时候),二项分布几乎等于正态分布。事实上,因为计算大规模样本的二项概率对计算能力的要求很高,所以大多数统计程序会使用具有一定均值和方差的正态分布给出近似计算

    7.泊松分布及其相关分布

    7.1 泊松分布

    泊松分布(poisson distribution)是一种常见的离散概率分布,其概率函数为:

    P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λkeλ

    泊松分布指的是单位时间或单位空间内事件数量的频数分布。 λ \lambda λ指的是单位时间或单位空间的事件发生率。泊松分布的期望和方差均为 λ \lambda λ当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似其中 λ \lambda λ为n×p。泊松分布可以通过对很多单位抽样,告诉我们单位时间或单位空间内事件的分布情况。

    7.2 指数分布

    指数分布(Exponential distribution)是一种连续概率分布,它可以用来表示独立随机事件发生的时间间隔。它所使用的参数 λ \lambda λ与泊松分布一样。若随机变量x服从参数为λ的指数分布,则记为 x ∼ E ( λ ) x∼E(\lambda) xE(λ),其概率密度函数为:

    f ( x ) = λ e − λ x ( x > 0 ) f(x)=\lambda{e^{-\lambda x}}(x>0) f(x)=λeλx(x>0)

    在针对泊松分布或指数分布的模拟研究中,一个关键假设是速率 λ \lambda λ在所考虑的时间周期内是保持不变的。从总体上看,这一假设很少是合理的。例如,公路或网络上的流量会随一天中的不同时段或一周中的不同日子而变化。但是,我们可以将时间或空间切分为几乎同等的几个部分,这样就可以在其中做分析或模拟。

    7.3 韦伯分布

    在某些情况下,事件发生率并不能随时间的变化而保持恒定。如果事件的变化周期远大于事件在一般情况下的发生间隔,那不会出现问题;可是,若事件发生率在每个间隔中也会发生变化,那么指数分布或泊松分布就不再有用了。例如在机械故障问题中,机器发生故障的风险会随着时间的增加而增大,这时就会出现这种情况。

    韦伯分布(Weibull distribution)是指数分布的一种延伸,它通过指定形状参数 β \beta β,允许事件发生率产生变化。该分布的第二个参数表示的是特征生命,也被称为比例参数,用 η \eta η表示。其概率密度函数为:

    f ( x ; η , β ) = β η ( x η ) β − 1 e − ( x / η ) β ( x > 0 ) f(x;\eta,\beta)=\frac{\beta}{\eta}(\frac{x}{\eta})^{\beta-1}e^{-(x/\eta)^\beta}(x>0) f(x;η,β)=ηβ(ηx)β1e(x/η)β(x>0)

    后记

    以上便是“数据与抽样分布”的全部内容,包括了统计学中抽样与分布的一些基础知识的简介还有数据科学中抽样方法的简要介绍。对本文介绍的相关内容感兴趣或是想要深入研究的朋友可参考其他博文,本文仅是一个简要的介绍和整理。

    在最后,希望本文能够帮助到各位阅读的朋友,也请大家多多关注,笔者会在后续介绍更多有关数据科学的内容以及使用python等语言进行数据分析的方法。

    展开全文
  • 使用分层随机抽样技术从研究区域中选择受访者。 主要和次要来源都用于收集数据。 在458名目标受访者中,有416名完成了调查问卷,答复率为90.82%。 在分析问卷的答复时,使用了描述性统计数据。 检验假设时使用了两...
  • 课程设计:通信系统课程设计
  • 基于MATLAB的模拟信号数字化系统的研究与仿真 通信原理课程设计模拟信号数字化系统的研究与仿真 1基于 MATLAB 的模拟信号数字化系统的研究与仿真摘 要本文研究的主要内容是《通信原理》仿真实验平台的设计与实现---...
  • 2PSK和2DPSK调制解调仿真系统设计.pdf2PSK和2DPSK调制解调仿真系统设计.pdf2PSK和2DPSK调制解调仿真系统设计.pdf2PSK和2DPSK调制解调仿真系统设计.pdf2PSK和2DPSK调制解调仿真系统设计.pdf2PSK和2DPSK调制解调仿真...
  • Chapter5 交互设计测试与评估 第一章 为什么要开展测试与评估 用户测试:请目标用户使用产品来完成任务,观察并记录用户使用产品的整个过程. 用户测试的定义:也被称为产品可用性测试,指特定的用户在特定的使用...
  • 基于MATLAB的频谱分析仪设计.doc
  • 小区智能化系统施工组织设计方案
  • 基于matlab的频移键控的调制解调系统设计.doc
  • 通信原理课程设计PAM调制与解调系统的MATLAB实现及性能分析
  • 基于Matlab的脉冲编码调制(PCM)系统设计与仿真.doc
  • 抽样技术的课件,来自于浙江财经学院数统学院
  • 基于Matlab的脉冲编码调制(PCM)系统设计及仿真课程设计(论文)任务书信息工程 学 院 通信工程 专 业 14-2 班课程设计(论文)题目 脉冲编码调制(PCM)系统设计...四、课程设计(论文)内容要求:1.本课程设计的目的(...
  • 学前教育设计研究方法,模拟考试题.doc
  • 1.软件设计的任务与目标 软件设计的任务:根据 SRS 提出的系统目标,设计出软件系统的体系结构、接口、数据结构和处理流程,形成软件的具体实现方案,并撰写 SDS。 软件设计目标:正确性、健壮性、灵活性、可重用性...
  • MP3压缩音乐的方式是通过一个运算法则,去掉声音中高频与...以CD音质的Wave文件来说,如抽样分辨率为16bit,抽样频率为44.1kHz,声音模式为立体声,那么存储1秒钟CD音质的Wave文件,必须要用掉16bit×44100×2=1411200
  • 那么我们在设计抽样策略时,主要考虑在不对系统造成明显性能影响的情况下,以在日志保留时间窗内充分利用存储空间的原则来实现抽样策略。 原文地址:http://blog.didispace.com/spring-cloud-starter-dalston-8-6/ ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,035
精华内容 6,414
关键字:

抽样设计的主要内容