精华内容
下载资源
问答
  • §1.1.5 承担可行研究工作单位和法人代表 7 §1.1.6 研究工作依据 7 §1.1.7 研究工作概况 7 §1.2 可行研究结论 7 §1.2.1 市场预测和项目规模 8 §1.2.2 原材料、燃料和动力供应 8 §1.2.3 厂址 8 §...
  • MBA智库对3σ原则的描述: σ代表标准差,μ代表均值 样本数据服从正态分布情况下 数值分布在(μ-σ,μ+σ)中概率为0.6826 数值分布在(μ-2σ,μ+2σ)中概率为0.9544 数值分布在(μ-3σ,μ+3σ)中概率为0....

    MBA智库对3σ原则的描述:

    σ代表标准差,μ代表均值

    样本数据服从正态分布的情况下

    数值分布在(μ-σ,μ+σ)中的概率为0.6826

    数值分布在(μ-2σ,μ+2σ)中的概率为0.9544

    数值分布在(μ-3σ,μ+3σ)中的概率为0.9974

    可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

    在python中实现

    #用numpy随机生成100个服从正态分布的随机数
    num=np.random.randn(100)
    #随机插入两个异常值进去,此时num.shape[0]==102
    np.apend(num,[10,20])
    
    #设定法则的左右边界
    left=num.mean()-3*num.std()
    right=num.mean()+3*num.std()
    
    #获取在范围内的数据
    new_num=num[(left<num)&(num<right)]
    new_num.shape
    #结果为100,已经剔除了刚开始插入的两个异常值
    
    展开全文
  • 2.样本:根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作样本,如从糖尿病患者中随机抽取的有代表性的一组患者构成样本。3.同质:严格地讲,除了实验因素外,影响被研究指标的非实验因...

    (一)统计学中的几个基本概念

    1.总体:根据研究目的确定的、同质的全部研究对象(严格地讲,是某项观察值的集合)

    被称作总体。如研究2008年中国60岁以上的老人血清总胆固醇含量,测定值的全部构成了一个总体。

    2.样本:根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作样本,如从糖尿病患者中随机抽取的有代表性的一组患者构成样本。

    3.同质:严格地讲,除了实验因素外,影响被研究指标的非实验因素相同被称为同质。

    但在人群健康的研究中有些非实验因素是难以控制或未知的,如遗传、营养、心理等。因此,在实际研究工作中,对被观测指标有影响的、主要的、可控制的非实验因素达到相同或基本相同就可以认为是同质。

    4.变异:在同质的基础上被观察个体之间的差异被称作变异。如同性别、同年龄、同地区、同体重儿童的肺活量有大有小,我们称之为肺活量的变异。

    5.参数:总体的统计指标称为参数,如通过普查得到中国25岁以上的成年人高血压患病率为参数。

    6.统计量:样本的统计指标称为统计量。如用随机的方法抽出一部分地区25岁以上的人进行体检,计算的患病率则为统计量。

    7.误差:观察值与实际值的差别为误差。观察过程中由于不认真仔细,造成错误地判断、记录或录入计算机所致的观察值与实际值之差为过失误差;仪器若未经校准,使观察值统一的都偏低或偏高则为系统误差;由于偶然的因素使同一个样品的测定值在不同的观察者之间、相同观察者的若干次观察值之间不完全相同。则被称作随机测量误差;从同一总体中抽样,得到某变量值的统计量和总体参数之间有差别,被称为抽样误差。

    8.概率:描述随机事件(如发病)发生可能性大小的度量为概率,常用P表示。P值的范围在0和1之间,P≤0.05或P≤0.0l的随机事件,通常称作小概率事件。

    9.变量及变量值:观察对象的特征或指标(如身高)称为变量。测量的结果被称为变量值(如身高值)。

    展开全文
  • 既然,抽样目的是通过对一部分被选择的样本来推断总体,就要求我们抽取的样本具有能够代表总体质量特征性质,也就是抽样的代表性。举个例子,如果我们要研究一个城市男性平均身高,我们在抽样时候,可以去...

    b337cafe4a92c34e6e264f5ca8d367b2.png

    所谓抽样,就是从我们需要研究的所有目标群体中,按照某种原则,挑选出一定量的样本,用他们的研究结果,代表目标群体整体结果。既然,抽样的目的是通过对一部分被选择的样本来推断总体,就要求我们抽取的样本具有能够代表总体质量特征的性质,也就是抽样的代表性。举个例子,如果我们要研究一个城市男性的平均身高,我们在抽样的时候,可以去抽取这个城市所有男性篮球队员来代表吗?显然是不可以的,因为篮球队员的身高普遍较高,不具有随机代表性。

    0292c4ca784aea50f59d622753b07cde.png

    为此,我们就要采用合适、合理的,能够使样本更具有代表性特征的抽样方法来抽取样本。

    抽样方法从理论上看,有以下这样的分类方式:

    5f8a7d8eb25c08a05c0fab0be39b8bd4.png

    随机抽样: 在随机抽样中,总体中的每个个体都有相等的被选中的机会,给了我们最好的机会去创造一个真正代表总体的样本。

    非随机抽样:在非随机抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果。

    在之前的文章《定量研究中的抽样问题(1)- 随机抽样介绍》中,我们已经给大家介绍过了随机抽样的几种常见方式。该篇文章里,我们重点来说非随机抽样的几种方式:

    1、任意抽样:也可以叫做便利抽样、方便抽样或者偶遇抽样。顾名思义,这个抽样方法是以便利为原则的,所以带有很大的偶然性和随意性。任意抽样是所有抽样技术中花费最小的(包括经费和时间),常见的街头随访或拦截式访问、邮寄式调查、杂志内问卷调查等都属于便利抽样的方式。这种方法能及时获得信息数据,省时省力,能为非正式的探索性研究提供很好的数据源。但是,任意抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。同时,许多可能的选择偏差都会存在,如被调查者的自我选择、抽样的主观性偏差等。这种抽样不能直接代表总体和推断总体。

    比如下图,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

    79886733795e584b1068b19cf5805cd5.png

    2、配额抽样:配额抽样是非随机抽样中最为普遍运用的一种方式。在这种抽样中,我们根据预先确定的总体特征来选择样本。跟随机抽样里的分层抽样类似,它也需要先将总体按照一定的特性分成不同类别,然后在每个类别里选取样本。例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数(即配额)。配额保证了在这些特征上样本的组成与总体的组成是一致的。一旦配额分配好了,选择样本元素的自由度就很大了,唯一的要求就是所选的元素要适合所控制的特性。

    这种抽样方法的目的是使样本对总体具有更好的代表性,但仍不一定能保证样本就是有代表性的。如果与问题相关联的某个特征未被考虑进配额,配额样本可能就不具有代表性,但在实施中包括太多的控制特征是十分困难的。

    比如,考虑到我们必须为我们的样本选择一个倍数为4的个体,因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

    109abfd3dc8bebc3ee2b22adea8a53ba.png

    3、判断抽样:判断抽样是指基于调查人员的主观意愿、经验知识,依据对总体相关特征的了解,从目标总体中抽取有代表性的典型样本的做法,也称为选择性抽样。比如,从全体企业中选择若干先进的、居中的、落后的企业作为样本,来考察全体企业经营状况。如果判断准确,这个方法可能取得代表性较好的样本,但这种方法受到主观因素的影响较大。适用于总体规模不大,样本量小,以及样本不易分门别类挑选的情况,较多用于探索性研究。

    假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

    0faae8ebf6ff8395e240a710db9e42e2.png

    4、滚雪球抽样:这种方式,指的是以“滚雪球”似的方法,通过接触少量样本,再逐步通过这些少量样本获取大量样本。它要求总体的样本之间有一定的关联性,才会产生这样滚雪球的可能。比如要做宝妈样本,调查人员先找到自己认识的几个宝妈,然后通过这些宝妈,继续寻找他们认识的宝妈。当抽样框架难以识别时,这种采样方法是有效的。

    比如,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推:

    a01ffe7a7516bd6bf91fd2c392191d7e.png

    滚雪球抽样也有比较大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有比较共同的特征。

    到这里为止,所有和抽样有关的常见方法,就介绍完毕了。我们会在其它文章中,进一步介绍有关样本量设计的话题。

    展开全文
  • 同时,依据最近-最远边界原则和协同训练理论粗更新训练样本集,并通过精选择准则得到更具代表性的训练样本集,实现子分类器自适应更新.实验结果表明,所提出算法在多种典型测试场景中都能取得较鲁棒跟踪效果.
  • 抽样调查主要方法

    2017-06-14 09:47:34
    概率抽样是按照随机原则进行抽样,不加主观因素,组成总体每个单位都有被抽中概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样是按主观意向进行抽样(非随机),组成总体很...

    抽样调查的主要方法

    原文:http://www.stats-sh.gov.cn/tjzx/201105/214991.html

    抽样调查可以分为两类,即概率抽样和非概率抽样。概率抽样是按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。

    现代被广泛应用的抽样调查是概率抽样。因此,现代的抽样调查是指概率抽样,其定义为:抽样调查,又称抽样推断,是一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求,按照随机原则,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据来推断总体。

    抽样调查按抽样的组织形式划分,有以下几种主要方法:

    (1)简单随机抽样(也叫纯随机抽样,SPS抽样)。也就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。

    (2)等距抽样(也叫机械抽样或系统抽样,SYS抽样)。是将总体各单位按一定标志或次序排列成为图形或一览表式(也就是通常所说的排队),然后按相等的距离或间隔抽取样本单位。特点是:抽出的单位在总体中是均匀分布的,而且抽取的样本可少于纯随机抽样。等距抽样既可以用同调查项目相关的标志排队,也可以用同调查项目无关的标志排队。等距抽样是实际工作中应用较多的方法,目前我国城乡居民收支等调查,都是采用这种方式。

    (3)类型抽样(也叫分层抽样,STR抽样)。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。

    (4)整群抽样(又称集团抽样)。就是从总体中成群成组地抽取调查单位,而不是一个一个地抽取调查样本。特点是:调查单位比较集中,调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀,准确性要差些。因此,在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。

    (5)多阶抽样(又称多级抽样)。就是将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体按照一定的规范分成若干抽样单位,称之为一级抽样单位(或称初级抽样单位),再把抽中的一级抽样单位分成若干更小的二级抽样单位,从抽中的二级抽样单位再分三级抽样单位等等,这样就形成一个多阶段抽样过程。特点是,在对超大而又复杂总体调查的抽样中实施和管理更加方便,且不需要对每级抽样单位编制完全的抽样框。

    (6)二重抽样(又称两相抽样)。就是先抽取一个容量比较大的初始样本,用初始样本估计总体的某些参数或某些必要的信息作为分层的比例或再次抽样的标志,然后将抽出的初始大样本作为"总体",从中抽取容量合适的样本进行比较详细的调查。特点是,适合用于对总体信息了解比较少的调查。

    (7)比率抽样(PPS抽样)。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。特点是总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。

    在抽样调查的实际工作中,经常是要将几种抽样方法结合起来应用。比如,城市居民的收支调查,是将二重抽样、多阶段抽样、分层抽样、机械抽样等多种方法结合起来使用。

    在现实的商业性的市场调查中也有非概率抽样的应用。如,配额抽样、随意抽样、志愿者抽样、判断抽样、修正的概率抽样和滚雪球抽样等等,由于这些抽样方法容易出现偏差,所以只在对共性特别强的群体的商业性调查中应用。

    展开全文
  • 上证50指数是从上海证券交易所挑选规模最大、流动性最好、最具代表性的50只股票组成的样本股,综合反映是我国最具影响力一批优质大盘企业整体状况,一般是国家控股或者在对应行业里是数一数二龙头公司。...
  • 辨证论治失眠疗效评价医生队列研究【摘要】:1. 目的以失眠为例,评价医生辨证论...医生队列建立原则是基于中医睡眠医学专业委员会推荐,具有地域代表性,而且医生治疗失眠具有地方影响力。2.2受试人群采用公认DSM...
  • K均值时间复杂度为NKTD,其中,N代表样本个数,K代表k值,即聚类中心点个数,T代表循环次数,D代表样本数据维度。 本算法改进主要在以下方面: 一, 初始聚类中心点,传统初始中心点是随机选择,由于K均值...
  • 数据挖掘分类技术

    2021-03-02 03:49:37
    当决策树叶节点没有足够的代表性样本时,很可能做出错误预测)(3)多重比较也可能会导致过分拟合(大量候选属性和少量训练记录最后导致了模型过分拟合)(1)乐观估计(决策树归纳算法简单选择产生最低...
  • 什么是抽样误差?

    2020-04-22 01:36:53
    抽样误差仅仅是指后一种由于抽样随机性而带来偶然的代表性误差,而不是指前一种因不遵循随机性原则而造成系统性误差。 总说来,抽样误差是指样本指标与全及总体指标之间绝对误差。在进行抽样检查时不可...
  • 国内比较知名的市场调查执行机构有许多,知名度最高的...(2)、 为保证样本的均衡性,应尽量分布到各个有代表性的行政区域进行。  2、预先甄别  (1)、随机入户预约  a、 访问员采用随机入户原则事先预约,经
  • 抽样类型详细说明

    2016-03-24 10:41:11
    概率抽样是依据概率论的基本原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,保证样本的代表性;而非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的...
  • 数字识别系统源代码

    2008-04-23 23:11:50
    已经保存了训练好的网络权值,所以第一次使用识别程序时,可以直接运行Release目录下的可执行文件,然后对图片目录中的...训练样本选择的原则是,尽可能的有代表性,在训练时间不至于太长的情况下训练样本数目尽量多。
  • 图像分类效果不好原因分析

    千次阅读 2019-04-19 17:57:35
    重要insight: fine tune样本处理原则:译自...2,每个类别下图片需要有代表性,否则训练过程中模型会提取与类别无关内容,比如一些背景信息。所以最好使用尽可能多...
  • 本目录主要包括:文档和两个源代码。 其中一个源代码是识别程序的,另一个是一个矩阵类库的,书里面也使用过,所以...训练样本选择的原则是,尽可能的有代表性,在训练时间不至于太长的情况下,训练样本数目尽量多。
  • K-means与K-medoids

    2020-03-21 13:33:54
    K-means(K-均值)由簇中样本的均值代表整个簇,而K-medoids(K-中心点)由处在簇中心区域的某个样本代表整个簇。 K-means聚类: 基本思想:初始随机给定k个簇中心,按着最近邻原则把待分类样本点分到各个簇中,单后...
  • 我国农业生产在很长一段时间内,为了追求高产滥用化学肥料,造成了目前土壤污染严重局面。而今,我们可以利用土壤检测仪来进行分析研究,了解目前土地实际...而且要选择具有代表性的土壤,这是土壤测试一个重...
  • ★医学统计学:用概率论和数理统计方法研究...★从总体中抽取样本,一定要遵循科学原则代表性;随机性 ;可靠性。一、统计描述(一)统计描述-基本概念1.总体:(population)根据研究目的所确定同质观察单位全体...
  • 抽样调查方法小结

    2020-01-30 15:38:04
    抽样方法可以分成两大类:非概率抽样和概率抽样。...· 主观抽样:以采样者主观经验选择总体中具有代表性的样本。例如,研究榨菜销量下降原因,采集农民工群体购买榨菜情况。 · 配额抽样:将总体...
  • 聚类分析符合“物以类聚,人以群分”的原则,它把相似大的样本聚集为一个类型,在特征空间里占据着一个局部区域。每个局部区域都形成一个聚合中心,聚合中心代表相应类型。这里以水经注万能地图下载器下载的谷歌的...
  • 作为一个理性派,发挥我一如既往的聪明智慧和研究精神,秉着绝不被厂家的花式宣传所蒙骗、绝不被商家的虚假折扣所忽悠的原则,绝对要找到口碑最好、价比最高的手机。 由于准备在京东购买,本人打算以京东商城中...
  • 5.2.4 LENB——计算文本中代表字符字节数 168 5.2.5 MID——从文本指定位置起提取指定个数字符 169 5.2.6 MIDB——从文本指定位置起提取指定字节数字符 170 5.2.7 RIGHT——从文本右侧起提取指定个数...
  • php高级开发教程说明

    2008-11-27 11:39:22
    前面提到每一种语言代表一种解决问题特定方法,这些问题多属于具有特殊要求某 一特殊种类。因为这些语言集中在一个有限应用领域内,他们成功也限制在这些领域。 像C和P a s c a l这样语言变得如此流行...

空空如也

空空如也

1 2
收藏数 34
精华内容 13
关键字:

代表性样本的原则