统计学 订阅
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。 [1] 展开全文
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。 [1]
信息
学科门类
一级学科
外文名
Statistics
学科特点
应用广泛
中文名
统计学
主要分支
社会统计学、数理统计学 [2]
统计学发展过程
统计学的英文statistics最早源于现代拉丁文Statisticum Collegium(国会)、意大利文Statista(国民或政治家)以及德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。“城邦政情”(Matters of state)阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。他一共撰写了一百五十余种纪要,其内容包括各城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况的比较、分析,具有社会科学特点。“城邦政情”式的统计研究延续了一两千年,直至十七世纪中叶才逐渐被“政治算术”这个名词所替代,并且很快被演化为“统计学”(Statistics)。但统计学依然保留了城邦(state)这个词根。 与“城邦政情”阶段没有很明显的分界点,本质的差别也不大。“政治算术”的特点是统计方法与数学计算和推理方法开始结合。分析社会经济问题的方式更加注重运用定量分析方法。1690年英国威廉·配弟出版《政治算数》一书作为这个阶段的起始标志。威廉·配第用数字、重量和尺度将社会经济现象数量化的方法是近代统计学的重要特征。因此,威廉·配第的《政治算术》被后来的学者评价为近代统计学的来源,威廉·配第本人也被评价为近代统计学之父。配第在书中使用的数字有三类:第一类是对社会经济现象进行统计调查和经验观察得到的数字。因为受历史条件的限制,书中通过严格的统计调查得到的数据少,根据经验得出的数字多;第二类是运用某种数学方法推算出来的数字。其推算方法可分为三种:(1)以已知数或已知量为基础,循著某种具体关系进行推算的方法;(2)通过运用数字的理论性推理来进行推算的方法;(3)以平均数为基础进行推算的方法”;第三类是为了进行理论性推理而采用的例示性的数字。配第把这种运用数字和符号进行的推理称之为“代数的算法”。从配第使用数据的方法看,“政治算数”阶段的统计学已经比较明显地体现了“收集和分析数据的科学和艺术”特点,统计实证方法和理论分析方法浑然一体,这种方法即使是现代统计学也依然继承。 [3]  在“政治算术”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分析科学”。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”(Science of statistical analysis)课程的内容仍然是分析研究社会经济问题。“统计分析科学”课程的出现是现代统计发展阶段的开端。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文。这是一篇在统计学发展史上划时代的文章,它创立了小样本代替大样本的方法,开创了统计学的新纪元。 现代统计学的代表人物首推比利时统计学家奎特莱(Adolphe Quelet),他将统计分析科学广泛应用于社会科学,自然科学和工程技术科学领域,因为他深信统计学是可以用于研究任何科学的一般研究方法.现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。变量(variable):每次观察会得到不同结果的某种特征。分类变量(categorical variable):观测结果表现为某种类别的变量。顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。众数(mode):众数也就是数据集中出现频率最多的数字。 [4]     为了将统计学应用到科学,工业以及社会问题上,我们由研究母体开始。这可能是一个国家的人民,石头中的水晶,或者是某家特定工厂所生产的商品。一个母体甚至可能由许多次同样的观察程序所组成;由这种资料收集所组成的母体我们称它叫时间序列。为了实际的理由,我们选择研究母体的子集代替研究母体的每一笔资料,这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。资料是统计分析的对象,并且被用做两种相关的用途:描述和推论。描述统计学处理有关叙述的问题:资料是否可以被有效的摘要,不论是以数学或是图片表现,以用来代表母体的性质?基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。推论统计学被用来将资料中的数据模型化,计算它的机率并且做出对于母体的推论。这个推论可能以对/错问题的答案所呈现(假设检定),对于数字特征量的估计(估计),对于未来观察的预测,关联性的预测(相关性),或是将关系模型化(回归)。其他的模型化技术包括变异数分析(ANOVA),时间序列,以及数据挖掘。相关的观念特别值得被拿出来讨论。对于资料集合的统计分析可能显示两个变量(母体中的两种性质)倾向于一起变动,好像它们是相连的一样。举例来说,对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命。这两个变量被称做相关的。但是实际上,我们不能直接推论这两个变量中有因果关系;参见相关性推论因果关系(逻辑谬误)。如果样本足以代表母体的,那么由样本所做的推论和结论可以被引申到整个母体之上。最大的问题在于决定样本是否足以代表 整个母体。统计学提供了许多方法来估计和修正样本和收集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验。参见实验设计。要了解随机性或是机率必须具备基本的数学观念。数理统计(通常又叫做统计理论)是应用数学的分支,它使用机率论来分析并且验证统计的理论基础。任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误,这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性。即使统计学被正确的应用,结果对于不是专家的人来说可能会难以陈述。举例来说,统计资料中显著的改变可能是由样本的随机变量所导致,但是这个显著性可能与大众的直觉相悖。人们需要一些统计的技巧(或怀疑)以面对每天日常生活中透过引用统计数据所获得的资讯。测量的尺度统计学一共有四种测量的尺度或是四种测量的方式。这四种测量(名目、顺序、等距、等比)在统计过程中具有不等的实用性 。等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的;等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的(如智力或温度的测量);顺序尺度( Ordinal measurements)的意义并非表现在其值而是在其顺序之上;名目尺度(Nominal measurements)的测量值则不具量的意义。 以下列出一些有名的统计检定方法以及可供验证实验数据的程序Fisher最小显著差异法(Fisher's Least Significant Difference test )学生t检验(Student's t-test)曼-惠特尼 U 检定(Mann-Whitney U)回归分析(regression analysis)相关性(correlation)皮尔森积矩相关系数(Pearson product-moment correlation coefficient)史匹曼等级相关系数(Spearman's rank correlation coefficient )卡方分布(chi-square )创立时期德国的斯勒兹曾说过:“统计是动态的历史,历史是静态的统计”。可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。统计学的萌芽产生在欧洲,17世纪中叶至18世纪中叶是统计学的创立时期。在这一时期,统计学理论初步形成了一定的学术派别,主要有国势学派和政治算术学派。
收起全文
精华内容
参与话题
问答
  • 统计学

    万次阅读 2015-12-14 20:16:40
    统计学 在编程过程中,少不了数学的参与。 标准偏差(StdDev,StandardDeviation)-统计学名词。一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,...

    统计学

          在编程过程中,少不了数学的参与。以下内容主要涉及到统计学中标准差与方差的基本概念与计算方法。不喜勿喷!

          标准偏差(Std Dev,Standard Deviation) -统计学名词。一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。

    标准差

          标准差也被称为标准偏差,或者实验标准差,标准差(Standard Deviation)描述各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度,标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。平均数相同的两个数据集,标准差未必相同。

          例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差应该是18.708分,B组的标准差应该是2.37分,说明A组学生之间的差距要比B组学生之间的差距大得多。

    总体标准偏差与样本标准偏差区别

    总体标准偏差:针对总体数据的偏差,所以要平均。

    样本标准偏差:针对从总体抽样,利用样本来计算总体偏差,为了使算出的值与总体水平更接近,就必须将算出的标准偏差的值适度放大,即。 

    样本标准偏差 ,代表所采用的样本X1,X2,...,Xn的均值。

    总体标准偏差 ,代表总体X的均值。

    例:有一组数字分别是200、50、100、200,求它们的样本标准偏差。

     = (200+50+100+200)/4 = 550/4 = 137.5

    =[(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/(4-1)

    样本标准偏差 S = Sqrt(S^2)=75 

    计算步骤

    样本标准偏差的计算步骤是:

    步骤一、(每个样本数据 减去样本全部数据的平均值)。

    步骤二、把步骤一所得的各个数值的平方相加。

    步骤三、把步骤二的结果除以 (n - 1)(“n”指样本数目)。

    步骤四、从步骤三所得的数值之平方根就是抽样的标准偏差。

    总体标准偏差的计算步骤是:

    步骤一、(每个样本数据 减去总体全部数据的平均值)。

    步骤二、把步骤一所得的各个数值的平方相加。

    步骤三、把步骤二的结果除以 n (“n”指总体数目)。

    步骤四、从步骤三所得的数值之平方根就是总体的标准偏差。

    方差 统计学意义

          当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

          样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。

          方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为 

          标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

          最近进展:方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度,也可以理解为方差代表了样本彼此波动的期望。当然,这个结论目前是在二阶统计矩下成立。

    展开全文
  • 统计学——卡方检验和卡方分布

    万次阅读 多人点赞 2017-12-11 13:02:37
    什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数...

    什么是卡方检验

     

    卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。


    它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

     

    例子1:四格卡方检验

     

    以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响:

     

     

      感冒人数 未感冒人数 合计 感冒率
    喝牛奶组 43 96 139 30.94%
    不喝牛奶组 28 84 112 25.00%
    合计 71 180 251 28.29%

     

    通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。

     

    为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 28.29%

    所以,理论的四格表应该如下表所示:

     

     

      感冒人数 未感冒人数 合计
    喝牛奶组 =139*0.2829 =139*(1-0.2829) 139
    不喝牛奶组 =112*0.2829 =112*(1-0.2829) 112


    即下表:

     

     

      感冒人数 未感冒人数 合计
    喝牛奶组 39.3231 99.6769 139
    不喝牛奶组 31.6848 80.3152 112
    合计 71 180 251

     

    如果喝牛奶和感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。

     

     

    卡方检验

     

    卡方检验的计算公式为:

    其中,A为实际值,T为理论值。

    x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
    1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
    2. 差异程度与理论值的相对大小

     

    例1卡方检验

     

    根据卡方检验公式我们可以得出例1的卡方值为:

    卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

     

    卡方分布的临界值:

     

    上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?

    答案是,通过查询卡方分布的临界值表。


    这里需要用到一个自由度的概念,自由度等于V = (行数 - 1) * (列数 - 1),对四格表,自由度V = 1。


    对V = 1,喝牛奶和感冒95%概率不相关的卡方分布的临界概率是:3.84,显然1.077<3.84,没有达到卡方分布的临界值,所以喝牛奶和感冒是独立不相关的。


     

    上面通过一个小例子让大家对卡方检验有一个简单的认识,下面是卡方检验的标准做法:

     

    例子2. 四格卡方检验的标准做法

    我们想知道不吃晚饭对体重下降有没有影响:

     

     

      体重下降 体重未下降 合计 体重下降率
    吃晚饭组 123 467 590 20.85%
    不吃晚饭组 45 106 151 29.80%
    合计 168 573 741 22.67%

     

    1. 建立假设检验:

     

    H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
    H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05

    2. 计算理论值

     

     

      体重下降 体重未下降 合计
    吃晚饭组 133.765 456.234 590
    不吃晚饭组 34.2348 116.765 151
    合计 168 573 741

     

    3. 计算卡方值

     

    根据公式

    计算出卡方值为5.498

    4. 查卡方表求P值

    在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。

     

     

    通过实例计算,对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。

     

    附录

     

    什么是卡方分布

    若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

     

    R语言实现:

     

    x1 = rnorm(1000000)
    x2 = rnorm(1000000)
    x3 = rnorm(1000000)
    x4 = rnorm(1000000)
    x5 = rnorm(1000000)
    x6 = rnorm(1000000)
    
    Q1 = x1^2
    Q2 = x1^2 + x2^2
    Q3 = x1^2 + x2^2 + x3^2
    Q4 = x1^2 + x2^2 + x3^2 + x4^2
    Q5 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2
    Q6 = x1^2 + x2^2 + x3^2 + x4^2 + x5^2 + x6^2
    
    par(mfrow=c(1,1)) 
    plot(density(Q1),xlim=c(0.23,6),ylim = c(0,1),breaks = 200,col = 'blue',lwd=2,main='chi-square',xlab = '',ylab='')
    lines(density(Q2),col='black',lwd=2)
    lines(density(Q3),col='red',lwd=2)
    lines(density(Q4),col='green',lwd=2)
    lines(density(Q5),col='gray',lwd=2)
    lines(density(Q6),col='orange',lwd=2)
    legend('topright',c('k=1','k=2','k=3','k=4','k=5','k=6'),fill = c('blue','black','red','green','gray','orange'))


    最后画出来的图是:

     

     

    由于随机数取得比较少,可能分布图与实际有些许的差别,不过这个可以不用太在意,一下是标准的分布图:

     

     

     

    展开全文
  • Stata 16中文版安装教程 1、下载 :Stata 16(有安装包和Crack 文件) 然后点击“SetupStata16.exe”安装原版程序 2、阅读并同意软件安装协议 ...4、安装时请选择安装StataMP 5、选择软件安装位置 ...8、安装...

    Stata 16中文版安装教程

    1、下载 : Stata 16 (有安装包和Crack 文件

    然后点击“SetupStata16.exe”安装原版程序

    2、阅读并同意软件安装协议

    3、设置用户账户信息

    4、安装时请选择安装StataMP

    5、选择软件安装位置

    6、核对安装信息,确认无误后即可点击【Install】按钮继续

    7、等待程序安装完毕,直接点击【Finish】按钮可退出向导

    8、安装完成后复制 Crack 文件夹里的 STATA.LIC 和 StataMP-64.exe 到安装目录覆盖
    默认路径为:C:\Program Files\Stata16

    9、启动软件,所有注册信息默认即可

    10、正常进入软件,查看信息,显示到2022年,表示Stata 16中文版安装完毕。

    展开全文
  • 虽然大家公认英国人威廉·配第(1623-1687)发表的《政治算数》是现代统计学的正统,但两千多年前的中国人早就已经娴熟地运用“添兵减灶”这样的“统计学计策”迷惑敌人了。 威廉·配第运用数字、重量、尺度,分析...
  • 医学统计学

    2018-09-14 11:04:08
    《医学统计学》分21章,本次再版侧重于三个方面:第一部分主要介绍医学统计基础理论与基本方法,针对《卫生统计学》多元分析方法薄弱的情况,加强了不同类型资料的回归分析方法与软件结果解释,增加了诊断试验的分析...
  • 漫画统计学

    2016-10-12 16:01:19
    这是世界上最简单的统计学教科书,它通过漫画式的情境说明,让你边看故事边学知识,每读完一篇就能理解一个概念,每篇末还附有文字说明,只要跟着这些简单的习题进行操练,你将能在最短的时间内成为统计学达人!...
  • 现代医学统计学

    2019-01-13 14:33:26
    《现代医学统计学》共分四篇二十九章,第一篇生物医学中的统计方法,含医学中的统计思维、医学诊断、相依资料、医学测量的质量控制、成本-效果分析、生存质量、meta分析、描述与图像、时间序列和模式识别等十章,均...
  • 白话统计学

    2019-01-31 16:49:05
    本书对统计学原理和术语进行了简洁、清晰而准确的解释,并通过大量实例讲述统计技术的操作方法。书中涵盖了社会科学研究所使用的大部分统计原理和方法,诸如集中趋势、变异程度、正态分布、z分数、标准误等基本概念...
  • 大数据的统计学基础

    2018-02-04 21:53:45
    第1周 面向小白的统计学:描述性统计(均值,中位数,众数,方差,标准差,与常见的统计图表) 第2周 赌博设计:概率的基本概念,古典概型 第3周 每人脑袋里有个贝叶斯:条件概率与贝叶斯公式,独立性 第4周 啊!微...
  • 生物统计学

    2018-08-13 03:28:50
    生物统计(shengwu tongji,biostatistics,biometry,biometrics)含义 应用于中的数理统计方法。即用数理统计的原理和方法,分析...凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。-----陆建身
  • 统计学上的P值的含义通俗

    万次阅读 2016-05-19 14:30:52
    首先解释下“有统计学意义”和“显著差异” 两个概念:”有统计学意义"和"差异显著"是两个不同的概念,"差异显著"易给人一种误导,原来两概念在统计学中经常有点通用,现在明确地只能用“有...

    欢迎关注本人:

    推荐系统公众号:Tiany_RecoSystem

    知乎主页:https://www.zhihu.com/people/shen-xiao-ming-77

    首先解释下“有统计学意义”和“显著差异” 两个概念:

     

    ”有统计学意义"和"差异显著"是两个不同的概念,"差异显著"易给人一种误导,
    原来两概念在统计学中经常有点通用,现在明确地只能用“有统计学意义”。
    P<0.05是指假设H0(即两总体没区别)成立的可能性概率在5%以下,
    a就是允许犯Ⅰ类错误(拒绝了正确的无效假设H0)的概率,
    一般在做假设检验之前先定好,
    如果a=0.05,表示允许犯Ⅰ类错误的概率为0.05,所以当P<0.05时,
    说明在a=0.05允许的范围内,认为两总体是有差异的,
    即两总体差异有统计学意义(指在a=0.05的统计学参数情况下);
    如果此时P=0.04,而先设定a=0.01,则认为两总体差异无统计学意义
    (指在a=0.01的统计学参数情况下),虽然两总体没变,两总体差异也没变;
    所以 ”有统计学意义"并不等同于"差异显著" ,举个例子:两组数:
    A组:3, 3.05, 3.01, 3.04, 2.95;
    B组:3.2, 3.1, 3.15, 3.14, 3.12;
    两组数差异(均数)并不大,但P<0.001,设定a=0.01或0.05,则认为两总体差异统计学意义。这主要与两组数的标准差有关。
    如果写成两总体差异显著,易认为两组数(均数)差别大。

    第一类错误与第二类错误 通俗解释
     
    H0:一个真心爱你的男生
    H1:一个不是真心爱你的男生
    如果H0实际上成立,而你凭经验拒绝了H0,也就是说,
    你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就犯了第Ⅰ类错误;
    如果H0实际上不成立,而你接受了H0,同样的道理,
    你接受了一个你感觉爱你而实际上并不爱你的男生,那么你就犯了第Ⅱ类错误。
    如果要同时减小犯第Ⅰ类错误和第Ⅱ类错误的概率,那就只能增加恋爱的次数n,
    比如一个经历过n=100次恋爱的女生,第101次恋爱犯第Ⅰ类错误和第Ⅱ类错误的概率就会小很多了。

     


    统计学上把保守的、传统的观点作为原假设H0, 新颖的、感兴趣的、想去论证的观点作为备择假设H1

    统计学P值与显著性水平之间的比较
     就好比一个犯罪嫌疑人 在没有确凿的证据前都只能以他无罪为原假设
    因为一个人无罪判他有罪 比 有罪判无罪 的后果严重的多 大家都不愿被冤枉
    所以推广开来 你想证明一班的成绩比二班好 原假设就设为一班二班成绩相同,
    其中出现的个别成绩有差异,是由于抽样误差所造成的,纯在偶然性;
     备择假设就设为一班比二班成绩好,其中样本中出现的一班二班成绩差异不是偶然出现的,
    具有高度统计学意义,
    因此, 一般把显著性水平设定为0.05,当P值小于0.05时, 我们认为因为偶然性而造成的成绩差异的概率比较小,
    因此拒绝原假设,就可以接受一班成绩比二班好的事实;
    若P值比0.05大就说明没有足够证据证明一班成绩比二班好,原假设中因为抽样误差而造成的成绩差异的可能性比较高,
     保守起见拒绝备择假设 接受原假设。
     

     

    展开全文
  • 统计学_David Freedman

    2018-06-09 10:51:27
    非常有名的统计学经典书籍,这本书读起来是比较轻松的,因为不需要太多的概率论基础,也没有很复杂的推导或公式。本书采用概率论的频率理论来讨论统计学,重视统计思想及引导如何应用统计学解决实际问题。书中所采用...
  • 陈希孺院士经典书籍,学习数理统计学的最佳教材! 包括数理统计学简史,数理统计学教程和高等数理统计学 三本专著。 统计学在AI,机器学习等新领域的基本理论,值得好好去研究。
  • 统计学中的p值

    千次阅读 2016-03-20 11:36:27
    在我看来,假设检验从本质上是一种反证法。当你想证明一样事物是对的,有时候不太好证明,因为一件你以为对的东西可能只是因为你还没发现它错的一面,相反你想证明一件事物是错的就容易多了。在假设检验中,证明备择...
  • 爱上统计学

    2015-10-04 14:30:57
    通过这本书可以了解基础统计学的范围并学习所有应该掌握的信息,也可以了解整理和分析数据的基本思路和最常用的技术。本书理论部分有一些,但是很少,数学证明或特定数学程式的合理性讨论也很少。
  • 第1课 面向小白的统计学:描述性统计(均值,中位数,众数,方差,标准差,与常见的统计图表) 第2课 赌博设计:概率的基本概念,古典概型 第3课 每人脑袋里有个贝叶斯:条件概率与贝叶斯公式,独立性 第4课 啊!微...
  • 《现代数学译丛5:统计学完全教程》是一本几乎包含了统计学领域全部知识的优秀教材,《现代数学译丛5:统计学完全教程》除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自助法)、独立性推断、因果...
  • 由美国当代著名统计学家L·沃塞曼所著的《统计学元全教程》是一本几乎包含了统计学领域全部知识的优秀教材。本书除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自助法)、独立性推断、因果推断、图...
  • 本书的定位是“基于测度论的数理统计学基础教科书”。内容除预备知识外,其主体是关于几种基本统计推断形式(点估计、区间估计、假设检验)的大小样本理论和方法,另有一章讲述线性模型的初步理论。凡是只宜在专门...
  • 统计学完全教程》除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自助法)、独立性推断、因果推断、图模型、非参数回归、正交函数光滑法、分类、统计学理论及数据挖掘等统计学领域的新方法和技术...
  • 统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论【重要】上册[带书签]统计学方法与数据分析引论...

空空如也

1 2 3 4 5 ... 20
收藏数 16,158
精华内容 6,463
关键字:

统计学