统计学_统计学生成绩 - CSDN
统计学 订阅
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。 [1] 展开全文
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。 [1]
信息
学科门类
一级学科
外文名
Statistics
学科特点
应用广泛
中文名
统计学
主要分支
社会统计学、数理统计学 [2]
统计学发展过程
统计学的英文statistics最早源于现代拉丁文Statisticum Collegium(国会)、意大利文Statista(国民或政治家)以及德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。“城邦政情”(Matters of state)阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。他一共撰写了一百五十余种纪要,其内容包括各城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况的比较、分析,具有社会科学特点。“城邦政情”式的统计研究延续了一两千年,直至十七世纪中叶才逐渐被“政治算术”这个名词所替代,并且很快被演化为“统计学”(Statistics)。但统计学依然保留了城邦(state)这个词根。 与“城邦政情”阶段没有很明显的分界点,本质的差别也不大。“政治算术”的特点是统计方法与数学计算和推理方法开始结合。分析社会经济问题的方式更加注重运用定量分析方法。1690年英国威廉·配弟出版《政治算数》一书作为这个阶段的起始标志。威廉·配第用数字、重量和尺度将社会经济现象数量化的方法是近代统计学的重要特征。因此,威廉·配第的《政治算术》被后来的学者评价为近代统计学的来源,威廉·配第本人也被评价为近代统计学之父。配第在书中使用的数字有三类:第一类是对社会经济现象进行统计调查和经验观察得到的数字。因为受历史条件的限制,书中通过严格的统计调查得到的数据少,根据经验得出的数字多;第二类是运用某种数学方法推算出来的数字。其推算方法可分为三种:(1)以已知数或已知量为基础,循著某种具体关系进行推算的方法;(2)通过运用数字的理论性推理来进行推算的方法;(3)以平均数为基础进行推算的方法”;第三类是为了进行理论性推理而采用的例示性的数字。配第把这种运用数字和符号进行的推理称之为“代数的算法”。从配第使用数据的方法看,“政治算数”阶段的统计学已经比较明显地体现了“收集和分析数据的科学和艺术”特点,统计实证方法和理论分析方法浑然一体,这种方法即使是现代统计学也依然继承。 [3]  在“政治算术”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分析科学”。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”(Science of statistical analysis)课程的内容仍然是分析研究社会经济问题。“统计分析科学”课程的出现是现代统计发展阶段的开端。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文。这是一篇在统计学发展史上划时代的文章,它创立了小样本代替大样本的方法,开创了统计学的新纪元。 现代统计学的代表人物首推比利时统计学家奎特莱(Adolphe Quelet),他将统计分析科学广泛应用于社会科学,自然科学和工程技术科学领域,因为他深信统计学是可以用于研究任何科学的一般研究方法.现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。变量(variable):每次观察会得到不同结果的某种特征。分类变量(categorical variable):观测结果表现为某种类别的变量。顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。众数(mode):众数也就是数据集中出现频率最多的数字。 [4]     为了将统计学应用到科学,工业以及社会问题上,我们由研究母体开始。这可能是一个国家的人民,石头中的水晶,或者是某家特定工厂所生产的商品。一个母体甚至可能由许多次同样的观察程序所组成;由这种资料收集所组成的母体我们称它叫时间序列。为了实际的理由,我们选择研究母体的子集代替研究母体的每一笔资料,这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。资料是统计分析的对象,并且被用做两种相关的用途:描述和推论。描述统计学处理有关叙述的问题:资料是否可以被有效的摘要,不论是以数学或是图片表现,以用来代表母体的性质?基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。推论统计学被用来将资料中的数据模型化,计算它的机率并且做出对于母体的推论。这个推论可能以对/错问题的答案所呈现(假设检定),对于数字特征量的估计(估计),对于未来观察的预测,关联性的预测(相关性),或是将关系模型化(回归)。其他的模型化技术包括变异数分析(ANOVA),时间序列,以及数据挖掘。相关的观念特别值得被拿出来讨论。对于资料集合的统计分析可能显示两个变量(母体中的两种性质)倾向于一起变动,好像它们是相连的一样。举例来说,对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命。这两个变量被称做相关的。但是实际上,我们不能直接推论这两个变量中有因果关系;参见相关性推论因果关系(逻辑谬误)。如果样本足以代表母体的,那么由样本所做的推论和结论可以被引申到整个母体之上。最大的问题在于决定样本是否足以代表 整个母体。统计学提供了许多方法来估计和修正样本和收集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验。参见实验设计。要了解随机性或是机率必须具备基本的数学观念。数理统计(通常又叫做统计理论)是应用数学的分支,它使用机率论来分析并且验证统计的理论基础。任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误,这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性。即使统计学被正确的应用,结果对于不是专家的人来说可能会难以陈述。举例来说,统计资料中显著的改变可能是由样本的随机变量所导致,但是这个显著性可能与大众的直觉相悖。人们需要一些统计的技巧(或怀疑)以面对每天日常生活中透过引用统计数据所获得的资讯。测量的尺度统计学一共有四种测量的尺度或是四种测量的方式。这四种测量(名目、顺序、等距、等比)在统计过程中具有不等的实用性 。等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的;等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的(如智力或温度的测量);顺序尺度( Ordinal measurements)的意义并非表现在其值而是在其顺序之上;名目尺度(Nominal measurements)的测量值则不具量的意义。 以下列出一些有名的统计检定方法以及可供验证实验数据的程序Fisher最小显著差异法(Fisher's Least Significant Difference test )学生t检验(Student's t-test)曼-惠特尼 U 检定(Mann-Whitney U)回归分析(regression analysis)相关性(correlation)皮尔森积矩相关系数(Pearson product-moment correlation coefficient)史匹曼等级相关系数(Spearman's rank correlation coefficient )卡方分布(chi-square )创立时期德国的斯勒兹曾说过:“统计是动态的历史,历史是静态的统计”。可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。统计学的萌芽产生在欧洲,17世纪中叶至18世纪中叶是统计学的创立时期。在这一时期,统计学理论初步形成了一定的学术派别,主要有国势学派和政治算术学派。
收起全文
精华内容
参与话题
  • 极简概率论-数据科学数学基础

    千人学习 2020-07-05 21:25:01
    没有概率论就没有统计学,也基本上就不存在机器学习了,从而人工智能也不会有今天这样的繁荣发展。如果要从事数据科学行业,不懂概率论或者对概率论一知半解,基本上都要回过头重新学习概率论,因为吃不透概率论就吃...
  • 本文约为6000字,建议阅读10分钟本文内容为对统计学和概率论知识的理解的总结。前言道德经云:“道生一,一生二,二生三,三生万物”。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化...

    本文约为6000字,建议阅读10分钟

    本文内容为对统计学和概率论知识的理解的总结。

    前言

    道德经云:道生一,一生二,二生三,三生万物学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。

    笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标;

    目标一构建出可以让人理解的知识架构,让读者对这个知识体系一览无余

    目标二尽量阐述每个知识在数据分析工作中的使用场景及边界条件

    目标三为读者搭建从“理论”到“实践"的桥梁

    注意:本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》

    概述

    你的“对象” 是谁?

    此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。

    一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。

    二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。

    因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。

    分析就像在给 “爱人” 画肖像

    从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。

    看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。

    第一部分

    对“数据”的描述性分析

    数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:

    1.集中趋势量度:为这批数据找到它们的“代表”

    均值(μ)

    均值的局限性

    均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表

    这5个人的年龄均值是:31.2岁

    很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢?

    中位数

    中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。

    中位数的局限

    回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。

    那么我们在看一下下面一组数据,中位数的表现又如何?

    中位数:45

    这组数据的中位数为:45,但是中位数45并不能代表这组数据。

    因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。

    众数

    众数是样本观测值在频数分布表中频数最多的那一组的组中值。

    平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。

    2.分散性与变异性的量度

    (全距,迷你距,四分位数,标准差,标准分)

    全距=max-min

    全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

    全距的局限性

    全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。

    四分位数

    所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。

    Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

    Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

    Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

    迷你距 也叫“四分位距”

    迷你距。它是一组数据中较小四分位数与较大四分位数之差。

    即:迷你距= 上四分位数 - 下四分位数

    迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。

    全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?

    我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。

    方差

    方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

    标准差

    标准差为方差的开方。

    通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?

    标准分——表征了距离均值的标准差的个数

    标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。

    标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。

    第一部分小节

    1. 描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。

    2. 集中趋势参数:均值,中位数,众数。

    3. 分散性和变异性参数 :  全距,四分位距,方差,标准差,标准分。

    第二部分

    关于“事件”的研究分析

    概率论

    1.一个事件的情况

    为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。

    事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。

    概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!

    概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。

    概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布

    期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)

    方差:表征了事件不同结果之间的差异或分散程度。

    2.细说分布

    理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。

    因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。

    “离散型”数据和“连续性”数据差异

    在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?

    离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。

    连续数据: 一个串儿,一个串儿的数据就是连续型数据。

    好啦,开个玩笑!别打我,下面分享干货!

    其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。

    举个例子

    人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。

    对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。

    清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。

    离散型分布

    离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。

    连续型分布

    连续型分布本质上就是求连续的一个数据段概率分布。

    正态分布

    f(x)----是该关于事件X的概率密度函数

    μ --- 均值

    σ^2 ---方差

    σ ---标准差

    绿色区域的面积 ---该区间段的概率

    正态分布概率的求法

    step1 --- 确定分布和范围 ,求出均值和方差

    step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?

    step3 ---查表找概率

    离散型分布  →  正态分布 (离散分布转化为正态分布)

    精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!

    3.多个事件的情况:“概率树”和“贝叶斯定理”

    多个事件就要探讨事件和事件之间的关系

    对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件

    穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1

    互斥事件:如何A和B为互斥事件,那么A和B没有任何交集

    独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。

    例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。

    相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。

    例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。

    条件概率(条件概率,概率树,贝叶斯公式)

    条件概率代表:已知B事件发生的条件下,A事件发生的概率

    概率树 --- 一种描述条件概率的图形工具。

    假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。

    从图中我们可以发现以下两个信息

    1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件

    2. 概率树每个层级分支的概率和都是1

    贝叶斯公式 ----提供了一种计算逆条件概率的方法

    贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

    第二部分小节

    1.  事件,概率,概率分布之间的关系

    2.  期望,方差的意义

    3. 连续型数据和离散型数据之间的区别和联系

    4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布

    5. 离散分布和正态分布可以转化

    6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式

    第三部分

    关于“小样本”预测“大总体”

    现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

    1.抽取样本

    总体:你研究的所有事件的集合;

    样本:总体中选取相对较小的集合,用于做出关于总体本身的结论

    偏倚:样本不能代表目标总体,说明该样本存在偏倚

    简单随机抽样: 随机抽取单位形成样本。

    分成抽样: 总体分成几组或者几层,对每一层执行简单随机抽样

    系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。

    2.预测总体(点估计预测,区间估计预测)

    点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。

    场景1: 样本无偏的情况下,已知样本,预测总体的均值,方差。

    (1) 样本的均值 = 总体的估算均值(总体均值的点估计量)  ≈ 总体实际均值(误差是否可接受)

    (2)总体方差     估计总体方差 

    场景2:已知总体,研究抽取样本的概率分布

    比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。

    举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。

    样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。

    中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。

    区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。

    举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?

    如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)

    求置信区间简便公式(直接上皂片)

    关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58

    待补充知识一(t分布)

    我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。

    待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。

    卡方分布的定义

    若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

    卡方分布的应用场景

    用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;

    用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:

    3.验证结果(假设检验)

    假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。

    两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误

    第一类错误 拒绝了一个正确的假设,错杀了一个好人

    第二类错误接收了一个错误的假设,放过了一个坏人

    第三部分小节

    1.  无偏抽样

    2.  点估计量预测(已知样本预测总体,已知总体预测样本)

    3. 区间估计量预测(求置信区间)

    4. 假设检验

    第四部分

     相关与回归(y=ax+b)

    这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。

    散点图:显示出二变量数据的模式。

    相关性:变量之间的数学关系。

    线性相关性两个变量之间呈现的直线相关关系。

    最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)

    误差平方和SSE:

    线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b

    斜率a公式:

    b公式:

    相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)

    r公式:

    结束语

    笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。

    来源:PMCAFF产品经理社区;本次编辑转自:数据派THU 公众号;

    END

    版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

    合作请加QQ:365242293  

    数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

    展开全文
  • 统计学(第六版)

    2020-07-30 23:30:10
    统计学贾俊平 统计学贾俊平 统计学贾俊平 统计学贾俊平 统计学贾俊平 统计学贾俊平 统计学贾俊平 统计学贾俊平
  • 来源:大数据文摘本文共3559字,建议阅读7分钟。本文介绍了统计学两大学派:频率学派和贝叶斯学派的基本观点,一起来看看大咖是如何讲解统计学术语的。假设检验,P值,显著性水...
        

    640?wx_fmt=png

    来源:大数据文摘

    本文共3559字,建议阅读7分钟

    本文介绍了统计学两大学派:频率学派和贝叶斯学派的基本观点,一起来看看大咖是如何讲解统计学术语的。


    640?


    假设检验,P值,显著性水平,置信区间,功效分析到底是什么呢?这里有一份通俗易懂的讲解指南。本文介绍了统计学两大学派:频率学派和贝叶斯学派的基本观点,一起来看看大咖是如何讲解统计学术语的。


    统计学的意义是什么?这份懒人指南将用8分钟,告诉你统计学所有的基本思想!如果你特别赶时间,只看加粗内容,一分钟就可以啦!


    相关链接:

    https://medium.com/@kozyrkov/whats-the-point-of-statistics-8163635da56c


    统计学是什么?有人会说,统计学是一门有关数据处理和分析的科学。没错!从定义上来看,这样的解释完全正确。现在让我们深入了解一下它的具体内容。


    统计学是一门关于改变既定观念的学科。


    一般情况下,我们根据事件(统计参数)进行决策尚有难度,更何况有时候我们连对应的事件都没有。相反,我们已知的部分事件(统计样本)与我们所希望知道的整体事件(统计总体)之间可能会存在很大的差异。这就意味测量本身是存在着不确定性的。


    640?


    统计学是一门能在充满不确定性的情况下改变你对事物看法的科学。当然,首先要确定的是:你目前的看法从何而来?是基于假设检验还是基于先验信念?或者也有可能你没有任何看法,大脑一片空白。


    贝叶斯学派从先验信念的角度看待问题。


    贝叶斯统计学通过结合数据来更新人们对事物的先验信念。贝叶斯学派倾向于使用置信区间(即介于两个数字之间的区间)来表示结果。


    频率学派则主张从频率的角度看待问题。


    频率学派统计学着重于改变一个人的选择。人们不需要任何先验信念就可以做出下意识的选择,也无需分析任何数据。频率学派统计学(也被称为古典统计学)大多出现在日常生活中或者像STAT101这种统计学入门课程中,因此本文也对这类经典的理论进行介绍。


    假设是对现实世界的一种“可能的”描述。


    零假设描述的是一种缺省的情况,即默认的选择;备择假设则是与零假设对立的其他一种或者多种情况。如果我用数据证明了“零假设”并不成立,那么你就可以拒绝“零假设”从而接受备择假设。


    例如:如果你每天早上用于准备的时间少于15分钟话(零假设),我们就可以一起去上课(默认情况)。但是,如果事实(数据)证明你得花更长的时间(备择假设)才能准备好的话,你就只能自己一个人去了,因为在你准备好之前我已经走了(备选情况)。


    简而言之,假设检验的目的在于:“我们的事实证据能否拒绝零假设?”


    所有的假设检验都在问这样一个问题:我们的证据能否拒绝零假设?拒绝零假设意味着我们学到了一些东西,我们应该改变自己的观念。不拒绝零假设意味着我们没有学到任何新的东西。


    就像我们在树林里徒步旅行的时候,在周围没有看到其他人并不能证明地球上没有人类,只是意味着我们没有学到有关人类活动范围的新知识。如果没有学到新知识,你也不必沮丧,因为你已经知道确切的应对方法。既然你没有学到新知识,也就没有理由改变观念,所以继续采取默认做法就可以了。


    那么我们怎么判断我们是否学到了新内容?所谓“新内容”,就是与默认选择完全相悖,可以让我们新知识。为了得到上面问题的答案,我们可以查看两个统计参数,P值和置信区间。


    P值理论是统计学中重要的一部分。


    P值阐述了这样一个统计参数:如果接受原假设,观察样本对原假设的支持程度。通过P值可以判断假设是否成立。P值越小,意味着默认结果出现的概率越小,“新内容”出现的可能性越大,统计越显著,说明你应该改变先前的观念。


    进行假设检验,我们只需要将P值与显著性水平进行比较。这就像是一个旋钮,可以用来控制我们承受风险的大小。显著性水平指当原假设正确时,人们却因拒绝它而犯错的上限概率。如果你将显著性水平设置为0,那么就意味着你拒绝了备择假设。那么停下笔吧!别分析数据了,直接按默认方法去做吧。(但坚持默认做法也有可能是错误的。)


    640?


    如何使用P值来获取假设检验的结果。如果P值小于显著性水平,拒绝原假设;如果P值大于显著性水平,接受原假设。


    置信区间可以用来表示假设检验的结果。它的用法是,检验其是否与零假设重叠。如果重叠,那么就意味着我们没有得到任何新结论。如果不重叠,请改变你的看法吧。


    置信区间与零假设不重叠的话,就改变你的看法吧。


    虽然置信区间的定义晦涩难懂,但它有两大优点有助于描述数据特性:(1)区间总是包含最合理的假设(2)数据量越大,区间范围越窄。请注意,置信区间和P值并没有简练精辟的定义,因为当初设计这两个统计参数的目的不在于方便教学。它们只是总结检验结果的方法。(如果你上了一节统计课,发现根本记不住这些的定义,原因就在于此。我来代表统计学说一句:不是你的锅,是我自己的锅。)


    这样做的意义是,如果你按照我刚才描述的方法进行测试,数学可以保证你犯错误的风险被限制在你选择的显著性水平以内(这就是为什么你亲自设置显著性水平很重要……数学计算就是为了保证你所选择的风险设置得以实现,如果你不费心选择就没有意义了。)


    数学理论是建立零假设的基础,这也是P值理论的来源。


    640?


    数学可以制造和检验零假设这个“玩具宇宙”(亲爱的统计学家们,这多么的酷啊!?简直太酷了!),并生成数据,从而与已有的数据集进行相似度对比。如果你的零假设玩具宇宙与现实数据相似的可能性太低,你的P值将会很低,你最终会拒绝零假设......那就改变主意接受备择假设吧!


    那些疯狂的公式、概率、分布是用来做什么的呢?它们让我们得以描述那些统治零假设世界的一系列规则,从而判断零假设是否与真实世界相符。如果不是,你就可以大喊:“太荒唐了!拉出去砍了!”如果相符,你耸耸肩,遗憾没学到新知识。以后我们再深入讨论这个话题。


    就目前而言,只需将数学的作用看作是帮我们建立了多个小的玩具世界,帮助我们进行检验,看看真实数据如果放进玩具世界中是否合理。P值和置信区间是帮你总结的方法,让你不需要眯眼费力来阅读关于这个世界的冗长描述。他们代表着终极判断:用它们来查看是否采取你默认的做法。任务完成!


    我们做准备工作了吗?这是功效所衡量的内容。


    等一下,我们是否做足了准备工作,确保我们实实在在的收集了足够的证据,让我们有足够的把握地改变观念了吗?这个问题的答案是由功效这个概念所衡量的。不改变观念很简单,只要不去寻找支持它的证据就好了。你的功效越大,说明你给自己更多机会来改变观念。功效是拒绝原假设且结果正确的概率。


    当继续采取默认做法,我们虽然没学到什么,如果用功效对原假设进行衡量也能让我们感觉更好。至少我们做了足够的准备,也进行了尝试。如果没有用功效进行衡量,我们肯定不会改变自己的观念。这样甚至不需要去分析数据了。


    功效分析用于检查在着手之前你是否准备了足够的数据。


    功效分析是对给定数量的数据检测预期功效大小的一种方法,你可以借助功效分析制定研究计划。


    不确定性意味着,即使你拥有世上最棒的数学方法,也可能得出错误的结论。


    统计是什么?在不确定性中找确定性的神奇魔法。但没有哪种魔法可以做到这一点,人们总会犯错误。提到错误,在频率统计中有两类经常出现的错误。


    第一类错误是指原假设是对的,我们却拒绝了原假设。大概就是,老兄,虽然你对这个默认做法很满意,但你的数学计算说服你放弃它。第二类错误是指原假设是错的,我们却接受了原假设。(我们统计学家对命名真是有创意。猜一猜哪一个错误更糟糕?第一类?没错,很有创意吧。)


    第一类错误就像是给一个无辜的人定罪,而第二类错误则是未能给一个有罪的人定罪。犯这两类错误的概率是平衡的(提高抓住坏人的概率也同时提高了错判好人的概率),除非你拥有更多证据(数据!),可以使犯两类错误的概率都变小,整体结果都会变得更好。这就是为什么统计学家希望你拥有大量、丰富的数据!当你拥有更多的数据时,一切都变得更好了!


    数据越多越容易杜绝错误的结论。


    640?


    什么是多重比较校正(multiplecomparisons correction)呢?如果你打算对同一个受试群体询问多个问题时,那么你必须以不同的、不断调整的方式询问。如果你一遍又一遍地审讯无辜的嫌疑人(当你持续探测你的数据),最终某个随机事件总会让案子看起来有罪。


    “统计显著”(statistically significant)这个术语并不意味着在零假设的世界里发生了重要的事情,它仅仅意味着我们改变了看法。这种改变也可能是错误的,都怪烦人的不确定性!


    别浪费你的时间来严谨地回答错误的问题了,试试统计学的方法吧!


    那什么是第三类错误呢?这是一个统计学的笑话:它指的是正确地拒绝了错误的零假设。换句话说,运用的数学方法都是正确的,却回答了错误的问题。


    解决这个错误的问题的一个方法可以在“智能决策工程”(Decision Intelligence Engineering)这个视频中找到。智能决策工程是一个使用数据科学解决商业问题和优化决策的新学科。通过掌握智能决策这种方法,你可以避免犯第三类错误和无用的数据分析。


    相关链接:

    https://www.youtube.com/watch?v=x1k37Na1iLc&t=374s


    总而言之,统计学是一种改变你的观念的科学。目前分为两种流派,更常见的是频率统计派——检验你是否应该拒绝你的原假设。贝叶斯统计派则是根据数据更新先验信念。如果你在开始分析数据之前大脑一片空白,那就先看看你的数据,然后跟着直觉走吧。


    相关报道:

    https://towardsdatascience.com/statistics-for-people-in-a-hurry-a9613c0ed0b


    640?wx_fmt=png

    640?wx_fmt=jpeg

    展开全文
  • 统计学(第6版)

    2020-07-30 23:31:46
    统计学(第6版)
  • 我掌握的统计学浅谈

    2020-10-21 18:01:57
    统计学statistics,主要两方面;descriptive statistics,描述性统计和statistical inference,统计推断。 前者基于数据观察,描述数据;后者基于数据观察,得到数据总体相关的一些结论;后者主要包括两个方面,...

     

    随手写。

    • 统计学statistics,主要两方面;descriptive statistics,描述性统计和statistical inference,统计推断。
    • 前者基于数据观察,描述数据;后者基于数据观察,得到数据总体相关的一些结论;后者主要包括两个方面,hypothesis testing,假设检验和estimate,估计。
    • 假设检验,通俗讲,就是说我们看到了(抽样、或者仅仅是观察到)这样的数据,这种情况下,总体的参数等于某个值这个假设是否成立、多大置信度上成立、百分之多少的情况下,这个假设会发生。
    • 如果这个总体假设下,观察到这个样本值的概率很低,拒绝该假设;这个阈值,就是显著性水平(低的,经常遇见的5%或者1%),significance level;经常用alpha表示;1-alpha即是置信度,confidence level。
    • p值就是,这个假设下(总体参数假设和抽样分布假设下),观察到这个值及以上或者以下的概率(具体看假设;是一个区间的概率,而非一个点);如果p值小,表示概率低,认为是小概率事件,认为是抽样误差引起的,拒绝原假设。
    • p值是通过观察概率值,比较一些区间出现的概率值和alpha来做假设检验;与之相对应的是,通过比较statistic值的大小来做假设检验,比较计算到的statistic和alpha对应的critical value。
    • null hypothesis 原假设 vs alternative hypothesis 备择假设;拒绝原假设 vs 无法拒绝原假设。
    • 原假设对的情况下,拒绝原假设的错误,叫type I error,alpha概率的情况下会出现这个错误。
    • 而原假设错误的情况下,没能拒绝原假设的错误,叫做type ii error。
    • 做回归regression时候,软件一般会对各变量的系数的估计值,输出p值;这个可以理解成是比较特殊的假设检验,即检验,这些参数估计值等于0这个假设是否成立;如果不成立,则这个参数 statistically significant from 0,这个自变量对于解释因变量是有作用的,而非零作用。
    • 工业中,如果想准确的知道这个占比数据是否percentage有效,抽样的最小样本量的估计,可以认为是一种估计,区间估计;这个占比数据,结合考虑可承受的error rate(占比数据上下百分之多少的误差是可接受的;error要求越低,需要的样本量也越多),结合置信度(多大程度上要相信,越低,置信度越高,需要的样本量也越多),去确定n值;具体,可以使用假设正态分布下的区间估计,也可以去使用一些不等式去计算。
    • 假设正态下的,最小样本量是多少,取决于误差的水平,就是做区间估计时候,在样本估计上加减的值多少;一是决定于样本容量(要反推出来的值);另一个是置信度下的critical value,比如95%下,就是1.96,大概是2,双侧;具体公式就是1.96*样本标准差 / 根号内样本容量。
    • 中心极限定律是 central limit theorem,说抽样多次后,不管总体参数是服从什么分布,抽样参数的均值会服从正态分布,均值和标准差可以确定的正态分布;这个是统计推断主要依据的理论。
    • 大数定律,实验做得多,观察到的离真实的就不远。
    • 抽样参数的分布(抽样分布、sampling distribution)决定,我们做的是z检验还是t检验;知道总体标准差时,且样本量较大时,可采用z检验,分布是假设高斯分布;不知道总体分布的标准差或者样本量比较小时,采用t检验,假设的是t分布,涉及自由度,总体分布的标准差用抽样得到的标准差近似替代;样本量比较少,一般是指30个样本量下。
    • 样本参数的分布,经常看到的就是样本均值的分布,服从的是高斯分布,均值是总体均值,且标准差是总体标准差处以根号内的样本规模;也叫标准误,standard error。
    • 另一个经常看到的是,占比的分布,比如点击率、出生率等;
    • 成数的总体分布,标准差是根号内,成数乘以一减去成数;样本成数的分布,就是再除以根号n;有个小技巧:p和1-p的乘积,最大值是0.25(成数等于0.5时候);95%的置信度下,1.96估计为2,2*0.5即位1;所以最小样本量直接是,1/误差平方。
    • 抽样分布,指的是,重复做多次实验;扔20次硬币是一个实验,其中出现头部的次数是样本观测值,样本规模是20;这个实验做多次,就会得到一个抽样分布;我们做假设检验或者统计推断时候,认为是只看到了一次实验的数据,或者少量几次的实验数据,能不能就总体参数,有一些结论。

     

    展开全文
  • 统计学介绍图片Its very important to know about statistics . May you be a from a finance background, may you be data scientist or a data analyst, life is all about mathematics. As per the wiki ...

    统计学介绍图片

    Its very important to know about statistics . May you be a from a finance background, may you be data scientist or a data analyst, life is all about mathematics. As per the wiki definition “Statistics is the discipline that concerns the collection, organization, analysis, interpretation and presentation of data. In applying statistics to a scientific, industrial, or social problem, it is conventional to begin with a statistical population or a statistical model to be studied.”

    了解统计信息非常重要。 可能您是金融背景的人,可能是数据科学家或数据分析师,生活全都与数学有关。 按照Wiki的定义,“统计是一门涉及数据收集,组织,分析,解释和表示的学科。 在将统计信息应用于科学,工业或社会问题时,通常从统计人口或要研究的统计模型开始。”

    Today in this article, we will go through the basics of statistics and in the next few articles we can deep dive.

    今天,在本文中,我们将介绍统计学的基础知识,在接下来的几篇文章中,我们将深入探讨。

    Things covered in this article:

    本文涵盖的内容:

    · Data type

    · 数据类型

    · Distributions

    ·发行

    · Sampling and distribution

    ·抽样和分配

    · Hypothesis testing

    · 假设检验

    Data type:

    数据类型:

    Roughly we can divide data into 2 types. Categorical and Numerical. Categorical is further divided into Nominal and Ordinal. Numerical is divided into Discrete and continuous.

    我们大致可以将数据分为两种类型。 分类和数值。 分类进一步分为标称和序数。 数值分为离散和连续。

    Image for post
    Data Types
    资料类型

    Examples:

    例子:

    1. What are the names of the students ?[Options — Tony, Harry, Tom, Alex].

    1.学生的名字是什么?[选项-托尼,哈里,汤姆,亚历克斯]。

    [ Tony, Harry, Tom, Alex] -> is called the sample space. And these are categorical data. This is Nominal data too because this is used for naming or labeling variables, without any quantitative value.

    [Tony,Harry,Tom,Alex]->称为样本空间。 这些是分类数据。 这也是名义数据,因为它用于命名或标记变量,没有任何定量值。

    2. Which rating would you give to “XYZ” movie? [Very good, Good, Bad, Worse]

    2.您将给“ XYZ”电影哪个等级? [很好,很好,不好,更糟]

    This is also categorical data, but ordinal as this has a set order or a scale associated with it.

    这也是分类数据,但按序排列,因为它具有设定的顺序或与之相关的标度。

    3. How many students are there in a class? [ 2,3,4…10……100]

    3.班上有多少个学生? [2,3,4…10……100]

    This is an example of discrete data as this can take only certain values. We can’t have students as 2.5. So, it can have only certain values.

    这是离散数据的示例,因为它只能采用某些值。 我们不能有2.5个学生。 因此,它只能具有某些值。

    4. What is the height of the students? [1–10]

    4.学生的身高是多少? [1-10]

    This is an example of continuous data. The height can take any values like 1.2, 1.87, 1.09 etc. These numbers can have any decimal point and can divide these if we want.

    这是连续数据的一个例子。 高度可以采用任何值,例如1.2、1.87、1.09等。这些数字可以具有任何小数点,并且可以根据需要将它们相除。

    Distributions

    发行版

    How are marks of students distributed?

    学生分数如何分配?

    Minimum marks : 20

    最少分数:20

    Maximum marks : 100

    最高分数:100

    This means that the marks are distributed between 20 to 100. So, this can be represented in the form of a PDF (probability distribution function).

    这意味着标记分布在20到100之间。因此,可以用PDF(概率分布函数)的形式表示。

    Image for post
    PDF — Probability Distribution Curve
    PDF —概率分布曲线

    This can be read as — the distribution of the marks of the students (population) are from 20 to 100. All other students will have marks between these two numbers. Or in other words –in terms of probability density function its the probability of selecting someone at random from that population at every given mark. So the probability that someone will have marks around the center ( 60 ) will be more compared to someone having marks as 25 or 95. If I select someone at random, there is highest probability that I would choose a student with marks around 60(the mean ).This curve is called bell curve or a normal distribution curve. The distribution is symmetrical.

    可以理解为—学生的分数分布(人口)为20至100。所有其他学生的分数在这两个数字之间。 换句话说,就概率密度函数而言,它是在每个给定标记处从该人口中随机选择某人的概率。 因此,某人在中心(60)周围有分数的概率要比有25或95的分数高。如果我随机选择某人,则我选择一个分数在60左右的学生的可能性最大。意思 )。 该曲线称为钟形曲线或正态分布曲线。 分布是对称的

    Some common terms used in statistics:

    统计中使用的一些常用术语:

    Image for post
    Terminologies
    术语

    When we take a sample these variables symbols changes. These are X̄ for mean, S for standard deviation, p for proportion, r for correlation and b for gradient.

    当我们取样时,这些变量符号会发生变化。 这些是X̄代表平均值,S代表标准偏差,p代表比例,r代表相关性,b代表梯度。

    Hypothesis testing

    假设检验

    Lets understand this with an example.

    让我们用一个例子来理解这一点。

    Example: Did dieters lose more fat than the exercisers? We are given certain numbers as below.

    例:节食者比运动者失去的脂肪更多吗? 我们给了某些数字如下。

    Diet Only:

    仅饮食:

    sample mean = 5.9 kg

    样本平均值= 5.9千克

    sample standard deviation = 4.1 kg

    样品标准偏差= 4.1千克

    sample size = n = 42

    样本量= n = 42

    standard error = SEM1 = 4.1/ √42 = 0.633

    标准误差= SEM1 = 4.1 /√42= 0.633

    Exercise Only:

    仅练习:

    sample mean = 4.1 kg

    样本平均值= 4.1千克

    sample standard deviation = 3.7 kg

    样品标准偏差= 3.7千克

    sample size = n = 47

    样本量= n = 47

    standard error = SEM2 = 3.7/ √47 = 0.540

    标准误差= SEM2 = 3.7 /√47= 0.540

    measure of variability = [(0.633)2 + (0.540)2] = 0.83

    变异性的度量= [((0.633)2 +(0.540)2] = 0.83

    Step 1: Determine the null and alternative hypotheses.

    步骤1:确定原假设和替代假设。

    Null hypothesis: No difference in average fat lost in population for two methods. Population mean difference is zero.

    无假设:两种方法在人群中平均脂肪损失没有差异。 总体平均差为零。

    Alternative hypothesis: There is a difference in average fat lost in population for two methods. Population mean difference is not zero.

    替代假设:两种方法在人群中平均损失的脂肪有所不同。 总体平均差异不为零。

    Step 2. Collect and summarize data into a test statistic.

    步骤2.收集数据并将其汇总到测试统计信息中。

    The sample mean difference = 5.9–4.1 = 1.8 kg

    样本平均差异= 5.9–4.1 = 1.8千克

    The standard error of the difference is 0.83.

    差异的标准误差为0.83。

    So the test statistic: z = (1.8–0)/0.83 = 2.17

    因此,检验统计量:z =(1.8-0)/0.83 = 2.17

    Step 3. Determine the p-value.

    步骤3.确定p值。

    Recall the alternative hypothesis was two-sided. p-value = 2 × [proportion of bell-shaped curve above 2.17]

    回想一下替代假设是两面的。 p值= 2×[2.17以上的钟形曲线比例]

    proportion is about 2 × 0.015(this value comes from a standard table) = 0.03.

    比例约为2×0.015(该值来自标准表)= 0.03。

    Step 4. Decide.

    步骤4.决定。

    The p-value of 0.03 is less than or equal to 0.05, so …

    p值0.03小于或等于0.05,因此…

    • If really no difference between dieting and exercise as fat loss methods, would see such an extreme result only 3% of the time, or 3 times out of 100.

    •如果节食和运动作为减脂方法确实没有区别,那么仅3%的时间(或100的3倍)就会看到这样的极端结果。

    • Prefer to believe truth does not lie with null hypothesis. We conclude that there is a statistically significant difference between average fat loss for the two methods.

    •宁愿相信真理不存在虚无假设。 我们得出的结论是,两种方法的平均减脂之间存在统计学上的显着差异。

    Congratulations, you did it.

    恭喜,您做到了。

    For now, thank you all for making it this far. We covered basics of hypothesis tests and the bell curve. We will deep dive into various types of distributions and their terminologies.

    现在,谢谢大家所做的一切。 我们介绍了假设检验和钟形曲线的基础。 我们将深入研究各种发行版本及其术语。

    And as always, if there are any question, remarks, or comments feel free to contact me!

    和往常一样,如果有任何问题,评论或意见,请随时与我联系!

    Reference :

    参考:

    Statistics How To

    统计方法

    https://www2.stat.duke.edu/courses

    https://www2.stat.duke.edu/courses

    翻译自: https://medium.com/analytics-vidhya/introduction-of-statistics-53b0f293e0e0

    统计学介绍图片

    展开全文
  • 统计学笔记(一)

    千次阅读 2018-11-27 22:15:09
    统计学完全教程》囊括了统计学的全部知识,共22章,由美国著名的学者沃塞曼所著。在nlp领域里统计学占据主导地位,没有了统计学,深度学习将无法构建损失函数,无法实现图模型的推理。推理算法主要依靠统计学,...
  • 统计学入门

    千次阅读 2019-07-03 11:47:38
    统计学入门 目的:数据分析的工作,需要学习统计学的基础课程; 我想要的目的:统计学中在数据分析中用到知识和概念,最好有落地的方法论已做指导; 哈里斯堡社区大学公开课:统计学入门 ...1.统计学分为2枝,描述...
  • 统计学 统计学是研究客观现象的统计规律性的科学,是关于数据搜集、整理、归纳和分析的方法论科学。 当然,因为统计学是一门方法论科学,你也可以将里面研究客观现象的统计规律性的方法用于去发现生活中的另类规律性...
  • 参数估计——统计学

    2020-07-31 16:39:49
    参数估计 已知正态总体,估计miu, 总体均值的区间估计 这一部分需要考虑因素,是否为正态总体,方差,用于构造估计量的样本是大样本还是小样本(n>30 or n<30) 正态总体,方差未知,小样本, ...
  • 统计学符号表

    千次阅读 2019-07-09 10:51:40
    字符 含义 R 实数集 Rn n维实数向量空间,n维欧式空间 H 希尔伯特空间 X 输入空间 Y 输出空间 x∈X 输入,实例 y∈Y 输出,实例 X 随机输入变量 Y 随机输出变量 ...x={(x(1),y(1)),(...
  • 1t检验 1. 1单样本t检验 已知某水样中含碳酸钙的真值为20.7mg/L,现用某法重复测定该水样12次,碳酸钙的含量分别为…问该法测定碳酸钙含量所得的均值与诊治有无显著差异? > x <- c(20.99,20.41,20.10,...
  • http://www.07net01.com/program/306401.html 本文摘自 Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each.... 41
  • 统计学(第七版)贾俊平课后习题数据

    万次阅读 热门讨论 2019-05-31 11:31:52
    统计学(第七版)贾俊平课后习题数据
  • 贾俊平统计学第七版课后习题答案

    万次阅读 2019-12-10 16:48:33
    附文件:http://zgw.100xuexi.com/SubItem/IndexInfoDetail.aspx?id=3f00a767-3f6f-4670-ad1e-5379db7d4b39
  • 统计学简介之十——样本量的确定

    万次阅读 2017-09-20 19:59:13
    统计学简介之十——样本量的确定
  • 统计学书籍推荐

    千次阅读 2020-04-13 15:41:24
    简单推荐几本不错的高级统计学书籍 1.《应用多元统计分析》 2.《多元统计分析》 3.《线性和广义线性混合模型及其统计诊断》 4.《独立成分分析》 5.《高级医学统计学》 6.《医学统计学》 ...
  • 一、首先要更正的一个观念:统计学类中,只有统计学和应用统计学。没有大数据技术。 教育部2012年本科目录中,统计学类,只有统计学和应用统计学。在经济学类下设经济统计学专业。 “统计学”起源于政治学与经济...
  • 统计学与大数据分析

    万次阅读 2017-10-29 15:10:50
    统计学 在谈大数据分析之前我想应该说一说统计学统计学到底是怎样一种学问呢。先看看我们的周围,其实有无限多的数据。所谓数据呢就是一系列数字的集合或者符号的集合体。我们傻傻的看着这些数据也看不出什么。...
1 2 3 4 5 ... 20
收藏数 71,053
精华内容 28,421
关键字:

统计学