精华内容
下载资源
问答
  • 大约一年前,一读者问我是否可以试着解释自由度在统计学中的意义。从那时起,我一直在思考因为请求非常谨慎,像某种野兽,我不确定我是否可以安全地把它打倒在地。自由度不容易解释,他们在统计中的一些先进和复杂...

    大约一年前,一位读者问我是否可以试着解释自由度在统计学中的意义。从那时起,我一直在思考因为请求非常谨慎,像某种野兽,我不确定我是否可以安全地把它打倒在地。

    自由度不容易解释,他们在统计中的一些先进和复杂的许多不同的情况下出现。 在数学方面,他们在技术上定义为一个随机向量域的维数。

    但我们不会讲到这些,因为自由度通常不是你需要了解执行统计分析,除非你是一个研究的统计学家或有人研究统计理论。然而心中真想知道,为了冒险和好奇,下面是一些例子,提供一个统计数据的基本要点。

    不同的自由度

    首先忘记统计数据,想象你是一个风趣的人,喜欢戴帽子,你不关心什么是自由度,你相信多样性是生活的调味品。不幸的是你有约束,你只有7个帽子。然而,你想每天戴不同的帽子。

    在第一天,你可以戴7帽子中的任何一个。第二天,你可以从剩下的6个帽子中选择,第三天你可以从剩下的5个帽子中选择,等等。

    第六天,在这周没有戴过的帽子中你还有2个帽子选择。但你选择你的帽子后6天,在7天你没有可以选择的帽子戴。你必须戴最后剩下的帽子。你有7 - 1 = 6天的“帽子”自由的帽子你可以改变!

    这是统计中的自由度的一种理念。自由度通常被广泛地定义为“观测”(信息的片段)在估计统计参数时自由变化的数据的数量。

    自由度:单样本t检验

    现在想象你没有帽子,你进入数据分析。

    你有一个10个值的数据集,如果你不估计,每个值可以取任意数量,对吗? 每个值是完全自由的变化。

    但如果你想用单样本t检验测试一个10样本总体均值,你现在有一个约束的均值估计。这个约束到底是什么? 根据定义的意思,下面的关系必须保持:数据中所有值的总和必须等于nx的平均值,n为数据集的数量值。

    如果一个数据集有10个值,10个值的总和必须等于平均值x 10。如果10个值的均值为3.5(你可以选择任意数量),这种约束要求10个值之和必须等于10 x 3.5 = 35。有了这个约束,数据集的第一个值是可以自由变化的。对于任何值,所有10个数字值和对于35仍然是可能。 第二个值还可以自由变化因为无论你选择何种值,它仍然允许的可能性的总和为35。

    事实上,前9个值可以是任何东西,包括这2个例子:

    34, -8.3, -37, -92, -1, 0, 1, -22, 99

    0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9但要有所有10个值的总和为35,并有一个平均值为3.5,第十个值不能改变。它必须是一个特定的数字:

    34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> 10TH value must be 61.3

    0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> 10TH value must be 30.5因此你有10 - 1 = 9自由度,不管您使用什么样本量或者是你在使用样本平均值的最后一个值是不自由变化,你最终得到n- 1自由度其中n是样本容量。

    另一种方式是,自由度的数量等于“观测”的数量减去所需的观测之间的关系(例如,参数估计数)。对于单样本t检验一个自由度估计均值,剩下的n- 1自由度估计可变性。自由度定义特定的t分布,用来计算t检验p值和t值。

    注意,对于小样本(n),有较小的自由度(n - 1对应的单样本t检验),t分布有胖的尾巴。这是因为t分布是专门设计提供更多保守的测试结果在分析小样本(如在酿酒行业)。 随着样本容量(n)的增加,自由度数量增加,t分布接近正

    态分布。

    自由度:卡方检验

    让我们看看另一个方面,一个卡方检验的独立性是用来确定两个分类变量是否相关。对于这个测试,自由度是在两行和列的边际总数的约束条件下,可以改变的分类变量的双向表中的单元格数。所以每个“观察”在这种情况下是一个个体的频率。

    考虑最简单的例子: : 一个2×2表,为每个类别的两类两水平。

    不管您使用什么值的行和列边际总数。一旦设置这些值,只有一个细胞的值可以改变(这里显示的标志可能是四个个体的任何一个)。一旦你输入一个个体的数量,所有其他个体的数量是预先的行和列的总数。 他们不是自由变化。因此,卡方检验的独立性自由度为1的2×2表。

    类似地3 x 2表有2自由度,因为只有两个给定的一组细胞可以不同的边际总数。

    如果你尝试用不同大小的表,最终你会找到一个通用公式。对于一个r行和c列的表,可以改变个体的数量(r1)(c1)。

    这就是独立的卡方检验的自由度公式!

    自由度定义卡方分布用来评估独立的测试。

    卡方分布是正态分布,随着自由度的增加,它接近正常的曲线。

    自由度:回归

    回归的背景下,经常说到自由度。而不是失去一个剩余的读者仍然阅读这篇文章(嗨,妈妈!),我开门见山。

    回想一下,自由度一般等于观测的数量(或信息)-参数估计的数量。当您执行回归,一个参数估计在模型中的每一个术语,并且每一个都消耗了一个自由度。因此,包括多元回归模型来减少过度自由的程度可估计参数的变异性。事实上,如果不是足够的数据量方面的数量在你的模型中,甚至可能不会有足够的自由度(DF)误差项和没有假定值或f值可以计算。 你会得到输出这样的。

    如果发生这种情况,你需要收集更多的数据(增加自由度)或删除从您的模型(减少所需的自由度数量)。尽管在一个随机向量的域界存在,自由度确实真实的、有形的影响你的数据分析。

    展开全文
  • 2.3.2 顺序数据:中位数和分位数 . 27 2.3.3 分类数据:众数. 27 2.4 数据离中趋势 . 28 2.4.1 极差 28 2.4.2 分位距 29 2.4.3 平均差 29 2.4.4 方差与标准差 30 2.4.5 离散系数 32 2.5 数据分布测度 . 33 2.5.1...
  • 什么是描述性统计分析,这不仅数据分析面试最常见问题,也我们日常分析必过一道关卡。 要把握数据分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。 1、集中趋势 集中趋势就是指一...

    写在前面

    什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。

    要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。

    1、集中趋势

    集中趋势就是指一组数据向某一中心靠拢的程度,通常有以下指标:

    众数

    对分类数据来说,众数是最适合描述其集中趋势的值,它是指一组数据中出现次数最多的变量,众数不受极端值的影响,但是可能不唯一,且当数据量较多时,才有意义。

    中位数

    对数据型数据来说,可以用中位数来描述其集中趋势的度量,中位数就是将一组数据排序以后处于中间位置的值,那么如何寻找中间位置呢?

    1、 将这组数据按顺序排列
    2、 中间数值所在的位置是(n+1)/2,n表示n个数
    3、 当n为奇数时,中间位置的数就是中位数,当n为偶数时,中间位置两个数的均值为中位数。

    显然这里有两种情况,当n为奇数和偶数两种情况,求下面这组数据的中位数

    0 1 2 3 4 5 6 7 8

    这里n=9,中位数的位置=(9+1)/2 = 5,那么中位数就是4.

    0 1 2 3 4 5 6 7 8 9

    当n=10时,中位数的位置是 (10+1)/2 = 5.5,那么中位数就是第5个位置的数和第6个位置的数的平均数,也就是(4+5)/2 = 4.5

    知道计算的原理,但其实不用我们自己去算,软件中有相应的函数,如Excel中的median函数可以计算中位数。中位数也不受极值的影响。

    四分位数

    同样,四分位数也是对数值型数据集中趋势的度量,后面的度量都适用于数值型数据。四分位数就是将数据排序后四等分,处于25%(下四分位数)和75%(上四分位数)位置上的值即四分位数,箱型图可以很好地用来描述四分位数。

     

    Excel中可以用quartile函数来计算四分位数。

    平均数

    简单平均数:就是算术平均数,所有数值相加再除以总个数。
    加权平均数:数据分组后每组有相应的权重。
    几何平均数:n个变量乘积的n次方根,主要用于计算平均比率,如增长率的平均值。

    Excel中用average函数计算平均数。

    如果分布是对称的,那么众数=中位数=平均数,如果数据左偏,那么平均数<中位数<众数,如果数据右偏,那么众数<中位数<平均数,根据数据的分布形态,选择适合的集中趋势度量去描述。

     

    2、离散程度

    离散程度就是描述各个变量远离其中心值的程度,通常有以下指标:

    异众比率

    指非众数组的频数占总频数的比例,较多地用在分类数据中,用来体现众数的代表性。异众比率越大,说明非众数组占比越大,那么众数就不能很好地代表这组数据。

    四分位差

    对于数值型数据,四分位差可以来描述数据的离散程度,四分位差就是上下四分位数的差。反映了中间50%数据的离散程度,四分位差越小,说明中间的数据越集中,

    极差

    极差就是最大值与最小值的差,容易受极值的影响。

    平均差

    各变量与其平均数离差绝对值的平均数,反映了每个数与平均数的差异程度,Excel里用avedev计算平均差。

    方差和标准差

    对数值型数据,怎么能少得了我们熟知的方差和标准差。方差就是各变量与其平均数离差平方的平均数,方差的平方根就是标准差,方差和标准差是应用最广的描述数据离散程度的度量。Excel里用stdev来计算标准差。

    3、分布形状

    描述分布形状的度量有偏态和峰态

    偏态

    数据分布对称性的描述,统计量是偏度,偏度>0,则频数分布的高峰向左偏移,呈右(正)偏态分布;偏度<0,则频数分布的高峰向右偏移,呈左(负)偏态分布;|偏度|>1,呈高度偏态,0.5<|偏度|<1,呈中等偏态,一个记忆方法就是,尾巴在哪边就是哪偏。

    对于偏态,在之前的文章 中也有写过。
    如何处理偏态数据?

    峰态

    是描述数据平峰或尖峰程度的度量。统计量是峰度。同偏态一样,峰态也是与标准正态分布来比较的,峰度>0,数据分布更集中,为尖峰分布,峰度<0,数据分布更分散,为平峰分布。

    以上提到的各种统计量除了用Excel中的函数来计算外,还可直接用【数据分析】功能中的【描述统计】命令直接得到。


    猜你喜欢:
    什么是好的数据指标:精益数据分析

    泰坦尼克号数据分析

    深入浅出数据分析

    数据分析都有哪些岗位?

    为什么要学统计学:赤裸裸的统计学

    成为数据分析师的第三年,我写了10W字

     

    展开全文
  • 什么是平均值 (Average)?

    千次阅读 2015-12-14 10:45:49
    在学习基本统计概念时,一组数据均值包含多个意义,它既可以数学平均值、中间值、众数。...中位数 (Median) ——所有数据里面抽一个中间数,所有数据中一半数据比它大,一半比它小,如果个数为

    在学习基本统计概念时,一组数据的均值包含多个意义,它既可以是数学平均值、中间值、众数。举例说明它们之间的不同:计算出一个小区每个家庭的平均收入是14000/月。这个数字含有以下3个意义。数学上的均值 (arithmetical average)——把所有的数据加起来再除以它的个数。中位数 (Median) ——所有的数据里面抽一个中间的数,所有数据中一半的数据比它大,一半比它小,如果个数为双数,就是抽出两个数的中间值。众数(mode)——所有数据出现的次数最多的数。回到刚才的例子,假如这个小区的分布是按图那种,数学平均值是5700元,看起来很高,但是再看它的中位数是3000,众数是2000,你就知道它的分布是很不均衡的,极少数是40000以上,大部分是2000左右,那么均值是3500的话,要问清楚,它是哪一种定义?



    日常使用均值不需要不区分它们,比如我们说某一种人种,平均身高是170,不论是哪种均值,当它正态分布没有偏差的话,计算出来的结果都差不多。



    以上故事对我们量化管理项目有什么经验教训?

     

    在做高成熟度时候,我常强调收集的数据不是单点的数字,所以在做数据分析前,用柱状图把数据分布显示出来,然后再用一些参数:平均值、中位数去描述数据的均值,这才有意义。很多时候人们在做高成熟度或公司度量时,一看见数字就立马去做分析,而没有注意很多数据本身背后的分布状态是否符合他本来的假定。

     

    以上故事对我们量化管理项目有什么经验教训?

    千万不要但用一个平均数 (单点) 来判断  在计算那些统计系数前,应先用柱状图,箱线图,散点图等 看看分布, 可以利用多个系数来表达,会更有意义。

    展开全文
  • 10万+文章推荐科研神器,秒杀“谷歌翻译”。...如果不服从正态分布,采用中位数(四分位数间距)进行统计描述,组间比较采用非参数检验(Kruskal-Wallis秩和检验),当组间总有统计学差异,进一步采用Dunn...

    10万+文章推荐的科研神器,秒杀“谷歌翻译”。不够用?再送两个

    介 绍

    数值变量如果服从正态分布,采用均数±标准差进行统计描述,采用方差分析进行组间比较,如果组间差异有统计学意义,进一步采用LSD法(也可以是其它方法)进行两两比较。如果不服从正态分布,采用中位数(四分位数间距)进行统计描述,组间比较采用非参数检验(Kruskal-Wallis秩和检验),当组间总的有统计学差异,进一步采用Dunn法(也可以是其它方法)进行多重比较。

    我们想比较不同BMI组人群的年龄是否有差异,经正态性检验,年龄不符合正态分布,故选用非参数检验(Kruskal-Wallis秩和检验)。

    软件操作

    1、导入数据

    使用read.delim命令读取剪贴板上的数据,str命令查看数据的样本量和变量数及每个变量的类型,head命令查看数据集的前6行。

    2、分类变量因子化

    使用factor命令把sex、bmig、work和disease因子化,并添加值标签,使用str命令查看数据类型,使用head命令查看前6行。

    3、Kruskal-Wallis秩和检验

    使用kruskal.test命令进行Kruskal-Wallis秩和检验,结果显示统计量H=12.365,p=0.002<0.05,提示不同BMI组人群的年龄有差异,但具体是哪两组有差异,还需进一步两两比较。

    4、Dunn法进行两两比较

    安装并调用FSA包,使用dunnTest命令进行Dunn法,实现对不同BMI组人群年龄的两两比较,p值校正方法选择bonferroni法,可以直接看P.adj列,即为校正后的p值,可以与0.05直接比较。

    结果显示Overweight组与Obese组年龄存在差异,统计量Z=3.30,校正后p=0.003<0.05。

    注:统计量保留两位小数,p值保留三位小数。

    #install.packages("FSA")library(FSA)

    技能拓展

    1、如果要发表SCI,统计方法可以描述为:

    Differences in characteristics between groups were analyzed using the Kruskal–Wallis test with Dunn post hoc tests (for continuous variables, R package FSA) or χ2 tests with post hoc tests (for categorical variables, R package fifer).

    2、我们之前介绍了如何快速生成研究对象基本特征的Table1(参考《对中文期刊友好的,临床基线资料table快速生成,不学就OUT了》),非常方便,但遗憾的是,对于多组比较,不能提供进一步两两比较的p值。好在,R在实现Kruskal-Wallis秩和检验和两两比较方面还是比较方便的,在得到结果后,我们可以手动把相应p值标注在Table1上。

    精品内容介绍

    小白学统计训练营,广受好评,如果你正在因为不会数据分析而发愁,加入训练营绝对是一个好的选择,详见《第三期小白变统计高手训练营,开班在即》。

    如果你想显著提升统计分析和作图效率,可以考虑加入小白学R技能训练营。

    以上两个训练营,这两天都将开班,可联系老师咨询。

    展开全文
  • 131 主串为S="00000000000000000000000000000000000000000000000001",而要匹配子串为T="0000000001",……在匹配时,每次都得将T字符循环到最后一才发现,哦,原来它们不匹配。 5.7 KMP模式匹配算法 135 ...
  • 统计最大连续次数3个“不重复”个数统计在一列有重复姓名,如何统计出具体有几人 计数问题 不相同 如何分班统计男女人数 在几百几千个数据发现重复项 统计互不相同数据个 多个工作表单元格合并计算 ...

空空如也

空空如也

1 2 3 4 5 ... 8
收藏数 145
精华内容 58
关键字:

中位数的统计意义是什么