精华内容
下载资源
问答
  • python 计算均值、方差、标准差 Numpy,Pandas

    万次阅读 多人点赞 2019-10-23 22:58:25
    Numpy 计算均值、方差、标准差2. Pandas 计算均值、方差、标准差 Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。 1. Numpy 计算均值、方差、标准差 一般的均值可以用 numpy ...


    Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。

    1. Numpy 计算均值、方差、标准差

    一般的均值可以用 numpy 中的 mean 方法求得:

    >>> import numpy as np
    >>> a = [5, 6, 16, 9]
    >>> np.mean(a)
    9.0
    

    numpy 中的 average 方法不仅能求得简单平均数,也可以求出加权平均数。average 里面可以跟一个 weights 参数,里面是一个权数的数组,例如:

    >>> np.average(a)
    >>> 9.0
    >>> np.average(a, weights = [1, 2, 1, 1])
    >>> 8.4
    

    计算方差时,可以利用 numpy 中的 var 函数,默认是总体方差(计算时除以样本数 N),若需要得到样本方差(计算时除以 N - 1),需要跟参数 ddo f= 1,例如

    >>> import pnumpy as np
    >>> a = [5, 6, 16, 9]
    >>> np.var(a) # 计算总体方差
    18.5
    
    >>> np.var(a, ddof = 1) # 计算样本方差
    24.666666666666668
    
    >>> b = [[4, 5], [6, 7]]
    >>> b
    [[4, 5], [6, 7]]
    
    >>> np.var(b) # 计算矩阵所有元素的方差
    1.25
    
    >>> np.var(b, axis = 0) # 计算矩阵每一列的方差
    array([1., 1.])
    
    >>> np.var(b, axis = 1) # 计算矩阵每一行的方差
    array([0.25, 0.25])
    

    计算标准差时,可以利用 numpy 中的 std 函数,使用方法与 var 函数很像,默认是总体标准差,若需要得到样本标准差,需要跟参数 ddof =1,

    >>> import pnumpy as np
    >>> a = [5, 6, 16, 9]
    >>> np.std(a) # 计算总体标准差
    4.301162633521313
    
    >>> np.std(a, ddof = 1 ) # 计算样本标准差
    4.96655480858378
    
    >>> np.std(b) # 计算矩阵所有元素的标准差
    1.118033988749895
    
    >>> np.std(b, axis = 0) # 计算矩阵每一列的标准差
    array([1., 1.])
    
    >>> np.std(b, axis = 1) # 计算矩阵每一列的标准差
    array([0.5, 0.5])
    

    2. Pandas 计算均值、方差、标准差

    对于 pandas ,也可以用里面的 mean 函数可以求得所有行或所有列的平均数,例如:

    >>> import pandas as pd
    >>> df = pd.DataFrame(np.array([[85, 68, 90], [82, 63, 88], [84, 90, 78]]), columns=['统计学', '高数', '英语'], index=['张三', '李四', '王五'])
    >>> df
    统计学  高数  英语
    张三   85  68  90
    李四   82  63  88
    王五   84  90  78
    
    >>> df.mean() # 显示每一列的平均数
    
    统计学    83.666667
    高数     73.666667
    英语     85.333333
    dtype: float64
    
    >>> df.mean(axis = 1) # 显示每一行的平均数
    张三    81.000000
    李四    77.666667
    王五    84.000000
    dtype: float64
    

    若要得到某一行或某一列的平均值,则可以使用 iloc 选取改行或该列数据,后面跟 mean 函数就能得到,例如:

    >>> df
        统计学  高数  英语
    张三   85  68  90
    李四   82  63  88
    王五   84  90  78
    
    >>> df.iloc[0, :].mean()  # 得到第 1 行的平均值
    81.0
    
    >>> df.iloc[:, 2].mean() # 得到第 3 列的平均值
    85.33333333333333
    

    pandas 中的 var 函数可以得到样本方差(注意不是总体方差),std 函数可以得到样本标准差,若要得到某一行或某一列的方差,则也可用 iloc 选取某行或某列,后面再跟 var 函数或 std 函数即可,例如:

    >>> df.var() # 显示每一列的方差
    统计学      2.333333
    高数     206.333333
    英语      41.333333
    dtype: float64
    
    >>> df.var(axis = 1) # 显示每一行的方差
    张三    133.000000
    李四    170.333333
    王五     36.000000
    dtype: float64
    
    >>> df.std() # 显示每一列的标准差
    统计学     1.527525
    高数     14.364308
    英语      6.429101
    dtype: float64
    
    >>> df.std(axis = 1) # 显示每一行的标准差
    张三    11.532563
    李四    13.051181
    王五     6.000000
    dtype: float64
    
    >>> df.iloc[0, :].std() # 显示第 1 行的标准差
    11.532562594670797
    
    >>> df.iloc[:, 2].std() # 显示第 3 列的标准差
    6.429100507328636
    
    展开全文
  • 详细介绍了matlab求方差和标准差的函数用法,包含示例代码
  • 标准差的理解

    千次阅读 2020-06-28 11:58:40
    首先讲一下标准差的概念,要了解什么是标准差标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术...

    我们在数据的处理过程中,或者在数据分析的过程中,对数据的验证是必要的一步,我们要去了解数据的有效性和真实性,这样才能更加准确的用数据说明问题,这里讲一下几个简单的关于数据的概念,可以帮助我们来理解相应的统计学问题。

    概念:

    首先讲一下标准差的概念,要了解什么是标准差。

    标准差StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。测量分布程度的结果,原则上具有两种性质

    为非负数值,与测量资料具有相同单位。一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。

    简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

    例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。

    标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。

    标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定风险亦较小。

    例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差约为17.08分,B组的标准差约为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。

    如是总体(即估算总体),根号内除以n(对应excel函数:STDEVP);

    如是抽样(即估算样本),根号内除以(n-1)(对应excel函数:STDEV);

    因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)。

    公式:

    所有数减去其平均值的平方和,所得结果以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

    扩展:

    离散度:

    标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。

    虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。

    一组数据怎样去评价和量化它的离散度,有很多种方法:

    极差

    最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。

    离均差平方和

    由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。

    但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。

    方差

    由于离均差的平方和与样本个数有关,只能反映相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将离均差的平方和求平均值,这就是我们所说的方差成了评价离散度的较好指标。

    样本量越大越能反映真实的情况,而算术平均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

    标准差意义

    由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。

    在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

    变异系数

    标准差能很客观准确的反映一组数据的离散程度,但是对于不同的项目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。

    一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一“自然”的测量。

    定义公式:其中N应为n-1,即自由度

    标准差与平均值定义公式标准差与平均值定义公式

    ⒈方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2](x为平均数)

    ⒉标准差=方差的算术平方根errorbar。在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误。这里即标准差。

    standarddeviation和标准误standarderror的计算公式分别为

    标准差标准差

    标准误标准误

    解释

    从几何学的角度出发,标准差可以理解为一个从n维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3。它们可以在3维空间中确定一个点P=(X1,X2,X3)。想像一条通过原点的直线。如果这组数据中的3个值都相等,则点P就是直线L上的一个点,P到L的距离为0,所以标准差也为0。若这3个值不都相等,过点P作垂线PR垂直于L,PR交L于点R,则R的坐标为这3个值的平均数:

    公式公式

    运用一些代数知识,不难发现点P与点R之间的距离(也就是点P到直线L的距离)是|PR|。在n维空间中,这个规律同样适用,把3换成n就可以了。

    标准差标准误差

    标准差与标准误差都是数理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。

    首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。


      标准差表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个测验测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。

    标准误差表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本容量开平方来计算的。从这里可以看到,标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。

    一个正态分布的总体,抽取n个作为样本,可以得到样本平均值,用样本均值估计总体均值需要考虑样本均值的方差或标准差(也就是标准误差) [1] 

    函数

    Excel中有STDEV、STDEVP;STDEVA,STDEVPA四个函数,分别表示样本标准差、总体标准差;包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差(excel用的是“标准偏差”字样)。

    在计算方法上的差异是:样本标准差^2=(样本方差/(数据个数-1));总体标准差^2=(总体方差/(数据个数))。

    函数的excel分解:

    ⑴stdev()函数可以分解为(假设样本数据为A1:E10这样一个矩阵):

    stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))

    ⑵stdevp()函数可以分解为(假设总体数据为A1:E10这样一个矩阵):

    stdevp(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))

    同样的道理stdeva()与stdevpa()也有同样的分解方法。

    外汇术语

    标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。

    在excel中调用函数

    “STDEV“

    估算样本的标准偏差。标准偏差反映相对于平均值(mean)的离散程度

    选基金

    在投资基金上,一般人比较重视的是业绩,但往往买进了

    基金的算法基金的算法

    近期业绩表现最佳的基金之后,基金表现反而不如预期,这是因为所选基金波动度太大,没有稳定的表现。

    衡量基金波动程度的工具就是标准差(StandardDeviation)。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。

    比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。建议投资人同时将收益和风险计入,以此来判断基金。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的"每单位风险收益率"为2(0.36/0.18),而B基金为3(0.24/0.08)。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金反而更为优异。

    另外,标准差也可以用来判断基金属性。据晨星统计,股票基金的平均标准差为5.14,积极型基金的平均标准差为5.04;保守配置型基金的平均标准差为4.86;普通债券基金平均标准差为2.91;货币基金平均标准差则为0.19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高,投资人不妨在观赏奥运比赛的同时,也检视一下手中的基金。

    参考:百度百科https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%B7%AE/1415772?fr=aladdin

    展开全文
  • 用matlab编写的,用于求图像的均值、方差、标准差,可以直接运行
  • 一文看不懂方差和标准差

    千次阅读 2020-09-11 19:41:01
    标准差和方差 测量狗的高度(毫米) 高度(在肩部)为:600mm,470mm,170mm,430mm和300mm。 找出均值(Mean),方差(Variance)和标准偏差((Standard Deviation)。 mean在就是average的意思表示平均水平 第一步...

    一文看不懂方差和标准差

    flyfish

    以例子说明什么是均值(Mean),方差(Variance)和标准偏差((Standard Deviation)

    测量狗的高度(毫米)
    在这里插入图片描述

    高度(在肩部)为:600mm,470mm,170mm,430mm和300mm。

    找出均值(Mean),方差(Variance)和标准偏差((Standard Deviation)。

    mean在就是average的意思表示平均水平
    第一步是找到均值:

     Mean  = 600 + 470 + 170 + 430 + 300 5 = 1970 5 = 394 \begin{aligned} \text { Mean } &=\frac{600+470+170+430+300}{5} \\ &=\frac{1970}{5} \\ &=394 \end{aligned}  Mean =5600+470+170+430+300=51970=394
    平均高度是394毫米。 看绿色的线段,我们把它画在图表上。
    在这里插入图片描述

    现在我们计算每只狗与平均值的差(difference)
    在这里插入图片描述

    要计算方差,需要对每个差进行平方,然后对结果进行平均.

    方差(Variance)
    σ 2 = 20 6 2 + 7 6 2 + ( − 224 ) 2 + 3 6 2 + ( − 94 ) 2 5 = 42436 + 5776 + 50176 + 1296 + 8836 5 = 108520 5 = 21704 \begin{aligned} \sigma^{2} &=\frac{206^{2}+76^{2}+(-224)^{2}+36^{2}+(-94)^{2}}{5} \\ &=\frac{42436+5776+50176+1296+8836}{5} \\ &=\frac{108520}{5} \\ &=21704 \end{aligned} σ2=52062+762+(224)2+362+(94)2=542436+5776+50176+1296+8836=5108520=21704
    方差是21704

    标准偏差=标准差
    标准差就是方差的平方根
    标准偏差(Standard Deviation)

    σ = 21704 = 147.32 … \begin{aligned} \sigma &=\sqrt{21704} \\ &=147.32 \ldots \end{aligned} σ=21704 =147.32
    约等于147

    我们在一个标准偏差(147毫米)范围内显示高度
    在这里插入图片描述
    因此,使用标准差,我们可以通过“标准”方式了解什么是正常的,什么是特大或超小。
    结论是罗特韦尔犬是高大的狗,腊肠有点短。

    标准差是衡量数字分布的一种方法
    所以把上面的计算方法变成公式是
    在这里插入图片描述

    问题一:为什么是差的平方?

    把差之后的数,直接加起来,行不行?
    把差之后的数,算绝对值,再加起来,行不行?

    假设有这样的两组4个数
    第一组是 9 、 9 、 1 、 1 9、9、1、1 9911
    第二组是 12 、 6 、 − 1 、 3 12、6、-1、3 12613

    计算第一组
    均 值 = ( 9 + 9 + 1 + 1 ) / 4 = 5 均值 =( 9+9+1+1)/4=5 =9+9+1+1/4=5
    计算各个数与均值差多少
    9 − 5 = 4 9 − 5 = 4 1 − 5 = ( − 4 ) 1 − 5 = ( − 4 ) \begin{array}{l} 9-5=4 \\ 9-5=4 \\ 1-5=(-4) \\ 1-5=(-4) \end{array} 95=495=415=(4)15=(4)
    可视化看一下
    在这里插入图片描述

    直接加起来0
    4 + 4 − 4 − 4 4 = 0 \frac{4+4-4-4}{4}=0 44+444=0
    用绝对值的方法算是4
    ∣ 4 ∣ + ∣ 4 ∣ + ∣ − 4 ∣ + ∣ − 4 ∣ 4 = 4 + 4 + 4 + 4 4 = 4 \frac{|4|+|4|+|-4|+|-4|}{4}=\frac{4+4+4+4}{4}=4 44+4+4+4=44+4+4+4=4
    用平方的方法算是4

    在这里插入图片描述

    计算第二组
    ( 12 + 6 + ( − 1 ) + 3 ) / 4 = 5 (12+6+(-1)+3)/4=5 12+6+1+3/4=5
    计算各个数与均值差多少
    12 − 5 = 7 6 − 5 = 1 − 1 − 5 = ( − 6 ) 3 − 5 = ( − 2 ) \begin{array}{l} 12-5=7 \\ 6-5=1 \\ -1-5=(-6) \\ 3-5=(-2) \end{array} 125=765=115=(6)35=(2)

    可视化看一下
    在这里插入图片描述

    直接加起来是0
    用绝对值的方法算是4
    ∣ 7 ∣ + ∣ 1 ∣ + ∣ − 6 ∣ + ∣ − 2 ∣ 4 = 7 + 1 + 6 + 2 4 = 4 \frac{|7|+|1|+|-6|+|-2|}{4}=\frac{7+1+6+2}{4}=4 47+1+6+2=47+1+6+2=4
    用平方的方法算是4.74

    在这里插入图片描述

    我们希望的是当差异分布得越广,标准差就越大。用平方算,这是其中一个理由。

    教科书《概率论与数理统计》浙江大学第四版的答案是
    E { ∣ X − E ( X ) ∣ } E\{|X-E(X)|\} E{XE(X)}能度量随机变量与其均值 E ( X ) E(X) E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[XE(X)]2}来度量随机变量 X X X与其均值 E ( X ) E(X) E(X)的偏离程度。

    方差的定义

    这样定义就有了
    X X X是一个随机变量,若 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[XE(X)]2}存在,则称 E { [ X − E ( X ) ] 2 } E\left\{[X-E(X)]^{2}\right\} E{[XE(X)]2} X X X的方差,记为 D ( X ) D(X) D(X)或Var(X)。
    D ( X ) = Var ⁡ ( X ) = E { [ X − E ( X ) ] 2 } D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} D(X)=Var(X)=E{[XE(X)]2},而 σ ( X ) = D ( X ) = E { [ X − E ( X ) ] 2 } \sigma(X)=\sqrt{D(X)}=\sqrt{E\left\{[X-E(X)]^{2}\right\}} σ(X)=D(X) =E{[XE(X)]2} 称为标准差或均方差。
    他说的运算不方便是怎么回事呢?
    人手工算还是计算机算,在什么情况下运算不方便?

    看看其他人相关的回答真的很精彩
    why-is-it-so-cool-to-square-numbers-in-terms-of-finding-the-standard-deviation

    why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia

    Revisiting a 90-year-old debate: the advantages of the mean deviation

    方差这个词是怎么来的呢?

    罗纳德·费雪(Ronald Fisher 1890-1962)
    现代统计学与现代演化论的奠基者之一,最大似然估计就是他发明的。
    第一次世界大战时期他也发表了许多与生物统计相关的论文,包括《孟德尔遗传假定下的亲戚之间的相关性》(The Correlation Between Relatives on the Supposition of Mendelian Inheritance)。这篇论文在1916年完成,并在1918年发表,它同时建立了以生物统计为基础的遗传学,以及著名的统计学分法变异数分析(analysis of variance,简写为ANOVA,也称方差分析)。方差一词就是从他的论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》 提出的。
    标准差的公式有两个
    总体标准差(Population Standard Deviation)和样本标准差(Sample Standard Deviation)

    不一样的方差

    如果这些数据只是样本呢,就是我们有20只狗,我们只测量了5只
    公式就放生了变化
    原来的公式叫总体标准差
    现在公式要变了叫样本标准差 公式如下
    在这里插入图片描述

    看分母一个是N,一个是N-1,为什么是这样呢?

    这可是高手云集要回答的问题
    为什么样本方差(sample variance)的分母是 n-1?
    如何理解统计学中自由度这个概念?

    证明请参考

    在这里插入图片描述

    另一种证明
    在这里插入图片描述
    参考
    https://www.mathsisfun.com/data/standard-deviation.html

    展开全文
  • 标准差(数学)

    千次阅读 2020-04-26 14:57:30
    标准差 标准差 (Standard Deviation),也称均方差(Mean square error) 目录 [隐藏] 1标准差概述 2标准差的简易计算公式 3标准差的特性[1] 4范例:标准差的计算 5标准差与...

    标准差

    标准差 (Standard Deviation),也称均方差(Mean square error

    目录

    [隐藏]

    • 1 标准差概述
    • 2 标准差的简易计算公式
    • 3 标准差的特性[1]
    • 4 范例:标准差的计算
    • 5 标准差与平均值之间的关系
    • 6 标准偏差与标准差的区别
    • 7 标准差的应用分析
      • 7.1 标准差在投资决策中的应用[2]
      • 7.2 标准差在股市分析中的应用[2]
      • 7.3 标准差在确定企业最优资本结构中的应用[2]
    • 8 相关条目
    • 9 参考文献

    [编辑]

    标准差概述

      标准差是一种表示分散程度的统计观念。标准差已广泛运用在股票以及共同基金投资风险的衡量上,主要是根据基金净值于一段时间内波动的情况计算而来的。一般而言,标准差愈大,表示净值的涨跌较剧烈,风险程度也较大。实务的运作上,可进一步运用单位风险报酬率的概念,同时将报酬率的风险因素考虑在内。所谓单位风险报酬率是指衡量投资人每承担 一单位的风险,所能得到的报酬,以夏普指数最常为投资人运用。

      标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

      例如,两组数的集合 {0, 5, 9, 14} {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。

      标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为值都落在一定数值范围之外,可以合理推论预测值是否正确。

    [编辑]

    标准差的简易计算公式

      1.实数的标准差: 假设有一组数值 x1, ..., xN (皆为实数),其平均值为:

      

      此组数值的标准差为:

      

      一个较快求解的方式为:

       从这组数值当中取出一样本数值组合 x1,...,xn ,常定义其样本标准差:

       注:在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1

      2.随机变量的标准差 一随机变量X 的标准差定义为:

      

       须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。

    [编辑]

    标准差的特性[1]

    注:这些特性同时适用于有偏和无偏公式。

      1.如果在一个分布中每个分数都加上(或减去)一个常数,则标准差不变。为了演示均数的这个特性,以一场考试为例。这场考试的平均分为70分。教授决定给每个学生加10分,这使得均数从70增加到80。对于原始考试分数,标准差是15分,在给每个学生增加了10分后标准差仍然是15分。由于均数随分数而移动,而分数与分数之问的相对位置是保持不变的,只是移动了整体分布的位置而已(通过加上或减去一个常数),因此并不改变它的形态(看图1)。一般来说,这用简单代数式来表示也是成立的。每个分数加了一个常数后,分数集的标准差是:

      根据均数的特性,μnew = μold + C。因此,

      对其中各项重排后,得到:

      如果你是减去一个常数,则以上证明同样适用。

      2.如果每一个分数都乘上(或除以)一个常数,则标准差也将乘上(或除以)那个常数。

      3.从均数计算的标准差比分布中根据任何其他点计算的标准差都要小。

    [编辑]

    范例:标准差的计算

      这里示范如何计算一组数的标准差。例如一群孩童年龄的数值为 { 5, 6, 8, 9 }

      第一步,计算平均值

      

      

      n = 4 (因为集合里有 4 个数),分别设为:

       用 4 取代 N

      

      

      此为平均值。

      第二步,计算标准差

      

       用 4 取代 N

       7 取代 

      

      

      

      

      

      

    [编辑]

    标准差与平均值之间的关系

      一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一"自然"的测量。较确切的叙述为:假设 x1, ..., xn 为实数,定义其公式

      

    使用微积分,不难算出 σ(r) 在下面情况下具有唯一最小值:

      

    [编辑]

    标准偏差与标准差的区别

      标准差(Standard Deviation)各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。用σ表示。因此,标准差也是一种平均数。标准差是方差的算术平方根。  标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

      例如,AB两组各有6位学生参加同一次语文测验,A组的分数为958575655545B组的分数为737271696867。这两组的平均数都是70,但A组的总体标准差17.08分,B组的总体标准差为2.16分,说明A组学生之间的差距要比B组学生之间的差距大得多。

      标准偏差(Std Dev,Standard Deviation) - 统计学名词。一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。

    [编辑]

    标准差的应用分析

    [编辑]

    标准差在投资决策中的应用[2]

      投资是企业生产经营和发展壮大的必要手段。投资者作出投资决策时,不仅要考虑预期回报,还必须分析比较投资风险

      由于投资风险的客观存在性及其对投资收益的不利性,投资者在进行投资决策时必须而且也应该对投资风险进行分析,尽可能地测定和量化风险的大小。

      1、用标准差衡量风险大小。此时的标准差计算公式如下:

        

      

      其中σ为标准差,为期望投资收益率,Pi为一系列可能性事件发生的概率,ri为可能性事件发生时的投资收益。标准差值越小,说明投资风险越小。

      假设投资者要在AB两个项目中选择一个或两个项目进行投资。估计第二年每个项目的收益率可能有四个结果,每个结果都有一个确定的概率与之对应。如下表所示,表中r为收益率,p为收益率实现的可能性。

      表1 AB两项目的收益率分布

     

    A项目

    B项目

    r

    p

    r

    p

    1

    0.2

    0.25

    1.0

    0.05

    2

    0.14

    0.25

    0.6

    0.2

    3

    0.20

    0.25

    0.1

    0.7

    4

    0.04

    0.25

    -1.0

    0.05

      投资项目AB期望收益率分别为:

      

      

      计算结果表明,A项目的期望收益率小于B项目。但从收益率的分布看,A项目的收益率在4%~20%之间波动,变动范围小;而B项目收益率从-100%到+100%,变动范围大。收益率的变动大小反映了风险的大小,收益率变动大,风险就大。根据公式计算得:σA = 5.83%σB = 37.80%。这是不是说明B项目的风险更大呢?从数学角度看,B项目标准差大可能来源于B项目的各种可能收益都比较大。

      2、标准差的局限性。当不同项目的期望回报率相同时,用标准差衡量风险程度是合适的,否则就不能再用标准差而必须用一个相对的风险指标。取标准差与期望值的比率;,称为变异系数或标准离差,该值越大反映项目的风险越大。

      可以计算项目A的变异系数,项目B的变异系数。这个时候就可以说B项目风险更大。

    [编辑]

    标准差在股市分析中的应用[2]

      股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画(Markowitz1952)。下表是中国和美国部分时段的股票统计指标,其中中国证券市场的数据由钱龙软件下载,美国证券市场的数据取自ECI“world stock Excllarlge Data Disk”

      表2股票统计指标

    年份

    业绩表现

    波动率

    上证综指

    标准普尔指数

    上证综指

    标准普尔指数

    1996

    110.93

    16.46

    0.2376

    O.0573

    1997

    -0.13

    31.01

    O.1188

    O.0836

    1998

    8.94

    26.67

    O.0565

    O.0676

    1999

    17.24

    19.53

    O.1512

    0.0433

    2000

    43.86

    -10.14

    0.097

    0.0421

    2001

    -15.34

    -13.04

    O.0902

    O.0732

    2002

    -20.82

    -23.37

    O.0582

    O.1091

      通过计算可以得到:

      上证综指业绩期望值≈(110.93-0.13+8.94+17.24+43.86-15.34-20.82)/7=20.67

      上证波动率期望值≈0.1156

      标准普尔业绩期望值≈6.7214

      标准普尔波动率期望值≈0.0680

      而标准差的计算公式则根据公式(2)计算:

      上证综指的业绩标准差

      

      上证波动率标准差≈0.0632

      标准普尔指数业绩标准差≈21.71

      标准普尔波动率标准差≈0.02365

      因为标准差是绝对值,不能通过标准差对中美直接进行对比,而变异系数可以直接比较。计算可得:

      上证业绩变异系数≈45.2457/20.67≈21889

      上证波动率变异系数≈0.0632/0.1156≈0.5467

      标准普尔业绩变异系数≈21.71/6.7214≈3.2299

      标准普尔波动率变异系数≈0.02365/0.0680≈0.3478

      通过比较可以看出上证波动率变异系数要大于标准普尔波动率变异系数,说明长期来讲中国股市稳定性相对较差,还是一个不太成熟的股票市场

    [编辑]

    标准差在确定企业最优资本结构中的应用[2]

      资本结构指的是企业各种资金来源的比例关系,是企业筹资活动的结果。最优资本结构是指能使企业资本成本最低且企业价值最大的资本结构;产权比率,即借入资本自有资本的构成比例,是反映企业资本结构的重要变量。企业的资产由债务性资金和权益性资金组成,但其风险等级和收益率各不相同。根据投资组合理论,投资的多样化可以分散掉一定的风险,因此资金提供者需要决定投资于债务性资金和权益性资金的比例。以便在权衡风险和收益的情况下保证其利益的最大化。

      理论探索而外部资金提供者利益的最大化也就是企业价值的最大化,这一投资比例对于企业融资而言也就是企业的最优资本结构比例。

      假定某企业的资金通过发行债券和股票两种方式获得,并且都属于风险性资产σ其中债券的收益率为rD,风险通过标准差σD来衡量;股票的收益率为rE,风险为σE;股票和债券的相关系数pDE协方差COV(rD,rE);债券所占的比重为wD,股票所占比重为WE(WD + WE = 1)。根据投资组合理论,企业外部投资者对该企业投资所获的期望收益率E(rp) = WDE(rD) + wEE(rE),方差为

      1、企业债务性资金和权益性资金完全正相关,即相关系数pDE1。企业外部投资者获得的期望收益率E(rp) = wDE(rD) + wEE(rE),风险标准差为σ = wDσD + wEσE,也就是组合的标准差等于各个部分标准差的加权平均值,通过投资组合不可能分散掉投资风险。根据投资组合理论,投资组合的不同比例对于投资者而言是无差异的。

      2企业债务性资金和权益性资金完全负相关,即其相关系数为-1。投资者获得的报酬率的期望值及其方差分别为

      根据投资组合理论,只有当投资比例大于σE / (σD + σE)时其投资组合才是有效的。对于企业筹资而言,也即企业的权益性资金的比例大干σE / (σD + σE),企业的筹资比例才是有效的,而且当组合比例为σE / (σD + σE)时,企业的筹资组合风险为零。

      3企业债务性资金和权益性资金的相关系数大于-1小于1。理论上,一个企业的两种筹资方式之间的相关程度较高,一方面两种筹资方式都承担系统风险,另一方面它们也承担相同的公司风险。因此从实践来看,企业的不同筹资方式间的相关程度不可能是完全的正相关负相关。对于一个企业而言,债务性资金对企业有固定的要求权,权益性资金对企业只有剩余要求权,因此债务性资金的波动不可能像权益性资金的波动那么大。同时企业的风险会同时影响企业的债务性资金和权益性资金,因此企业的债务性资金和权益性资金的相关系数不可能为负数。企业不同的筹资方式间的相关系数一般在0-1之间。

      那么究竟在什么比例下企业的价值才会达到最大呢?根据投资组合理论,当E(r1) > E(r2),且时,才能出现r1,优于r2 可见,决定企业资本结构的直接因素主要是不同筹资方式的收益率和风险以及它们之间的相关系数

     

     

    展开全文
  • 实例1:创建一个矩阵并计算矩阵每列元素的标准差 实例2:创建一个矩阵并计算矩阵每行元素的标准差 实例3:创建一个三维数组并计算沿第一维度元素的标准差 实例4:创建一个矩阵并根据权重向量计算矩阵每列元素的...
  • 标准差椭圆

    千次阅读 2021-04-14 16:27:40
    由于该方法是由平均中心作为起点对 x 坐标和 y 坐标的标准差进行计算,从而定义椭圆的轴,因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的,并因此具有特定方向。 参考文献: Chew,...
  • 如何理解总体标准差、样本标准差与标准误 1 总体标准差 已知随机变量 XXX 的数学期望为 μ\muμ,标准差为 σ\sigmaσ,则其方差为: σ2=E[(X−μ)2] \sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]此处 σ\sigmaσ 即为...
  • 标准差 方差 协方差 相关系数

    千次阅读 2020-08-16 09:45:57
    一、统计学的基本概念 ...以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标
  • 总体标准差 已知随机变量 X 的数学期望为μ缪,标准差为σ西格玛,则其方差为: 此处σ即为随机变量X的总体标准差。 样本标准差 上面的式子中,我们需要准确的了解随机变量X的总体分布,从而可以计算出其...
  • 最近做实验需要统计实验结果的均值,标准差,mark一下,方便查阅! 总体标准差 样本标准差 有的也叫无偏样本标准差,就是自由度为 n-1 代码 imimport numpy as np each_acc1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] ...
  • 标准差和标准误差计算 在统计学中该计算有详细推理,需要对于统计有深刻理解。 标准差(Standard Deviation) 标准差,缩写为S.D., SD, 或者 s (就是为了把人给弄晕?),是描写叙述数据点在均值(mean)周围聚集...
  • 我在看关于KNN的算法介绍里面的时候,提到欧氏距离的时候,说它的缺点的时候,提到了方差,提到了归一化、标准化。如果你也没明白,希望通过本文能理解这个含义。我对上来就直接贴一个数学公式感到头大。 一 期望值...
  • 标准差

    千次阅读 2019-05-06 23:27:34
    标准差 标准差是方差的算术平方根。 例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为17.08分,B组...
  • MATLAB求解标准差

    千次阅读 2021-08-23 17:35:20
    标准差 ...在MATLAB中可以使用std函数求解标准差,其中std(datas, 0)为求解样本标准差,std(datas, 1)为求解总体标准差,datas为需要求解标准差的数据矩阵。 下面是求解成绩的 % 计算标准差程序 dat
  • Climber | 作者博客园 |来源1标准差(Standard deviation)简单来说,标准差是一组数值自平均值分散程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平...
  • MatLab 求平均值,方差,标准差

    万次阅读 2019-12-10 18:03:15
    MatLab在科学计算中,具有很强大的功能,常用的计算方法是计算一组数据的平均数,标准差,方差。 1.计算一个数组的平均值 使用 mean() 函数 示例1: 输入:a = [ 1 2 3;4 5 6] 输入:mean(a) 输出:[ 2.5,3.5,...
  •  例 某研究人员在东北某县抽取36名儿童,得到前囟门闭合月龄的均值()和标准差(),要研究该县儿童前囟门的闭合月龄是否大于一般儿童(一般儿童总体的均值已知)? 检验的假设:: : (双侧) 统计量: 分子:...
  • 标准误/标准误和标准差的区别

    万次阅读 2019-10-25 13:40:00
    标准误概念:即样本均数的标准差,可用于衡量抽样误差的大小。 通常σ未知,用s(标准差)来估计,计算标准误: ----> 通过增加样本含量n来降低抽样误差。 标准误的特点: 当样本例数n一定时,标准误与...
  • python 计算均值 方差 标准差

    千次阅读 2020-12-02 10:51:14
    1.计算均值 import numpy as np a = [5, 6, 16, 9]...计算标准差 std = np.std(a) std2 = np.std(a, ddof=1) print(std) print(std2) std函数计算的是整体标准差。跟var函数一样,如果指定ddof=1,计算的是样本标准差
  • 标准差,协方差与相关系数

    千次阅读 2019-04-04 11:16:07
    学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。 很...
  • 标准差(Standard Deviation)是概率统计学上非常重要的概念,它被用来描述一组数据的离散程度。 根据标准差的定义,总体标准差σ表示为:而样本标准差S表示为: 总体标准差还有另外一种表示方式: 以上的两种总体...
  • 总体标准差-样本标准差

    万次阅读 2019-03-19 15:18:46
    总体标准差和样本标准差公式: 解释: 1,求一组数据的标准差,该组数据就是总体,此时是求总体标准差,公式中分母为n; 2,总体太大或未知,只能每次抽取样本,此时是求样本标准差,分母为n-1。 图片来源:...
  • 标准差(Standard Deviation) 和 标准误差(Standard Error)

    万次阅读 多人点赞 2019-02-19 11:14:08
    总之,最后我们得到了修正的标准差的(估计)公式(称为样本标准差): 标准差(Standard Deviation) 和 标准误差(Standard Error) 顺带一下,不要直接使用此公式计算SD,会产生很多舍入误差(rounding error)。...
  • 移动标准差以及移动平均值(movstd、movmean) 最近在工作中遇到这样一个问题: 有一个序列长度为 nnn 的序列 T=[t0,t1,…,tn−1]T=[t_0, t_1, \dots, t_{n-1}]T=[t0​,t1​,…,tn−1​],给定一个窗大小 m(m<=n)m ...
  • 但是,当你去算得时候你就会发现,角度的标准差与平常的我们所算的标准差是不一样的。为行文方便,在本文中我把类似角度这样的数据(多是周期数据,如时间等)姑且称作——方向数据(directional statistics/ ...
  • 方差和标准差是概率与统计学里经常用到的知识 在网上看到不少关于方差的研究和讨论,所以这里整合一下 方差和标准差的区别 一般来说方差的公式是(σ^2)S^2=…… 而标准差则是将方差开根号S(σ)=…… 由于...
  • python numpy 计算标准差

    千次阅读 2020-07-10 13:09:04
    python 计算标准差 csv文件下载地址: 链接: https://pan.baidu.com/s/1Jm4Z8wlskkloGYeeVNkOXg 提取码: p25v """ 使用numpy 计算标准差 """ import numpy as np import datetime as dt import matplotlib.pyplot ...
  • 平均值、方差、标准差

    千次阅读 2019-10-29 12:21:20
    平均值、方差、标准差

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 462,267
精华内容 184,906
关键字:

标准差