精华内容
下载资源
问答
  • 深度置信网,也就是深度信念网,DBN到底能不能做预测,为什么最后所有样本输出的结果一样的
  • 假设下面的七个点原始数据, 不做中心化需要用 一维的线性回归:y=kx+b 拟合得到红线,红线更容易被一些离群点影响,而产生偏差,而绿线更稳定一些...基于以上几点对样本数据做中心化效果会更好,那去中心化 到底...

    假设下面的七个点是原始数据,

    1. 不做中心化需要用 一维的线性回归:y=kx+b 拟合得到红线,红线更容易被一些离群点影响,而产生偏差,而绿线更稳定一些,因为绿线是通过固定点的直线
    2. 中心化之后,假设改为,y=kx ,只优化k就可以得到绿线。
    3. 当数据量很大时,这两条线会趋于平行,也就等价了,但是在小数据量的时候还是做中心化的效果更好一点。

    基于以上几点对样本数据做中心化效果会更好,那去中心化 到底该怎么做呐? real=real-b,那b怎么求得呐?可以猜测比如电影评分1~5分,那么去中间值=b 可能效果会好一点。

     

     

     

     

     

     

     

     

     

    展开全文
  • 在求回归直线的斜距的时候,为什么样本点的均值带入就能求了呢? 这最小二乘法的性质决定的。详见:

    在求回归直线的斜距的时候,为什么用样本点的均值代入就能求了呢?
    这是最小二乘法的性质决定的。如下图,a=y均值-bx(均值)
    样本点平均值会经过线性回归直线在这里插入图片描述

    展开全文
  • 什么样本方差的分母n-1?最简单的原因,因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量...

    更多算法、统计、机器学习知识,欢迎关注公众号哦~还有免费节点和PDF电子书资料,回复即可领取~

     

     

    为什么样本方差的分母是n-1?最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)。

     

    那么更严格的证明呢?请耐心的看下去。


    总体方差(variance):总体中变量离其平均值距离的平均。一组数据

    样本方差(variance):样本中变量离其平均值距离的平均。一组数据

    到这你可能会想:为什么样本方差中分母是n-1而不是n?我们假设是n看看

    从上式可以看出除非:

    否则一定有:

     

     

    样本方差计算公式里分母为

    的目的是为了让方差的估计是无偏的。

    无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好是符合直觉的,尽管有的统计学家认为让mean square error即MSE最小才更有意义,这个问题我们不在这里探讨;不符合直觉的是,为什么分母必须得是

    而不是才能使得该估计无偏。

    首先,我们假定随机变量的数学期望是已知的,然而方差未知。在这个条件下,根据方差的定义我们有

    由此可得

    因此

     

    是方差的一个无偏估计,注意式中的分母不偏不倚正好是!这个结果符合直觉,并且在数学上也是显而易见的。

    现在,我们考虑随机变量X的数学期望是未知

    的情形。这时,我们会倾向于无脑直接用样本均值

    替换掉上面式子中的

     

    这样做有什么后果呢?后果就是,如果直接使用

     

    作为估计,那么你会倾向于低估方差。

    那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母n换成n-1,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了:

    至于为什么分母是n-1而不是n-2或者别的什么数,原因如下:

    所以有

     

    我们可以直观的看到随着样本总量n的增加,样本方差s会越来越接近总体方差。样本方差等于总体方差减样本均值的方差。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差。需要做Bessel's correction去修正偏差,让偏差的期望等于0。

    当n很大的时候,其实除以n和除以n-1的区别并不大。随着样本的增多,两者都会收敛到真实的总体方差。方差是协方差的特殊情况,就是当两个变量x与y相等时候的情况。既然我们已经知道样本方差为什么是除以n-1。那么样本协方差也是一样的道理。

    总结一下:

    • 分母是m-1的情况下,估计值是总体方差的无偏估计

    • 分母是m的情况下,值是最大似然估计

    • 分母是m+1的情况下,值是最小MSE(Mean Squared Error) 的估计

    如果觉得样本够大,那么用m-1是不错的,因为在大样本下,参数的方差就算大一点儿也不会多多少,影响也不会大到哪儿去。

    如果要保证信息利用充分,那我肯定选择最大似然估计的方差。如果样本数量较小,我就选择最小MSE,因为此时无偏性其实不是第一准则,因为无偏导致了大方差是不可取的行为。

     

    参考资料:

    为什么样本方差的分母是除以n-1


    更多机器学习、编程、AI相关知识,也欢迎关注我的公众号“图灵的猫”。关注公众号,点击“学习资料”菜单,即可获得海量机器学习、深度学习书籍等免费PDF资源~

     

    展开全文
  • t检验中的t值和p值是什么关系_t检验和p值的关系 t检验中通过样本均值 总体均值 样本标准差 样本量 可以计算出一个t值,这个t值和p值有什么关系? 根据界值表又会查出一个数,这个数和t值比较,得出大小,判断是否...

    t检验中的t值和p值是什么关系_t检验和p值的关系

    t检验中通过样本均值 总体均值 样本标准差 样本量 可以计算出一个t值,这个t值和p值有什么关系?
    根据界值表又会查出一个数,这个数和t值比较,得出大小,判断是否接受原假设。感觉p值一直都没有什么作用?

    解答:在进行t检验时,会计算出一个t值,而在选定显著性水平后,可以找到相比较的t值,两者可以比较,判断显著性。p值代表的是不接受原假设的最小的显著性水平,可以与选定的显著性水平直接比较。例如取5%的显著性水平,如果p值大于5%,就接受原假设,否则不接受原假设。这样不用计算t值,不用查表了。

    准问:其实是不是可以理解成  就是按照自由度和0.05来查表看p值的范围。例如 自由度是34的话,t〈t 0.05,34,则表示P >0.05,按α=0.05水准,接受原假设H0。
    可以这么理解么?

    回答:可以这么理解,t值其实就相当于确定的了一个置信区间,在这个区间内,接受原假设,而p表示的是置信区间之外的那部分;在确定t值时置信区间已经确定了,p值也就确定了,p值作为一个标准,你可以选的是显著性水平,只要比较一下就可以。两者在本质上时一样的。

    其他解答:你这样理解是有偏误的。p值是根据统计量值计算出来的,跟显著性水平是没有关系。只能说根据计算出来的p值来和显著性水平比较,当p值小于显著性水平是拒绝原假设。而不能说根据显著性水平确定p值的范围。简言之,p值是根据样本计算出来的,而显著性水平则是认为规定的

    解答:同意你的观点,p value is usually based on sample, and it is a calculated value, but significant level is usually set by statisticians subjectively…

    其他疑问:这样啊~
    基础知识不好  其实我应该是压根都不知道p值是怎么算出来的  例如 通过样本均值  总体均值 样本标准差 计算出了 t=1.77,自由度=34,查t界值表可以获得一个对应值 2.032,那p值是根据2.032计算出来的么?还是其他的方法?
    多谢啦~

    解答:不对。你这个2.032是根据给定的显著性水平计算出来的吧。p值不依赖于这个,p值就是在给定的自由度下(注意这里不要求显著性水平),通过计算出来的统计量值t=1.77,结合t分布求出当T>1.77是的概率 ,这个概率就是p值,如果是双侧检验的话还要乘以2

    当显著性水平为0.05,自由度为34的时候,查t界值表得到一个对应数据2.032。这个值的意义主要是什么呢?数据分析培训

    p值能直接跟显著性水平比较;而t值想要跟显著性水平比较,就得换算成p值,或者将显著性水平换算成t值。就是这么简单粗暴。

    转载于:https://www.cnblogs.com/amengduo/p/9587242.html

    展开全文
  • IBM SPSS Statistics的比较平均分析法属于参数型的检验法,以已知总体分布的前提下,检验样本数据与总体数据的差异,其中包含了平均、单样本T检验、独立样本T检验、配对样本T检验以及单因素ANOVA检验的分析...
  • 样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征的覆盖,此时属于严重的样本分布不均衡。 为何要解决样本不均衡: 样本分部不...
  • 自由度(为什么样本方差自由度n-1)

    万次阅读 多人点赞 2018-08-27 10:28:27
    要理解样本方差的自由度为什么是n-1,得先理解自由度的概念: 自由度,指附加给独立的观测的约束或限制的个数,即一组数据中可以自由取值的个数。 成立条件 所谓自由取值,指抽样时选取样本,也就是说:...
  • 什么样本方差(sample variance)的分母 n-1? 样本方差计算公式里分母为n-1的目的为了让方差的估计无偏的。无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好符合直觉的。 ...
  • 最近因为在做图像分类考虑到一些样本不平均的问题 所以有机会尝试了一下FocalLoss这个损失函数(由Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár提出) 也重新的理解了一次这个损失函数...
  • 一、统计学的基本概念 统计学里最基本的概念就是...均值描述的是样本集合的中间点,它告诉我们的信息有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和
  • 似然函数的形式理论上各事件(这个事件表示一个采样一个样本,每个样本有不同的分类)的发生概率。现在发生了的某个事件,似然函数就变成了这个样本的理论概率,而现在的采样结果代表某个事件已经确定发生了,那这...
  • 什么样本方差要除以n-1

    万次阅读 热门讨论 2010-09-11 20:17:00
    那么“无偏”的定义是什么?如果一个估计量是“无偏”的,那么它的期望就等于真实。 看到一些书上和网上的资料,有不同的角度。现在按照从感性角度到理性角度的顺序对它们进行整理:角度一 生活实例样本的容量...
  • 标准差在统计领域一个重要概念,有些地方晦涩难懂,特别是样本标准差的分母为何n-1,而不是n或n-2,接下来我会一一介绍并用计算机模拟难点。 什么是标准差?下面看两组数[28,29,30,31,32],[10,20,30,40,50],它们...
  • 样本方差的无偏估计样本均值和样本方差的公式为什么样本方差除以n−1n-1n−1而不是...样本均值(sample mean)随机样本值的算术平均:X‾=X1+...+Xnn=1n∑i=1nXi\overline{X}=\frac{X_1+...+X_n}{n}=\frac{1}{n}\sum_{
  • 要理解样本方差的自由度为什么是n-1,得先理解自由度的概念: 自由度,指附加给独立的观测的约束或限制的个数,即一组数据中可以自由取值的个数。 2.成立条件 所谓自由取值,指抽样时选取样本,也就是说...
  • 那如果方差不一致,也就意味着的波动程度不一样的,如果此时均值之间存在显著差异,不能够说明一定不同组间处理带来的,有可能大方差带来大的波动;这里大方差的解释可能有点不容易理解。举个例子:假设第一...
  • 本篇文章主要讨论样本方差和样本协方差除以n-1问题,其他暂且不做过多赘述。 方差的维基百科定义:一个随机...等等,为什么样本方差的计算公式不是n而是n-1呢,不应该求平均吗,你看,假设一对数据的总体样本...
  • 预测的样本外的数据,样本内的也零点几,和真实也差太多了。 ![图片说明](https://img-ask.csdn.net/upload/202006/13/1592007860_684674.png) 这预测的代码,不知道哪里出错了,求大神啊!!! ![图片...
  • 训练样本没有问题,就是用来做测试的时候,输出的预测全为空啊,苦恼啊!怎么解决。。。
  • 问题:在什么场合应当用几何平均值,而不是用算术平均值?! 问题:在什么场合应当用几何平均值,而不是用算术平均值?! (7.6日注,也许题目改为在什么场合使用代数...其实数学还推荐几何平均值(它是样本值...
  • 很多人不明白为什么要在神经网络、逻辑回归中要在样本X的最前面加一个1,使得 X=[x1,x2,…,xn] 变成 X=[1,x1,x2,…,xn] 。因此可能会犯各种错误,比如漏了这个1,或者错误的将这个1加到W·X的结果上,导致模型出各种...
  • 最小样本量计算

    万次阅读 2019-11-23 11:02:32
    因为最小样本量这个概念主要用在抽样统计中,抽样统计为了研究某一事物的情况而从整体中抽取部分样本来进行研究,并用抽取的样本来代替整体的情况。比如要研究中学生的平均身高,你不太可能把全国的中学生身高都...
  • 样本和随机变量的区别联系

    千次阅读 2018-04-01 17:11:58
    因为在抽样之前样本观测值是未知的,所以可以看成是随机变量(设该样本为X,抽取之前X的值未知,X的值是什么,其概率分布是符合对应随机变量概率分布的);而当样本抽取完之后又是一组确定的值,故又可以看成是一组...
  • 作者:竹间智能 Emotibot链接:...精确率(Precision)指在所有系统判定的“真”的样本中,确实真的的占比,就是TP/(TP+FP)。 召回率(Recall)指在所有确实为真的样本中,被判为...
  • 今天看PC的一个文章的时候作者提到了,我们知道...也就是说我们的目的为了获得整体数据的数据特征,而经过实际测试指导,如果选取的一部分数据这个分母为n-1的时候最能接近整体的真实测量,如果这个地方选用的整

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,438
精华内容 575
关键字:

样本值是什么