精华内容
下载资源
问答
  • 线性回归要求因变量服从正态分布

    万次阅读 2017-04-27 11:31:03
    对于线性回归模型,当因变量服从正态分布,误差项满足高斯–马尔科夫条件(零均值、等方差、不相关)时,回归参数的最小二乘估计是一致最小方差无偏估计.解释一:我们假设线性回归的噪声服从均值为0的正态分布。 当...

    对于线性回归模型,当因变量服从正态分布,误差项满足高斯–马尔科夫条件(零均值、等方差、不相关)时,回归参数的最小二乘估计是一致最小方差无偏估计.

    解释一:

    我们假设线性回归的噪声服从均值为0的正态分布。
    t为真时值,y为观测值,e为噪声

    当噪声符合正态分布N(0,delta^2)时,因变量则符合正态分布N(ax(i)+b,delta^2),其中预测函数y=ax(i)+b。这个结论可以由正态分布的概率密度函数得到。也就是说当噪声符合正态分布时,其因变量必然也符合正态分布。
    在用线性回归模型拟合数据之前,首先要求数据应符合或近似符合正态分布,否则得到的拟合函数不正确。
    若本身样本不符合正态分布或不近似服从正态分布,则要采用其他的拟合方法,比如对于服从二项式分布的样本数据,可以采用logistics线性回归。

    解释二:

    线性回归是广义线性模型,它的函数指数簇就是高斯分布。
    p(y;η) = b(y)exp(η T T(y) − a(η));

    假设方差为1,以下为高斯分布推导为广义函数指数簇:
    这里写图片描述

    η = µ
    T(y) = y
    a(η) = µ^2 /2= η^2 /2
    b(y) = (1/ √ 2π)exp(−y^2 /2).
    

    目标函数h(x) = E(y|x) = µ = η = θ T x

    所以线性回归的假设前提是噪声服从正态分布,即因变量服从正态分布。

    展开全文
  • 例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终...

            数据整体服从正态分布,那样本均值和方差则相互独立。正太分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。

            ML中很多model都假设数据或参数服从正态分布,但是如果数据不服从正态分布怎么办?搜罗到这篇文章:http://udel.edu/~mcdonald/stattransform.html,是关于处理生物领域数据的handbook,很不错,里面用data transformations 方式来解决数据分布的这个问题。这里列举两种,有兴趣的可以看链接文章或继续搜索文章来研究。(希望哪个网友搜罗到好文章也给俺分享下)

        data transformations步骤如下,
    (1)首先根据数据样本画出均值和方差曲线
    (2)如果均值和方差不相关,则不需要转换
    (3)如果方差正比于均值,则进行square root transformation转换
    (4)如果标准差正比于均值,则进行logarithmic transformation转换

        检验数据正态性的方法有几大类,其中最为直观计算量也最小的就是图示法,里面有QQ图(分位数图)(@敲代码的张洋 说这个是最屌丝的方法,哈哈)、PP图(百分位数图)、SP图(稳定化概率图)。先不深入研究了,用到了再好好研究下吧。

    展开全文
  • 是指两个变量均要服从正态分布吗?类似的问题比如:请问使用皮尔逊相关系数描述两变量关系时,要求满足X、Y呈双变量正态分布。这里的双变量正态分布是什么意思?是说X和Y都分别满足正态分布么?【统计咨询】微信...
    b8143d216c1f431ba7262726fbec252d.png两变量的Pearson相关系数有自己的使用条件,要求两个连续变量 服从双变量正态分布,也叫做二元正态分布。双变量正态分布?是指两个变量均要服从正态分布吗?类似的问题比如:请问使用皮尔逊相关系数描述两变量关系时,要求满足X、Y呈双变量正态分布。这里的双变量正态分布是什么意思?是说X和Y都分别满足正态分布么? 6d15c33e86c6f9567df986c30a89fd22.png【统计咨询】微信公众号撰文列举多部医学统计学教材提到: 有一点可以确认的是二元正态分布并不等于两变量均服从正态分布。此外列举的英文文献中提到: 两变量均服从正态分布不一定会服从双变量正态分布。有意思的是,这篇文章还利用R语言进行抽样测试,分析发现:重复1万次实验,发现服从两变量正态分布的实验中:以P=0.1为界值时,有约11%比例是不服从双变量正态分布的;以P=0.05为界值时,有约6%比例是不服从双变量正态分布的。两者距离我们预设的界值仅有1%之差。说明什么呢?如果我们为了简便,而把双变量正态分布直接理解“是两个变量均服从正态分布”, 这是会犯错误的,当然这个错误并不是特别离谱,宽松来说也是可以接受的。文章如下↓双变量正态分布,即两变量均服从正态分布?现实实践环节,我们在使用Pearson相关系数时, 经常是分别检验两个变量是否服从正态来代替双变量正态分布。这种做法虽然有可能犯错误,不过优点是十分地方便。当然我们自然也不能被统计软件(SPSS不能做双变量正态检验)给束缚了,严格地讲,可以考虑使用R语言语法实现双变量正态分布的检验。 036e9d261ad970250bba96b101a54574.png除了【统计咨询】号之外,【医咖会】号也讨论过Pearson相关系数的双变量正态性要求,它撰文写到:检验Pearson相关系数的统计学意义要求双变量正态性,但难以评价。实际操作依赖于双变量正态分布的一个特性,即 双变量正态分布存在,则两个连续变量必然都符合正态分布。然而反过来,两个连续变量符合正态分布 未必代表双变量正态分布, 但能够一定程度上保证双变量正态分布。小兵以往在相关分析和线性回归分析中,就是直接对两个连续变量分别检验其正态性,今天开始我们SPSS公众号所有的读者,读完这篇文章呢,希望大家 做到心中有数,有SAS和R条件的就严格一些,用SPSS软件如果只图方便,且自己的研究也能接受的话,分别讨论两个变量的正态性代替双变量正态性也无不可。 本文完 由数据小兵编辑整理推荐阅读
    • 统计学三大相关系数使用条件

    • 如何理解相关分析的显著性检验?

    • JASP有序分类变量的kendall系数

    • SPSS做典型相关分析

    • 如何选用P、S、K三个相关系数

    • SPSS相关分析之kendall系数

    • 突破相关分析的关键


    数据小兵坚持写博客已经12年坚持写微信公号文章6年坚持更新SPSS视频课程2年坚持一对一答疑讨论2年 欢迎加入SPSS视频课程竭诚服务 6cba103efc470040ef6fbe87da3096e3.png点【
    展开全文
  • 1.正态分布的奇妙之处就在于它是自然分布,任何看似没有规律可寻的随机事件其实是服从一个表达式就能表达的正态分布,不受人为影响。 eg:打靶,你每次射中点离中心的距离就是误差+方差,如果你每次射中点离中心点都...

    1.正态分布的奇妙之处就在于它是自然分布,任何看似没有规律可寻的随机事件其实是服从一个表达式就能表达的正态分布,不受人为影响。
    eg:打靶,你每次射中点离中心的距离就是误差+方差,如果你每次射中点离中心点都离好远,那你就得提高自身的水平,即距离中心点的宽度(也就是方差),但你就算对自己的水平无限提高,你还是不能每次都射中中心点,这就是所谓的误差,所以如果你想射中点偏离中心点较小,就只能提高方差,也就是改变正态分布的方差,但是误差是呈现正态分
    2.正态分布的信息熵最大,是最没有规则的分布,所以大自然嗜好这种分布。
    为什么熵大好,这个要说很多分类模型中的特征选择标准了,想了解的童鞋请参见上篇简文信息增益与信息增益比
    3.在线性回归中,使用最小二乘法估计是最小方差的无偏估计,所以要求误差项必须满足正态分布,那么在设定x值固定的情况下,y也满足正态分布,所以要求噪声u服从正态分布,即因变量服从正态分布
    4.以数学理解为中心极限定理,即所有的随机事件取样本均值足够多的情况下都服从正态分布,所以就产生了对变量正态分布的假设(这个理解主要来自于中心极限定理概念里面提出的当随机变量受综合因素影响,且每一个因素影响较小时,该变量都服从正态分布的定理)而且虽然中心极限定理的前提条件是变量独立且同分布,但这也不是必要条件,粗略的就可以理解为如果一些变量服从相似的分布且相关性较弱,那么他们的平均值就接近正态分布
    最后,怎么使自己的数据转换成正态分布,这个一般使用box-cox转换

    展开全文
  • 线性回归 高斯曲线 对数正态分布

    千次阅读 2013-12-28 23:14:44
     回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性...
  • 在数学、物理及工程等领域以及统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此...检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布...
  • 在数学、物理及工程等领域以及统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此...检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布...
  • 在数学、物理及工程等领域以及统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此...检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布...
  • 最小二乘回归正态分布

    千次阅读 2019-04-29 22:36:25
    最小二乘回归正态分布 Question 假设数据集D={⋯(xi,yi),⋯ }D=\{\cdots (x_i, y_i), \cdots\}D={⋯(xi​,yi​),⋯}是由模型y=fθ(x)y = f_\theta(x)y=fθ​(x)产生,但是因为观测引入了误差ε,...
  • 在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。我将会从基础概念出发,解释有关正态...
  • 作者 | Farhad Malik译者 | Monanfei责编 | 夕颜出品 | AI科技大本营(ID: rgznai100)为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式...
  • 与离散型随机变量相对,连续...正态分布可能是定量研究工作中应用最广泛的连续概率分布。它在现代投资组合理论和许多风险管理技术中发挥着关键作用。因为它有很多用途,所以是投资专业人士必备知识。正态分布在统...
  • 正态分布

    2014-12-14 20:29:00
    功能:生成服从正态分布的随机数语法:R=normrnd(MU,SIGMA)R=normrnd(MU,SIGMA,m)R=normrnd(MU,SIGMA,m,n)  说 明:R=normrnd(MU,SIGMA):生成服从正态分布(MU参数代表均值,DELTA参数代表标准差)的随机数。...
  • 前言:在机器学习和统计学习中,正态分布的身影无处不在,最为...实际上,也存在一种正态分布的形式,它作用于矩阵,并广泛地应用于贝叶斯向量自回归模型 (Bayesian vector autoregression) 中。本文接下来将从大家...
  • 数据不符合正态分布怎么处理呢

    万次阅读 多人点赞 2019-04-28 16:37:38
    比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正态分布性。也比如说方差分析,其有一个潜在的前提假定即因变量Y需要满足正态分布。还有很多种情况,比如T检验,相关分析等等。 但这种情况往往被...
  • 作者 | Farhad Malik译者 | Monanfei责编 | 夕颜出品 | AI科技大本营(ID: rgznai100)为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式...
  • 什么是正态分布关于什么是正态分布,早在中学时老师就讲过了。通俗来讲,就是当我们把数据绘制成频率直方图,所构成曲线的波峰位于中间,两边对称,并且随着往两侧延伸逐渐呈下降趋势,这样的曲线就可以说是符合数学...
  • 正态分布高斯分布泊松分布For detailed implementation in python check my GitHub repository. 有关在python中的详细实现,请查看我的GitHub存储库。 介绍 (Introduction) Some machine learning model like ...
  • 本文讨论了多元正态分布的定义,重点讨论多元正态分布的独立性、回归与最佳预测等问题。
  • 比如熟悉的线性回归就是假设误差服从正态分布。 好了,现在回到这里,刚刚上图显示的是双峰偏态数据,掌柜查阅了一下,发现如果要转换成正态分布形式的话,可以使用Sklearn里面的QuantileTransformer方法。具体使用...
  • 利用直方图、Q-Q图和非参数检验法对典型工作面疏放水钻孔水量进行了对数正态分布模型的检验,并进行了非线性回归模型的拟合,结合工作面水文地质条件,对模型中的参数进行了分析。结果表明:工作面井下疏放水钻孔...
  • 【编者注】几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设中占有十分重要的作用,小编偶然间在我爱自然语嫣处理这个博客中发现了《正态分布前世今生》的系列文章,文章以...
  • 当我们已经可以使用最小二乘法进行拟合后,计算出残差后,我们可以用t检验进行观察残差是否服从正态分布。因此本博文以最小二乘法拟合为基础,然后寻找残差对残差进行检验。 例子:已知数据x,y如下,建立y与x之间的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,451
精华内容 3,380
关键字:

回归分析要求服从正态分布