精华内容
下载资源
问答
  • 关注数学,关注AI,关注...本文作者专门写了一篇文章,试着用易于理解的方式阐明正态分布的概念。机器学习的世界是以概率分布为中心的,而概率分布的核心是正态分布。本文说明了什么是正态分布,以及为什么正态分...
    0c2588c450da4b2c3ded4c52229b469e.gif关注数学,关注AI,关注我们公众号ID:Math-AI76470321ea8d8ab3dbb462209ea90303.png0c2588c450da4b2c3ded4c52229b469e.gifd1880da86a2b6f6b795cf42a3738d2ce.gif86ee3aac7d117945d700b23944716f4b.png我们从高中就开始学正态分布,现在做数据分析、机器学习还是离不开它,那你有没有想过正态分布有什么特别之处?为什么那么多关于数据科学和机器学习的文章都围绕正态分布展开?本文作者专门写了一篇文章,试着用易于理解的方式阐明正态分布的概念。机器学习的世界是以概率分布为中心的,而概率分布的核心是正态分布。本文说明了什么是正态分布,以及为什么正态分布的使用如此广泛,尤其是对数据科学家和机器学习专家来说。我会从最基础的内容开始解释,以便读者们理解为什么正态分布如此重要。文章结构如下:
    • 什么是概率分布?
    • 什么是正态分布?
    • 为什么变量如此青睐正态分布
    • 如何用 Python 查看查看特征的分布?
    • 其它分布变一变也能近似正态分布

    9955871ab3ff49056b282ba7539d8312.png

    Unsplash,由 timJ 发布。

    先让我们来看一点背景知识:

    1. 首先,要注意的最重要的一点是,正态分布也被称为高斯分布。

    2. 它是以天才卡尔·弗里德里希·高斯(Carl Friedrich Gauss)的名字命名的。

    3. 最后需要注意的是,简单的预测模型一般都是最常用的模型,因为它们易于解释,也易于理解。现在补充一点:正态分布因为简单而流行。

    因此,正态概率分布很值得我们去花时间了解。

    什么是概率分布?

    想象我们正在自己的数据科学项目中构建感兴趣的预测模型:

    • 如果我们想准确地预测变量,那么首先我们要了解目标变量的基本行为。

    • 我们先要确定目标变量可能输出的结果,以及这个可能的输出结果是离散值(孤立值)还是连续值(无限值)。简单点解释就是,如果我们要评估骰子的行为,那么第一步是要知道它可以取 1 到 6 之间的任一整数值(离散值)。

    • 然后下一步是开始为事件(值)分配概率。因此,如果一个值不会出现,则概率为 0%。

    概率越高,事件发生的可能性就越大。

    22d36fbaae4d167e2f3dd61ddeb1c409.png

    Unsplash,Brett Jordan 发布

    举个例子,我们可以大量重复一个实验,并记录我们检索到的变量值,这样概率分布就会慢慢展现在我们的面前。

    每次实验产生一个值,这些值可以分配到类别/桶中了。对每个桶来说,我们可以记录变量值出现在桶里的次数。例如,我们可以扔 10,000 次骰子,每次骰子会产生 6 个可能的值,我们可以创建 6 个桶。并记录每个值出现的次数。

    我们可以根据这些值作图。所作曲线就是概率分布曲线,目标变量得到一个值的概率就是该变量的概率分布。

    理解了值的分布方式后,就可以开始估计事件的概率了,甚至可以使用公式(概率分布函数)。因此,我们可以更好地理解它的行为。概率分布依赖于样本的矩,比如平均值、标准差、偏度及峰度。如果对所有概率求和,总和为 100%。

    现实世界中存在很多概率分布,最常用的是「正态分布」。

    什么是正态概率分布

    如果对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。

    这是正态分布钟形曲线的示例:

    34b3c9a367b7ad996978d3161d388f30.png

    上面是一个变量的高斯分布图形,像神经网络那样上百万的参数量,每个参数都有自己独立的分布形状,还有极其恐怖的联合分布形状。这种高维联合分布就主导了不同任务的表现,因此理解和估计目标变量的概率分布是很重要的。

    以下变量非常接近正态分布:

    1. 人群的身高

    2. 成年人的血压

    3. 扩散后的粒子的位置

    4. 测量误差

    5. 人群的鞋码

    6. 员工回家所需时间

    此外,我们周围的大部分变量都呈置信度为 x% 的正态分布(x<100)。所以说,生活中经常出现的各种变量,差不多都能用高斯分布描述。

    好理解的正态分布

    正态分布是只依赖数据集中两个参数的分布,这两个参数分别是:样本的平均值和标准差。

    • 平均值——样本中所有点的平均值。

    • 标准差——表示数据集与样本均值的偏离程度。

    分布的这一特性让统计人员省事不少,因此预测任何呈正态分布的变量准确率通常都很高。值得注意的是,一旦你研究过自然界中大多数变量的概率分布,你会发现它们都大致遵循正态分布。

    正态分布很好解释。因为:

    1. 分布的均值、众数和中位数是相等的;

    2. 我们只要用平均值和标准差就可以解释整个分布。

    为什么这么多变量近似正态分布?

    为什么样本一多,那么总会有一堆样本都非常普通?这个想法背后有这样一个定理:你在大量随机变量上多次重复一个实验时,它们的分布总和将非常接近正态性(normality)。

    人的身高是一个基于其他随机变量(比如一个人所消耗的营养量、他们居住的环境以及他们的基因等)的随机变量,这些随机变量的分布总和最终是非常接近正态的。这就是中心极限定理。

    我们从前文了解到,正态分布是许多随机分布的和。如果我们对正态分布密度函数作图,那所作曲线有如下特性:

    ed1eeb102412af916af2ab71ad15d3be.png

    这个钟形曲线平均值为 100,标准差为 1。

    • 平均值是曲线的中心。这是曲线的最高点,因为大多数点都在平均值附近;

    • 曲线两侧点的数量是相等的。曲线中心的点数量最多;

    • 曲线下的面积是变量能取的所有值的概率和;

    • 因此曲线下面的总面积为 100%。

    46627bc4f37d71b4962e29599fd52397.png

    上图介绍了非常出名的 3σ原则,即:

    • 约有 68.2% 的点落在 ±1 个标准差的范围内

    • 约有 95.5% 的点落在 ±2 个标准差的范围内

    • 约有 99.7% 的点落在 ±3 个标准差的范围内。

    这样我们就可以轻松地估计出变量的波动性,还可以给出一个置信水平,估计它可能取的值是多少。例如,在上面的灰色钟型曲线中,变量值出现在 101~99 之间的概率约为 68.2%。想象一下,当你根据这样的信息做决定时,你的信心有多充足。

    概率分布函数

    正态分布的概率密度函数是:

    51afcd60e9e05c02d76279f36ea0146d.png

    概率密度函数本质上是连续随机变量取某些值的概率。例如想知道变量出现在 0 到 1 之间,它的概率就能通过概率密度函数求出。

    • 如果你用计算好的概率密度函数绘制概率分布曲线,那么给定范围的曲线下的面积就描述了目标变量在该范围内的概率。

    • 概率分布函数是根据多个参数(如变量的平均值或标准差)计算得到的。

    • 我们可以用概率分布函数求出随机变量在一个范围内取值的相对概率。举个例子,我们可以记录股票的日收益,把它们分到合适的桶中,然后找出未来收益概率在 20~40% 的股票。

    • 标准差越大,样本波动越大。

    如何用 Python 找出特征分布?

    我用过的最简单的方法是在 Pandas 的 DataFrame 中加载所有特征,然后直接调用它的方法找出特征的概率分布:

    d577eadcb6c5343bc0148bf935f9d57b.png

    这里的 bins 表示分布的柱状数量。当然上面并不是一个正态分布,那么当变量满足正态分布时,它意味着什么?

    这意味着,如果你把大量分布不同的随机变量加在一起,你的新变量最终也服从正态分布,这就是中心极限定理的魅力。此外,服从正态分布的变量会一直服从正态分布。举个例子,如果 A 和 B 是两个服从正态分布的变量,那么:

    • AxB 服从正态分布;

    • A+B 服从正态分布。

    变量还是乖乖地变成正态分布吧

    如果样本满足某个未知的分布,那么通过一系列操作,它总是能变成正态分布。相反,标准正态分布的叠加与转换,也一定能变化为任意未知分布。从标准正态转换到未知分布,就是很多机器学习模型希望做到的,不论是视觉中的 VAE 或 GAN,还是其它领域的模型。

    但对于传统统计学,我们更希望将特征的分布转换成正态分布,因为正态分布简单又好算呀。下面展示了几种转换为标准正态的方法,像相信变换什么的,在高中都有学过。

    1. 线性变换

    我们收集到作为变量的样本后,就可以用下面的公式对样本做线性变换,从而计算出 

    • Z 分数

    • 计算平均值

    • 计算标准差

    用下式根据每一个值 x 计算出 Z

    9e3405d5208a50352877ac0c54b14d16.png

    以前 x 可能服从某个未知分布,但是归一化后的 Z 是服从正态分布的。嗯,这就是做批量归一化或其它归一化的好处吧。

    2.Box-cox 变换

    你可以用 Python 的 SciPy 包将数据转换成正态分布:

    scipy.stats.boxcox(x, lmbda=None, alpha=None)

    86c26886889bb005a33714727918ace2.png

    3.YEO-JOHBSON 变换

    此外,也可以用强大的 yeo-johnson 变换。Python 的 sci-kit learn 提供了合适的函数:

    sklearn.preprocessing.PowerTransformer(method=’yeo-johnson’, standardize=True, copy=True)

    最后,非常重要的一点是,在没有做任何分析的情况下假设变量服从正态分布是很不明智的。

    以遵循泊松分布(Poisson distribution)、t 分布(student-t 分布)或二项分布(Binomial distribution)的样本为例,如果错误地假设变量服从正态分布可能会得到错误的结果。

    展开全文
  • 先是考虑把正态分布的那张表搞到程序中,通过查表的方式,小数点三位后面多出来的值使用公式来计算正态分布中一些值得注意的量:密度函数关于平均值对称平均值与它的众数(statistical mode)以及中位数(median)同一.....

    满意答案

    dcebd7a0de6265b6ccae5ead692f1eab.png

    lmy1990052

    2015.12.22

    dcebd7a0de6265b6ccae5ead692f1eab.png

    采纳率:56%    等级:8

    已帮助:261人

    * 标准正态分布分布函数。

    * 入口参数u。 任意实数。 返回标准正态分布概率密度。

    先是考虑把正态分布的那张表搞到程序中,通过查表的方式,小数点三位后面多出来的值使用公式来计算

    正态分布中一些值得注意的量:

    密度函数关于平均值对称

    平均值与它的众数(statistical mode)以及中位数(median)同一数值。

    函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。

    java

    public double nextDouble() {

    return (((long)(next(26)) << 27) + next(27))

    / (double)(1L << 53);

    }

    private double nextNextGaussian;

    private boolean haveNextNextGaussian = false;

    synchronized public double nextGaussian() {

    // See Knuth, ACP, Section 3.4.1 Algorithm C.

    if (haveNextNextGaussian) {

    haveNextNextGaussian = false;

    return nextNextGaussian;

    } else {

    double v1, v2, s;

    do {

    v1 = 2 * nextDouble() - 1; // between -1 and 1

    v2 = 2 * nextDouble() - 1; // between -1 and 1

    s = v1 * v1 + v2 * v2;

    } while (s >= 1 || s == 0);

    double multiplier = StrictMath.sqrt(-2 * StrictMath.log(s)/s);

    nextNextGaussian = v2 * multiplier;

    haveNextNextGaussian = true;

    return v1 * multiplier;

    }

    }

    c++

    public static double y(double x) {

    return 1 /.9) {

    return 1; Math;

    for (double i = pc.00001.E.sqrt(2 * Math; i += step)

    f += y(i) * step; 3.pow(Math, -x * x /.9) {

    return 0;

    }

    00分享举报

    展开全文
  • 今天先给大家分享一道关于正态分布的选择题,在考研概率论与数理统计中涉及正态分布的,一定要想到标准化、对称性,还有选择填空出现考察分位数时,画图最好理解,不会出乱。第一章经常考的就是条件概率、全概率和...
    7b07874987e33247daa0cff10aba8c7d.png每日两题cd7a4d037873e5011c8fdc57c01af910.png

    最后几天,希望大家还是回到基础题的整理上,不要再做难题和新题了。今天先给大家分享一道关于正态分布的选择题,在考研概率论与数理统计中涉及正态分布的,一定要想到标准化、对称性,还有选择填空出现考察分位数时,画图最好理解,不会出乱。第一章经常考的就是条件概率、全概率和贝叶斯公式,牢牢记住这些公式。

    654885b996f76fe23d2ed446589d7ff0.png

    cbd51d8433a5b6d0468cf6c56498bb51.png

    59fcf3437856d8b6d21e6f036304e253.png

    21概统互助群ebb4bf88f8cbfd2a902c9ea95006131e.gif

    欢迎大家加入21概统互助群。

    方式:加群费为150元,从现在到明年考研共360多天,一天不到5毛钱,所以希望大家早加入;后期会有一些打卡返钱的活动,注意后期留意

    福利:(1)如果你是非应统考生,可以加群问一些关于考研数学一、三的概率论与数理统计的题。注意考研概率论与数理统计都是简单的送分题,并不存在压轴题,所以务必在这34分里多拿分。

    (2)如果你是应统考生,小弟和你一起讨论考研数学一、三的概率论与数理统计以及432应用统计茆诗松的课本的一些课后题。争取帮大家在这184分里多拿分。群里会分享一些院校经常考的题目,以及一些院校应统真题的解答,还会经常发放一些总结。如:均匀分布的总结、正态分布的总结等一些资料。

    注意:群内禁止分享一切外边的链接,包括拼多多砍价、火车助力、墨墨背单词打卡等,只允许讨论与考研相关内容;否则,一经发现,立即踢出群,不退群费150元。

    5839d588c372d9378b69c5d3bed2f987.gif

    931a7dd942cc69e442d2cf26353475d5.png

    希望你明年也会为自己鼓掌,继续加油吧!

    20合工大超越五套卷和21应统参考用书

    展开全文
  • 因为e^-x^2是关于x偶函数,所以我们明显可以想到所以你只需要证明,学过概率论与数理统计朋友,应该很熟悉这个式子根据泰勒公式我们得到所以当x不等于0时,e^>1+x,将x换成x^2或者-x^2可得...

    本篇我们来证明一个常见的优美的积分等式,聪明你是否看出如下等式曾在哪里出现过呢?没错如下和正态分布中概率密度函数很像。但我们仅从积分学的角度来分析正面它。·证明它灵活的数学技巧,你准备好了吗?

    b4f90db4d0ee44577ddda91c17327a5e.png

    因为e^-x^2是关于x的偶函数,所以我们明显可以想到

    4783cd0ae8a8c2c57387a97a2c7aa6e4.png

    所以你只需要证明,学过概率论与数理统计的朋友,应该很熟悉这个式子

    53fea6fac5e87c3d069173241158e348.png

    根据泰勒公式我们得到

    9614720f3e31ea634b0c7ed63edd65a1.png

    所以当x不等于0时,e^>1+x,将x换成x^2或者-x^2可得,可得

    ac2daec4583987f405d724aee10ec57e.png

    所以很快得到一个等式

    37c7ba2baa46b448665068a7c3f60582.png

    那么对于任意的自然数n,我们有

    3969290cb9eb0fd632d2bae98e55fbdb.png

    分别加上积分符号,得到:

    4659e9c7794ad17b6ea616851016deae.png

    所以根据广义积分的收敛你可以轻易得到:

    693f4095a60cc4da90d1a376678e14a9.png

    为了让大家更好理解,我还是补充上上述等式的来源

    7af6fd05ab5d57373d161760f5176f75.png

    为了求解上述不等式两边的积分值,我们首先假设x=cot(t)=1/tant中的积分变量x替换成t,cot(t)是区间(0,π/2)上关于t的连续可微函数,因为0

    f90ab55a81959f3d481dc08b1db46e21.png

    同理,若x=cost, 0

    009e8dd92785799b2e6003b0ddafbce9.png

    另一方面,根据变量变换

    36a0a6bfe1aff5aa64e0815ec9e4046f.png

    我们得到

    a27abc84a5b74deab934217dc1e7907f.png

    则上面的开头得到的积分不等式就变成了

    8783d8b611e19cab52ba5bf85fe3b17c.png

    根据类似于斯特林公式可得到(如有必要会有专门文章解说)

    6a991062c1642f22bf5e244e26385fa1.png
    4b56e75c8828b06f7e0f5c16fb1dcd0a.png

    因此

    c5ce113d90172c13140568f485a275c8.png

    对上式进行变换x=t/2^1/2,则可得

    55abfc004f18239c1a34c614bb9527e6.png

    7b146b5098a42ff2594cd73a32bbf456.png

    这个就是数学中标准正态分布的概率密度公式。

    展开全文
  • 正态分布的应用,如随机变量在某一区间取值的概率,一般以解答题的形式出现.解题时注意对相关概念的理解和相关公式的应用.1.正态曲线及其特点我们把函数x∈(-∞,+∞)(其中μ是样本均值,σ是样本标准差)的图象称为正态...
  • 之前看到有人写了一篇关于再订货点ROP计算的文章,引起了激烈的讨论,很多人说,这个计算太公式化,太理想,这让我想到了一点,...今天,咱讨论下正态分布的验证,权当娱乐。正态分布的定义直接百度一下,网上很多...
  • 卡方分布(chi-square distribution)若n个独立的随机变量ξ₁,ξ₂,...,ξn,均服从标准正太分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布 其中,参数n为自由度...
  • 关于对过程能力指数计算公式改进研究,孔建勇,孔璐,过程能力指数是反映产品生产过程质量保证程度一项重要指标。在实践应用中则存在一定缺陷,其原因是建立在正态分布假设条件下
  • 基于复制机制在网络增长中重要性,通过计算机对完全复制模型和部分复制模型做了大量模拟,并采用经验统计方法对庞大计算机模拟数据做统计分析,来...给出了最大度关于时间t一个经验公式E[km(t)]~Cp·t。
  • 关于±3σ时,为什么良率是99.73%的推导: 概率论和数理统计 46页正态分布的概率密度函数:当μ=0,σ=1时,称随机变量X服从标准正态分布,其概率密度和分布函数分别为用,Ф(x)表示:推导公式略P{μ-σ=Ф(1)-Ф(-1)=...
  • 关于这个问题,其实很多同学都会有疑问,因为在论文中是一系列的公式展开,其实并不是很好理解。 关于BN 其实BN操作的目地是使一批feature map 进行归一化,避免数据过大而导致网络性能的不稳定。我记得网有一篇...
  • 由离散傅里叶变换计算的每个傅里叶系数数组的x是x元素的线性组合;请参见关于wikipedia page on the discrete Fourier transform上X_k的公式,我...)如果x帴n是正态分布的,且均值和方差σ2是正态分布的,再加上一点...
  • 其中关于两个高斯分布的乘积,可以参考相关公式进行推导。 关于上图中公式(1)的近似,在下图 有关SVO 中的相关代码 ... // 合成正态分布的标准差 float norm_scale = sqrt(seed->sigma2 + tau...
  • EM算法之高斯混合模型详细推导过程

    万次阅读 2014-05-27 13:19:10
    那么有下面的公式那么样本x 是一个服从多元高斯分布的随机试验中产生的抽样那么可以写出关于样本值(第i个样本)的概率密度函数,假设一共c个类别那么我们可以定义m个观测样本的对数似然函数对数复合函数求导公式代入...
  • 就从一个最简单的正态分布的方差已知时,求均值的置信区间开始吧。 书上的公式告诉我们这个区间是 $\overline{x}\pm(\sigma/\sqrt{n})z_{1-\sigma/2}$,其中Zp表示的是正态分布N(0,1)下侧的p分位数。 我们用R来实现...
  •  7.5.1 正态分布的密度函数   7.5.2 正态分布的分布函数   7.5.3 正态分布的计算   7.6 随机变量函数的分布   7.6.1 离散型随机变量函数的分布   7.6.2 连续型随机变量函数的分布   7.7 ...
  • PCA原理补充

    2019-05-19 18:27:39
    下图是一个正态分布,均值和方差提供了对数据在特征空间分布进行衡量手段。如图所示,大部分数据都分布在μ±3σ\mu\pm3\sigmaμ±3σ区间中。 而方差计算公式如下, σ(x,x)=E[(x−E(x)...
  • 数据标准化能将原来的数据进行重新调整(一般也称为 z-score 规范化方法),以便他们具有标准正态分布的属性,即 μ=0 和 σ=1。其中,μ 表示平均值,σ 表示标准方差。数据标准化之后的形式可以按照如下公式进行...
  • 3.1 特征工程目标 对于特征进行进一步分析,并对于数据进行处理 完成关于特征工程分析,并针对数据进行一些图表或文字...标准化(转换为标准正态分布) 归一化(转换到[0,1]区间) 针对幂律分布,可以采用公式 ...
  • 关于标准化(standardization)数据标准化能将原来的数据进行重新调整(一般也称为 z-score 规范化方法),以便他们具有标准正态分布的属性,即 μ=0 和 σ=1。其中,μ 表示平均值,σ 表示标准方差。数据标准化之后的...
  • 数据分析复盘——基础之统计学

    千次阅读 2017-09-14 13:37:08
    更多详细内容,可参考统计学元...关于各种参数的估计,可以结合分布的定义去看。也许就更容易地理解那些公式,就不用死记硬背了) 假设检验同理。(详见2.参数估计:2.1 参数估计是什么?用样本统计量估计总体参数2.2
  • 关于解析解,我将从以下几个方面来进行...2.1 问题转化假设有一数据集(m×n),即有m个样本(假设其满足正态分布),n个特征(维度)。其中某一行指是第i行样本,某一列指是样本某个特征。我们要做是:m个...
  • 统计学方法与数据分析(上下册)

    热门讨论 2013-12-29 11:32:47
    4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 ...
  • LINGO软件学习

    2009-08-08 22:36:50
    借助于集,能够用一个单一、长、简明复合公式表示一系列相似约束,从而可以快速方便地表达规模较大模型。 2.2 什么是集 集是一群相联系对象,这些对象也称为集成员。一个集可能是一系列产品、卡车或...
  • 7.3.2 在条件正态分布预期损失 285 7.4 分位数估计 285 7.4.1 分位数与次序统计量 285 7.4.2 分位数回归 287 7.5 极值理论 288 7.5.1 极值理论回顾 288 7.5.2 经验估计 200 7.5.3 对股票收益率应用 ...

空空如也

空空如也

1 2
收藏数 40
精华内容 16
关键字:

关于正态分布的公式