精华内容
下载资源
问答
  • 概率密度

    2021-01-25 21:20:37
    概率密度 (probability density, PD) 概率密度函数 (probability density function, PDF) 概率密度估计 (probability density estimation, PDE) 概率密度是观测值与其概率之间的关系 一个随机变量的某个结果可能...
    • 概率密度 (probability density, PD)
    • 概率密度函数 (probability density function, PDF)
    • 概率密度估计 (probability density estimation, PDE)

    概率密度是观测值与其概率之间的关系

    一个随机变量的某个结果可能会以很低的概率出现,而其他的结果可能概率会比较高。

    概率密度的总体形状被称为概率分布 (probability distribution),常见的概率分布有均匀分布、正态分布、指数分布等名称。对随机变量特定结果的概率计算是通过概率密度函数来完成的

    那么概率密度函数有什么用呢?很有用!例如我们可以通过PDF来判断一个样本的可信度高低,进而判断这个样本是否是异常值。另外有时我们的输入数据如果要服从某个分布也需要用到PDF。

    但是通常我们是不知道一个随机变量的PDF的,因此我们需要不断去逼近这个PDF,而逼近的这个过程就是概率密度估计

    直方图:

    直方图是这样一种图,它首先将观察结果分组到各个箱子(bin)中,然后计算每个箱子中的事件数量。每个箱子里的计数或观察频率然后用条形图表示,箱子在x轴上,频率在y轴上。

    箱子数量和大小的设置也是有讲究的。比如说观察值的范围是1到100,那么我们可以有如下两种方式的划分:

    • 3个箱子 (1-33,34-66,67-100):划分比较粗粒度
    • 10个箱子 (1-10,11-20,...,91-100):划分更加细腻度,能更好提取密度信息,但是计算量会更大一些

    参数密度估计:

    大多数随机样本的直方图形状都会与一些大家都熟知的概率分布相匹配。因为这些概率分布经常会在在不同的或者是意料之外的场景反复出现。熟悉这些常见的概率分布将帮助我们从直方图中识别对应的分布。一旦我们确认直方图服从某个已知分布,那么我们接下来要做的事情就是去估计这个分布的参数,所以叫做参数密度估计

    例如上面的例子中,我们看左边的直方图可以大致猜测其服从正态分布,因此后面只需要求出这个正态分布即可。另外我们知道正态分布只由两个参数决定(假设是单变量情况),即均值和方差,因此我们通过求出观测值的均值和方差,我们便求解出了这个直方图所对应的概率密度函数的估计。

    需要注意的是,有的时候我们所观测到的数据并不显示地服从某个已知分布,因此通常我们需要先对数据做一定的变换,之后再来做参数密度估计

    • 比如我们需要先对数据做归一化
    • 又或者我们需要先去除一些异常点,因为这些点的存在可能会严重影响后面的密度估计
    • 当我们的数据明显左偏(或者右偏)的时候,我们可以对数据取对数或平方根,或者更一般地,使用power转换(如Box-Cox转换)。

    非参数密度估计:

    在某些情况下,一个数据样本可能不像一个常见的概率分布,或者不容易用某种分布来进行拟合。尤其是当数据有两个峰(双峰分布)或多个峰(多峰分布)时,常常会出现这种情况。这种情况下参数密度估计变得不好使,所以非参数密度估计登场了。

    其实非参数密度估计还是有参数的,只不过这个参数和参数密度估计中的参数有所不同。后者的参数是可以直接控制分布情况的,而且参数数量通常是预设好的,例如正态分布的参数就两个:均值和方差。而非参数密度估计其实是使用所有样本来进行密度估计,换句话说每个样本的观测值都被视为参数。常用的估计连续随机变量概率密度函数的非参数方法有核平滑 (kernel smoothing),或核密度估计,简称KDE (Kernel Density Estimation)

    KDE其实就是一个数学函数,它返回随机变量给定值的概率。Kernel(核函数)能够有效地平滑或插值随机变量结果范围内的概率,使得概率和等于1。Kernel根据数据样本的观测值与请求概率的给定查询样本之间的关系或距离,对数据样本中观测值的贡献进行加权。

    非参数密度估计有两个重要参数,分别是

    • 平滑参数 (smoothing parameter):这个参数有时也叫带宽 (bandwidth)。因为我们每次都是基于多个样本来估计一个新的样本的概率,因此带宽其实指的就是我们根据多少样本来预测新样本的概率,也可以简单理解成滑窗大小。 带宽太大,可能因为损失太多细节而导致粗腻度估计;带宽太小又可能会因为有太多细节使得不够平滑,因此不能足够泛化到其他新的样本。

    • 核函数(kernel):用来控制数据集中样本对估计新样本点概率的贡献的函数。

    下面也给出一个例子来从直观上来理解非参数密度估计。

    下面是当我们设置不同bins值时的两个直方图。可以看到左边有两个峰,右边只有一个。

    我们也知道当bins增到到样本的最大值时,就能对样本的每一点都会有一个属于自己的概率,但同时会带来其他问题,样本中没出现的值的概率为0,概率密度函数不连续,这同样存在很大的问题。

    核密度函数的原理比较简单,在我们知道某一事物的概率分布的情况下,如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。

    基于这种想法,针对观察中的第一个数,我们可以用K去拟合我们想象中的那个远小近大概率密度。对每一个观察数拟合出的多个概率密度分布函数,取平均。如果某些数是比较重要的,则可以取加权平均。需要说明的一点是,核密度的估计并不是找到真正的分布函数。

    Note: 核密度估计其实就是通过核函数(如高斯)将每个数据点的数据+带宽当作核函数的参数,得到N个核函数,再线性叠加就形成了核密度的估计函数,归一化后就是核密度概率密度函数了

    展开全文
  • 如何简单理解概率分布函数和概率密度函数?

    万次阅读 多人点赞 2018-09-11 16:56:19
    本篇文章是在《应该如何理解概率分布函数和概率密度函数?》的基础上整理来的。非常感谢原作者。 目录 1先从离散型随机变量和连续性随机变量说起 2离散型随机变量的概率函数,概率分布和分布函数 2.1概率函数和...

    本篇文章是在《应该如何理解概率分布函数和概率密度函数?》的基础上整理来的。非常感谢原作者。

    目录

    1 先从离散型随机变量和连续性随机变量说起

    2 离散型随机变量的概率函数,概率分布和分布函数

    2.1 概率函数和概率分布

    2.1.1 概率函数

    2.1.1 概率分布

    2.2 分布函数

    3 连续型随机变量的概率函数和分布函数

    4 参考文献


     

    1 先从离散型随机变量和连续性随机变量说起

    对于如何分辨离散型随机变量和连续性随机变量,在贾俊平老师的《统计学》教材中,给出了这样的区分:

    如果随机变量的值都可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举则为连续型变量。

    进一步解释,离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得。

    形象点来解释::

    画一幅画,左边是梯子,右边是斜坡。
    像梯子一样能说出有多少层的,可描述的,是离散型随机变量;
    像斜坡一样不能说出有多少层阶梯,不可描述的,是连续性随机变量。
    需要注意的是,实际操作中梯子的阶高可能很小,看起来很像斜坡,需要放大看。

    2 离散型随机变量的概率函数,概率分布和分布函数

    在理解概率分布函数和概率密度函数之前,我们先来看看概率函数和概率分布是咋回事。

    为什么我们花这么大的力气去研究这个概念。因为它实在太重要了,为什么呢?在这里,直接引用陈希孺老师在他所著的《概率论与数理统计》这本书中说的:

    研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何!

    这句是本文的核心内容,本文的所有概念,包括概率密度,概率分布,概率函数,都是在描述概率!

    2.1 概率函数和概率分布

    2.1.1 概率函数

    概率函数,就是用函数的形式来表达概率。

    pi=P(X=ai)(i=1,2,3,4,5,6)

    在这个函数里,自变量(X)是随机变量的取值,因变量(pi)是取值的概率。它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。

    2.1.1 概率分布

    接下来讲概率分布,顾名思义就是概率的分布,这个概率分布还是讲概率的。我认为在理解这个概念时,关键不在于“概率”两个字,而在于“分布”这两个字。为了理解“分布”这个词,我们来看一张图。

                                                                     离散型随机变量的值和概率的分布列表

    在很多教材中,这样的列表都被叫做离散型随机变量的“概率分布”。其实严格来说,它应该叫“离散型随机变量的值分布和值的概率分布列表”,这个名字虽然比“概率分布”长了点,但是肯定好理解了很多。因为这个列表,上面是值,下面是这个取值相应取到的概率,而且这个列表把所有可能出现的情况全部都列出来了!

    举个例子吧,一颗6面的骰子,有1,2,3,4,5,6这6个取值,每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的”概率分布“?

    长得挺像的,上面是取值,下面是概率,这应该就是骰子取值的“概率分布”了吧!大错特错!少了一个最重要的条件!对于一颗骰子的取值来说,它列出的不是全部的取值,把6漏掉了!

    2.2 分布函数

    说完概率分布,就该说说分布函数了。这个分布函数是个简化版的东西!全名应该叫概率分布函数

    看看下图中的分布律,这里的分布律明明就是我们刚刚讲的“概率函数”,完全就是一个东西。但是我知道很多教材就是叫分布律的。

                                                                    概率分布函数就是把概率函数累加

    我们来看看图上的公式,其中的F(x)就代表概率分布函数啦。这个符号的右边是一个长的很像概率函数的公式,但是其中的等号变成了小于等于号的公式。你再往右看看,这是一个一个的概率函数的累加!

    发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!

    概率函数和概率分布函数就像是一个硬币的两面,它们都只是描述概率的不同手段!


    3 连续型随机变量的概率函数和分布函数

    连续型随机变量的“概率函数”换了一个名字,叫做“概率密度函数”。

    为啥要这么叫呢?我们还是借用大师的话来告诉你,在陈希孺老师所著的《概率论与数理统计》这本书中,

    如果这么解析你还是不太懂的话,看看下面的这个公式:

    概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可!

    左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数

    两张图一对比,你就会发现,如果用右图中的面积来表示概率,利用图形就能很清楚的看出,哪些取值的概率更大!所以,我们在表示连续型随机变量的概率时,用f(x)概率密度函数来表示,是非常好的!

    但是,可能读者会有这样的问题:

    Q:概率密度函数在某一点的值有什么意义?

    A:比较容易理解的意义,某点的 概率密度函数 即为 概率在该点的变化率(或导数)。很容易误以为 该点概率密度值 为 概率值.

    比如: 距离(概率)和速度(概率密度)的关系.

    • 某一点的速度, 不能以为是某一点的距离
    • 没意义,因为距离是从XX到XX的概念
    • 所以, 概率也需要有个区间.
    • 这个区间可以是x的邻域(可以无限趋近于0)。对x邻域内的f(x)进行积分,可以求得这个邻域的面积,就代表了这个邻域所代表这个事件发生的概率。

    4 参考文献

    【1】https://www.jianshu.com/p/b570b1ba92bb

    【2】https://www.zhihu.com/question/23237834

     


     

     

     

    展开全文
  • 一元连续型随机变量及其概率密度 一、联合概率密度函数 1.1、性质 1.2、例

    前言: 一元连续型随机变量及其概率密度

    一、联合概率密度函数

    在这里插入图片描述

    1.1、性质

    在这里插入图片描述
    在这里插入图片描述

    1.2、例

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    二、边际概率密度

    二元随机变量分布函数、 边际分布函数及条件分布函数

    2.1、性质

    在这里插入图片描述

    在这里插入图片描述

    2.2、例

    2.2.1、例1:联合概率密度计算边际概率密度

    在这里插入图片描述

    2.2.2、先计算联合概率密度

    在这里插入图片描述

    三、条件概率密度

    3.1、性质

    在这里插入图片描述
    在这里插入图片描述

    3.2、例

    3.2.1、例1

    在这里插入图片描述

    通过条件概率密度计算边际概率密度
    在这里插入图片描述

    3.2.2、例2

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    3.2.3、例3

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    四、综合对比

    在这里插入图片描述

    展开全文
  • 今天突然看到概率分布、概率密度函数等概念,有点懵,赶紧复习以下。 理解相关概念首先要区分的是变量类型,离散变量与连续变量,不同的变量对应不同的概率描述方法,我们分开来看。 离散变量 概率分布、概率密度是...

    今天突然看到概率分布、概率密度函数等概念,有点懵,赶紧复习以下。


    理解相关概念首先要区分的是变量类型,离散变量与连续变量,不同的变量对应不同的概率描述方法,我们分开来看。

    离散变量

    概率分布、概率密度是针对离散型变量而言的。

    概率分布:列出所有变量X的取值以及对应的概率,一个也不能少。比如:

    X x1x_1 x2x_2 xnx_n
    pip_i p1p_1 p2p_2 pnp_n

    概率密度:(有时候也叫 “概率函数” ,额,这种术语问题往往是翻译造成的,记住即可。)用函数的形式描述每个取值发生的概率p(x),(x=x1,x2,x3.)p(x) ,(x = x_1,x_2,x_3….)

    连续变量

    概率分布函数与概率密度函数是针对连续型变量而言的。

    概率分布函数:相当于离散变量的概率分布,概率分布函数F(x)描述的是给出取值小于某个值的概率,是概率的累加形式,表示在一个区间的概率。
    F(a)=af(x)dxF(a)= \int_{-\infty}^{a}f(x)dx对于单个变量而言,概率为0,没有意义,可以想象一个面上某个点的概率计算。
    那么,其实区间[a,b]上的概率就是F(b)F(a)F(b)-F(a)

    概率密度函数f(x):描述了变量落在某值x邻域内的概率变化快慢。概率密度函数的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率。

    F(x)=xf(t)dtF(x)=\int_{-\infty}^xf(t)dtf(x)=F(x)f(x)=F'(x)
    概率分布函数是概率密度函数的积分,概率密度函数是概率分布函数的导数。

    展开全文
  • 理解概率密度函数

    万次阅读 多人点赞 2018-10-31 16:37:41
    概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。在机器学习中,我们经常对样本向量x的概率分布进行建模,往往是连续型随机变量。很多同学对于概率论中学习的这一抽象概念是模糊的...
  • 用matlab画出概率密度分布图

    万次阅读 2017-07-18 21:17:12
    概率密度分布
  • 我们要看概率密度或者累计概率密度,参考: Tableau 快速表计算 显示百分比 / 累计走势 Tableau累计求和指标时间趋势分析 操作步骤如下: 一:将某个数值字段放入维度,因为我们要看的是累计百分比,所以数值...
  • 概率密度战舰-源码

    2021-02-15 06:14:31
    概率密度战舰
  • 在学概率论时,常常会看到各种稀奇古怪的名字,有的书上只介绍了该如何求解,但是从不介绍为什么这么叫以及有什么用,本文就介绍一下概率密度估计是什么以及是干什么用的,主要参考Jason BrownLee大神的一篇博文进行...
  • 关于使用Excel画出t分布的概率密度函数图表的问题,试答如下:使用excel绘制t分布的概率密度函数,需要两列:1)自变量X,2)计算自变量X对应的t分布的概率密度函数。由于Excel中TDIST函数计算的是概率累积密度,不能...
  • 概率密度及其在信号方面的简单理解1. 上篇1.1 离散随机变量与连续型随机变量1.2 离散随机变量与概率分布1.2.1 概率函数1.2.2 概率分布1.2.3 概率分布函数1.3 连续型随机变量与概率密度2. 下篇2.1 概率密度函数与通信...
  • 1)概率密度函数是不是和分布律类似代表随机变量的概率值? 2)如何通过样本数据估算总体的概率密度分布?
  • 利用Excel绘制t分布的概率密度函数的相同方式,可以绘制F分布的概率密度函数图表。F分布的概率密度函数如下图所示:其中:μ为分子自由度,ν为分母自由度Γ为伽马函数的的符号由于Excel没有求F分布的概率密度函数...
  • 概率密度函数只针对连续型随机变量,因为那样更加直观。对于离散随机变量没有必要使用概率密度。图b是连续型概率密度函数,图a是对应的概率函数。正态分布是概率密度函数,可以非常直观的看出,在3σ\sigmaσ内占据...
  • 注意: 概率密度f(x)不是随机变量X取实数值x的概率,而是X在点x处的概率分布的密集程度, 反映X在点x附近取值的概率大小。 离散型随机变量用概率函数(分布律)描述, 而连续型随机变量,则用其概率密度来描述。均匀分布...
  • 书的购买链接书的勘误,优化,源代码资源概率密度函数是概率论中的核心概念之一,用于描述连续型随机变量所服从的概率分布。在机器学习中,我们经常对样本向量x的概率分布进行建模,往往是连...
  • 函数:ksdensity功能:根据给定的数据,估计概率密度分布示例:1. 正态分布x = randn(1,100000);[y,xi] = ksdensity(x);plot(xi,y, 'bo')% 验证hold onyn=normpdf(xi,0,1); % 标准正态分布的概率密度函数plot(xi,yn,...
  • 概率密度函数

    2020-04-17 10:33:54
    总结:概率密度和物理上的密度本质上是一样的。物体的某些位置密度大,证明在这些位置“比较重”。同理,在某一段上概率密度大,证明样本落在这一段的比重大。想想正态分布钟形曲线,中间概率密度大,证明取中间对的...
  • (1)噪声n的概率密度 噪声n的概率密度公式: 代码如下: clear; N = 1000; N0=0.01;%计算噪声功率 a=sqrt(N0/2); n=wgn(1,N,N0);%产生高斯白噪声 x = -3:0.05:3; e = mean(n); d = var(n); p=(1/sqrt(2*pi.*d)).*...
  • Z=X+Y型概率密度的求解

    万次阅读 多人点赞 2016-11-09 10:39:13
    Z=X+Y型概率密度的求解@(概率论)Z=g(X,Y)Z = g(X,Y)总结过一次,一般方法是可以由分布函数再求导得到概率密度,计算一定更要小心才能得到正确的解。FZ(z)=P(Z≤z)=P(g(X,Y)≤z)=∫∫g(x,y)≤zf(x,y)dxdy F_Z(z) = P...
  • 第四节 连续型随机变量 及其概率密度一、概率密度的概念与性质二、常见连续型随机变量的分布(重点)三、小结注意:概率密度f(x)不是随机变量X取实数值x的概率,而是X在点x处的概率分布的密集程度,反映X在点x附近取值...
  • 概率密度和分布函数 联合概率密度 边际概率密度 条件概率密度 复合函数概率密度
  • parzen窗估计概率密度

    2020-12-15 13:30:46
    此matlab代码是parzen窗非参数估计概率密度函数的,以及parzen窗做分类器
  • 首先要理解概率密度函数,就要先分清离散型随机变量和连续型随机变量。 离散型随机变量,例如骰子的点数,取值只可能是1-6。连续型随机变量,例如温度,小数点后可能有很多位,是无法精确测量的,不可数。 所以可以...
  • 联合概率密度函数

    2020-09-25 15:24:46
    条件概率密度函数: 边缘概率密度函数: 随机变量G的条件期望:
  • 数据分布的区间概率密度计算代码,可应用在风力发电行业对风速、功率等数据的概率分布计算中。
  • 概率质量函数 Vs. 概率密度函数

    千次阅读 2020-03-20 09:36:24
    概率质量函数 Vs. 概率密度函数 在概率论中,概率质量函数(probability mass function...概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,179
精华内容 2,471
关键字:

概率密度