精华内容
下载资源
问答
  • 参考自《R Graphics Cookbook》核密度曲线类似于概率密度曲线,其曲线下的面积是1,因此其y...类似统计学中的频数分布图和概率密度函数的区别。library(ggplot2)一、#使用geom_densit生成密闭的密度图ggplot(faithf...

    参考自《R Graphics Cookbook》

    核密度曲线类似于概率密度曲线,其曲线下的面积是1,因此其y轴上的单位通常是小于1的核密度分布值。

    对这个核密度曲线求积分的结果为1,也就是其曲线下的面积为1(应该是这个意思)。

    实质是一种对直方图的抽象。类似统计学中的频数分布图和概率密度函数的区别。

    library(ggplot2)

    一、

    #使用geom_densit生成密闭的密度图

    ggplot(faithful, aes(x = waiting)) +

    geom_density()

    1e12cec6da78654c8763a7e777a846ce.png

    二、

    #使用geom_line(stat = "density")生成不密闭的密度图

    ggplot(faithful, aes(x = waiting)) +

    geom_line(stat = "density") +

    expand_limits(y = 0)

    d486b761e3ffac7c9a5993be5319962d.png

    三、

    #通过adjust参数调整核密度图的平滑程度

    #adjust默认为1,越大越平滑

    ggplot(faithful, aes(x = waiting)) +

    geom_line(stat = "density") +

    geom_line(stat = "density", adjust = 0.25, colour = "red") +

    geom_line(stat = "density", adjust = 2, colour = "blue")

    0ca317d9cdad66bf96e362bd6f392d2b.png

    四、

    ###在直方图上添加核密度图

    ##但二者y轴单位不同,核密度图的y轴通常小于1

    #需要映射给y = ..density.. 缩小直方图的y轴单位来适应核密度图

    ggplot(faithful, aes(x = waiting, y = ..density..)) +

    geom_histogram(fill = "cornsilk", colour = "grey60", size = .2) +

    geom_density() +

    xlim(35, 105)

    8057e680f3a1478701ff590afce224cf.png
    展开全文
  • PDFCDF图的区别

    万次阅读 多人点赞 2017-01-15 15:00:34
    能完整描述一个实数随机变量X概率分布,是概率密度函数积分。对于所有实数x ,CDF(cumulative distribution function),与概率密度函数probability density function(小写pdf)相对。随机变量小于或者等于...
    能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对于所有实数x ,CDF(cumulative distribution function),与概率密度函数probability density function(小写pdf)相对。
    随机变量小于或者等于某个数值的概率P(X<=x),即:F(x) = P(X<=x)


    在数学中,连续型随机变量概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。probability density function,简称PDF。
    PDF,是概率密度函数,描述可能性的变化情况,如正态分布密度函数,在中间出现的情况最大,两端出现的情况较小。
    CDF,是分布函数,描述发生某事件概率。任何一个CDF,是一个不减函数,最终等于1.上面的pdf描述了CDF的变化趋势,即曲线的斜率。
    我理解的是,我们最终目的是算概率,而算概率需要CDF,要了解CDF你就得知道PDF的情况,否则就很难入手。个人拙见,供参考。
     
    展开全文
  • Bayes for Beginners: Probability and Likelihood 好好看,非常有用。 以前死活都不理解ProbabilityLikelihood的区别,为什么这两个... 我们常见的泊松分布、二项分布、正态分布的概率密度图描述的就是这个。 L...

    Bayes for Beginners: Probability and Likelihood 好好看,非常有用。

    以前死活都不理解Probability和Likelihood的区别,为什么这两个东西的条件反一下就相等。

    定义:

    Probability是指在固定参数的情况下,事件的概率,必须是0-1,事件互斥且和为1. 我们常见的泊松分布、二项分布、正态分布的概率密度图描述的就是这个。

    Likelihood是指固定的结果,我们的参数的概率,和不必为1,不必互斥,所以只有ratio是有意义的。

     

    至于为什么L=P,这是因为定义就是这样的,wiki解释得非常清楚。

     

    Likelihood function

    Consider a simple statistical model of a coin flip, with a single parameter p_\text{H} that expresses the "fairness" of the coin. This parameter is the probability that a given coin lands heads up ("H") when tossed. p_\text{H} can take on any numeric value within the range 0.0 to 1.0. For a perfectly fair coin, p_\text{H} = 0.5.

    Imagine flipping a coin twice, and observing the following data : two heads in two tosses ("HH"). Assuming that each successive coin flip is IID, then the probability of observing HH is

    {\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.}

    Hence: given the observed data HH, the likelihood that the model parameter p_\text{H} equals 0.5, is 0.25. Mathematically, this is written as

    {\displaystyle {\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.}

    This is not the same as saying that the probability that p_\text{H} = 0.5, given the observation HH, is 0.25. (For that, we could apply Bayes' theorem, which implies that the posterior probability is proportional to the likelihood times the prior probability.)

    Suppose that the coin is not a fair coin, but instead it has {\displaystyle p_{\text{H}}=0.3}. Then the probability of getting two heads is

    {\displaystyle P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.}

    Hence

    {\displaystyle {\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.}

    More generally, for each value of p_\text{H}, we can calculate the corresponding likelihood. The result of such calculations is displayed in Figure 1.

    In Figure 1, the integral of the likelihood over the interval [0, 1] is 1/3. That illustrates an important aspect of likelihoods: likelihoods do not have to integrate (or sum) to 1, unlike probabilities.

     

    展开全文
  • LR推导及与SVM的区别

    2018-05-13 23:43:53
    设X是连续随机变量,X服从逻辑斯谛分布是指X具有如下累积分布函数和概率密度函数:式中,μ为位置参数,γ&gt;0为形状参数。逻辑斯谛分布密度函数f(x)和分布函数F(x)图形如下所示。其中分布函数属于...
    传送门:简书-传送门

    1、逻辑斯谛分布

    介绍逻辑斯谛回归模型之前,首先看一个并不常见的概率分布,即逻辑斯谛分布。设X是连续随机变量,X服从逻辑斯谛分布是指X具有如下的累积分布函数和概率密度函数:

    式中,μ为位置参数,γ>0为形状参数。逻辑斯谛的分布的密度函数f(x)和分布函数F(x)的图形如下图所示。其中分布函数属于逻辑斯谛函数,其图形为一条S形曲线。该曲线以点(μ,1/2)
    为中心对称,即满足:

    曲线在中心附近增长较快,在两端增长较慢,形状参数γ的值越小,曲线在中心附近增长得越快。

    2、逻辑斯谛回归模型:

    线性回归的应用场合大多是回归分析,一般不用在分类问题上,原因可以概括为以下两个:
    1)回归模型是连续型模型,即预测出的值都是连续值(实数值),非离散值;
    2)预测结果受样本噪声的影响比较大。

    2.1 LR模型表达式

    LR模型的表达式为参数化的逻辑斯谛函数,即:

    (1)

    2.2 理解LR模型 (3种:对数几率、函数映射、概率解释)

    2.2.1 对数几率  (解释为什么是线性模型)

    一个事件发生的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率为p/(1-p) ,该事件的对数几率(log odds)或logit函数是:

    对LR而言,根据模型表达式可以得到:把(1)的h带进来就可以得到下式了~...

    即在LR模型中,输出y=1的对数几率是输入x的线性函数,或者说y=1的对数几率是由输入x的线性函数表示的模型,即LR模型。

    即在LR模型中,输出y=1的对数几率是输入x的线性函数 (这个结论重点理解一下,上式是LR的y=1的对数几率值,等于thtaT*x,即x的线性函数~),或者说y=1的对数几率是由输入x的线性函数表示的模型,即LR模型。所以LR其实本质是线性模型~

    2.2.2 函数映射 (即把z值压缩到0-1)

    除了从对数几率的角度理解LR之外,从函数映射也可以理解LR模型。
    考虑对输入实例x进行分类的线性表达式θT,其值域为实数域,通过LR模型的表达式可以将线性函数θTx的结果映射到(0,1)区间,取值表示为结果为1的概率(在二分类场景中).
    线性函数的值越接近于正无穷大,概率值就越近1;反之,其值越接近于负无穷,概率值就越接近于0,这样的模型就是LR模型。
    LR本质上还是线性回归,只是特征到结果的映射过程中加了一层函数映射,即sigmoid函数,即先把特征线性求和,然后使用sigmoid函数将线性和约束至(0,1)之间,结果值用语二分或回归预测。

    2.2.3 概率解释  (得到似然函数)

    LR模型多用于解决二分类问题,如广告是否被点击(是/否),商品是否被购买(是/否)等互联网领域中常见的应用场景。但在实际场景中,我们又不把它处理成绝对的分类,而是用其预测值作为事件发生的概率。

    这里从事件,变量以及结果的角度给予解释。

    我们所能拿到的训练数据统称为观测样本。问题是,样本是如何生成的?

    一个样本可以理解为发生的一次事件,样本生成的过程即事件发生的过程,对于0/1分类问题来讲,产生的结果有两种可能,符合伯努利试验的概率假设。因此,我们可以说样本的生成过程即为伯努利试验过程,产生的结果(0/1)服从伯努利分布,那么对于第i个样本,概率公式表示如下:

    将上面两个公式合并在一起,可以得到第i个样本正确预测的概率:

    上式是对一个样本进行建模的数据表达。为什么可以这么做呢,因为y=1时后面一项为1,y=0时前面一项为1。那么对于所有的样本,假设每条样本生成过程独立,在整个样本空间中(N个样本)的概率分布(即似然函数)为:

    接下来我们就可以通过极大似然估计方法求概率参数。 这不就得到似然函数了不是~~~...

    接下来我们就可以通过极大似然估计方法求概率参数。

    3、模型参数估计

    3.1 Sigmoid函数

    上图所示即为sigmoid函数,它的输入范围为−∞→+∞,而值域刚好为(0,1),正好满足概率分布为(0,1)的要求。用概率去描述分类器,自然要比阈值要来的方便。而且它是一个单调上升的函数,具有良好的连续性,不存在不连续点。

    此外非常重要的,sigmoid函数求导后为:

    3.2 参数估计推导  (极大似然估计法)

    上一节的公式不仅可以理解为在已观测的样本空间中的概率分布表达式。如果从统计学的角度可以理解为参数θ似然性的函数表达式(即似然函数表达式)。就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大。参数在整个样本空间的似然函数可表示为:(极大化似然函数以完成模型参数wi的估计)

    为了方便参数求解,对这个公式取对数,可得对数似然函数

    然后,我们使用随机梯度下降的方法,对参数进行更新: (也可用拟牛顿法...)


    最后,通过扫描样本,迭代下述公式可求出参数们~

    式中,a表示学习率。

    以上的推导,就是LR模型的核心部分,在机器学习相关的面试中,LR模型公式推导可能是考察频次最高的一个点,要将其熟练掌握。

    4、LR的优缺点

    优点

    一、预测结果是界于0和1之间的概率;
    二、可以适用于连续性和类别性自变量;
    三、容易使用和解释;

    缺点

    一、对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
    二、预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

    5、LR和SVM

    1、LR采用log损失,SVM采用合页损失。
    2、LR对异常值敏感,SVM对异常值不敏感。
    3、在训练集较小时,SVM较适用,而LR需要较多的样本。
    4、LR模型找到的那个超平面,是尽量让所有点都远离他,而SVM寻找的那个超平面,是只让最靠近中间分割线的那些点尽量远离,即只用到那些支持向量的样本。
    5、对非线性问题的处理方式不同,LR主要靠特征构造,必须组合交叉特征,特征离散化。SVM也可以这样,还可以通过kernel
    6、svm 更多的属于非参数模型,而logistic regression 是参数模型,本质不同。其区别就可以参考参数模型和非参模型的区别

    那怎么根据特征数量和样本量来选择SVM和LR模型呢?Andrew NG的课程中给出了以下建议:

    如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM
    如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel
    如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况。(LR和不带核函数的SVM比较类似。)





    展开全文
  • 高斯噪声是指它的概率密度函数服从高斯分布(即正态分布)一类噪声。即某个强度噪声点个数最多,离这个强度越远噪声点个数越少,且这个规律服从高斯分布。高斯噪声是一种加性噪声,即噪声直接加到原图像上,因此...
  • 左图:离散型概率分布 图形:一条条垂直于X轴垂线(也可以是矩形柱)。X轴与竖线相交端点是事件可能发生结果, Y轴是对应结果发生概率。...Y轴表示事件结果对应的概率密度区别于概率),概率值等于曲...
  • 随机散布在自然图像里噪声失真一般会破坏图像原始概率密度分布。研究发现,无失真自然图像它对应噪声图像在离散小波变换(Discrete Wavelet Transform,DWT)系数分布上有很大区别:对于自然图像,其DWT系数...
  • R语言-直方

    2018-11-28 16:42:00
    直方图和柱形图的区别:直方图表示频数,柱形图表示数量。 一般直方图的X轴表示取值范围,Y轴表示频数 hist() 函数 > hist(rnorm(1000)) #1000个正态随机数的直方图> hist(islands) #岛屿数据集直方图 ...
  • 从概率分布角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi。...数据要求:生成模型需要数据量比较大,能够较好地估计概率密度;而判别模型对数据样本量要求没有那么多。两者优缺点如下...
  • Cuda实现直方均衡化

    2021-03-03 22:34:58
    Gpu实现直方均衡化 ...与cpu的区别是上述步骤是以并行的方式计算的。 统计每个灰度级像素个数 创建共享内存对象数组temp, 用于统计每个block内灰度的个数。 __syncthreads()同步所有线程,确保每个线程
  • 高斯噪声是指它的概率密度函数服从高斯分布(即正态分布)一类噪声。常见高斯噪声包括起伏噪声、宇宙噪声、热噪声散粒噪声等等。这类噪声主要来源于电子电路噪声低照明度或高温带来传感器噪声,也成为正态...
  • 先前导出中微子质量混合概率密度函数(代表N×N个复数随机矩阵I-III型跷跷板合奏)用于提取有关物理参数信息。 对于N = 2N = 3,使用数值积分方法获得了轻中微子质量分布以及混合角相。 还对与简单得...
  • 信贷评分模型评估指标常见有P-R曲线、AUC、KS、混淆矩阵、AR、洛伦茨曲线等,各个评估指标之间都有或多或少联系和区别,从而从不同角度对模型进行评估。本文尝试写一些各个评估指标间联系,从而对模型评估...
  • 1.3.3 统计分析与数据挖掘的区别和联系 . 9 1.4 常用数据分析工具的安装 . 10 1.4.1 在 Excel 2013 中安装数据分析工具 . 10 1.4.2 数据分析软件 SPSS 的安装 13 1.5 课后练习 . 18 第 2 章 描述性统计分析 19 2.1 ...
  • 2.2.1 矩阵和数组概念及其区别 2.2.2 矩阵构造 2.2.3 矩阵大小及结构改变 2.2.4 矩阵下标引用 2.2.5 矩阵信息获取 2.2.6 矩阵保存加载 2.3 运算符 2.3.1 算术运算符 2.3.2 关系运算符 ...
  • 第6~8 章为数学应用部分,讲解数据分析、符号数学计算和概率统计等;第9~15 章为工程应用部分,讲解偏微分方程、优化、图像处理、信号处理、小波分析等工具箱,Simulink 仿真基础及应用等;第16~20 章为知识拓展...
  • P(x | w) 表示类别状态为w时的x的概率密度函数,有时也称为状态条件概率密度。因此,p(x | w1)与p(x | w2)之间的区别就表示了鲈鱼与鲑鱼间光泽度的区别。如2.1 在通过观察测量(这在实际应用中,...
  • 逻辑回归

    2019-03-03 15:43:28
    逻辑斯蒂是一种变量分布方式,和常见指数分布、高斯分布等类似,它也有自己概率分布函数和概率密度函数,如下: 它们形状如下所示 分类与回归:回归模型就是预测一个连续变量(如降水量,价格等)。在分类...
  • Mathematica12 学习笔记五学习课程学习笔记截图 学习课程 讲师:Douglas J.Tobias 课程内容:学习运用Mathematica...学习了统计学一些基础知识,怎么处理数据:直方、概率分布、概率密度分布、均值、方差、标...
  • B3.4 在所有方差相同的概率密度函数中,高斯函数具有最大熵 182 3.3.11 如何计算负熵? 182 B3.5 用矩对负熵近似推导 186 B3.6 用非二次函数近似负熵 187 B3.7 选择非二次函数以近似负熵 190 3.3.12 如何...
  • RAD传统软件开发项目之间一个基本区别是:应用程序RAD系统是按阶段发布。传统项目一般一次发布,也叫“big bang”。RAD方法使用高效开发工具,开发者能够非常迅速地设计出系统基本屏幕,允许用户在开发周期...
  • 1.4.5 连续型随机变量和概率密度函数 8 1.4.6 举例理解条件概率 9 1.4.7 联合概率与边缘概率的区别和联系 9 1.4.8 条件概率的链式法则 10 1.4.9 独立性和条件独立性 10 1.5 常见概率分布 11 1.5.1 伯努利分布 11 ...
  • 柯西分布

    千次阅读 2010-12-03 08:52:00
    柯西分布 柯西分布, 是因大数学家柯西(Cauchy)而... <br />柯西分布有两个参数θ,a, 概率密度函数p.d.f.图形亦为钟形, 不仔细看, 还不容易与正态分布p.d.f.图形区别。插图中, 我们把柯西分布正态分布p.d.f
  • matlab神经网络30个案例分析

    千次下载 热门讨论 2011-06-01 20:06:07
    以下将设法找出癌症与正常样本在基因表达水平上的区别,建立竞争网络模型去预测待检测样本是癌症还是正常样本。 第17章SOM神经网络的数据分类——柴油机故障诊断159 本案例中给出了一个含有8个故障样本的数据集。每...
  • 1163沟谷网络的提取及沟壑密度的计算452 第十二章空间分析建模456 121空间分析模型与建模456 1211空间分析模型及其分类456 1212空间分析建模457 122图解建模458 1221基本概念及类型458 1222图解模型的形成过程460 ...

空空如也

空空如也

1 2
收藏数 33
精华内容 13
关键字:

密度图和概率密度的区别