精华内容
下载资源
问答
  • 对联合分布函数求二阶混合偏导数即可。 2.给出二维连续性随机变量的带参联合概率密度函数 1.利用负无穷到正无穷积分等于1求出参数 2.x的边缘概率密度函数是联合概率密度函数在负无穷到正无穷上对y求积分。 y的...

    1.给出二维连续性随机变量的带参联合分布函数

    (1)求参数

    利用下图四个等式可求解参数。(二维随机变量的联合分布函数性质)

    (2) 求联合概率密度

    对联合分布函数求二阶混合偏导数即可。

    2.给出二维连续性随机变量的带参联合概率密度函数

    1.利用负无穷到正无穷积分等于1求出参数

    2.x的边缘概率密度函数是联合概率密度函数在负无穷到正无穷上对y求积分。

    y的边缘概率密度函数是联合概率密度函数在负无穷到正无穷上对x求积分。

    利用第二问中求得的边缘概率密度可以求到的:

    条件概率密度:用联合概率密度比上边缘概率密度。

    判断X与Y的独立性:两个边缘概率密度相乘得到联合概率密度则说明相互独立。

    3.在给定区域上对概率密度函数(可以是联合的也可以是边缘的)积分得到该区域的概率。

    4.选取适当的分界点分类讨论,对联合概率密度函数积分求出分段的联合分布函数。

     

    展开全文
  • 概率论中的微积分

    2020-12-29 23:28:05
    联合分布 二重积分 偏导数 偏积分 下面列出一些上面所需的基本公式 导数表 多元函数偏导数和偏积分 对于函数z=f(x,y)的导数 求函数对x的导数,把y当作常数k,不参与导数运算 求函数对y的导数,把x当作...

    在概率论与数理统计中,用到微积分的主要有以下部分

    • 一维连续随机变量的期望和方差

      • 一元不定积分
    • 概率密度函数

      • 导数
    • 联合分布

      • 二重积分
      • 偏导数
      • 偏积分

    下面列出一些上面所需的基本公式

    1. 导数表

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qkyscow7-1609255602431)(C:\Users\封亚飞\AppData\Roaming\Typora\typora-user-images\image-20201229224825053.png)]

    2. 多元函数偏导数和偏积分

      • 对于函数z=f(x,y)的导数
        • 求函数对x的导数,把y当作常数k,不参与导数运算
        • 求函数对y的导数,把x当作常数k,不参与导数运算
      • 在求二维连续型随机变量f(x)和f(y)时
        • 求f(x):f(x)=∫f(x,y)dx ,把y当作常数,可以先把含有y的部分分离出来,放到积分左边
        • 求f(y):f(y)=∫f(x,y)dy ,把x当作常数,可以先把含有x的部分分离出来,放到积分左边
    3. 复合函数求导法则

      • 什么是复合函数?

        • 例:

          • 如果t=3x,y=e(3x),那么y就可以写作y=et,此时的y就可以称作一个复合函数

            • 要求y对x的导数,遵循三步

              第一:求y对t的导数:dy/dt=e^t

              第二:求t的x的导数:dt/dx=3

              第三:求y对x的导数:dy/dx=(dy/dt)*(dt/dx)=3et=3e3x

          • 如果t=x2,y=sin(x2),此时y可以写作y=sin(t),y就是一个复合函数

            • 如何求y对x的导数?
              • 第一:y对t的导数:dy/dt=cos(t)
              • 第二:t对x的导数:dt/dx=2x
              • 第三:y对x的导数:dy/dx=cos(t)*2x=2xcos(x^2)
        • 习题:

          • 求y=sin(3x^2)的导数
          • 求y=e(3x2)的导数
          • 求y=tan(2x+1)的导数
          • 求y=1/(x^2+1)的导数
          • 求ln(sin(x)+x^2)的导数
    4. 分部积分公式

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ANdNqQim-1609255602441)(C:\Users\封亚飞\AppData\Roaming\Typora\typora-user-images\image-20201229230247250.png)]

    ​ ∫xe^xdx (90%会考这种的)

    ​ 答案:xex-ex+C

    ​ 5.二重积分

    ​ 二重积分计算的核心就是分清楚两层积分的逻辑关系,先算第一层再算第二层。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-51uDsa8G-1609255602446)(C:\Users\封亚飞\AppData\Roaming\Typora\typora-user-images\image-20201229230733006.png)]

    ​ 求k:对f(x,y)二重积分 答案:1/8

    展开全文
  • 深度学习(15): GAN(2)

    2021-01-21 13:52:40
    通过似然函数或对数似然函数对参数求偏导,找到对应最大值的参数 极大似然估计=极小KL散度 problem: 如果只是GMM,那会有很多限制 把它作为一个general的PG,但很难计算它的likelihood generator 生成器是个网络...

    1、Theory behind GAN

    在这里插入图片描述

    极大似然估计可以定义函数的参数

    使定义的distribution通过调参与真实的分布越接近越好
    从pdata中sample一些东西
    计算每个样本的likelihood
    计算联合概率为似然函数
    通过似然函数或对数似然函数对参数求偏导,找到对应最大值的参数

    在这里插入图片描述

    极大似然估计=极小KL散度

    在这里插入图片描述
    problem:
    在这里插入图片描述
    如果只是GMM,那会有很多限制
    把它作为一个general的PG,但很难计算它的likelihood

    generator

    生成器是个网络,网络定义了一个概率分布函数pgp_g
    将一个高斯分布中的若干样本点输入生成器,每个样本点都会生成一个结果,所有的结果集合成一个非常复杂的分布

    在这里插入图片描述
    使pgpdatap_g和p_data之间的分布的divergence越接近越好

    problem:在这里插入图片描述

    Discriminator

    我们虽然不知道它的distributions是什么样的,但是可以从两个分布分别sample出data
    在这里插入图片描述
    pgpdatap_g和p_{data}的sample训练一个discriminator,使用sigmoid函数输出output。本质上是个分类问题。
    在这里插入图片描述

    散度与目标函数极大化的关系

    两笔data的散度很小,所以很难将目标函数极大化
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    将求偏导得到的D(x)带回原函数

    在这里插入图片描述
    在这里插入图片描述
    JS divergence:pdatap_{data}对两个分布相加值得kl散度加上pgp_g对两个分布相加值的kl散度。pdatapgp_{data}和p_g离得越远,它们的js divergence值越大

    最小最大问题

    找到生成器和判别器之间函数关系的最大值,再找到生成器使它们之间最大的函数关系最小。

    在这里插入图片描述
    在这里插入图片描述

    算法

    对于max的function做微分
    凸函数最大
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在更新了G以后,V(G1,D)会改变。前提是在更新g前后,V函数的分布不会改变太多。所以依然可以用同样的D去maximize V,即去极大化两个分布的js 散度。

    在这里插入图片描述

    在这里插入图片描述

    In practice

    在这里插入图片描述

    minimize cross-entropy=maximize V

    Review

    在这里插入图片描述

    generator不能train太多次,不然判别器无法评估散度,因为每次更新G都会导致V的函数产生变化。所以每次更新只有一次进行小幅度的更新。使我们一开始对于极大化判别器的函数时初始值依然可以用上一次更新的D

    Objective Function for generator in real implementation

    在这里插入图片描述

    Intuition

    在这里插入图片描述
    判别器调参过程动画:
    在这里插入图片描述
    discriminator的更新不是每次重新来过,而是使用前一次iteration的东西来用

    第二部分:fGAN——General Framework of GAN

    f-divergence

    在这里插入图片描述
    在这里插入图片描述

    共轭函数

    穷举所有的x在t时刻,使xt-f(x)最大的函数即为共轭函数

    在这里插入图片描述
    在这里插入图片描述
    共轭函数一定是convex的

    example

    在这里插入图片描述

    Connection with GAN

    原函数与共轭函数互为共轭关系

    在这里插入图片描述
    在这里插入图片描述
    data和generator之间衡量相似性用什么divergence,ff^{\star}就是使用哪种divergence的共轭函数

    在这里插入图片描述

    Model collapse

    real data数据量大,generated data数据量小
    训练次数太多会使生成的generated data的分布越来越密集,即生成图片的很多会相似

    Mode dropping

    每次产生的图片都有相同的一类的特征
    在这里插入图片描述
    原因:divergence选择的不好
    不同的divergence最后极小化的kl散度也不同

    在这里插入图片描述
    在这里插入图片描述

    第三部分:Tips for improving GAN

    JS散度不适合

    • 1、生成的data和真正的data没有重叠的部分
      :因为pdatapgp_{data}和p_g都是低纬度在高维度空间的折叠,在高维空间他们的重叠部分几乎可以忽略
    • 2、即使两个数据集有重叠,但在sample中,它们因为数据量有限,基本它们不会overlap

    在这里插入图片描述

    JS 散度的问题:

    如果两个distribution没有重合,它的JS散度都是log2,无论距离多远

    在这里插入图片描述
    如果没有重叠的部分,那么二分类分类器可以实现100%的准确率。只要没有重合它们之间的loss都是相同的

    在这里插入图片描述

    Least square GAN(LSGAN)

    使用binary classifier在蓝色点的附近梯度都是0,无法移动

    解决:使用linear函数来将分类变成回归,之前是sigmoid函数做分类问题

    regression不会吧negative的 example的值全变为0,也不会把positive example全变成1.只是让它们输出的结果接近这两个值。

    Wasserstein Gan(WGAN):

    换了一个散度来衡量real 和 generated data。

    在这里插入图片描述
    复杂的状况:
    在这里插入图片描述
    穷举所有可能的移动可能,用最小的平均距离去定义was距离

    • moving plan是一个矩阵
    • 矩阵里的每一个元素都是代表从横坐标移动到纵坐标的距离,颜色越深,代表移动的越多。
    • row和column分别相加可以得到两个数据自身的分布概率

    在这里插入图片描述

    为什么使用was距离?

    在这里插入图片描述
    可以很清楚地定义loss function:即从生成的数据到真正数据之间的距离

    在这里插入图片描述
    如果d不够平滑,没法收敛
    在这里插入图片描述
    在这里插入图片描述

    不让输入之间的变化与输出之间变化小

    如何解让D变得smooth的constraint

    solution 1:weight Clipping,不让对于0和1的分类的weight太大,给予它限制。
    在这里插入图片描述
    加入这个weight clipping 也无法实现1-Lipschitz

    Improved WGAN

    保证每一个位置的gradient都小于1
    在原有的V后面加入一个类似正则项,对所有x做积分取max,使gradient的norm大于1的时候加入一个penalty。如果小于0,该项取0。
    在这里插入图片描述
    无法sample所有的x,加入一个penalty的分布中sample。只保证在这个分布中x的gradient的norm小于1。

    penalty分布——在pGp_Gpdatap_{data}中间

    在这里插入图片描述
    只在两个分布采样点的连线上取一些penalty足够了

    因为gradient 移动的方向就是Pg到data分布的方向,在这个方向上取x限定它的gradient norm值就够了
    在这里插入图片描述
    实际上:直接将penalty定义为gradient和1的差值的平方。使得gradient的norm离1越接近越好

    Spectrum Norm

    在这里插入图片描述
    让每一个x位置的gradient norm都小于1

    WGAN 算法

    在这里插入图片描述

    Energy-based GAN

    使用auto-encoder 作为判别器
    在这里插入图片描述
    0 for the best images。只有error为0的时候算最好的值,把它当做一个分类指标。

    在这里插入图片描述
    这种使用auto-encoder的判别器可以自己训练,不需要negative example。只需要输入positive example。

    detail:

    在这里插入图片描述
    主要要将negative example的值小于一个margin就好,不需要非常非常小

    展开全文
  • 极大似然估计

    2020-06-13 10:26:22
    6.1 极大似然估计 参数估计方法: ...求偏导数(导数),解方程组(方程) 一致性:满足一致性,样本越多估计越准确 不足之处:依赖于概率分布类型的假设,真正的独立同分布不容易满足,样本不应过少

    6.1 极大似然估计

    参数估计方法:

    模型一定,参数未知,通过样本反推最有可能使样本出现的参数

    连续性随机变量的极大似然估计

    • 联合概率密度函数

    一次采样n个样本可近似看成是n个独立同分布的随机变量

    n个样本数据代入联合概率密度函数应取最大值

    样本数据当作常数,参数当作自变量,求取似然函数取最大值的参数

    一般步骤:

    写似然函数

    对似然函数取对数

    求偏导数(导数),解方程组(方程)

    • 一致性:满足一致性,样本越多估计越准确

    • 不足之处:依赖于概率分布类型的假设,真正的独立同分布不容易满足,样本不应过少

    展开全文
  • 考虑一个高斯随机变量θ、平均值θ´...通过 θl 和 θl* 部分偏导,可以得到在(l,l*)上的Hessian矩阵(只和最后一部分有关,那好比1/2x^2二阶导,出来就是“1”,也就是这里的协方差矩阵的逆,Hessian矩阵
  • 误差:真实值与预测值之间的差异 定义:误差是独立并且具有相同的分布,并且...让似然函数越大越好,即上图表达式中J(θ\thetaθ)越小越好,J(θ\thetaθ)求偏导并令其为零 以上图片来自于网易云课堂在线笔记 ...

空空如也

空空如也

1 2 3 4
收藏数 77
精华内容 30
关键字:

对联合分布函数求偏导