-
-
-
二维连续性随机变量 做题模板
2020-10-09 21:37:41对联合分布函数求二阶混合偏导数即可。 2.给出二维连续性随机变量的带参联合概率密度函数 1.利用负无穷到正无穷积分等于1求出参数 2.x的边缘概率密度函数是联合概率密度函数在负无穷到正无穷上对y求积分。 y的...1.给出二维连续性随机变量的带参联合分布函数
(1)求参数
利用下图四个等式可求解参数。(二维随机变量的联合分布函数性质)
(2) 求联合概率密度
对联合分布函数求二阶混合偏导数即可。
2.给出二维连续性随机变量的带参联合概率密度函数
1.利用负无穷到正无穷积分等于1求出参数
2.x的边缘概率密度函数是联合概率密度函数在负无穷到正无穷上对y求积分。
y的边缘概率密度函数是联合概率密度函数在负无穷到正无穷上对x求积分。
利用第二问中求得的边缘概率密度可以求到的:
条件概率密度:用联合概率密度比上边缘概率密度。
判断X与Y的独立性:两个边缘概率密度相乘得到联合概率密度则说明相互独立。
3.在给定区域上对概率密度函数(可以是联合的也可以是边缘的)积分得到该区域的概率。
4.选取适当的分界点分类讨论,对联合概率密度函数积分求出分段的联合分布函数。
-
-
-
-
-
概率论中的微积分
2020-12-29 23:28:05联合分布 二重积分 偏导数 偏积分 下面列出一些上面所需的基本公式 导数表 多元函数偏导数和偏积分 对于函数z=f(x,y)的导数 求函数对x的导数,把y当作常数k,不参与导数运算 求函数对y的导数,把x当作...在概率论与数理统计中,用到微积分的主要有以下部分
-
一维连续随机变量的期望和方差
- 一元不定积分
-
概率密度函数
- 导数
-
联合分布
- 二重积分
- 偏导数
- 偏积分
下面列出一些上面所需的基本公式
-
导数表
-
多元函数偏导数和偏积分
- 对于函数z=f(x,y)的导数
- 求函数对x的导数,把y当作常数k,不参与导数运算
- 求函数对y的导数,把x当作常数k,不参与导数运算
- 在求二维连续型随机变量f(x)和f(y)时
- 求f(x):f(x)=∫f(x,y)dx ,把y当作常数,可以先把含有y的部分分离出来,放到积分左边
- 求f(y):f(y)=∫f(x,y)dy ,把x当作常数,可以先把含有x的部分分离出来,放到积分左边
- 对于函数z=f(x,y)的导数
-
复合函数求导法则
-
什么是复合函数?
-
例:
-
如果t=3x,y=e(3x),那么y就可以写作y=et,此时的y就可以称作一个复合函数
-
要求y对x的导数,遵循三步
第一:求y对t的导数:dy/dt=e^t
第二:求t的x的导数:dt/dx=3
第三:求y对x的导数:dy/dx=(dy/dt)*(dt/dx)=3et=3e3x
-
-
如果t=x2,y=sin(x2),此时y可以写作y=sin(t),y就是一个复合函数
- 如何求y对x的导数?
- 第一:y对t的导数:dy/dt=cos(t)
- 第二:t对x的导数:dt/dx=2x
- 第三:y对x的导数:dy/dx=cos(t)*2x=2xcos(x^2)
- 如何求y对x的导数?
-
-
习题:
- 求y=sin(3x^2)的导数
- 求y=e(3x2)的导数
- 求y=tan(2x+1)的导数
- 求y=1/(x^2+1)的导数
- 求ln(sin(x)+x^2)的导数
-
-
-
分部积分公式
∫xe^xdx (90%会考这种的)
答案:xex-ex+C
5.二重积分
二重积分计算的核心就是分清楚两层积分的逻辑关系,先算第一层再算第二层。
求k:对f(x,y)二重积分 答案:1/8
-
-
-
-
-
-
-
-
-
-
深度学习(15): GAN(2)
2021-01-21 13:52:40通过似然函数或对数似然函数对参数求偏导,找到对应最大值的参数 极大似然估计=极小KL散度 problem: 如果只是GMM,那会有很多限制 把它作为一个general的PG,但很难计算它的likelihood generator 生成器是个网络...1、Theory behind GAN
极大似然估计可以定义函数的参数
使定义的distribution通过调参与真实的分布越接近越好
从pdata中sample一些东西
计算每个样本的likelihood
计算联合概率为似然函数
通过似然函数或对数似然函数对参数求偏导,找到对应最大值的参数极大似然估计=极小KL散度
problem:
如果只是GMM,那会有很多限制
把它作为一个general的PG,但很难计算它的likelihoodgenerator
生成器是个网络,网络定义了一个概率分布函数
将一个高斯分布中的若干样本点输入生成器,每个样本点都会生成一个结果,所有的结果集合成一个非常复杂的分布
使之间的分布的divergence越接近越好problem:
Discriminator
我们虽然不知道它的distributions是什么样的,但是可以从两个分布分别sample出data
将的sample训练一个discriminator,使用sigmoid函数输出output。本质上是个分类问题。
散度与目标函数极大化的关系
两笔data的散度很小,所以很难将目标函数极大化
将求偏导得到的D(x)带回原函数
JS divergence:对两个分布相加值得kl散度加上对两个分布相加值的kl散度。离得越远,它们的js divergence值越大最小最大问题
找到生成器和判别器之间函数关系的最大值,再找到生成器使它们之间最大的函数关系最小。
算法
对于max的function做微分
凸函数最大
在更新了G以后,V(G1,D)会改变。前提是在更新g前后,V函数的分布不会改变太多。所以依然可以用同样的D去maximize V,即去极大化两个分布的js 散度。In practice
minimize cross-entropy=maximize V
Review
generator不能train太多次,不然判别器无法评估散度,因为每次更新G都会导致V的函数产生变化。所以每次更新只有一次进行小幅度的更新。使我们一开始对于极大化判别器的函数时初始值依然可以用上一次更新的D
Objective Function for generator in real implementation
Intuition
判别器调参过程动画:
discriminator的更新不是每次重新来过,而是使用前一次iteration的东西来用第二部分:fGAN——General Framework of GAN
f-divergence
共轭函数
穷举所有的x在t时刻,使xt-f(x)最大的函数即为共轭函数
共轭函数一定是convex的example
Connection with GAN
原函数与共轭函数互为共轭关系
data和generator之间衡量相似性用什么divergence,就是使用哪种divergence的共轭函数Model collapse
real data数据量大,generated data数据量小
训练次数太多会使生成的generated data的分布越来越密集,即生成图片的很多会相似Mode dropping
每次产生的图片都有相同的一类的特征
原因:divergence选择的不好
不同的divergence最后极小化的kl散度也不同
第三部分:Tips for improving GAN
JS散度不适合
- 1、生成的data和真正的data没有重叠的部分
:因为都是低纬度在高维度空间的折叠,在高维空间他们的重叠部分几乎可以忽略 - 2、即使两个数据集有重叠,但在sample中,它们因为数据量有限,基本它们不会overlap
JS 散度的问题:
如果两个distribution没有重合,它的JS散度都是log2,无论距离多远
如果没有重叠的部分,那么二分类分类器可以实现100%的准确率。只要没有重合它们之间的loss都是相同的Least square GAN(LSGAN)
使用binary classifier在蓝色点的附近梯度都是0,无法移动
解决:使用linear函数来将分类变成回归,之前是sigmoid函数做分类问题
regression不会吧negative的 example的值全变为0,也不会把positive example全变成1.只是让它们输出的结果接近这两个值。
Wasserstein Gan(WGAN):
换了一个散度来衡量real 和 generated data。
复杂的状况:
穷举所有可能的移动可能,用最小的平均距离去定义was距离- moving plan是一个矩阵
- 矩阵里的每一个元素都是代表从横坐标移动到纵坐标的距离,颜色越深,代表移动的越多。
- row和column分别相加可以得到两个数据自身的分布概率
为什么使用was距离?
可以很清楚地定义loss function:即从生成的数据到真正数据之间的距离
如果d不够平滑,没法收敛
不让输入之间的变化与输出之间变化小
如何解让D变得smooth的constraint
solution 1:weight Clipping,不让对于0和1的分类的weight太大,给予它限制。
加入这个weight clipping 也无法实现1-LipschitzImproved WGAN
保证每一个位置的gradient都小于1
在原有的V后面加入一个类似正则项,对所有x做积分取max,使gradient的norm大于1的时候加入一个penalty。如果小于0,该项取0。
无法sample所有的x,加入一个penalty的分布中sample。只保证在这个分布中x的gradient的norm小于1。penalty分布——在和中间
只在两个分布采样点的连线上取一些penalty足够了因为gradient 移动的方向就是Pg到data分布的方向,在这个方向上取x限定它的gradient norm值就够了
实际上:直接将penalty定义为gradient和1的差值的平方。使得gradient的norm离1越接近越好Spectrum Norm
让每一个x位置的gradient norm都小于1WGAN 算法
Energy-based GAN
使用auto-encoder 作为判别器
0 for the best images。只有error为0的时候算最好的值,把它当做一个分类指标。
这种使用auto-encoder的判别器可以自己训练,不需要negative example。只需要输入positive example。detail:
主要要将negative example的值小于一个margin就好,不需要非常非常小 - 1、生成的data和真正的data没有重叠的部分
-
-
极大似然估计
2020-06-13 10:26:226.1 极大似然估计 参数估计方法: ...求偏导数(导数),解方程组(方程) 一致性:满足一致性,样本越多估计越准确 不足之处:依赖于概率分布类型的假设,真正的独立同分布不容易满足,样本不应过少 -
Relationship between the Hessian and Covariance Matrix for Gaussian Random Varia
2020-08-17 14:13:45考虑一个高斯随机变量θ、平均值θ´...通过对 θl 和 θl* 求部分偏导,可以得到在(l,l*)上的Hessian矩阵(只和最后一部分有关,那好比对1/2x^2求二阶导,出来就是“1”,也就是这里的协方差矩阵的逆,Hessian矩阵 -
-
线性回归算法理论推导 / 梯度下降 / 逻辑回归
2020-10-27 13:47:30误差:真实值与预测值之间的差异 定义:误差是独立并且具有相同的分布,并且...让似然函数越大越好,即上图表达式中J(θ\thetaθ)越小越好,对J(θ\thetaθ)求偏导并令其为零 以上图片来自于网易云课堂在线笔记 ... -
-
-
-
-
-
-
-