精华内容
下载资源
问答
  • 我们提出了线性异常扩散(AD),正态扩散(ND)和中心极限定理(CLT)之间新连接。 这是通过将点转换定义为新位置变量来完成,我们将其假定为笛卡尔,这是出于超对称量子力学考虑。 根据狄拉克对新位置和...
  • 一、什么是中心极限定理在适当条件下,大量相互独立随机变量均值经适当标准化后依分布收敛于正态分布。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值, 这些平均值分布...

    一、什么是中心极限定理

    在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值, 这些平均值的分布接近正态分布。设从均值为μ、方差为

    (有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值
    的抽样分布近似服从均值为μ、方差为
    的正态分布。

    中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,就像下图:

    1c7d5843aa2a2b3ca8b3c97750da426c.png

    下面我们来通过实例来看看一个掷骰子的平均分布,如何变成一个正态分布。

    二、Python实例

    2.1 生成均匀分布的掷骰子随机数

    生成在半开半闭区间[low,high)上离散均匀分布的整数值,即1-6的均匀分布

    import 

    38572ca9aadb811c5c78d984f8c2ff62.png
    多次掷一个骰子的均匀分布

    可以看到1-6的点数是比较均匀的分布的【注意,每一次运行的图都不一样的哦】

    2.2 抽取一组数据

    通过以下程序来从data中随机抽取一组数

    sample1 = []
    for i in range(0, 10):
        rnd = int(np.random.random() * len(data))#0-9999的随机数生产
        sample1.append(data[rnd])
    print(sample1)

    返回结果:[2, 3, 2, 1, 1, 4, 2, 1, 5, 3]

    2.3 抽取1000组数据

    我们在生产的随机数中,一次抽取50个作为一组并计算它的平均值,共抽取1000次,得到1000个平均值,然后通过seaborn的distplot看着1000个数值的分布

    samples = []
    s_mean = []
    
    for i in range(0, 1000):
        sample = []
     for j in range(0, 50):
            rnd = int(np.random.random() * len(data))#0-9999的随机数生产
            sample.append(data[rnd])#循环50次的结果存放在samples
        s_mean.append(np.mean(sample))#得到的50次sample的平均数放到s_mean后,重新循环第二次的50次循环,samples清空
    
    sns.distplot(s_mean)

    ae18713e372e7e504b80c92f42871a95.png

    三、重要性和注意

    当采样的数量接近无穷大时,我们的抽样分布就会近似于正态分布。这个统计学基础理论意味着我们能根据个体样本推断所有样本。结合正态分布的其他知识,我们可以轻松计算出给定平均值的值的概率。在理论上保证了我们可以用只抽样一部分的方法,达到推测研究对象统计参数的目的

    其中要注意的几点:

    1. 总体本身的分布不要求正态分布:掷一个骰子是平均分布,最后每组的平均值也会组成一个正态分布。
    2. 样本每组要足够大,但也不需要太大:取样本的时候,一般认为每组大于等于30个,即可让中心极限定理发挥作用。
    展开全文
  • 与Donsker定理相关的,还有Glivenko-Cantelli Theorem,似乎与中心极限定理与大数定律之间的关系是对应的。类似的,与正态分布相对应的可能是布朗桥。同时,把一个随机变量展开为随机过程,以及相应定理在时域上的...

    为什么要关心中心极限定理和Donsker定理

    这可能就是Donsker定理要解决的问题。与Donsker定理相关的,还有Glivenko-Cantelli Theorem,似乎与中心极限定理与大数定律之间的关系是对应的。类似的,与正态分布相对应的可能是布朗桥。

    同时,把一个随机变量展开为随机过程,以及相应定理在时域上的推广,似乎全部可以用傅里叶变换全部联系起来。

    作为一个宏观研究人员,严谨的讨论一些数学方面问题远超出了我的能力范围。但受兴趣与实际需要驱动,对于很多数学上的概念,又不得不持续的学习和思考。下面是一些关于中心极限定理及其他相关知识点与经济金融领域部分概念,如何统一起来的初步体会。

    这就是我这个学习体会及相应结构安排的一些考虑,是为题记。

    1. 自然底数和复利

    复利的计算是得到自然底数

    的历史背景之一(见 @温欣提市 对此做的一些总结)。

    相应的也有,

    如果对

    泰勒展开,则有

    的定义式看,是有一种复利的直观解释的。那么,

    的泰勒展开形式是否有一种直观的解释呢?如果1看做本金,

    看做单利利息,那么又如何理解

    的高阶项

    以及分母上的阶乘

    ?首先定义1元钱的

    次滚动投资收益即复利收益为

    ,并进行展开

    显然,

    展开以后,是有明确的直观意义的,可以从复利的角度直观理解。那么,如何直观理解

    的泰勒展开形式?为什么要直观理解泰勒展开形式?

    2. 欧拉公式、傅里叶变换、拉普拉斯变换

    欧拉公式

    傅里叶变换

    对于离散形式,傅里叶变换可能更容易理解,如

    对于函数

    ,我们要将其表示成为

    的某种函数,这就意味着,需要增加一个参数,例如参数

    ,这个参数

    不仅使

    变化,而且再根据参数

    给一个权重。这种思路与多项式是类似的,例如,令

    ,

    ,则有

    显然,

    转换成了一个关于

    的多项式。从这个角度看,傅里叶变换不过是另外一种形式的多项式表示。如果说有不同,只是在于多项式本质上就是离散的,而傅里叶变换既可以有离散形式,也可以有多项式形式。

    对于

    ,可以看做是横轴为

    ,纵轴为复数轴

    的函数。

    对比泰勒展开,系数

    是通过求导得到的。对于傅里叶变换,这个系数也必然不是任意的,需要符合某种特定的形式。实际上,这种形式在本质上应该是与泰勒展开是一致的,能够相互推导的。根据

    阶傅里叶系数为

    显然,这个

    阶傅里叶系数不太容易直接同泰勒系数联系起来。

    拉普拉斯变换

    3. 正态分布密度函数及矩母函数

    4. 中心极限定理

    设随机变量

    、...、

    相互独立且服从均值为

    、方差为

    的同一分布,有前

    项和

    。显然,

    的均值为

    ,方差为

    。最简单形式的中心极限定理可以表述为,

    中心极限定理证明方式很多,其中Billingsley(1999)

    证明:设变量

    的特征函数为

    ,则

    的特征函数

    因而,

    的特征函数为

    对特征函数

    泰勒展开,有

    其中,

    表示

    的3次以上整数高阶项。类似的有

    以及

    表示

    的3次以上整数高阶项。

    其中

    由t决定,

    为相应

    中的最大值。第一个小于号后面的

    来源于

    次方项与

    相乘后化简。因而有

    证毕。

    5. Donsker定理以及维纳过程的构造

    6. 理解布朗桥

    7. 时域、频域视角下的复利

    参考

    展开全文
  • 由于正态分布与中心极限定理之间的关系,因此正态分布为其提供了经典统计推断的基础。正态分布由图经典钟形表示。在正态分布中,您可以计算值以一定范围或间隔出现的概率。但是,由于将连续变量的概率测量为曲线下的...
    正态分布(也称为高斯分布)是统计中最常用的连续分布。正态分布在统计中至关重要,主要有以下三个原因:
    • 商业中常见的许多连续变量的分布与正态分布非常相似。

    • 正态分布可用于近似各种离散的概率分布。

    • 由于正态分布与中心极限定理之间的关系,因此正态分布为其提供了经典统计推断的基础。

    正态分布由图经典钟形表示。在正态分布中,您可以计算值以一定范围或间隔出现的概率。但是,由于将连续变量的概率测量为曲线下的面积,因此来自连续分布(例如正态分布)的特定值的确切概率为零。例如,时间(以秒为单位)被测量并且不计数。因此,您可以确定网络浏览器上视频下载时间在7到10秒之间的概率,或者下载时间在8到9秒之间的概率,或者下载时间在7.99到90秒之间的概率。8.01秒。但是,下载时间恰好为8秒的概率为零。正态分布具有几个重要的理论特性
    • 它是对称的,因此其均值和中位数相等。

    • 外观为钟形。

    • 其四分位数间距等于1.33标准偏差。

      因此,中间值的50%包含在低于平均值的标准偏差的三分之二和高于平均值的标准偏差的三分之二的范围内。

    • 它具有无限范围(-oo

    bbf076cce36f210c5bb0601aa23b8604.png

    装满10,000瓶软饮料的量实际上,许多变量的分布与正态分布的理论性质非常相似。表中的数据代表最近一天装满10.000升1升瓶中的软饮料量。感兴趣的连续变量,即软饮料的填充量,可以通过正态分布来近似。10,000瓶中的软饮料量的测量值在1.05至1.055升之间,并围绕该组对称分布,形成钟形图案。图显示了相对频率直方图和多边形,用于填充10,000个瓶子的数量分布。

    f49cfa5952f6f19fc368f54b95049f97.png

    10,000瓶软饮料中的相对频率直方图对于这些数据,正态分布的前三个理论特性得到了近似满足。但是,第四范围不是无限的。装满瓶子的数量不能为零或小于0,也不能装满超出其容量的瓶子。从表中可以看到,每10,000个装满的瓶子中只有48个预期含有1.08

    升或更高,并且相等的数字预计少于1.025升。

    符号f(X)用于表示概率密度函数。正态分布的概率密度函数在公式中给出。

    5a428b1116fcc83f7e54a11fbaf28800.png

    e =用2.71828近似的数学常数

    π=用3.14159近似的数学常数

    μ =平均值

    σ =标准偏差

    X =连续变量的任何值,其中-∞

    管公式看起来很复杂,但由于e和是数学常数,所以随机变量X的概率仅取决于正态分布的两个参数-平均值μ和标准偏差σ。每次指定μ和σ的特定值时,都会生成不同的正态概率分布。图说明了这一原理。

    5c6a1bc8c672a1f1c7909672c2ffc7ea.png

    标记为A和B的分布具有相同的平均值(μ),但具有不同的标准偏差。分布A和C的标准偏差(σ)相同,但均值不同。分布B和C对于μσ具有不同的值。计算正态概率要计算正态概率,首先需要使用公式

    be377ae03179a81b07fb7a1ff627df03.png

    所示的转换公式将正态分布变量X转换为标准化正态变量Z。应用此公式可让您在正态概率表中查找值,并避免了公式(1)可能需要的繁琐而复杂的计算。转换公式将计算出一个Z值,该值表示标准值单位中的x值与平均值u的差。变量X具有平均值u和标准偏差σ,而标准化变量Z始终具有平均值u = 0和标准偏差σ = 1。然后,您可以使用表(累积标准化正态分布)来确定概率。例如,过去的数据表明下载视频的时间是正态分布的,平均时间为7秒,标准差为σ = 2秒。从图中可以看到,

    01920b7ed6949758430189f47c4f4fb6.png

    每个度量X都有一个对应的标准化度量Z,它是根据公式(2)(转换公式)计算得出的。因此,9秒的下载时间等于平均数之上的1个标准单位(1个标准偏差),因为Z =(9-7) /2= 11秒的下载时间等于-3个标准化单位(3个标准差)低于均值,因为Z =(1-7)/2= -3在上图中,标准偏差是测量单位。换句话说,9秒的时间比7秒的平均时间高2秒(1个标准差)或更慢。同样,1秒的时间比平均时间低6秒(3个标准差)或更快。为进一步说明转换公式,假设另一个网站对于正态分布的视频具有下载时间,平均时间为= 4秒,标准偏差 = 1秒。下图显示了这种分布。

    708f224c95e9011c3281e2e4f473d67e.png

    将这些结果与MyTVLab网站的结果进行比较,您会发现5秒的下载时间比平均下载时间高出1个标准差,因为Z =(5-4)/1= +1

    1秒的时间比平均下载时间低3个标准偏差,因为

    Z = (1-4)/1= -3计算出Z值后,您可以使用累积标准化正态分布中的值表(查找正态概率。假设您想查找MyTVLab网站的下载时间少于9秒。假设平均u = 7秒,标准偏差σ = 2秒,则将X = 9转换为标准单位。导致Z值为+1.00使用此值,您可以使用表查找法线下的累积面积,该面积小于Z = +1.00(在其左侧)。要读取小于Z = +1.00的曲线下的概率或面积,请向下扫描表中的Z列,直到在1.0的Zrow中找到感兴趣的Z值(十分之一)。接下来,阅读该行,直到与包含Z值的第100位的列相交为止。因此,在表的主体中,Z = 1.00的概率对应于行Z = 1.0与列Z = .00的交集。下表显示了该交集。

    dd8b10c119d8f82c93b775c6e6e102f9.png

    在交叉点处列出的概率为0.8413,这意味着下载时间少于9秒的可能性为84.13%。下图以图形方式显示了这种可能性。

    c01642bcff9e677cb9fc3e8e769d07cd.png

    从累积标准化正态分布确定小于Z的面积

    但是,对于其他网站,您看到5秒的时间比4秒的平均时间高1个标准化单位。因此,下载时间少于5秒的概率也为0.8413。下图显示,不管正态分布变量的均值u和标准偏差σ如何,公式(2)都可以将X值转换为Z值。

    a36e8fa26036e6fab3effeb2946c27b9.png

    演示两条法线下对应累积部分的比例转换

    示例1

    求P(X> 9)

    MyTVLab网站的视频下载时间超过9秒的概率是多少?

    解:下载时间少于9秒的概率为0.8413。因此,下载时间将超过9秒的概率是1-0.8413 = 0.1587。下图说明了此结果。

    afb68fea09c600fb55982029a015d898.png

    例2,

    求P(X <7 or X> 9)

    MyTVLab网站的视频下载时间少于7秒或超过9秒的概率是多少?

    解:要找到此概率,您可以分别计算下载时间小于7秒的概率和下载时间大于9秒的概率,然后将这两个概率相加。下图说明了此结果。

    2ecf9e877816b17fdb310da41bec008d.png

    因为平均值是7秒,并且平均值等于正态分布中的中值,所以50%的下载时间在7秒以下。从例1中,您知道下载时间大于9秒的概率为0.1587。因此,下载时间低于7秒或超过9秒(P(X <7或X> 9))的概率为0.5000 + 0.1587 = 0.6587。

    例3,

    求P(5 

    MyTVLab网站的视频下载时间在5到9秒之间(即P(5

    解:在下图中,您可以看到感兴趣的区域位于两个值5和9之间。

    199801caeef1470db7da72b491cf15c4.png

    例3的结果使您可以声明,对于任何正态分布,这些值的68.26%将落在平均值的±1标准偏差之内。从下图中,您可以看到95.44%的值将落在平均值的±2标准偏差之内。因此,95.44%的下载时间在3到11秒之间。

    669ce21c77c5a50df27bcdc3dd1f7d95.png

    从下图中可以看到,该值的99.73%在平均值的上下3个标准偏差之内。

    b11cd71f5e3f8a73f2d99ee9c31b2886.png

    从而。99.73%的下载时间在1到13秒之间。因此,不太可能(0.0027,或10,000中只有27)下载时间太快或太慢,以至于不到1秒或超过13秒。通常,您可以使用6σ(即均值以下3个标准偏差到均值以上3个标准偏差)作为正态分布数据范围的实际近似值。对于任何正态分布的情况。

    约68.26%的值落在平均值的±1标准偏差内

    约95.44%的值落在平均值的±2标准偏差内

    约99.73%的值落在平均值的±3标准偏差内

    寻找X值示例1至3要求您使用正态分布表在正态曲线下查找与特定X值相对应的面积。对于其他情况,您可能需要执行相反的操作:查找对应于特定区域的X值。通常,您可以使用公式来查找X值。

    f2923fe8e44103c1ae1f1d645746ec83.png

    要找到与已知概率相关的特定值,请按照下列步骤操作:•绘制正态曲线,然后将平均值和X的值放在X和Z刻度上。•查找小于X的累积面积。•遮盖感兴趣的区域。•使用表,确定正态线下面积对应的Z值曲线小于X。•使用公式求解X:

    示例4

    求出X值为0.10的累积概率。

    MyTVLab视频的最快10%下载完成之前需要多少时间(以秒为单位)?

    解:由于预计10%的视频将在X秒内下载,因此法线下小于该值的面积为0.1000。搜索面积或概率为0.1000。最接近的结果是0.1003,如表所示

    e08431726e00aa80a1b4f5c61a4cf29c.png

    在正态分布线下找到对应于特定累积面积(0.10)的Z值

    从该区域到表格的页边空白,您发现与特定的Z行(-1.2)和Z列(.08)相对应的Z值为1.28(见图)。

    512023e340d7be55f4c9d926cfb02910.png

    找到Z后,即可使用公式确定X值。

    替换u = 7、σ= 2和Z = -1.28,

    X = u + Zσ

    X = 7 +(-1.28)(2)= 4.44秒

    因此,下载时间的10%为4.44秒或更短。

    例5,查找包含95%下载时间的X值。

    围绕平均值对称分布的X的下限值和上限值是多少,包括MyTVLab网站上视频的95%的下载时间?

    解:首先,您需要找到X的较低值(称为XL)。然后,找到X的上限值(称为Xu),因为95%的值在XL和Xu之间,并且XL和XU与平均值均等距离,所以2.5%的值在XL之下(参见图)。

    360c448e9353d8a9753a1ade2d851874.png

    尽管X未知,但是您可以找到相应的Z值,因为曲线下的面积小于该Z的值为0.0250。使用表搜索概率0.0250。

    e21829a1f58e0be03081bf71053a2b12.png

    从表格的正文到表格的页边距,您看到与特定的Z行(-1.9)和Z列(.06)相对应的Z值为-1.96。

    找到Z后,最后一步是使用公式,如下所示:

    e505298abc08cd28d767621145967de2.png

    您使用类似的过程来查找X。由于仅2.5%的视频下载时间长于Xu秒,因此97.5%的视频下载时间短于Xu秒。从正态分布的对称性中,您会发现所需的Z值(如图所示)为+1.96(因为Z位于标准化均值0的右侧)。您还可以从表中提取此Z值。您可以看到曲线下的面积小于Z值+1.96,即为0.975。

    013fe0fd863711b4493f1a9ba8852f22.png

    bdd3cb64558c97f9639a0b6c08dcd834.png

    5c16c271640ae1ddc48b72dfb6f4ea3d.png

    因此,95%的下载时间在3.08到10.92秒之间。

    您可以使用Excel来计算1个正态概率,而不是在表中查找累积概率。图显示了一个工作表,该工作表计算正常概率并找到与示例1至5类似的问题的X值。

    13bdb532bb5064c17866465cc204bc27.png

    819b3757eb9178e9713a68941ce43f08.png

    展开全文
  • 学习中心极限定理,学习正态分布,学习最大似然估计 推导回归Loss function 学习损失函数凸函数之间的关系 了解全局最优和局部最优 学习导数,泰勒展开 推导梯度下降公式 写出梯度下降的代码 学习...
    • 了解什么是Machine learning
    • 学习中心极限定理,学习正态分布,学习最大似然估计
      • 推导回归Loss function
      • 学习损失函数与凸函数之间的关系
      • 了解全局最优和局部最优
    • 学习导数,泰勒展开
      • 推导梯度下降公式
      • 写出梯度下降的代码
    • 学习L2-Norm,L1-Norm,L0-Norm
      • 推导正则化公式
      • 说明为什么用L1-Norm代替L0-Norm
      • 学习为什么只对w/Θ做限制,不对b做限制

    1、什么是ML?

    ML \approx Looking for a function from Data

    Framework:

    • Step1-Build Model: Define a set of function
    • Step2-Train Model: Judge goodness of all functions(f_{n},n=1,2,3......)
    • Step3-Choose Optimum Model: Pick the best function(f_{best})
    • Step4-Testing: New data\overset{f_{best}}{\rightarrow}Predict result

    ML包括:

    • Supervised Learning(learning from teacher)
      • Regression
      • Classification
        • Linear Model
        • Non-Linear Model
          • Deep Learning
          • SVM,DT,KNN,NN......
      • Structured Learning
    • Semi-supervised Learning
    • Transfer Learning
    • Unsupervised Learning
    • Reinforcement Learning(learning from criticism)

    2、推导回归Loss Function

    Model: y_{pre}=b+\sum_{i=1}^{n} w_{i}x_{i}

    L2 Loss Fuction: L(w,b)=\sum_{j=1}^{m}(y_{j}-y_{pre}^{(j)})^{2}=\sum_{j=1}^{m}(y_{j}-(b+\sum_{i=1}^{n}w_{i}x_{i}^{(j)}))^{2}(j=1,2,3......,m为样本点计数)

    y为训练集真实输出,x_{i} (i=1,2,3......)为训练集特征值,w_{i} (i=1,2,3......)为特征对应的权重,b为偏置值,y_{pre}为预测值。

    3、学习损失函数与凸函数之间的关系

    在无约束损失函数优化问题中,如果损失函数在所属凸集上为凸函数且可微,则可以通过梯度下降法找到全局最小值;否则,根据初始点的选择不同,只能在其小邻域内寻找局部最小值。

    4、了解全局最优和局部最优

    对于严格凸函数来说,局部最优=全局最优;

    对于非凸函数来说,在局部可微的前提下,可以找到多个局部最优解,但很难确定其是否为全局最优。

    5、推导梯度下降公式

    对于连续可微函数y=f(x),选初始点x_{0},对于x_{n+1}=x_{n}-\eta f^{'}(x_{n})   (0<\eta<1n=0,1,2...),无论f^{'}(x_{n})正负与否,自变量都在向使函数值变小的方向移动,此为梯度下降。相反,x_{n+1}=x_{n}+\eta f^{'}(x_{n})为梯度上升。

    以此类推,多变量函数:

    对于2中的L(w,b),选择初始值w_{i\,0}b_{0}后,按照w_{i\,n+1}=w_{i\,n}-\eta \frac{\partial L}{\partial w_{i\,n}}b_{n+1}=n_{n}-\eta \frac{\partial L}{\partial b_{n}}   (0<\eta<1n=0,1,2...)依次迭代,直至满足停止条件为止。记梯度为∇L=\begin{pmatrix} \frac{\partial L}{\partial w_{i}} \\ \frac{\partial L}{\partial b} \end{pmatrix},则定义停止条件为||∇L||_{2}\leq \varepsilon(\varepsilon为极小正数)。

    其中:

    \frac{\partial L}{\partial w_{i}}=-2x_{i}^{(j)}\sum_{j=1}^{m}(y_{j}-(b+\sum_{i=1}^{n}w_{i}x_{i}^{(j)}))

    \frac{\partial L}{\partial b}=-2\sum_{j=1}^{m}(y_{j}-(b+\sum_{i=1}^{n}w_{i}x_{i}^{(j)}))

    6、写出梯度下降的代码

    from sympy import *
    from mpl_toolkits.mplot3d import Axes3D
    import matplotlib.pyplot as plt
    import numpy as np
    import random
    
    class GradientDescent:
        def __init__(self, eta=0.01, iter_num=1000, stop_condition=0.01):
            self.eta = eta # 学习率
            self.iter_num = iter_num # 迭代次数
            self.stop_condition = stop_condition # 停止条件
            self.x1, self.x2 = symbols('x1, x2')
            self.x_1 = np.arange(-50, 50, 0.05)
            self.x_2 = np.arange(-50, 50, 0.05)
    
        def function(self):
            '''定义函数'''
            y = 10 * self.x1**2 + 20 * self.x2**2 + 5
            return y
            # result: 10*x1**2 + 20*x2**2 + 5
    
        def plot_3d(self):
            '''绘制y的曲面图'''
            x_1, x_2 = np.meshgrid(self.x_1, self.x_2)
            y_ = np.zeros(x_1.shape)
            for i in range(x_1.shape[0]):
                for j in range(x_1.shape[1]):
                    y_[i, j] = 10 * x_1[i, j] ** 2 + 20 * x_2[i, j] ** 2 + 5
    
            fig = plt.figure()
            ax = Axes3D(fig)
            ax.plot_surface(x_1, x_2, y_, cmap='rainbow')
            plt.xlabel('x1')
            plt.ylabel('x2')
            plt.show()
    
        def gradientdescent(self):
            # 随机选择初始点
            x1_0 = random.randint(40, 50) * (-1)**random.randint(0, 2)
            x2_0 = random.randint(40, 50) * (-1)**random.randint(0, 2)
            print('随机选择初始点:(%d, %d)' % (x1_0, x2_0))
            # 调用定义的函数y
            y = self.function()
            k = 1
            while k <= self.iter_num:
                x1_0 -= self.eta * diff(y, self.x1, 1).subs(self.x1, x1_0)
                x2_0 -= self.eta * diff(y, self.x2, 1).subs(self.x2, x2_0)
                nabla_L = [int(diff(y, self.x1, 1).subs(self.x1, x1_0)), int(diff(y, self.x2, 1).subs(self.x2, x2_0))]
                # 如果梯度2范数小于定义的极小值,则停止迭代
                if np.linalg.norm(nabla_L) <= self.stop_condition:
                    print('迭代次数:%d' % k)
                    print('迭代全局最小值:(%d, %d, %d)' % (x1_0, x2_0, y.subs({self.x1:x1_0, self.x2:x2_0})))
                    break
                k += 1
    
    a = GradientDescent()
    a.plot_3d()
    a.function()
    a.gradientdescent()

    a = GradientDescent()
    a.function()
    10*x1**2 + 20*x2**2 + 5
    a.gradientdescent()
    随机选择初始点:(-46, 50)
    迭代次数:31
    迭代全局最小值:(0, 0, 5)

    7、推导正则化公式

    对于Y=WX

    无L2正则化项损失函数

    L=\frac{1}{2}(WX-Y_{real})^{2}

    对W求偏导并=0得:

    W = (X^{T}X)^{-1}X^{T}Y

    有L2正则化项损失函数

    L=\frac{1}{2}(WX-Y_{real})^{2}+\frac{1}{2}\lambda W^{2}

    对W求偏导并=0得:

    W = (X^{T}X+\lambda I)^{-1}X^{T}Y

    8、说明为什么用L1-Norm代替L0-Norm

    L0是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。

    不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。

     

    9、学习为什么只对w/Θ做限制,不对b做限制

    b的变化只对函数的位置有影响,并不改变函数的平滑性;相反,对w的限制可以实现对特征的惩罚,留取更重要的特征,惩罚不重要的特征权重,从而使LF更平滑,提高泛化能力,防止过拟合。

    参考:

    1、https://www.bilibili.com/video/av35932863?from=search&seid=2134843831238226258

    (李宏毅机器学习2019——P1-2)

    2、西瓜书

    展开全文
  • 线性回归基础知识

    2019-05-13 15:42:41
    中心极限定理正态分布、最大似然估计 推导Loss function 损失函数凸函数之间的关系 全局最优解和局部最优解 导数泰勒展开 推导梯度下降公式(Gradient Descent) 梯度下降公式的代码 L2-Norm,L1-Norm...
  • 李宏毅机器学习-01

    2019-05-13 20:52:42
    本节要点中心极限定理正态分布极大似然估计回归Loss function的推导损失函数凸函数之间的关系全局最优和局部最优泰勒展开梯度下降代码L2-Norm, L1-Norm, L0-Norm为什么用L1-Norm代替L0-Norm为什么只对w/Θ做限制,...
  • 中心极限定理 需要注意是,分为独立同分布情况和独立不同分布情况,尤其是后者,有很重要意义,说明无论随机变量是什么分布,只要满足定理条件,当n很大时,就近似服从正态分布。定理条件:每个随机变量都有...
  • 目录概率公式条件概率全概率公式贝叶斯公式常见的概率分布两点分布二项分布泊松分布均匀分布指数分布正态分布常见概率分布的期望方差Beta分布Beta分布的期望事件的独立性期望期望的性质方差协方差协方差的意义...
  • 文章目录概率公式统计数字概率本福特定律条件概率全概率公式贝叶斯公式概率分布两点分布二项分布泊松分布均匀分布指数分布正态分布常见分布总结Beta分布事件独立性期望期望类型和性质方差协方差协方差定义和...
  • 机器学习中线性回归解析

    千次阅读 2018-01-08 23:18:23
    线性回归定义: 假设存在多个特征,其输出存在线性关系,即: 已知和,线性回归目的就是求出。...由于中心极限定理 服从正态分布且独立同分布,其分布均值为0,方差为 已知以上信息后开始求极
  • 文章目录一、概率论基础1.概率公式2.分布1)两点分布2)二项分布3)泊松分布4)均匀分布5)指数分布6)正态分布7)前几个分布总结8)Beta分布9)指数族伯努利分布属于指数族高斯分布...中心极限定理四、最大似然估计 一
  • 目录: 第一章:概率定义 (随机变量,概率分布...(概率密度函数,概率分布函数以及随机变量变换,联合概率分布函数,高斯分布以及中心极限定理) 第五章:协方差矩阵、多元正态分布与椭圆 (协方差和相关...
  • 学习中心极限定理,学习正态分布,学习最大似然估计 推导回归Loss function 学习损失函数凸函数之间的关系 了解全局最优和局部最优 学习导数,泰勒展开 推导梯度下降公式 写出梯度下降的代码 学习...
  • 学习中心极限定理,学习正态分布,学习最大似然估计 推导回归Loss function 学习损失函数凸函数之间的关系 了解全局最优和局部最优 学习导数,泰勒展开 推导梯度下降公式 写出梯度下降的代码 学习L2-Norm,L1-...
  • 李宏毅机器学习作业1

    千次阅读 2019-05-13 11:42:52
    学习中心极限定理,学习正态分布,学习最大似然估计 推导回归Loss function 学习损失函数凸函数之间的关系 了解全局最优和局部最优 学习导数,泰勒展开 推导梯度下降公式 写出梯度下降的代码 学习L2-Norm,...
  • Datawhale打卡日记5.13

    2019-05-13 00:46:57
    学习中心极限定理,学习正态分布,学习最大似然估计 推导回归Loss function 学习损失函数凸函数之间的关系 了解全局最优和局部最优 学习导数,泰勒展开 推导梯度下降公式 写出梯度下降的代码 学习L2-Norm,L1-Norm...
  • 机器学习-李宏毅p1-p2任务目录了解什么是Machine learning学习中心极限定理,学习正态分布,学习最大似然估计推导回归Loss function学习损失函数凸函数之间的关系了解全局最优和局部最优导数、泰勒展开梯度下降...
  • 学习中心极限定理,学习正态分布,学习最大似然估计 推导回归Loss function 学习损失函数凸函数之间的关系 了解全局最优和局部最优 学习导数,泰勒展开 推导梯度下降公式 写出梯度下降的代码 学习L2-Norm,L1-Norm...
  • 2、学习中心极限定理,学习正态分布,学习最大似然估计2.1推导回归Loss function2.2 学习损失函数凸函数之间的关系2.3了解全局最优和局部最优3、学习导数,泰勒展开3.1推导梯度下降公式3.2写出梯度下降的代码4、...
  • 白话“卡方检验”

    2019-10-25 11:20:07
    关于假设检验的先验知识有:总体、样本、点估计、区间估计、显著性水平、置信区间、统计量、枢轴量、分位点、三大分布、中心极限定理(明确正态分布的重要地位)、抽样分布定理。这些知识在《概率论数理统计》教材...
  • 2.学习中心极限定理,学习正态分布,学习最大似然估计 3.推导回归Loss function 4.学习损失函数凸函数之间的关系 5.了解全局最优和局部最优 6.学习导数,泰勒展开 7.推导梯度下降公式 8.写出梯度下降的代码 9.学习...
  • 李宏毅机器学习1

    2019-05-13 13:13:46
    学习中心极限定理,学习正态分布,学习最大似然估计2.1推导回归Loss function2.2损失函数凸函数之间的关系2.3全局最优和局部最优三. 学习导数,泰勒展开3.1推导梯度下降公式3.1梯度下降代码四. 学习L2-Norm,L1-...
  • 这里写目录标题一、概率论基础1.概率公式2.分布1)两点分布2)二项分布3)泊松分布4)均匀分布5)指数分布6)正态分布7)前几个分布总结8)Beta分布9)指数族伯努利分布属于指数族高斯...中心极限定理四、最大似然估
  • 李宏毅机器学习-part1

    2019-05-13 17:35:58
    1.中心极限定理的概念 2.正态分布 3.极大似然估计 4.推导回归Loss function 5.损失函数凸函数之间的关系 6.全局最优和局部最优 7.推导梯度下降公式 8.梯度下降的代码实现 9.正则化公式的推导 10.L0-Norm,...
  • 线性回归总结

    2020-06-23 18:05:23
    线性回归采用一个高维线性函数来尽可能拟合所有数据点,最简单想法就是根据中心极限定理,最小化函数值真实值误差平方(概率解释-高斯分布加最大似然估计) 线性回归假设 线性回归假设y连续变量,x相互...
  • 十四、中心极限定理 十五、连续分布 十六、变换 十七、联合密度 十八、正态和 Gamma 族 十九、和的分布 二十、估计方法 二十一、Beta 和二项 二十二、预测 二十三、联合正态随机变量 二十四、简单线性回归 二十五、...
  • 3.3.12 如何使用中心极限定理来解鸡尾酒会问题? 194 3.3.13 ICA 如何用于图像处理? 194 3.3.14 如何搜索独立分量? 195 3.3.15 如何白化数据? 196 3.3.16 如何从白化数据中选取独立分量? 196 B3.8 ...

空空如也

空空如也

1 2
收藏数 29
精华内容 11
关键字:

中心极限定理与正态分布的关系