精华内容
下载资源
问答
  • 上面我们讲解了什么是梯度下降法,以及如何求解梯度下降,下面我们将通过Python来实现梯度下降法。 [python]   view plain   copy   # _*_ coding: utf-8 _*_   #...
    相同
    1.本质相同:两种方法都是在给定已知数据(independent & dependent variables)的前提下对dependent variables算出出一个一般性的估值函数。然后对给定新数据的dependent variables进行估算。
    2.目标相同:都是在已知数据的框架内,使得估算值与实际值的总平方差尽量更小(事实上未必一定要使用平方),估算值与实际值的总平方差的公式为:
    \Delta =\frac{1}{2} \sum_{i=1}^{m}{(f_{\beta }(\bar{x_{i}} )-y_{i})^{2} }其中\bar{x_{i} }为第i组数据的independent variable,y_{i}为第i组数据的dependent variable,\beta为系数向量。

    不同
    1.实现方法和结果不同:最小二乘法是直接对\Delta求导找出全局最小,是非迭代法。而梯度下降法是一种迭代法,先给定一个\beta,然后向\Delta下降最快的方向调整\beta,在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢,并且对初始点的选择极为敏感,其改进大多是在这两方面下功夫。



    最小二乘法源自线性回归,属于数理统计。在回归中样本量(n)会远大于变量数量(m),最小二乘法目的在于解决n个方程解m个未知数的问题。求极值的过程不是最小二乘法的重点,其重点在于平衡了n个样本得出m个方程进而去解m个未知参数。再说其中的极值,线性回归这一前提决定了其天生就只有一个极值点,即全局最小。

    梯度上升(下降)法是一个单纯的求极值方法,用以应对各种古怪的极值求解,属于优化算法。具体的@张子权已经说清楚了。


    http://blog.csdn.net/yhao2014/article/details/51554910

    梯度下降法(gradient descent),又名最速下降法(steepest descent)是求解无约束最优化问题最常用的方法,它是一种迭代方法,每一步主要的操作是求解目标函数的梯度向量,将当前位置的负梯度方向作为搜索方向(因为在该方向上目标函数下降最快,这也是最速下降法名称的由来)。
    梯度下降法特点:越接近目标值,步长越小,下降速度越慢。
    直观上来看如下图所示:


    这里每一个圈代表一个函数梯度,最中心表示函数极值点,每次迭代根据当前位置求得的梯度(用于确定搜索方向以及与步长共同决定前进速度)和步长找到一个新的位置,这样不断迭代最终到达目标函数局部最优点(如果目标函数是凸函数,则到达全局最优点)。


    下面我们将通过公式来具体说明梯度下降法
    下面这个h(θ)是我们的拟合函数


    也可以用向量的形式进行表示:


    下面函数是我们需要进行最优化的风险函数,其中的每一项都表示在已有的训练集上我们的拟合函数与y之间的残差,计算其平方损失函数作为我们构建的风险函数(参见最小二乘法及其Python实现)


    这里我们乘上1/2是为了方便后面求偏导数时结果更加简洁,之所以能乘上1/2是因为乘上这个系数后对求解风险函数最优值没有影响。
    我们的目标就是要最小化风险函数,使得我们的拟合函数能够最大程度的对目标函数y进行拟合,即:


    后面的具体梯度求解都是围绕这个目标来进行。


    批量梯度下降BGD
    按照传统的思想,我们需要对上述风险函数中的每个求其偏导数,得到每个对应的梯度


    这里表示第i个样本点的第j分量,即h(θ)中的


    接下来由于我们要最小化风险函数,故按照每个参数的负梯度方向来更新每一个


    这里的α表示每一步的步长


    从上面公式可以注意到,它得到的是一个全局最优解,但是每迭代一步,都要用到训练集所有的数据,如果m很大,那么可想而知这种方法的迭代速度!!所以,这就引入了另外一种方法,随机梯度下降。


    随机梯度下降SGD
    因为批量梯度下降在训练集很大的情况下迭代速度非常之慢,所以在这种情况下再使用批量梯度下降来求解风险函数的最优化问题是不具有可行性的,在此情况下,提出了——随机梯度下降
    我们将上述的风险函数改写成以下形式:


    其中,


    称为样本点的损失函数


    接下来我们对每个样本的损失函数,对每个求其偏导数,得到每个对应的梯度


    然后根据每个参数的负梯度方向来更新每一个


    与批量梯度下降相比,随机梯度下降每次迭代只用到了一个样本,在样本量很大的情况下,常见的情况是只用到了其中一部分样本数据即可将θ迭代到最优解。因此随机梯度下降比批量梯度下降在计算量上会大大减少。


    SGD有一个缺点是,其噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。而且SGD因为每次都是使用一个样本进行迭代,因此最终求得的最优解往往不是全局最优解,而只是局部最优解。但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。


    下面是两种方法的图形展示:



    从上述图形可以看出,SGD因为每次都是用一个样本点进行梯度搜索,因此其最优化路径看上去比较盲目(这也是随机梯度下降名字的由来)。


    对比其优劣点如下:
    批量梯度下降:
    优点:全局最优解;易于并行实现;总体迭代次数不多
    缺点:当样本数目很多时,训练过程会很慢,每次迭代需要耗费大量的时间。

    随机梯度下降:
    优点:训练速度快,每次迭代计算量不大
    缺点:准确度下降,并不是全局最优;不易于并行实现;总体迭代次数比较多。



    ============ 分割分割 =============
    上面我们讲解了什么是梯度下降法,以及如何求解梯度下降,下面我们将通过Python来实现梯度下降法。

    [python] view plain copy
     在CODE上查看代码片派生到我的代码片
    1. # _*_ coding: utf-8 _*_  
    2. # 作者: yhao  
    3. # 博客: http://blog.csdn.net/yhao2014  
    4. # 邮箱: yanhao07@sina.com  
    5.   
    6. # 训练集  
    7. # 每个样本点有3个分量 (x0,x1,x2)  
    8. x = [(10.3), (11.3), (12.3), (13.2), (14.4)]  
    9. # y[i] 样本点对应的输出  
    10. y = [95.36497.21720575.19583460.10551949.342380]  
    11.   
    12. # 迭代阀值,当两次迭代损失函数之差小于该阀值时停止迭代  
    13. epsilon = 0.0001  
    14.   
    15. # 学习率  
    16. alpha = 0.01  
    17. diff = [00]  
    18. max_itor = 1000  
    19. error1 = 0  
    20. error0 = 0  
    21. cnt = 0  
    22. m = len(x)  
    23.   
    24.   
    25. # 初始化参数  
    26. theta0 = 0  
    27. theta1 = 0  
    28. theta2 = 0  
    29.   
    30. while True:  
    31.     cnt += 1  
    32.   
    33.     # 参数迭代计算  
    34.     for i in range(m):  
    35.         # 拟合函数为 y = theta0 * x[0] + theta1 * x[1] +theta2 * x[2]  
    36.         # 计算残差  
    37.         diff[0] = (theta0 + theta1 * x[i][1] + theta2 * x[i][2]) - y[i]  
    38.   
    39.         # 梯度 = diff[0] * x[i][j]  
    40.         theta0 -= alpha * diff[0] * x[i][0]  
    41.         theta1 -= alpha * diff[0] * x[i][1]  
    42.         theta2 -= alpha * diff[0] * x[i][2]  
    43.   
    44.     # 计算损失函数  
    45.     error1 = 0  
    46.     for lp in range(len(x)):  
    47.         error1 += (y[i]-(theta0 + theta1 * x[i][1] + theta2 * x[i][2]))**2/2  
    48.   
    49.     if abs(error1-error0) < epsilon:  
    50.         break  
    51.     else:  
    52.         error0 = error1  
    53.   
    54.     print ' theta0 : %f, theta1 : %f, theta2 : %f, error1 : %f' % (theta0, theta1, theta2, error1)  
    55. print 'Done: theta0 : %f, theta1 : %f, theta2 : %f' % (theta0, theta1, theta2)  
    56. print '迭代次数: %d' % cnt  

    结果(截取部分):
    [plain] view plain copy
     在CODE上查看代码片派生到我的代码片
    1.  theta0 : 2.782632, theta1 : 3.207850, theta2 : 7.998823, error1 : 7.508687  
    2.  theta0 : 4.254302, theta1 : 3.809652, theta2 : 11.972218, error1 : 813.550287  
    3.  theta0 : 5.154766, theta1 : 3.351648, theta2 : 14.188535, error1 : 1686.507256  
    4.  theta0 : 5.800348, theta1 : 2.489862, theta2 : 15.617995, error1 : 2086.492788  
    5.  theta0 : 6.326710, theta1 : 1.500854, theta2 : 16.676947, error1 : 2204.562407  
    6.  theta0 : 6.792409, theta1 : 0.499552, theta2 : 17.545335, error1 : 2194.779569  
    7.  theta0 : 74.892395, theta1 : -13.494257, theta2 : 8.587471, error1 : 87.700881  
    8.  theta0 : 74.942294, theta1 : -13.493667, theta2 : 8.571632, error1 : 87.372640  
    9.  theta0 : 74.992087, theta1 : -13.493079, theta2 : 8.555828, error1 : 87.045719  
    10.  theta0 : 75.041771, theta1 : -13.492491, theta2 : 8.540057, error1 : 86.720115  
    11.  theta0 : 75.091349, theta1 : -13.491905, theta2 : 8.524321, error1 : 86.395820  
    12.  theta0 : 75.140820, theta1 : -13.491320, theta2 : 8.508618, error1 : 86.072830  
    13.  theta0 : 75.190184, theta1 : -13.490736, theta2 : 8.492950, error1 : 85.751139  
    14.  theta0 : 75.239442, theta1 : -13.490154, theta2 : 8.477315, error1 : 85.430741  
    15.  theta0 : 97.986390, theta1 : -13.221172, theta2 : 1.257259, error1 : 1.553781  
    16.  theta0 : 97.986505, theta1 : -13.221170, theta2 : 1.257223, error1 : 1.553680  
    17.  theta0 : 97.986620, theta1 : -13.221169, theta2 : 1.257186, error1 : 1.553579  
    18.  theta0 : 97.986735, theta1 : -13.221167, theta2 : 1.257150, error1 : 1.553479  
    19.  theta0 : 97.986849, theta1 : -13.221166, theta2 : 1.257113, error1 : 1.553379  
    20.  theta0 : 97.986963, theta1 : -13.221165, theta2 : 1.257077, error1 : 1.553278  
    21. Done: theta0 : 97.987078, theta1 : -13.221163, theta2 : 1.257041  
    22. 迭代次数: 3443  

    可以看到最后收敛到稳定的参数值。

    注意:这里在选取alphaepsilon时需要谨慎选择,可能不适的值会导致最后无法收敛。


    参考文档:

    随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

    随机梯度下降法
    
    python实现梯度下降算法

    作者:张子权
    链接:https://www.zhihu.com/question/20822481/answer/16454189
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。

    作者:richard
    链接:https://www.zhihu.com/question/20822481/answer/16455294
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。

    展开全文
  • 最小二乘法的推导 最小二乘法的目标:求误差的最小平方和,对应两种:线性和非线性。线性最小二乘的解是closed-form即,而非线性最小...梯度下降是迭代的一种,可以用于求解最小二乘问题(线性和非线性都可以)...

    最小二乘法的推导

    最小二乘法的目标:求误差的最小平方和,对应有两种:线性和非线性。线性最小二乘的解是closed-form即x=(A^T A)^{-1}A^Tb,而非线性最小二乘没有closed-form,通常用迭代法求解。

    迭代法,即在每一步update未知量逐渐逼近解,可以用于各种各样的问题(包括最小二乘),比如求的不是误差的最小平方和而是最小立方和。

    梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。高斯-牛顿法是另一种经常用于求解非线性最小二乘的迭代法(一定程度上可视为标准非线性最小二乘求解方法)。

    还有一种叫做Levenberg-Marquardt的迭代法用于求解非线性最小二乘问题,就结合了梯度下降和高斯-牛顿法。

    所以如果把最小二乘看做是优化问题的话,那么梯度下降是求解方法的一种,x=(A^T A)^{-1}A^Tb是求解线性最小二乘的一种,高斯-牛顿法和Levenberg-Marquardt则能用于求解非线性最小二乘。

    具体可参考维基百科(Least squares, Gradient descent, Gauss-Newton algorithm, Levenberg-Marquardt algorithm

    1.本质相同:两种方法都是在给定已知数据(independent & dependent variables)的前提下对dependent variables算出出一个一般性的估值函数。然后对给定新数据的dependent variables进行估算。
    2.目标相同:都是在已知数据的框架内,使得估算值与实际值的总平方差尽量更小(事实上未必一定要使用平方),估算值与实际值的总平方差的公式为:
    \Delta =\frac{1}{2} \sum_{i=1}^{m}{(f_{\beta }(\bar{x_{i}} )-y_{i})^{2} }其中\bar{x_{i} }为第i组数据的independent variable,y_{i}为第i组数据的dependent variable,\beta为系数向量。

    不同
    1.实现方法和结果不同:最小二乘法是直接对\Delta求导找出全局最小,是非迭代法。而梯度下降法是一种迭代法,先给定一个\beta,然后向\Delta下降最快的方向调整\beta,在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢,并且对初始点的选择极为敏感,其改进大多是在这两方面下功夫。

     

    本文参考:https://www.zhihu.com/question/20822481

    展开全文
  • 1、最小二乘法的目标:求误差的最小平方和,对应两种:线性和非线性。线性最小二乘的解是closed-form即,而非线性最小二乘没有...a)梯度下降是迭代的一种,可以用于求解最小二乘问题(线性和非线性都可以)。 b

    1、最小二乘法的目标:求误差的最小平方和,对应有两种:线性和非线性。线性最小二乘的解是closed-form即x=(A^T A)^{-1}A^Tb,而非线性最小二乘没有closed-form,通常用迭代法求解。

    2、迭代法,即在每一步update未知量逐渐逼近解,可以用于各种各样的问题(包括最小二乘),比如求的不是误差的最小平方和而是最小立方和。

    a)梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。

    b)高斯-牛顿法是另一种经常用于求解非线性最小二乘的迭代法(一定程度上可视为标准非线性最小二乘求解方法)。

    c)还有一种叫做Levenberg-Marquardt的迭代法用于求解非线性最小二乘问题,就结合了梯度下降和高斯-牛顿法。

    所以如果把最小二乘看做是优化问题的话,那么梯度下降是求解方法的一种,x=(A^T A)^{-1}A^Tb是求解线性最小二乘的一种,高斯-牛顿法和Levenberg-Marquardt则能用于求解非线性最小二乘。



    作者:知乎用户
    链接:https://www.zhihu.com/question/20822481/answer/23648885
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    展开全文
  • 最小二乘法和梯度下降法有哪些区别? 非线性最小二乘法: 百度百科 非线性最小二乘的求解样例: 转自:LongShaoAn 问题:已知数据X、Y,  X=[ -0.46,-0.0755,-0.0227,-0.63,-0.435,-0.4]  Y...

    来自知乎内容:

    最小二乘法和梯度下降法有哪些区别?


    非线性最小二乘法:

    百度百科


    非线性最小二乘的求解样例:

    转自:LongShaoAn

    问题:已知数据XY


          X=[ -0.46,-0.0755,-0.0227,-0.63,-0.435,-0.4]


          Y=[0.595,0.556,0.44,0.53,0.634,0.551];


    依照Y=b/(a+X) ,用最小二乘拟合方法拟合出ab的值,并绘制出函数的曲线。


          工具方法:matlablsqcurvefit函数。


    具体实施:


     (1)先大致看一下,此数据的效果,通过命令plot完成。


    x=[ -0.46,-0.0755,-0.0227,-0.63,-0.435,-0.4]


    y=[0.595,0.556,0.44,0.53,0.634,0.551];


    plot(x,y, 'b:o', 'LineWidth',3) %蓝色o线绘出



    matlab非线性最小二乘拟合的应用 - 云卷云舒 - 飞龙在天的小窝儿^_^

     (2)通过函数lsqcurvefit进行曲线拟合。

    1>构建函数:


    function F = myfun(x,xdata)


    F= x(1)./(x(2)+xdata);


    保持在当前目录下面以myfun.m命名。


    2>求取参数ab,这里以x(1)x(2)表示。


    xdata=[-0.46,-0.0755,-0.0227,-0.63,-0.435,-0.4];


    ydata=[0.595,0.556,0.44,0.53,0.634,0.551];


    x0 = [11]  %初值


    [x,resnorm] = lsqcurvefit(@myfun,x0,xdata,ydata)


    鉴于不同的初值可能得到不同的结果,进行了如下尝试:


    初值x0=(1,1)


    x(1)=2.2788


    x(2)=4.4836


    初值x0=(2,2)


    x(1)=2.2797


    x(2)=4.4851


    初值x0=(1,10)


    x(1)= 2.2792


    x(2)= 4.4842


    初值x0=(-1,100)


    x(1)=2.2802


    x(2)=4.4861


    因此我们有理由相信x(1)=2.28x(2)=4.48


    因此次多项式可以表示为


    y=2.28/(4.48+x)


    接下来我们给出此多项式的图形:


    x=-5:0.1:5;


    y=2.28./(4.48+x)


    plot(x,y, 'r', 'LineWidth',3)


    matlab非线性最小二乘拟合的应用 - 云卷云舒 - 飞龙在天的小窝儿^_^

     为何更好的显示拟合的效果,请看下图:



    matlab非线性最小二乘拟合的应用 - 云卷云舒 - 飞龙在天的小窝儿^_^

     总结:用此函数拟合这些点,效果看起来并不是特别好,如果数据范围比较小,可以尝试别的函数进行拟合。

    
    展开全文
  • 前面讲了梯度下降、次梯度下降、近似点梯度下降方法并分析了收敛性。一开始我们还讲了对偶原理,那么如果原问题比较难求解的时候,我们可不可以转化为对偶问题并应用梯度求解呢?当然可以,不过一个问题就是对偶...
  • 2.梯度下降法和牛顿法的比较 3.xgboost算法过程推导 特征工程 1.定义: 数据是信息的载体,但是原始的数据包含了大量的噪声,信息的表达也不够简练。因此,特征工程的目的,是通过一系列的工程活动,将这些信息...
  • 讲座开始,主讲人先问了下哪些同学机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己...
  • #有哪些优化算法,以及他们的学习速率怎么定 #学习速率过高过低,会影响找到极值点的效率,如果太大,会让损失函数的极值在极值点附近来回跳动 感知器的历程 #多层感知器(神经网络) #单个神经元 #多个神经元(多...
  • 再议:梯度下降算法

    2021-03-19 19:03:23
    梯度下降法简单来说就是一种寻找使损失函数最小化的方法 理论上,当然也可以从数学的角度来解读:从数学上的角度来看,梯度的方向是函数增长速度最快的方向,那么梯度的反方向(也可以理解为负梯度的方向)就是函数...
  • 现代的机器学习系统均利用大量的数据,利用梯度下降算法或者相关的变体进行训练。传统上,最早出现的优化算法是SGD,之后又陆续出现了AdaGrad、RMSprop、ADAM等变体...随机梯度下降法(Stochastic Gradient Descent,...
  • 无约束最优化问题有哪些解法?1.梯度下降法 2.牛顿法 3.拟牛顿法
  • 先列举一下在深度学习中,我们...随机梯度下降法(Stochastic Gradient Descent)——SGD 小批量梯度下降——mini-batch GD 动量梯度下降——Momentum 均方根算法(root mean square prop) ——RMSprop 自适应矩估计...
  • Thinking3:梯度下降法中的批量梯度下降(BGD),随机梯度下降(SGD),和小批量梯度下降有什么区别(MBGD) 这里是引用 Thinking4:你阅读过和推荐系统/计算广告/预测相关的论文么?有哪些论文是你比较推荐的,...
  • 上一篇博客讲了,随机梯度下降法偶尔也会失效 ,无法给出满意的训练结果 , 并解释了原因。本文将介绍,为了改进随机梯度下降法,研究者都做了哪些改动?提出了哪些变种方法? 各有哪些特点? 动量( Momentum )...
  • 学习率的作用,学习率衰减,函数

    千次阅读 2019-05-05 16:14:31
    目录 1.学习率的作用 2.学习率衰减常用参数有哪些 3.常见衰减函数 ...梯度下降法通过多次迭代,并在每一步中最小化成本函数(cost 来估计模型的参数。学习率 (learning rate),在迭代过程中会...
  • 一、相关的问题 ...自适应优化算法有哪些?(Adagrad(累积梯度平方)、RMSProp(累积梯度平方的滑动平均)、Adam(带动量的RMSProp,即同时使用梯度的一、二阶矩))。 梯度下降陷入局部最优有什么解决
  • 文章目录2.线性模型2.1 线性回归2.1.1 什么是回归?哪些模型可用于解决回归问题?...‍2.1.9 梯度下降法找到的一定是下降最快的方向吗?2.1.10 MBGD需要注意什么?2.2 LRLR的推导2.2.1为什么 LR 要使用 si
  • 为什么需要优化算法 优化算法可以加快收敛速度(未加入优化的神经... Momentum 动量梯度下降法 RMSprop Adam 提升算法 其中Adam提升算法是Momentum和RMSprop两种相结合的算法,接下来我们会依次介绍这四种算法...
  • 深度学习——优化算法

    万次阅读 2018-01-03 15:19:28
    为什么需要优化算法优化算法可以加快收敛速度(未加入优化的神经...Momentum 动量梯度下降法 RMSprop Adam 提升算法 其中Adam提升算法是Momentum和RMSprop两种相结合的算法,接下来我们会依次介绍这四种算法。Mini-Bat
  • 字节跳动人工智能岗

    2019-08-26 22:39:26
    我的面试经(只记得没回答出来的) 讲一下Adam,手撕三个算法题(凑零钱;输出给定数字下一个比它大的...优化方法分为直接法和迭代法,其中迭代法包括一阶法(梯度下降法)和二阶法(牛顿法),基于梯度法的缺陷,...
  •   在神经网络中通常使用随机梯度下降法。随机的意思是我们随机选择一些样本来增量式的估计梯度,比如常用的采用batch训练。如果样本是相关的,那就意味着前后两个batch的很可能也是相关的,那么估计的梯度也会呈现...
  • 机器学习面试题总结

    2020-09-06 22:13:45
    为什么归一化能加快梯度下降法求优化速度? 简单说下 Adaboost? SVM 和 LR 区别和联系? 机器学习中的距离和相似度度量方式有哪些? AUC 为啥对正负样本比例不敏感? Xgboost 哪里可做到并行?boosting 不是串行吗...
  • 机器学习面试题

    2020-03-31 23:49:07
    神经网络中怎么降维? 标准化和归一化有什么区别? LSTM为啥比RNN在梯度消失上...为什么归一化能加快梯度下降法求优化速度? 简单说下Adaboost? SVM和LR区别和联系? 机器学习中的距离和相似度度量方式有哪些? AU...
  • DL、ML算法面试题记录

    2020-05-31 21:36:10
    1、利用梯度下降法训练神经网络,发现模型Loss不变,可能有哪些问题?怎么解决? 2、如何解决不平衡数据集的分类问题?smote算法的弊端? 3、残差网络为什么能实现更深层? 4、卷积神经网络中空洞卷积的作用是...
  • 2.12.5 如何对梯度下降法进⾏行行调优? 2.12.7 随机梯度和批量量梯度区别? 2.12.8 各种梯度下降法性能⽐比较 2.13 计算图的导数计算图解? 2.14 线性判别分析(LDA) 2.14.1 线性判别分析(LDA)思想总结 2.14.2 图解LDA...
  • 计算机视觉的小tips

    2020-03-27 16:12:42
    这里写自定义目录标题计算机视觉常见小tips及面试经典问题计算参数量以及计算量过拟合要怎么解决?深度学习中激活函数的优...随机梯度下降相比全局梯度下降好处是什么?介绍 Inception-resnet v1?归一化有哪些方...

空空如也

空空如也

1 2 3 4
收藏数 62
精华内容 24
关键字:

梯度下降法有哪些