精华内容
下载资源
问答
  • 对偶空间

    千次阅读 2019-04-03 09:59:51
    摘自知乎两个比较能够理解的回答 一、 作者:Hua Xiao ...“对偶空间”是“线性空间”,它里面的元素是“线性映射”。 仅仅是这句话就足以让许多人一头雾水了。为了理解它,我们先说说“集合...

    摘自知乎两个比较能够理解的回答

    一、

    作者:Hua Xiao
    链接:https://www.zhihu.com/question/38464481/answer/132756971
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
     

    “对偶空间”是“线性空间”,它里面的元素是“线性映射”。

    仅仅是这句话就足以让许多人一头雾水了。为了理解它,我们先说说“集合”:所有的“线性空间”都是“集合”,然而“集合”未必都是“线性空间”。比如{帽子,足球,鱼香肉丝}这样的集合就很可能不是线性空间。那么问题来了——

    什么样的集合,才可以被称作是线性空间呢?

    答:如果某集合对加法和数乘封闭,也就是说
    (1) 任意一个元素 加上 任意一个元素 结果仍然在集合里;
    (2) 任意一个数 乘以 任意一个元素 结果仍然在集合里。
    那这个集合就是一个线性空间。

    比如,{0}这个集合只有一个元素,而且——
    (1) 0 加上0,结果是0,在集合内;
    (2) 任何数 乘以 0,结果是0,也在集合内。
    所以{0}是一个线性空间。

    而{0,1,2}这个集合,就很可能不是一个线性空间。因为1加上2,结果是3, 而3却不在集合内。

    如果你能够在{0,1,2}这个集合上,自己定义一种特殊的“加法”和“数乘”,在——满足交换律、结合律、乘法分配律,具备加法恒等元、加法逆、乘法恒等元——的前提下,还能使得{0,1,2}中所有的元素满足对加法和数乘封闭的条件,那么{0,1,2}就可以被看做是线性空间。当然,你也看出来了,这并不容易想到怎么做。事实上,我们习以为常的线性空间是很特殊的集合。

    我们已经搭好了“线性空间”的概念,它就像游戏的场景,有了它我们才可以尽情的玩耍。下面来看一个更有意思的东西——线性映射。

    我们继续用{0}这个最简单的线性空间,
    然后给出一个线性映射——把{0}中的所有元素(也就是0啦)乘以1
    0\rightarrow 0
    然后又给出一个线性映射——把{0}中的所有元素乘以2
    0\rightarrow 0
    然后又双叒叕给出一个线性映射——把{0}中的所有元素乘以3
    0\rightarrow 0
    ……

    我们很快就发现,{0}这个线性空间上的线性映射竟然有无穷多个!如果我们这无穷多个映射放在一个集合里:{线性映射一,线性映射二,线性映射三…… },那么,这个由“线性映射”构成的集合,是否也是一个线性空间?

    答案竟然是yes!而且它就是{0}的对偶空间

    等一下——
    如果这个集合是个线性空间,那么根据上文,它必须对加法和数乘封闭。可是数字之间相加,比如1+2,很好理解,线性映射也能相加吗?怎么加,结果是什么?

    注意,上文中提到:

    ……你能自己定义一种特别的“加法”和“数乘”,在——满足交换律、结合律、乘法分配律,具备加法恒等元、加法逆、乘法恒等元——的前提下……

    也就是说,我们可以在线性映射的集合上定义“线性映射的加法”!只要能满足那些要求就可以了!
    下面用个例子来描述一下“线性映射之间的加法”:

    线性映射二:x \rightarrow2x , 线性映射三:x \rightarrow 3x,那么:
    线性映射二 加上 线性映射三等于 一个新的线性映射:x \rightarrow2x+3x

    不难发现,这个定义是满足加法的那一票要求的。有了加法的定义,我们乘胜追击,再用个例子来描述一个数和线性映射相乘,

    线性映射一:x \rightarrowx , 那么:
    3 乘以 线性映射一等于 一个新的线性映射:x \rightarrow3x

    然后就可以发现,{0}上的所有线性映射的集合:{线性映射一,线性映射二,线性映射三…… }
    对加法和数乘封闭,也就是说,它也是一个线性空间,于是我们把它叫做{0}的对偶空间。

    再回头看看本回答的第一句话:“对偶空间”是“线性空间”,它里面的元素是“线性映射”,这句话里其实还隐含了一个信息:我们在对偶空间里,定义了线性映射的加法以及数乘。

    最后,更准确的说,对偶空间里的元素是“线性泛函”(linear functional),这是一种特殊的线性映射。

     

    二、

    怎么形象地理解对偶空间(Dual Vector Space)? - 马同学的回答 - 知乎 https://www.zhihu.com/question/38464481/answer/235672121

     

    展开全文
  • 对偶空间和对偶基

    万次阅读 多人点赞 2017-12-27 10:44:03
    作者:Hua Xiao ... 来源:知乎 ...“对偶空间”是“线性空间”,它里面的元素是“线性映射”。 仅仅是这句话就足以让许多人一头雾水了。为了理解它,我们先说说“集合”:所有的“线性空间”都是“集合
    作者:Hua Xiao
    链接:https://www.zhihu.com/question/38464481/answer/132756971
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    “对偶空间”是“线性空间”,它里面的元素是“线性映射”。

    仅仅是这句话就足以让许多人一头雾水了。为了理解它,我们先说说“集合”:所有的“线性空间”都是“集合”,然而“集合”未必都是“线性空间”。比如{帽子,足球,鱼香肉丝}这样的集合就很可能不是线性空间。那么问题来了——

    什么样的集合,才可以被称作是线性空间呢?

    答:如果某集合对加法和数乘封闭,也就是说
    (1) 任意一个元素 加上 任意一个元素 结果仍然在集合里;
    (2) 任意一个数 乘以 任意一个元素 结果仍然在集合里。
    那这个集合就是一个线性空间。

    比如,{0}这个集合只有一个元素,而且——
    (1) 0 加上0,结果是0,在集合内;
    (2) 任何数 乘以 0,结果是0,也在集合内。
    所以{0}是一个线性空间。

    而{0,1,2}这个集合,就不是一个线性空间。因为1加上2,结果是3, 而3却不在集合内。
    如果你能够在{0,1,2}这个集合上,自己定义一种特殊的“加法”和“数乘”,在——满足交换律、结合律、乘法分配律,具备加法恒等元、加法逆、乘法恒等元——的前提下,还能使得{0,1,2}中所有的元素满足对加法和数乘封闭的条件,那么{0,1,2}就可以被看做是线性空间。当然,你也看出来了,这非常的困难。事实上,线性空间是极其特殊的集合。

    我们已经搭好了“线性空间”的概念,它就像游戏的场景,有了它我们才可以尽情的玩耍。下面来看一个更有意思的东西——线性映射。

    我们继续用{0}这个最简单的线性空间,
    然后给出一个线性映射——把{0}中的所有元素(也就是0啦)乘以1
    0\rightarrow 0
    然后又给出一个线性映射——把{0}中的所有元素乘以2
    0\rightarrow 0
    然后又双叒叕给出一个线性映射——把{0}中的所有元素乘以3
    0\rightarrow 0
    ……

    我们很快就发现,{0}这个线性空间上的线性映射竟然有无穷多个!如果我们这无穷多个映射放在一个集合里:{线性映射一,线性映射二,线性映射三…… },那么,这个由“线性映射”构成的集合,是否也是一个线性空间?

    答案竟然是yes!而且它就是{0}的对偶空间

    等一下——
    如果这个集合是个线性空间,那么根据上文,它必须对加法和数乘封闭。可是数字之间相加,比如1+2,很好理解,线性映射也能相加吗?怎么加,结果是什么?

    注意,上文中提到:
    ……你能自己定义一种特别的“加法”和“数乘”,在——满足交换律、结合律、乘法分配律,具备加法恒等元、加法逆、乘法恒等元——的前提下……
    也就是说,我们可以在线性映射的集合上定义 “线性映射的加法”!只要能满足那些要求就可以了!
    下面用个例子来描述一下“线性映射之间的加法”:
    线性映射二:x \rightarrow 2x , 线性映射三:x \rightarrow 3x,那么:
    线性映射二 加上 线性映射三等于 一个新的线性映射:x \rightarrow 2x+3x
    不难发现,这个定义是满足加法的那一票要求的。有了加法的定义,我们乘胜追击,再用个例子来描述一个数和线性映射相乘,
    线性映射一:x \rightarrow x , 那么:
    3 乘以 线性映射一等于 一个新的线性映射:x \rightarrow 3x

    然后就可以发现,{0}上的所有线性映射的集合:{线性映射一,线性映射二,线性映射三…… }
    对加法和数乘封闭,也就是说,它也是一个线性空间,于是我们把它叫做{0}的对偶空间。

    再回头看看本回答的第一句话:“对偶空间”是“线性空间”,它里面的元素是“线性映射”,这句话里其实还隐含了一个信息:我们在对偶空间里,定义了线性映射的加法以及数乘。

    最后,更准确的说,对偶空间里的元素是“线性泛函”(linear functional),这是一种特殊的线性映射。


    对偶空间 V^*的想法本身是很自然的,就是 \dim V=n的线性空间 V上全体线性函数组成的(在通常的函数加和乘下)线性空间。这个空间其实就是全体  1\times n 的矩阵而已。那么自然的,对偶空间就是一个 n维的线性空间。注意在 V的一组基 e_i下,我们给出的任意一个赋值 f(e_i)=\beta_i都唯一地确定了一个线性函数 f(x=\sum \alpha_i e_i)=\sum \alpha_i \beta_i。那么自然地诱导出 V^*的一组基 e^i(e_j)=\delta_{i,j},这就称作 e_j的对偶基(互相对偶)。


    作者:陆葳蕤
    链接:https://www.zhihu.com/question/38464481/answer/137481200
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


    展开全文
  • 对偶空间(dual linear space)

    万次阅读 2017-01-03 22:07:10
    对偶空间的定义 对偶空间的向量与对偶空间的基;

    1. 定义

    V 为定义在数域 F 上的向量空间,定义 V 上的线性函数是从 V F 的映射:f:VF,且满足 x,yV,kF 有: f(x+y)=f(x)+f(y),f(ka)=kf(a)

    现考虑 V 上所有线性函数(f:VF)的集合 V 。对 f,gV,xV,kF ,可以在 V 定义如下的标量乘法和加法(向量加法):

    • 标量乘法: g(kx)=kg(x)
    • 加法: (f+g)(x)=f(x)+g(x) (向量加法,是由定义出来的)

    在上述意义下,可以证明 V 是域 F 上的向量空间,称为 V 的对偶空间。

    最后,更准确的说,对偶空间里的元素是“线性泛函”(linear functional),这是一种特殊的线性映射。

    2. 简单性质

    • covector:vectors in the dual space,对偶空间中的向量称为 covector(协向量)
      αV,vVα(v)R ,covector 以 vector 为输入,以 scalar 为输出;

    • 从基的角度继续考察对偶空间,如果 V 表示一个有限维空间,则 dimV=dimV

      • 假定 V:{ei}i=1,,n (由基向量长成的线性空间), V={ei}i=1,,n ,则有如下的定义:

      ei(ej)=δij={1,0,i=jotherwise

      对偶空间中的向量称为 covector,如性质一所说,covector 接受线性空间中的向量,输出一个标量;

    展开全文
  • 感知机中的对偶形式理解

    千次阅读 2017-08-24 19:08:49
    作者:陶轻松 ... 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请...首先,咱们了解一下【对偶】的定义是什么,简单的说,就是从一个不同的角度去解答相似问题,但是问题的解是相通的,甚至
    作者:陶轻松
    链接:https://www.zhihu.com/question/26526858/answer/131591887
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    遇到对偶问题呢,一定要先回归基础,不要急着去看结论:
    首先,咱们了解一下【对偶】的定义是什么,简单的说,就是从一个不同的角度去解答相似问题,但是问题的解是相通的,甚至是一样一样的。ok,这个很简单,定义咱们就不深究了。

    回到楼主的问题,先给出原始问题的形式:
    min_{w,b} L(w,b) = -\sum_{x_{i}\in M }^{}{y_{i}(w\bullet x_{i} +b ) }

    现在先看原始问题的解法步骤:
    首先,求解L(w,b)的梯度,求得如下偏导:
    ▽_{w} L(w,b) = -\sum_{x_{i} \in M}^{}{y_{i}x_{i}  }

     _{b} L(w,b) = -\sum_{x_{i} \in M}^{}{y_{i} } 其中M为误分类点集合
    然后,由于上面的偏导数是有累计加法器,咱们尝试着去理解一下梯度算法是怎么用计算机实现的,这个对解答问题很重要,我们通过几个问答的方式来掌握:
    问题一怎么理解 A = _{w} L(w,b) 这个偏导数,以及为什么偏导算出的明明是累加\sum_{}^{}{} ,但是到了算法当中就变成了与单个{y_{i} x_{i} } 相加了,即变成下面的方式了?
    w_{1}  \leftarrow w_{0} + \eta \cdot y_{1} x_{1}

    可以这么理解:当你已经有 i 次误判的时候,如何调整(学习) w 这个参数,使得在下一次(即第 i+1 次)误判的时候 L(w,b) 可以达到最小?因为 w 是参数,所以根据微积分的知识,咱们可以很快的知道,参数 w 沿着其偏导的方向变化,可以使得 L(w,b) 变动的最剧烈(因为我们需要损失函数最小),所以我们应该在经过 i 次误判之后,将 w 调整为 w+ k▽_{w} L(w,b) ,即
    w\leftarrow w+ k▽_{w} L(w,b) 等价于 w \leftarrow w+k\sum_{x_{i}\in M }^{}{y_{i} x_{i} }
    此为梯度算法!
    但是,要注意一点,上面 w 的变动指的是总变动,是一次性从第1次直接跳到第i次的时候w应该有的变动,也就是 1.2.3..i-1 次误判之后w没有进行过任何调整,直接在第i次的时候w的变动。但是【计算机的实现的时候】跟我们人在纸上做题的思维不一样,首先程序是串行执行的(将数据放在寄存器中,对同一个数据做加法,无法并行处理),所以我们只能在执行了1,2,3....i-1 次w调整之后才能调整才能再次执行第 i 次的w调整,用以保证下一次失误时,L(w,b)增长的最小。所以,我们将w的变动在计算机中编程成迭代的方式来进行,步骤如下:
    1、当第一次出现误判的时候,先将 w_{1}  \leftarrow w_{0} + \eta \cdot y_{1} x_{1}
    2、当第二次出现误判的时候,由于此时w已经改变了一次了,所以只需要再累计本次的微分因子就行了: w_{2}  \leftarrow w_{1} + \eta \cdot y_{2} x_{2}
    .....
    i、当第i次出现误判的时候,由于此时w已经改变了(i-1)次了,所以只需要再累计本次的微分因子就行了:w_{i}  \leftarrow w_{i-1} + \eta \cdot y_{i} x_{i}

    在书上的算法中其实就一个w,我是为了让大家看到步骤才加上下标的。

    PS.知道很多细致的人会有疑问:从w_{1} 变成w_{2} 不是应该再次加上累加吗,应该是w_{2}  \leftarrow w_{0} + \eta \cdot y_{1} x_{1} + \eta \cdot y_{2} x_{2} (a)w_{2} \leftarrow  w_{1} +\sum_{x_{1},x_{2}}^{}{\eta y_{i} x_{i} } ,为什么是w_{2}  \leftarrow w_{1} + \eta \cdot y_{1} x_{1}(b) ? Good question,这是个思维方式的问题,还是计算机思维,当你在感知到第k次误分类的时候,为了让第 k+1 次误分类能够尽量的减少损失,即让L(w,b)更小,这个时候需要去求L(w,b)关于w的梯度即偏导,但是这个时候你别忘了,计算机是累加的,所以在这个步骤上,问题的形式不在是

    min_{w,b} L(w,b) = -\sum_{x_{i}\in M }^{}{y_{i}(w\bullet x_{i} +b ) } (1)
    而是
    min_{w,b} L(w,b) = L_{1,2...k} (w,b)   -{y_{k+1}(w\bullet x_{k+1} +b ) } (2)

    其中L_{1,2...k} (w,b) 是前面k次计算的固定值,是个常量(常量哈,就到就变成0了,不是变量,切记),请看清楚上面的式子,在计算机中得到第 k+1 个样本的时候,计算机是无法判断样本有没有输入结束的,他只能感知到本次的输入,换句话说,感知的结尾很多的时候不是依赖于x样本的数量,而是w,b,L损失的大小。所以是对(2)式求导,而不是(1)式,所以求导之后得到的不是(a)而是(b),这个一定要注意,很多人看到书上说的只是知道大概是这么个理,不敢深究,因为深究觉得有问题,其实是深究的程度不够,仅此而已!

    同上,b每次迭代的调整思路是:b\leftarrow b+\eta y_{i} ,思路跟上面一样,不在赘述了。

    问题二、\eta 是什么东东,意义何在?数据量有限的情况下如何继续学习的更好?
    这个问题很重要,是回答楼主问题的关键,下面解答又不懂的地方,可能大家需要回过头来看这个问题。
    首先\eta 只是学习的一个比率,例如 f(x) = x^{2} ,我们求x的偏导之后得到f(x)^{'} = 2x,即沿着w=(1,2)的方向上走f(x)大小可以变动的最快,但是你是基于w还是基于2*w,3*w 这是你步伐的问题,系数越大肯定f(x)变动的越快,所以偏导只是指明你数据L(w,b)变动最快的方向,但是\eta 指明的却是你数据变动的快慢。实际上计算机每次迭代一下,就可以更换一个新的\eta ,只是为了方便才用一个的。这就是\eta 全部意义之所在。
    数据有限的情况下如何学习的更好?很简单啊,将 X 样本集反复的抽查使用,所以可以将x_{1} 学习3次,x_{2} 学习6次,等等啦,我们将x_{i} 被学习的总次数标记为n_{i} . 这个时候,我们假设学习的时候是按照x_{1},x_{1},x_{2},x_{3},x_{3},x_{3},x_{4},x_{5},x_{5} 的顺序去学习样本,然后假设这个序列都是被误判的样本,这个时候很显然N=5为样本空间种类数量,记住不是误判样本的大小,而是种类,即只有x_{1},x_{2},x_{3},x_{4},x_{5} 着五个种类,N=5。好了,既然样本这么少,这个时候去用计算机学习 w 如何更简单?
    当然是下面这种方式啦:
    w_{i+1}  \leftarrow w_{i} + \eta \cdot n_{i}\cdot y_{i} x_{i}
    所以这个时候 w 下标 i+1,不再代表第几个误判样本,而代表第几类误判样本的权重,在上面的x_{1},x_{1},x_{2},x_{3},x_{3},x_{3},x_{4},x_{5},x_{5} 中,n_{1}=2,n_{2}=1,n_{3}=3,n_{4}=1,n_{5}=2,
    这样看着更简单嘛,省的迭代那么多次,多省力啊,是吧?(一定要理解好上面这段话的内容,否则下面还是会看不懂,重点记住n_{i} 代表什么意思,以及更好的w迭代方式

    ok,有了这个上面那些乱起八糟的铺垫之后,咱们再来看看对偶的问题,现在w,b每次在感知到误判的时候更好的迭代(学习)思路是:
    w_{i+1}  \leftarrow w_{i} + \eta \cdot n_{i}\cdot y_{i} x_{i} (W)
    b\leftarrow b+\eta y_{i} (B)

    好了,看到上面的问题,我们想办法简化一下参数的数量,所以,令
    \alpha_{i}  = \eta \cdot n_{i} i=1,2,....N, N为样本中分类的数量
    注意 N\ne 迭代的次数哦,只代表种类,即不等于原表达式M的数量。好了,重头戏来了,咱们来优化上面的问题,我们观察到,在上面的(W)和(B)两个表达式中,如果给定一个默认参数w_{0}=0开始迭代,则有:
    w_{1}=w_{0} + \eta \cdot n_{1}   \cdot y_{1} x_{1}  = 0 + \eta \cdot n_{1}   \cdot y_{1} x_{1} = \alpha_{1}  \cdot y_{1} x_{1}
    我们发现测试阶段是没有未知的参数的,我们在迭代几次试一下哈,别急,耐心点,我都打了这么多字了,至少比你看得更累,第二次迭代w_{2}=w_{1} + \eta \cdot n_{2}   \cdot y_{2} x_{2}  =\alpha_{1}  \cdot y_{1} x_{1}  + \eta \cdot n_{2}   \cdot y_{2} x_{2} = \alpha_{1}  \cdot y_{1} x_{1}  +  \alpha_{2}  \cdot y_{2} x_{2}
    再看第三次,
    w_{3}=w_{2} + \eta \cdot n_{3}   \cdot y_{3} x_{3}  = w_{2} + \alpha_{3}   \cdot y_{3} x_{3} = \alpha_{1}   \cdot y_{1} x_{1}+ \alpha_{2}  \cdot y_{2} x_{2}  + \alpha_{3}   \cdot y_{3} x_{3}

    数学归纳法吧,是吧?没问题吧?所以 w_{i}可以如下求得:
    w_{i}=\sum_{c}^{i}{\alpha_{c}  \cdot y_{c} x_{c}}
    ok,ok,any way。现在咱们观察上面的问题,可以得出一下几点结论:
    第一,显而易见、到第 c 步的时候 y_{c} x_{c}已知;
    第二,显而易见、只要能够求解出 \alpha_{1},\alpha_{2},......,\alpha_{c} ,就一定能求出 w_{c},而且是线性运算吧,时间复杂度为O( n);甚至如果有累加器的话,可以让 w_{c}=w_{c-1}+\alpha_{c} \cdot y_{c-1} x_{c-1},为O(1);
    第三,显而易见\alpha_{i}可以迭代,设置初始值 \alpha_{i}=0,其中 i = 1,.....N,迭代的方式如下:
    因为 \alpha_{i}  = \eta \cdot n_{i} ,所以当输入 第 i 种类型的样本的时候,相应的 n_{i} 加1,表示第 i 种类型样本又多抽查了一次,记住,不是 第i次样本,而是 第i种样本。例如:x_{1},x_{1},x_{2},x_{3},x_{3},x_{3},x_{4},x_{5},x_{5} 有9次抽样误判的样本,但是只有x_{1},x_{2},x_{3},x_{4},x_{5} 五种样本。这个很重要。
    所以,每迭代一次之后\alpha_{i} 的变动为:\alpha_{i} \leftarrow \eta (n_{i}+1) ,即如果抽到的是第i中类型的样本,在其种类抽中的数量 n 上加1就可以了,其他的不变。化成迭代模式:
    \alpha_{i} \leftarrow \eta (n_{i}+1) = \eta n_{i}+ \eta =\alpha_{i}+\eta

    \alpha_{i} \leftarrow \alpha_{i}+\eta

    所以,我们的对偶问题为,
    \alpha_{i} \leftarrow \alpha_{i}+\eta
    b\leftarrow b+\eta y_{i}

    b与原始一样,只是将对 w 的迭代,转化成了对\alpha 的迭代,因为
    α 要简单的多,其计算式为:\alpha_{i}  = \eta \cdot n_{i} ,都不需要考虑y_{i} x_{i} ,迭代完成求出所有的 α 之后,计算w也是O(1)的复杂度。而且这个问题符合我开篇提到的【对偶】的定义。6
    展开全文
  • 对偶

    千次阅读 2018-04-14 16:00:30
    1.Lagrange对偶函数[1]Lagrange函数、对偶函数、最优值的下界原问题:原问题并没有假设是一个凸优化问题Lagrange函数:对偶函数: 这里注意x的在定义域里取对偶函数的一个重要性质,我们首先由在R^n空间中的原问题...
  • SVM对偶问题的深入理解

    千次阅读 2018-07-18 22:07:30
    我们如何理解这个不等式(3)呢?下面给出两个直观的解释: 解释一:线性逼近的解释 我们首先重写问题(1),就是把问题(1)换个更加紧凑的方式来表达,首先我们定义示性函数: 同样我们也可以...
  • 文章目录一、Lagrange函数与Lagrange对偶函数1-Lagrange函数2-Lagrange对偶函数二、三个实例理解对偶与其性质1-线性约束得二次优化问题2-线性规划问题3-非凸函数,非凸限制三、对偶函数与共轭函数的联系1-共轭函数2-...
  • 1. 支持向量机的目的是什么?对于用于分类的支持向量机来说,给定一个包含...简单地说,超平面就是平面中的直线在高维空间中的推广。那么,对于三维空间,超平面就是平面了。对于更高维的空间,我们只能用公式来表达...
  • 随着机器学习的深入,慢慢去推导各种机器学习的算法,在推导SVM的算法过程并不顺利,最先就卡在SVM的对偶上,从推导公式上觉得并没有问题,可总觉得抽象晦涩,没有直观的感觉。为此,找了许多关于SVM的资料,仍然...
  • SVM中原始问题与对偶问题的理解

    万次阅读 2014-11-05 13:58:17
    1. 支持向量机的目的是什么? 对于用于分类的支持向量机来说,给定一个包含正例和反例(正样本点和负样本点)的样本集合,支持向量机的目的是寻找一个超平面来对样本进行分割,把样本中的...对于更高维的空间,我们
  • 拉格朗日对偶性(Lagrance duality) 推导与简单理解

    万次阅读 多人点赞 2018-01-24 16:34:26
    在支持向量机和最大熵模型中都会用到拉格朗日对偶性,主要为解决约束最优化问题,通过将原始问题转换为对偶问题求解。为方便理解,遂记录下简单的概念的结论,有理解不当的地方望多提意见~ 1. 原始问题 先从最...
  • 对偶

    千次阅读 2018-10-30 19:30:08
    若 KKK 为一个锥,那么它的对偶锥的定义为: K∗={y∣xTy≥0 for all x∈K}K^\ast=\{y\mid x^Ty\geq 0 \text{ for all } x\in K\}K∗=...
  • 【数学】拉格朗日对偶,从0到完全理解

    万次阅读 多人点赞 2019-05-17 13:18:04
    另外需要注意的是 x x x 并非一个标量数值,而是n维实数空间上的一个向量。 这样的例子有很多,最常见的就比如我们在机器学习中经常碰到的最小化代价函数。对于这样的问题,我们求解的方法很简单,只要能够求出一个...
  • 感知机模型对应于输入空间(特征空间)中的分离超平面 w⋅x+b=0。其中w是超平面的法向量,b是超平面的截距。感知机学习的假设感知机学习的重要前提假设是训练数据集是线性可分的。感知机学习算法是基于随机梯度下降...
  • 1. 支持向量机的目的是什么? 对于用于分类的支持向量机来说,给定一个包含正例和反例(正样本点和负样本点)的样本集合,支持向量机的目的是寻找一个超平面来对样本进行分割,把...对于更高维的空间,我们只能用公
  • 但是线性代数中学的线性空间相关结论是以欧式空间为主的,在物理学中,我们更需要的是复线性空间(complex linear space),比如在光的圆偏振中,偏振状态的叠加在数学上是复向量的线性运算,因此作为量子力学的基础,...
  • 共轭 矩阵有实数矩阵和复数矩阵。转置矩阵仅仅是将矩阵的行与列对换,而共轭转置矩阵在将行与列对换后还要讲每个元素共轭一下。共轭你应该知道,就是将形...对偶 https://www.zhihu.com/question/38464481/answer...
  • 博客来源: ... 这个博客个人觉得写的真的...因为我比较小白,直接看《西瓜书》有点不知所云,不知道公式怎么就到下一步了,所以觉得这样的博客真的很赞,后面对偶问题KTT条件什么的自己再查查其他资料,然后再结合《...
  • 拉格朗日对偶详解

    2020-03-15 11:11:04
    对偶,是解决最优化问题的一种常用的手段。它能够将一个最优化问题转化成另一个更容易求解的对偶问题。对偶研究中常用的方法是拉格朗日对偶。拉格朗日对偶有以下几个良好的特点: 无论原问题是否为凸问题,对偶问题...
  • 拉格朗日对偶

    2017-12-29 20:29:21
    该博主的文章使得对于拉格朗日问题,以及KTT约束的理解有本质提升 拉格朗日对偶性 码农场 > 机器学习 2015-10-11 阅读(2289) 评论(4)目录 1. 原始问题 2. 对偶问题 3. 原始...
  • SVM对偶问题

    2019-10-10 09:50:37
    SVM目前被认为是最好的现成的分类器,SVM整个原理的推导过程也很是复杂啊,其中涉及到很多概念,如:凸优化问题、拉格朗日乘子法、对偶问题,slater条件、KKT条件还有复杂的SMO算法!相信有很多研究过SVM的小伙伴们...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,664
精华内容 2,665
关键字:

对偶空间的理解