支持向量积必备知识：当多变量表示成向量时，对变量（向量）求偏导时有下述规则。

数据科学与机器学习的线性代数 (LINEAR ALGEBRA FOR DATA SCIENCE AND MACHINE LEARNING)
In mathematical analysis, one studies functions of any number of variables. Such functions can be regarded as vector functions.
在数学分析中，人们研究许多变量的函数。 这样的函数可以被视为向量函数。
Linear vector functions, also known as linear operators, are of great importance in linear algebra and it’s applications.
线性向量函数，也称为线性算子，在线性代数及其应用中非常重要。
线性形式 (Linear forms)
A numerical function L(x) of a vector argument x, defined on a linear space K over a number field K, is called a linear form if it satisfies the following conditions:
如果满足以下条件，则在数字字段K上的线性空间K上定义的矢量自变量x的数值函数L(x)称为线性形式：
L(x+y) = L(x) + L(y) for every x,y ϵ K. 每x，y ϵ K L(x + y)= L(x)+ L(y) L(αx) = αL(x) for every x ϵ K and every α ϵ K. 每个x ϵ K和每个αϵ K L(αx)= αL(x) 。
We can write down the general representation of a linear form L(x) defined on an n-dimensional space K_n. Let e1, e2, … , en be and arbitrary basis of the space know, and denote the quantity L(e_k) by l_k (k = 1,2,…,n). Then, given any
我们可以写下在n维空间K_n上定义的线性形式L(x)的一般表示。 令e1，e2，…，en是空间的任意基础，并用l_k(k = 1,2，…，n)表示数量L(e_k ) 。 然后，给定
Linear form representation, self-generated.

线性算子 (Linear operators)
A morphism A = A(x) of a linear space X is another linear space Y over the same filed k. A(x), also called linear operator maps X into Y. Morphisms should satisfy the following conditions:
线性空间X的射态A = A(x)是相同字段k上的另一个线性空间Y。 A(x) ，也称为线性算子，将X映射为Y。 形态应满足以下条件：
A(x+y) = Ax + Ay for every x,y ϵ K. 每个x，y) K的 A(x + y)= Ax + Ay 。 A(αx) = αAx for every x ϵ X and every α ϵ K. 对于每个x ϵ X和每个αϵ K A(αx)= αAx 。
使用多个线性运算符 (Working with multiple linear operators)
To work with linear operators we should know how we can use them in equations, here are the basic operator rules:
要使用线性算子，我们应该知道如何在方程式中使用它们，这是基本的算子规则：
(A+B)x = Ax + Bx (A + B)x = Ax + Bx A + B = B + A A + B = B + A A+(-A) = 0 A +(-A)= 0 A + 0 = A A + 0 = A
乘以数字 (Multiplication by a number)
(λA)x = λ(Ax) (λA)x =λ(Ax) 1 A = A 1 A = A (λ1 + λ2)A = λ1 A + λ2A (λ1+λ2)A =λ1A +λ2A λ(A+B) = λA + λB λ(A + B)=λA+λB
运算符之间的乘法 (Multiplication between operators)
(BA)x = B(Ax) (BA)x = B(Ax) λ(BA) = (λB)A λ(BA)=(λB)A (A+B)C = AC + BC (A + B)C = AC + BC (AB)C = A(BC) (AB)C = A(BC)
换位 (Transposition)
(A’)’ = A (A')'= A (A+B)’ = A’ + B’ (A + B)'= A'+ B' (AB)’ = B’A’ (AB)'= B'A' (ABC)’ = C’B’A’ (ABC)'= C'B'A'
逆 (Inverse)
AI = IA = A AI = IA = A AA^-1 = A^-1A = I AA ^ -1 = A ^ -1A = I (A^-1)^-1 = A (A ^ -1)^-1 = A (AB)^-1 = B^-1 A^-1 (AB)^-1 = B ^ -1 A ^ -1 (ABC)^-1 = C^-1B^-1A^-1 (ABC)^-1 = C ^ -1B ^ -1A ^ -1 (A’)^-1 = (A^-1)’ (A')^-1 =(A ^ -1)'
摘要 (Summary)
In this post, we introduced linear operators and the properties that allow us to do math with them, now we know how to work with matrices alone, between matrices and between matrices and numbers. This will be at every formula of machine learning models since OLS(Ordinary least squares) to Deep learning models as GPT-3.
在这篇文章中，我们介绍了线性运算符和使我们可以对它们进行数学运算的属性，现在我们知道了如何单独使用矩阵，在矩阵之间以及在矩阵和数字之间进行运算。 从OLS(普通最小二乘法)到深度学习模型GPT-3，这将是机器学习模型的所有公式。

首先要清楚： ...软间隔支持向量机要加个松弛变量ξ。 我们都知道，硬间隔满足，yi * ( wi * x + b )≥1，这是函数间隔，是几何间隔的||w|| 倍。 由于一些点出现在两条线的间隔内部，函数间隔的约束条...
首先要清楚：  1，线性可分，即能找到超平面，对于硬间隔支持向量机  2，部分点不可分，总体近似可分，近似线性可分，对应软间隔支持向量机  3，线性不可分，需要用到核函数
软间隔支持向量机要加个松弛变量ξ。  我们都知道，硬间隔满足，yi * ( wi * x + b )≥1，这是函数间隔，是几何间隔的||w|| 倍。  由于一些点出现在两条线的间隔内部，函数间隔的约束条件不满足，所以引入松弛变量ξ，使yi * ( wi * x + b ) + ξ ≥1，即：yi * ( wi * x + b ) ≥1 - ξ。对于这些离群点有对应的松弛变量，其他的点是没有松弛变量ξ的。
再来另外一个解释：
1，函数距离与几何距离
你需要明白两个概念，函数距离（函数间隔）和几何距离（几何间隔），先看个图： 平行直线1与2之间的垂直距离d，就是几何距离，也就是我们平常计算的两条平行直线之间的距离。函数间隔，就是图中的d帽（暂时这么称呼）： 它是两条平行直线在某一条轴线（例如x轴）上的距离。在二维平面，它是竖着的，如图中的蓝色线标注，也可以是横着的，图中未画出。  函数距离和几何距离之间有关系，在本例中为： ||w||是矩阵w的模  在本例中，函数距离（d帽）就是直线1减去直线2的距离，是1。把这个数带入函数距离（d帽），然后乘以2，就得到两条虚线间的间隔 看到了吗？这就是当初我们要最大化的那个式子。  还记得那个限制条件吗？ 不等式右边的1 ，就是函数距离（d帽）。  也就是硬间隔支持向量机，它的数学模型为： 2，松弛变量是函数间隔
上面的一种情况是，我们找了两条直线，最大化他们的距离。但有时我们找的直线，它们中间有一些散落的点，这些点不满足那个限制条件。如下图所示： 不满足的样本，如图红色标注的4个点。  也就是由于这些特殊的点，限制条件不满足。这真是一只老鼠坏一锅汤！  怎么办呢？就该我们的主角上场了，对，就是松弛变量ξ。  为了方便叙述与理解，我只拿其中的一个点分析，下图中的红色点。  看图： 蓝色的线的长度就是引入的松弛变量ξ（ξ≥0）  由于d帽=1，相应的绿色的线的长度就是1-ξ  此时，红色的点到橙色的线（我们要确定的最终分割线），之间的函数距离为： 对于所有的样本点，都满足： 这就是引入松弛变量后的限制条件。  这就是软间隔支持向量机，它的数学模型为： 其中m是样本个数  到此，你已经明白了松弛变量的含义。  路过的大佬，有的地方理解的不对，给点指导。  本文原创，转载请注明出处。  下面是附加的svm详细介绍，敲公式太繁琐，还没更新完，。。。
附加SVM详细介绍
1，建立svm数学模型
支持向量机（support vector machine，SVM）是一种二分类的线性分类器，它的思想是找到一条直线或超平面，使得样本分布在其两侧。  二分类的思路，简单说就是确定一条直线,也就是确定参数w和b: 参数w和b知道后，再给一个样本x,带入到上面的公式，如果y≥+1，就判断为正类（+1），如果y≤-1，就判断为负类（-1）。
这条直线或超平面怎么找呢？
如图所示，我们要分开这两个类别，假设标签为{+1，-1}。要想更好的分开这两类数据，在数据上划出两条线，使这两类数据之间的间隔最大，对应图中的虚线。在两条虚线的中间画一条直线，对应图中橙色的线，就是我们需要找的分割线。 最大化两条虚线之间的距离，这两条虚线的距离=d*2  两条直线之间的距离公式 所以，我们要最大化这个式子 也就等于最小化||W||，等价于最小化||W||^2,即：  最小化： 这里多个1/2，因为对w求偏导时，可以把2抵消掉。由最大化转为最小化，以及中间一些细节的处理，就是数学抽象建模的过程。
另一方面，
我们要最小化这个式子，这个式子的表达是有限制条件的： 这两个限制条件的意思是：当样本是是-1类时，样本要在虚线的下方；当样本是是+1类时，样本要在虚线的上方。为了表述方便，我们把这两个公式综合成一个式子，即： 最后，我们抽象出来的数学模型为： 下面的工作就是解这个式子，来确定w,b。
2、svm模型的求解
• 如果建立了结构体向量，如何查找结构体向量中某变量值所在的向量单元。简单地说，就是结构体向量ID数值，如果根据查找ID来更改数值呢？
一个很启发性的说法：考虑描述曲面的隐函数F(x,y,z)=0 其全微分dF=F'xdx+F'ydy+F'zdz=0 即（F'x，F'y，F'z）（dx,dy,dz）=0 1 对曲面而言，求各变量在某一点的偏导数，即为这一点的法向量。 切向量我们假设以x为变...