精华内容
下载资源
问答
  • 线性回归原理推导

    2018-01-04 09:01:51
    单变量的推导yi^=f(xi)=ωxi+b\hat{y_{i}}=f\left ( x_{i} \right )=\omega x_{i}+b 其中损失函数可以是:L(f(xi))=(yi−yi^)2L\left ( f\left ( x_{i} \right ) \right )=\left( y_{i} -\hat{y_{i}}\right)^2,这里...

    单变量的推导

    yi^=f(xi)=ωxi+b
    其中损失函数可以是: L(f(xi))=(yiyi^)2 ,这里的损失函数可以是任意的,什么形式都可以。其中 yi^ 就是通过上式估计出来的估计值 。因为函数 f(xi) 就是 ω b 的函数,因为xi都是已知的,因此损失函数可以写成 L(ω,b)=(yiyi^)2 ,带入即 L(w,b)=(yi(ωxi+b))2 ,误差最小利用求导可以得到

    一般化的推导

    现在的变量有n个,已知矩阵数据为 Xmn

    X=x11x21xm1x12x22xm2x1nx2nxmn

    标签数据,即真实结果Y为 Y=[y1y2y3yn]
    参数矩阵为 θn1
    θ=θ1θ2θn

    通过矩阵表示出模型 hθ(x)=Xθ
    损失函数为 L(θ)=(XθY)2
    也有人在前面加个系数,主要是为了求导的时候和2省去,即: L(θ)=1/2(XθY)2
    最后求导即可,只不过这个地方是矩阵求导。

    展开全文
  • 【机器学习】线性回归原理推导与算法描述

    万次阅读 多人点赞 2018-09-04 20:55:39
    线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。 2. 特点 优点:结果具有很好的可...

    该文已经收录到专题机器学习进阶之路当中,欢迎大家关注。

    1. 概念

    线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。

    2. 特点

    1. 优点:结果具有很好的可解释性(w直观表达了各属性在预测中的重要性),计算熵不复杂。
    2. 缺点:对非线性数据拟合不好
    3. 适用数据类型:数值型和标称型数据

    3. 原理与推导

    1. 给定数据集D = \left\{ {\left( {​{x_i},{y_i}} \right)} \right\}_{i = 1}^m,其中x_i=\left( {​{x_{i1}},{x_{i2}}, \ldots ,{x_{id}}} \right){y_i} \in R(线性回归的输出空间是整个实数空间)。m是样本数,d是属性维度。

    线性回归试图学得:

                                        f\left( {​{x_i}} \right) = {w^T}{x_i} + b             (1),使得f\left( {​{x_i}} \right) \simeq {y_i}

    为便于讨论,使b = {w_0} \cdot x{}_0,其中{x_0} = 1。此时,w就成为了w = \left( {​{w_0},{w_1}, \ldots ,{w_d}} \right)x就成为了x_i=\left( {​{1},{x_{i1}}, \ldots ,{x_{id}}} \right),期望学得的函数为f\left( {​{x_i}} \right) = {w^T}{x_i}

    2. 预测值和真实值之间都肯定存在差异\varepsilon,对于每个样本:

                                                 {y_i} = {w^T}{x_i} + {\varepsilon _i}                  (2)

    假设误差{\varepsilon _i}是独立同分布的,并且服从高斯分布。即:

                                                 p\left( {​{\varepsilon _i}} \right) = \frac{1}{​{\sqrt {2\pi } \sigma }}\exp \left( { - \frac{​{​{\varepsilon _i}^2}}{​{2{\sigma ^2}}}} \right)            (3)

    将(2)代入(3)中,得到在已知参数w和数据w_i的情况下,预测值为y_i的条件概率:

                                                  p\left( {​{y_i}\left| {​{x_i};w} \right.} \right) = \frac{1}{​{\sqrt {2\pi } \sigma }}\exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)           (4)

    3. 将(4)连乘得到在已知参数w和数据x的情况下,预测值为y的条件概率,这个条件概率在数值上等于,likelihood(w|x,y),也就是在已知现有数据的条件下,w是真正参数的概率,即似然函数(5):

                               L\left( w \right) {\rm{ = }}\prod\limits_{i = 1}^m {p\left( {​{y_i}\left| {​{x_i};w} \right.} \right)} = \prod\limits_{i = 1}^m {\frac{1}{​{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)          (5)

    为什么要引入似然函数:为了根据样本估计参数值。

    为什么要对似然函数进行log变换:由于乘法难解,通过对数可以将乘法转换为加法,简化计算。

    对数似然函数:

                                        \begin{array}{l} \ell\left( w \right) = \log \prod\limits_{i = 1}^m {\frac{1}{​{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)\\ = \sum\limits_{i = 1}^m {\log \frac{1}{​{\sqrt {2\pi } \sigma }}} \exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)\\ = \sum\limits_{i = 1}^m {\log \frac{1}{​{\sqrt {2\pi } \sigma }}} + \sum\limits_{i = 1}^m {log\left( {\exp \left( { - \frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \right)} \right)} \\ = m\log \frac{1}{​{\sqrt {2\pi } \sigma }} - \sum\limits_{i = 1}^m {\frac{​{​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}}}{​{2{\sigma ^2}}}} \\ = m\log \frac{1}{​{\sqrt {2\pi } \sigma }} - \frac{1}{​{​{\sigma ^2}}}\frac{1}{2}\sum\limits_{i = 1}^m {​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}} \end{array}          (6)

    得到目标函数:

                                        J(w) = \frac{1}{2}\sum\limits_{i = 1}^m {​{​{\left( {​{y_i} - {w^T}{x_i}} \right)}^2}} \\ = \frac { 1 } { 2 } \left\| \left[ \begin{array} { c } { y _ { 1 } - w ^ { T } x _ { 1 } } \\ { y _ { 2 } - w ^ { T } x _ { 2 } } \\ { \cdots } \\ { y _ { m } - w ^ { T } x _ { m } } \end{array} \right] \right\| ^ { 2 }= \frac { 1 } { 2 } \left\| \left[ \begin{array} { l } { y _ { 1 } } \\ { y _ { 2 } } \\ { \cdots } \\ { y _ { m } } \end{array} \right] - w ^ { T } \left[ \begin{array} { c } { x _ { 1 } } \\ { x _ { 2 } } \\ { \cdots } \\ { x _ { m } } \end{array} \right] \right\| ^ { 2 } \\ = \frac{1}{2}{\left\| {y - {w^T}X} \right\|^2} = \frac{1}{2}{\left( {y - {w^T}x} \right)^T}\left( {y - {w^T}x} \right)          (7)(最小二乘法)

    为什么要让目标函数越小越好:似然函数表示样本成为真实的概率,似然函数越大越好,也就是目标函数J\left( w \right)越小越好。

    4. 目标函数是凸函数,只要找到一阶导数为0的位置,就找到了最优解。

    因此求偏导:

                                                 \begin{array}{l} \frac{​{\partial J\left( w \right)}}{​{\partial w}} = \frac{1}{2}\frac{\partial }{​{\partial w}}\left( {​{​{\left( {y - {w^T}x} \right)}^T}\left( {y - {w^T}x} \right)} \right)\\ = \frac{1}{2}\frac{\partial }{​{\partial w}}\left( {​{​{\left( {y - Xw} \right)}^T}\left( {y - Xw} \right)} \right)\\ = \frac{1}{2}\frac{\partial }{​{\partial w}}\left( {​{w^T}{X^T}Xw - 2{w^T}Xy + {y^T}y} \right)\\ {\rm{ = }}\frac{1}{2}\left( {​{X^T}Xw{\rm{ + }}{X^T}Xw{\rm{ - }}2Xy} \right)\\ {\rm{ = }}{X^T}Xw{\rm{ - }}Xy \end{array}          (8)

    5. 令偏导等于0:

                                                 \frac{​{\partial J\left( w \right)}}{​{\partial w}} = {\rm{0}}          (9)

    得到:

                                                 {X^T}Xw = Xy         (10)

    情况一:{X^T}X可逆,唯一解。令公式(10)为零可得最优解为:

                                                 w^* = {\left( {​{X^T}X} \right)^{ - 1}}X^Ty         (11)

                   学得的线性回归模型为:

                                                 \mathop y\limits^ \wedge = {w^T}X = {X^T}w = {X^T}{\left( {​{X^T}X} \right)^{ - 1}}{X^T}y      (12)

    情况二:{X^T}X不可逆,可能有多个解。选择哪一个解作为输出,将有学习算法的偏好决定,常见的做法是增加\lambda扰动。

                                                 {w^*} = {\left( {​{X^T}X + \lambda I} \right)^{ - 1}}{X^T}y      (13)

    4. 算法描述

    1. 从数据集D出发,构建输入矩阵X和输出向量y。

                                                 X = \left[ \begin{array} { c } { x _ { 1 } ^ { T } } \\ { x _ { 2 } ^ { T } } \\ { \cdots } \\ { x _ { m } ^ { T } } \end{array} \right] \quad y = \left[ \begin{array} { c } { y _ { 1 } } \\ { y _ { 2 } } \\ { \dots } \\ { y _ { m } } \end{array} \right]     

    2. 计算伪逆(pseudo-inverse){X^ + }

    3. 返回{w^*} = {X^ + }y,学得的线性回归模型为\mathop y\limits^ \wedge = {w^T}X

    5. 广义线性回归

    y不再只是线性回归中用到的正态分布,而是扩大为指数族中的任一分布。这样得到的模型称为“广义线性模型”(generalized linear model):

                                                 y = {g^{ - 1}}\left( {​{w^T}x + b} \right)

    其中函数g\left( \cdot \right)称为“联系函数”(link function)。

    参考文献:

    1. 《机器学习基石课程》lecture_9_Linear_Regression——林轩田

    2. 《机器学习》第三章线性回归——周志华

    展开全文
  • 【机器学习】线性回归原理推导与算法描述  https://blog.csdn.net/pxhdky/article/details/82388964 转载于:https://www.cnblogs.com/doker/p/11195353.html

    【机器学习】线性回归原理推导与算法描述

      https://blog.csdn.net/pxhdky/article/details/82388964

     

    转载于:https://www.cnblogs.com/doker/p/11195353.html

    展开全文
  • 转自:http://www.mathchina.net/dvbbs/dispbbs.asp?boardid=4&Id=1732
    展开全文
  • 机器学习——线性回归(一)线性回归原理推导1.1 模型描述1.2 梯度下降(二)线性回归代码实现 (一)线性回归原理推导 线性回归:用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测...
  • 一、线性回归  现在这里有一个例子 数据:工资和年龄(2个特征) 目标:预测银行会贷款给我多少钱(标签) 考虑:工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢?(参数) ...
  • 线性回归,逻辑回归与神经网络原理推导:包括以下几点内容:1.线性回归的定义及求解方法的推导,线性回归与最小二乘关系,线性回归显著性判断;2逻辑回归的定义,及递推公式的推导,逻辑回归与神经网络的关系,...
  • 多元线性回归方程原理及其推导

    万次阅读 多人点赞 2018-10-21 14:19:22
    多元线性方程原理推导 概念 1.在统计学中,线性回归方程是利用最小二乘函数对一个或多个自变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况...
  • 14天数据分析与机器学习实践之Day05——线性回归算法原理推导 机器学习中的算法-线性回归算法原理推导 线性回归 - 机器学习多元线性回归 - 一步一步详解 - Python代码实现
  • 线性回归数学推导

    2018-08-26 15:32:39
    线性回归的目标是确定一条直线,让所有样本点到这一条直线的距离之和最小。通过这一句话我们就可以自然而然地根据样本点列出目标函数 现在我们有一组高维样本点 (其中每一个x都是m维列向量)。 我们设目标直线...
  • 线性回归 原理及公式推导

    千次阅读 2018-11-21 11:42:18
    什么是线性回归线性回归方程是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一。线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。按自...
  • 1.方程式表示:数学形式:矩阵形式:其中,X矩阵是m行(n+1)列的,每一行是一个样本,每一列是样本的某一个特征矩阵(n+1)行1列的,它是X的权重,也是线性回归要学习的参数.2.损失函数(Loss function)对数极大...
  • 线性回归是机器学习的入门基础。在机器学习中,主要分类两类:回归和分类。而线性回归属于回归,虽然logistics回归名字带有回归,其实这个模型完成的分类任务。简单的理解回归和分类,其实就是回归的输出是一个具体...
  • 线性回归方程推导

    万次阅读 2018-07-31 08:06:09
    线性回归是一个典型的回归问题。其实我们在中学时期就接触过,叫最小二乘法。   线性回归试图学得一个线性模型以尽可能准确地预测输出结果。    先从简单的模型看起:    首先,我们只考虑单组变量的情况,...
  • 一元线性回归:  对于样本[(x1,y1),(x2,y2),……(xn,yn)],xi为特征,yi为标签。(字幕i代表下标)  假定y与x有:   y = f(xi) = w*xi + b  确定参数w和b的值的关键在于如何衡量f(x)与y之间的差距,即   ...
  • Python数据分析与机器学习-线性回归算法原理推导
  • 线性回归模型原理推导

    千次阅读 2019-03-07 12:55:15
    今天我们来看一个最常见的机器学习模型——线性回归(linear regression)模型。先举个例子让你明白什么是线性回归。 现在我们有房屋面积和价格的一些数据,如下图: 现在我们想知道的是,如果给一个新的...
  • 1.1 线性回归 机器学习分有监督学习和无监督学习。 有监督学习分回归和分类。 回归:通过数据最终预测出一个值。 分类:根据样本特征对样本进行类别判定的过程。 1.2 解释 如何找出一条线,能解释额度和工资、...
  • 假设线性回归是个黑盒子,那按照程序员的思维来说,这个黑盒子就是个函数,然后呢,我们只要往这个函数传一些参数作为输入,就能得到一个结果作为输出。那回归是什么意思呢?其实说白了,就是这个黑盒子输出的结果是...
  • 文章目录线性回归算法原理推导1. 回归问题概述2. 误差项定义3. 独立同分布的意义4. 似然函数的作用5. 参数求解6. 评估方法 线性回归算法原理推导 1. 回归问题概述 2. 误差项定义 3. 独立同分布的意义 注意⚠...
  • 线性回归最小二乘法直接计算参数矩阵 为了举例简单,假设银行的贷款系统计算一个人的额度时候,只受到年龄,每月固定收入的影响(当然实际情况要复杂的多),那么年龄和月固定收入对一个人的贷款额度的大小影响分别...
  • 本文从最简单一维样本情况引出线性回归的概念,进而使用中心极限定理说明样本点与回归函数值之间的误差的分布是服从均值为0的正态分布。使用最大似然估计推导出最小二乘法,然后利用梯度为0求出最小二乘的驻点。最终...
  • 线性回归就是寻找一个由个特征构成的最优线性组合,数学表述如下: 如果我们已经求出了上式中的每个系数,对于每个数据 , 都有一个对应的预测值 。 (1-1) 直觉告诉我们,使每个预测值和真实值足够接近的系数就是...
  • 1.简单的线性回归 我们先来看图 线性回归就是找到一条直线,y=ax+b 加入特征值为x,即预测值为y’,实际值为y,线性回归就是找到|y-y'|的最小值,即(y-y')^2的最小值,扩展到所有样本就是找到 ∑(y-y')^2...
  • 线性回归是机器学习算法中最简单的算法之一,它是监督学习的一种算法,主要思想是在给定训练集上学习得到一个线性函数,在损失函数的约束下,求解相关系数,最终在测试集上测试模型的回归效果。线性模型的形式如下
  • 线性回归过拟合 当线性回归模型过拟合时我们通常使用正则化的方法来进行优化,此时我们主要是对损失函数进行优化: 前半部分是我们在线性回归模型中的损失函数,也就是预测值和实际值的误差。后半部分是加入的正则...
  • 多元线性回归算法和正规方程解 ——燕江依/2019.08.05 1、对于多元线性回归算法,它对于数据集具有较好的可解释性,我们可以对比不过特征参数的输出系数的大小来判断它对数据的影响权重,进而对其中隐含的参数进行...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,680
精华内容 4,672
关键字:

线性回归原理推导