精华内容
下载资源
问答
  • 更多CFA官方教材详解,请关注“边际实验室”。“边际实验室”是一家专注于金融科技...■在估计回归之前,可能需要转换一个或多个回归变量(例如,通过对变量取自然对数)。■回归模型汇集了来自不同样本中不应该被汇集...

    更多CFA官方教材详解,请关注“边际实验室”。

    “边际实验室”是一家专注于金融科技、金融大数据领域的工作室,同时提供CFA、FRM等金融考试内容的免费讲解。

    每当我们估计回归模型时,都必须假定回归具有正确的函数形式。该假设可能会有以下几种错误:

    ■可以从回归中忽略一个或多个重要变量。

    ■在估计回归之前,可能需要转换一个或多个回归变量(例如,通过对变量取自然对数)。

    ■回归模型汇集了来自不同样本中不应该被汇集的数据。

    首先,考虑从回归中忽略一个重要的自变量的影响(遗漏变量偏差)。如果真正的回归模型是:

    Yi= b0 + b1X1i + b2X2i +εi

    但是我们估计的模型是:

    Yi= a0 + a1X1i +εi

    那么我们的回归模型将被错误指定。该模型有什么问题?如果省略的变量(X2)与其余变量(X1)相关,则模型中的误差项将与(X1)相关,并且回归系数a0和a1的估计值将有偏差且不一致。另外,这些系数的标准误估计值也将不一致,因此我们既不能使用系数估计值也不能使用估计的标准误差来进行统计检验。 案例遗漏变量偏差和买卖价差

    在本例中,我们扩展了对买卖价差的研究,以显示从回归中省略重要变量的影响。在此前的案例中,我们证明了[(买卖价差)/价格]的自然对数与做市商数量的自然对数和公司市值的自然对数存在显著相关。

    下表显示了结果:

    46a8462efc41ab79435659d2ae69936c.png

    如果我们去除市值的自然对数,只对[(买卖价差)/价格]的自然对数与做市商数量的自然对数进行一个自变量的回归,结果如下表所示。

    dd1107f4e4064e34c779611a22e371df.png
    e5a2efab14153675c52c7f38e83ce0c8.png

    请注意,ln(纳斯达克做市商数量)的系数从原始回归(正确结果)的-1.5186变为错误的-3.1027。同样,截距从原始回归中的1.5949变为5.0707。这些结果说明,遗漏回归中应包含的自变量会导致其余回归系数的不一致。

    回归模型发生错误指定的第二个常见原因是,对于需要转换的数据,在回归中没有进行转换,或使用了错误的数据形式。例如,有时分析人员无法判断因变量和自变量之间的非线性关系,进而指定了变量之间的线性关系。在指定回归模型时,应考虑经济理论是否暗示了非线性关系。我们通常可以通过绘制数据图表来确认非线性关系,如下面的案例所示。如果当一个或多个变量的比例变化表现出线性关系时,我们可以通过取自然对数来对错误指定进行纠正。在其他时候,分析师更倾向于使用无单位的数据进行回归分析(例如将净收入或现金流量除以销售额)。在此前的案例中,我们用股票价格对买卖差价进行了除法计算,因为对于投资者而言,买卖差价在交易成本方面的意义取决于股票价格;如果我们没有调整买卖差价,那么回归模型就会发生错误指定。

    案例 非线性与买卖价差

    在此前的案例中,我们的结果表明[(买入-卖出价差)/价格]的自然对数与做市商数量的自然对数和公司市值的自然对数均显著相关。但是,为什么我们在回归中使用的是变量的自然对数呢?

    关于[(买入-卖出点差)/价格]及其决定因素(自变量)之间的关系的性质,有什么理论基础吗?Stoll(1978)建立了市场中买卖差价百分比决定因素的理论模型。他的模型如下:

    b822bf94cdf3da140805454bcf9d800c.png

    其中,c是常数。在初始变量中,买卖差价百分比与做市商数量与市值的关系不是线性的。但是,如果对上述模型等式两边取自然对数,转换后的变量是线性的(对数-对数回归):

    Yi= b0 + b1X1i + b2X2i +εi

    其中

    Yi= 股票i(买入-卖出价差)/价格的自然对数

    b0= 常数,ln(c)

    X1i= 股票i的做市商数量的自然对数

    X2i= 公司i市值的自然对数

    εi= 残差

    如此前案例所述,对数-对数模型的斜率系数被解释为弹性,准确地说,因变量相对于自变量存在部分弹性(“部分”是指保持其他自变量不变)。

    我们可以绘制数据以评估对数转换后变量是否线性相关。例如,下图展示了一个股票的做市商数量自然对数的散点图(X轴)、(买卖价差)/价格的自然对数(Y轴)及回归线。这两个经过转换后的变量之间的关系显然是线性的。

    035e3076766a236daccf2f553e3db718.png
    8ce4a9c40bd93e34b2e7d949774b8004.png

    如果我们不取[(买卖价差)/价格]的对数,回归线就不是线性的。上面第二张图显示了做市商数量自然对数(X轴)和[(买卖价差)/价格](Y轴)之间的关系。我们看到这两个变量之间的非线性关系非常明显的。因此,我们不应该以[(买卖价差)/价格]为因变量来估计回归。另外,考虑到需要确保预测的买卖价差是正的,因此我们不能直接使用[(买卖价差)/价格]作为因变量。如果我们直接使用[(买卖价差)/价格]作为因变量,模型也可以将买卖价差预测为负值。这个结果是荒谬的——在现实中,没有买卖价差是负的(交易员不可能同时在高位买入和低位卖出),因此能够预测买卖价差为负的模型肯定是错误的。我们下面将讨论预测买卖价差为负值的问题。

    下表显示了以[(买卖价差)/价格]为因变量,做市商数量的自然对数和公司市值的自然对数为自变量的回归结果。

    57541f78e1b6143f34fac6a7430185d9.png

    1、假设对于在纳斯达克上市的特定股票,做市商的数量为50,市值为60亿美元。根据上述模型,该股票的预期买卖差价与价格的比率是多少?

    做市商数量的自然对数等于ln50 = 3.9120,股票市值(百万美元)的自然对数等于ln6000 = 8.6995。

    在这种情况下,预期买卖差价与价格的比率为0.0674+(-0.0142×3.9120)+(-0.0016×8.6995)=-0.0021。因此,该模型预测买卖价差与股票价格之比为-0.0021。

    2、上述股票的预期买卖价差是否有意义?如果没有,如何避免这个问题?

    预测的买卖差价为负,这在经济上没有意义。

    通过使用[(买卖价差)/价格]的对数作为因变量,可以避免此问题。

    通常,分析师在比较公司之间的数据之前必须决定是否对变量进行加工。例如,在财务报表分析中,分析师通常会使用百分比财务报表。在百分比利润表中,所有金额都除以了公司的收入。

    百分比财务报表使公司之间的可比性更加容易。对于想要使用回归分析来比较一组公司业绩的分析师来说,可能会出现可比性问题。如以下案例所示。

    案例 经营现金流和自由现金流之间的关系

    假设有一位分析师想解释美国11家服装公司2001年自由现金流与经营现金流量的关系。

    为了调查此问题,分析师可能在线性回归中将自由现金流作为因变量,将经营现金流作为自变量。下图显示了回归的结果。请注意,经营活动现金流的斜率系数的t统计量非常高(6.5288),回归的F统计量的显著性水平很低(0.0001),R方值非常高。我们可能会倾向于认为这种回归是准确的。如果经营活动现金流增加1.00美元,我们可以有把握地预测公司的自由现金流量将增加0.3579美元。

    d1d41e030fcf7f8df32905bc012c7806.png
    de3280f07b6b9ca0ab019c5a0f9151c4.png

    但是这个估计是正确吗?该回归没有考虑样本中公司之间的规模差异。

    我们可以通过使用常见的现金流百分比结果来解决规模差异。在使用回归分析之前,我们将经营活动现金流和公司的自由现金流除以公司的销售额。我们将(自由现金流/销售额)作为因变量,并使用(经营活动现金流/销售额)作为自变量。下图显示了回归结果。请注意,(经营活动现金流/销售额)斜率系数的t统计量为1.6262,在0.05水平上不显著。另外,F统计量的显著性水平为0.1383,因此我们不能在0.05水平上拒绝“回归不能解释服装公司(自由现金流/销售额)的差异”该假设。

    最后,我们也应该注意到,此回归中的R方比以前的回归低得多。

    16d2cebcad5f18ea9781122659c5be80.png

    哪种回归更有意义?通常,等比例的回归更有意义。我们想知道如果来自经营活动的现金流量(与销售额的比率)发生变化,自由现金流(与销售额的比率)会发生什么。如果不进行缩除法,则回归结果可以仅基于公司之间的规模差异,而不是基于公司的基本经济状况。

    回归模型中错误指定的第三种常见形式是合并不应合并的来自不同样本的数据。我们用图形方式说明这种类型的错误指定。下图显示了变量X和Y的两个数据集,并带有拟合的回归线。数据可以表示两个不同时间段的两个金融变量之间的关系。

    67aae09bc9e1fba70a3e5b4342fd8146.png

    在X和Y的每个数据集中,两个变量之间的相关性几乎为0。由于组合样本中两个数据集的X和Y的均值不同,所以X和Y高度相关。然而,这种相关性是假的,因为它反映了X和Y在两个不同时期的关系的差异。

    本文由边际实验室自媒体原创,如需转载请务必注明出处!

    be86df410fb4d999e353ee3c398fceee.png
    展开全文
  • 4、python简单线性回归代码案例(完整)

    万次阅读 多人点赞 2018-12-11 10:00:31
    第一、回归分析的步骤 01 根据预测目标,确定自变量和因变量 02 绘制散点图,确定回归模型类型 03 估计模型参数,建立回归模型 04 对回归模型进行检验 回归方程的精度就是用来表示实际观测点和回归方程的拟合...

    第一、回归分析的步骤

    01 根据预测目标,确定自变量和因变量

    02 绘制散点图,确定回归模型类型

    03 估计模型参数,建立回归模型

    04 对回归模型进行检验

    回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判定系数来度量。

    判定系数=相关系数R平方=ESS/TSS=1-RSS/TSS

    其中:具体公式见图

    TSS   总离差平方和
    ESS   回归平方和
    RSS   残差平方和

    05 利用回归模型进行预测

    第二、sklearn 建模

    leModel=sklearn.linear_model.LinearRegression()

    训练模型:

    lrModel.fit(x,y)

    模型评估:

    lrModel.score(x,y)

    模型预测:

    lrModel.predict(x)

     

    第三、代码实践

    import numpy
    import pandas
    
    data = pandas.read_csv('D:\\DATA\\pycase\\number2\\Data2.csv')
    
    # 根据预测目标,确定自变量现金和因变量流水
    
    # 0 确定自变量因素,对数据标签进行维度的合并,此处按照渠道序列筛选分组统计(因为有跨期影响)
    
    
    Data=data.groupby(
            by=['广告商']
            )['现金','流水'].agg({
           '现金': numpy.sum,
           '流水': numpy.sum
           })
    
    # 1 数据质量分析
    
    explore=Data.describe()
    
    Data=Data[(Data.现金>0)&(Data.流水>0)]
    
    # 2 数据变换,渠道之间的数据量级差距太大,进行简单的函数转换,这俩根据散点图,采用log对数函数
    
    
    
    # 测试 range(Data.index)
    
    # Data.columns.size
    
    # Data.iloc[0,0]=math.log(Data.iloc[0,0])
    
    # math.log(Data.iloc[0,0])
    
    #  测试 Data.loc[indexs].values
    
    
    import math
    
    I=range(Data.index.size)
    
    J=range(Data.columns.size)
    
    i=0
    j=0
    
    for i in I:
        for j in J:
      # 逐个数据取对数 
            Data.iloc[i,j]=math.sqrt(Data.iloc[i,j])
    
    
    
    # 0-1 标准化 from sklearn.preprocessing import MinMaxScaler
    
    # scaler=MinMaxScaler()
    
    # Data[['现金', '流水']]=scaler.fit_transform(Data[['现金', '流水']].values.reshape(-1,1))
    
    
    # 3 属性规约
    
    # 选择数据的自变量和因变量
    
    x=Data['现金']
    y=Data['流水']
    
    # 绘制散点图,确定回归模型的类型
    
    from matplotlib import pyplot as plt
    
    plt.scatter(x,y)
    
    
    # 4 估计模型参数,建立回归模型
    
    # 对数据进行类型转化
    
    y=y.values.reshape(-1, 1)
    
    x=x.values.reshape(-1, 1)
    
    from sklearn.linear_model import LinearRegression
    
    lrModel = LinearRegression()
    
    lrModel.fit(x, y)
    
    
    # 5 对模型进行检验
    
    lrModel.score(x,y)
    
    
    # 6 利用回归模型进行预测
    
    lrModel.predict([[500000],[400000],[300000]])
    
    
    #查看截距
    alpha = lrModel.intercept_[0]
    
    #查看参数
    
    beta = lrModel.coef_[0][0]
    
    alpha + beta*numpy.array([500000, 400000, 300000])

     

    展开全文
  • 多元线性回归 stata

    万次阅读 多人点赞 2019-09-16 09:43:18
    回归的思想,任务,使命 可以看到0-1回归的因变量自变量都是0-1变量 因变量y可以分为 解释y的形成机制就是通过建立x,y的数学关系式 感觉相关分析就是回归分析的前两步, 数据的分类 ...


    回归分为解释性回归和预测性回归

    预测型回归对预测精度要求较高,可以在模型中添加平方项和交互项甚至高次项进行改进模型,不一定只有线性项

    但是加入的自变量如果过多,比如4个变量,再加上他们的平方项,8个变量对于小样本的话很容易出现过拟合,和NN很像,对这些样本的表示已经特别完备了,预测能力很好,但是对于样本外的数据预测效果很差

    在这里插入图片描述

    因变量如果是0-1变量则为0-1回归

    回归的思想,任务,使命,分类

    在这里插入图片描述因变量y可以分为
    在这里插入图片描述所以回归可以分类为
    在这里插入图片描述
    下面这个0-1回归的例子中的因变量自变量都是0-1变量
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

    回归就是拟合的后续
    回归就是拟合的后续
    回归就是拟合的后续

    但是多元线性回归指定了函数形式是多元线性函数,拟合的时候不能随便采用别的多项式函数或其他自定义函数

    用最小二乘法计算出公式(函数的形式可以由经验、先验知识或对数据的直观观察决定,或者直接使用多项式)里的系数,拟合就完成了,但是回归的工作还没有结束,还需要去研究这些系数(这个公式)的可信度,每个系数对因变量的影响,因为回归分析认为真正的拟合系数应该是一个随机变量而非确值,拟合用最小二乘求出来的这些系数只是对真正系数的一个点估计,所以有必要继续去研究区间估计或者假设检验。总之,拟合只是求出一条曲线能反映数据的趋势就行了,但是回归的要求是更高的更精确的。

    对拟合得到的系数进行进一步估计和检验
    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

    解释y的形成机制就是通过建立x,y的数学关系式
    在这里插入图片描述

    感觉相关分析就是回归分析的前两步,但是使用的方法不是通过相关

    逐步回归后面讲,筛选最有效的几个变量,剔除不重要的变量,简化回归模型

    在这里插入图片描述

    线性回归一定只能用于有线性关系的变量吗

    首先必须明确,多元线性回归中的“线性”是一个假定。是需要去检验的!
    在这里插入图片描述
    在这里插入图片描述
    非线性关系,如对数关系也是可以用线性回归的,只要先化成这个形式

    数据的预处理主要是注意异常值,异常值,离群点对回归模型的影响是非常大的
    在这里插入图片描述
    可以在excel中求出变量的对数项,平方项,交互项(x1*x2),然后用spss画散点图看看有没有线性关系
    在这里插入图片描述在这里插入图片描述在这里插入图片描述

    数据的分类

    在这里插入图片描述在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    用回归找出所有指标中最重要的几个

    那么受到启发的我们就可以用回归去找和患某病最相关的基因位点(2016年研究生国赛B题)
    在这里插入图片描述

    数据的标准化处理

    不管干啥,主成分分析啦,回归啦,要想消除量纲的影响,就要对数据进行标准化处理,这算数据预处理的内容
    在这里插入图片描述

    最小二乘法拟合一元线性回归方程的几个结论

    在这里插入图片描述在这里插入图片描述

    回归系数的解释

    在这里插入图片描述在这里插入图片描述多元线性回归模型中的回归系数

    在这里插入图片描述
    比如
    在这里插入图片描述

    遗漏变量会造成内生性(扰动项和变量相关)

    多元线性回归一定要避免内生性,使得模型具有外生性

    所以如果要使用多元线性回归,是一定要检验模型是否具有外生性的,这可以通过检验每一元变量和扰动项的相关系数
    在这里插入图片描述

    弱化完全无内生性的条件

    在这里插入图片描述

    虚拟变量

    虚拟变量对于有定性变量的问题是非常重要的,很多现实问题都有定性变量,并且定性变量一般还比定量变量多呢

    有的时候让你研究工资的高低是否和性别有关,贷款申请成功与否是否和申请人所处地域有关,你一般只能想到做相关性分析,算相关系数啥的,但是其实也可以通过设置虚拟变量进行回归分析,获得更准确的公式表达,从另一个角度解决问题

    虚拟变量是0-1变量,指示变量

    既然主要探究的就是性别和地域分别对于工资和贷款申请成功率的影响,那么这两个因素在各自的模型里就是核心解释变量,其他变量都是控制变量

    虚拟变量的回归系数表示的是其他因素相同且一定的情况下,由虚拟变量带来的对y的影响/变化,即虚拟变量两种取值的差异程度,如女性工资和男性工资的平均差异
    在这里插入图片描述在这里插入图片描述
    虚拟变量的数目是分类数-1
    在这里插入图片描述

    下图中的定性变量都是要用虚拟变量建模的,在stata中也可以用代码生成虚拟变量
    在这里插入图片描述

    在这里插入图片描述
    stata示例

    在这里插入图片描述
    在这里插入图片描述
    自变量还有这种复杂形式的关系,随着x1的增大,y随x2增大的更多,即y跟x2的关系不是独立于x1的
    在这里插入图片描述

    怎么评估回归质量/拟合效果分析——判定系数(拟合优度)

    通过评估残差的样本标准差或者样本方差,进行方差分析,越小则回归模型的解释性越好,精度越高

    最小二乘拟合的求解决定了残差和必须是0,所以残差的样本均值也是0

    由于有两个限制条件,所以残差平方和自由度少了2个,即当有n-2个残差已知时,另外2个也就确定了。

    这里样本方差是除以n-2,不是n-1,更不是n,也一样是为了保证样本方差是总体方差的无偏估计。
    在这里插入图片描述

    我们用样本方差度量样本的变异程度
    在这里插入图片描述

    在这里插入图片描述

    判定系数在这里插入图片描述在这里插入图片描述

    调整的拟合优度(引入自变量的个数到判定系数的计算中)

    调整后的拟合优度更有参考意义

    在这里插入图片描述

    扰动项必须是“同方差”和“无自相关”的球型扰动项

    在这里插入图片描述

    稳健标准误处理数据异方差

    一般数据都是异方差的,这时候用最小二乘估计的回归系数是不可靠的,针对他们的假设检验也不可靠,我们可以用稳健标准误解决

    数据
    定量的指标已经在excel中标准化了

    在这里插入图片描述在stata中把定性变量设置为虚拟变量,然后直接多元线性回归
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    所以可以写出回归方程

    高 考 总 分 = − 0.0024 ∗ A 1 + 0.1186 ∗ 平 时 成 绩 − 0.1287 ∗ 期 末 成 绩 + 0.0368 ∗ 高 考 数 学 + 0.9246 高考总分=-0.0024*A1+0.1186*平时成绩-0.1287*期末成绩+0.0368*高考数学+0.9246 =0.0024A1+0.11860.1287+0.0368+0.9246

    根据后面的解读可以知道,这个结果的F值不大,回归结果并不好,从最后的回归结果看,期末成绩竟然和高考总分负相关了,肯定不对

    stata回归结果解读

    (model,SS)是回归平方和SSR
    (RESIDUAL,ss)是剩余平方和SSE
    (total,ss)是SST,等于SSR+SSE
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    最关键的回归结果,即回归系数在第一列,后面还给了每个系数的标准差(越小越好),t检验值,t检验的p值(越小说明这个系数越显著不为0),以及置信区间
    在这里插入图片描述
    上图上面的红框,一个定性变量的n个虚拟变量(n为这个定性变量的取值总类数),有一个会因为多重共线性被stata自动检测到并忽略,这是因为我们本类就只需要设置n-1个虚拟变量,上面也讲来的

    右边的F值越大,prob越小,则表示所有系数的联合显著性越大,即所有变量都为0的概率很低SSE

    在这里插入图片描述

    obs,观测数目,即样本总数

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    异方差是什么,怎么检验和处理

    回归结束后一定要见检验异方差,也算检验回归结果

    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

    用残差的平方表示随机误差项的方差
    在这里插入图片描述
    有六两种图示检验法检验异方差

    一是用每个解释变量和被解释变量的散点图看
    在这里插入图片描述
    而是解释变量和残差平方的图像
    在这里插入图片描述
    所以画这个散点图
    在这里插入图片描述

    bp检验

    原假设是同方差
    在这里插入图片描述
    原假设:扰动项不存在异方差
    P值大于0.05,说明在95%的置信水平下接受原假设,即我们认为扰动项不存在异方差。

    这大概就是为啥上面加了robust得到的回归结果相同的理由了,因为不存在异方差

    white检验

    在这里插入图片描述

    怀特检验原假设:
    不存在异方差

    结果p大于0.05,接受原假设,不存在异方差

    这个例子就是有异方差的咯
    在这里插入图片描述
    画出回归的残差
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

    多重共线性的表现

    在这里插入图片描述

    梳理横截面数据的回归步骤

    这里只研究截面数据的多元回归

    excel数据导入stata会自动认为是截面数据

    先检验各个自变量的相关性(更好地做法是,一上来先把所有变量都放在回归模型中,然后观察结果,然后再检验自变量的相关性,根据相关性剔除一些变量再次回归查看结果)

    所有回归必须用robust
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    pwcorr CAR HOUSE, sig //计算pearson相关系数
    pwcorr CAR HOUSE, star(.05) // 用星标表示显著性,喜欢这个一些
    

    在这里插入图片描述

    发现house和car有相关性以后,就剔除了car变量,再次回归得到的F值变大了
    在这里插入图片描述

    多重共线性检验
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

    逐步回归

    向前逐步回归

    在这里插入图片描述

    向后逐步回归

    在这里插入图片描述

    比较

    所有变量一起回归,只有部分结果

    在这里插入图片描述
    方差膨胀系数,说明有明显的多重共线性
    在这里插入图片描述

    向后

    在这里插入图片描述在这里插入图片描述

    向前

    在这里插入图片描述在这里插入图片描述

    可以看到,向前回归得到了22个变量,向后得到了21个变量,向后逐步回归的F值最大,向前和向后的方差膨胀系数几乎相等,所以对多重共线性的解决是不错的,二者的判定系数也几乎一样。

    基本上剔除的变量都是地域的分类变量,说明多重共线性也主要是他们引起的

    代码:

    clear
    //import excel "E:\BOOKS\数模\清风\数模基础模型和代码\清风数模视频配套的代码讲义以及拓展资料\第7讲.多元回归分析7.27\拓展资料\毕业论文的数据和代码\model1\model1_data.xlsx", sheet("Sheet1") firstrow
    //save "E:\BOOKS\数模\清风\数模基础模型和代码\清风数模视频配套的代码讲义以及拓展资料\第7讲.多元回归分析7.27\拓展资料\毕业论文的数据和代码\model1\model1_data.dta"
    // ssc install outreg2 首次使用outreg2要先安装
    use "E:\BOOKS\数模\清风\数模基础模型和代码\清风数模视频配套的代码讲义以及拓展资料\第7讲.多元回归分析7.27\拓展资料\毕业论文的数据和代码\model1\model1_data.dta"
    tab ADDRESS,gen(A)  
    set matsize 2000
    //reg SUCCESS INTEREST MONTHS HOUSE CAR Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r
    //异方差检验,BP检验,但bp检验不适用于鲁邦回归
    //estat hettest CREDIT INCOME AGE  //检验这几个变量是否引起异方差
    //estat hettest ,rhs iid
    //异方差检验,怀特检验
    //estat imtest,white
    //est store m1 //把刚跑完的回归取名m1
    //outreg2 [m1] using model1.doc,replace  //输出回归表m1到word,后缀改为xls则输出到excel
    //outreg2 [m1] using model1.xls
    //回归结束后对系数进行检验,检验这些变量的系数是否显著(不为0)
    //test A1=1  检验A1的系数是否为1
    //test A1 A2 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 A26 A27 A28 A29 A30 A31  // 零假设是这些变量的系数都不显著(即都为0)
    //pwcorr CAR HOUSE, sig //计算pearson相关系数
    //pwcorr CAR HOUSE, star(.05)
    reg SUCCESS INTEREST MONTHS HOUSE Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r
    estat vif
    //向后逐步回归,参数b表示标准化系数,r表示稳健标准误
    stepwise reg SUCCESS INTEREST MONTHS HOUSE Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r b pr(0.01)
    //异方差检验,怀特检验
    //estat imtest,white
    estat vif
    //向前逐步回归,参数b表示标准化系数,r表示稳健标准误,这三参数之间必须用空格隔开不可以用逗号
    stepwise reg SUCCESS INTEREST MONTHS HOUSE Year AGE LNAMOUNT INCOME CREDIT WORKTIME MARRY EDUCATION A1 A2 A4-A31,r b pe(0.01)
    estat vif
    
    展开全文
  • 案例:如果世界上只有一种病,那就是穷病。假设最终影响银行贷款的因素只有工资和年龄,那么它们各自有多大的影响? x1 x2 y 工资 年龄 额度 1 4000 24 20000 2 3000 26 60000 3 8000 64 29000 4 ...

    案例:如果世界上只有一种病,那就是穷病。假设最终影响银行贷款的因素只有工资和年龄,要求你预测当一个新人来后,告诉工资和年龄,银行应该贷款多少给他?

    x1x2y
    工资年龄额度
    140002420000
    255002660000
    360006479000
    475004445000

    案例分析:

    • 数据:工资和年龄(2个特征)
    • 目标:预测最终银行会贷款多少

    线性回归 (Linear regression)


    只有一个 特征(Feature) 影响时

    我们先假设贷款的额度 y 只与工资 x一个特征有关:

    xy
    工资额度
    1400020000
    2550060000
    3600079000
    4750045000
    • 假设函数(Hypothesis)
      对于给定的(x,y),且是线性的,因为 y 和 x 是已知的,我们会直接假设 y = b + kx,我们目的是求 k 和 b ,得到一个通式。
      那么我们可以先给出:【y 用 hθ(x) 表示,b 用 θ0 表示,k用 θ1 表示】
      在这里插入图片描述
    • 误差 (Deviation)
      我们都知道事事难预料,现实和理想是有差距的!这告诉我们,不要整天白日做梦…emmm。
      所以 预测值真实值 也一定会有误差,即:误差= |预测值 - 真实值|在这里插入图片描述
    • 损失函数 (Cost function)
      我们现在知道了,每一个 预测值 和 真实值 之间都 存在 或大或小的 误差 【也有误差为0的,不过…那不是我们正想要的吗?】。
      现在我们用损失函数来表示那些或大或小的误差,直白地可以理解为,把那些或大或小的误差全部加起来,就称作为函数的预测值与真实值的损失,暂时可以这么理解。
      在这里插入图片描述
      将上面的都整理如下:
      在这里插入图片描述
    • 损失函数的运作原理
      我们先从简单且好理解的二维视角去体验损失函数的运作,为此,我们先将 θ0 的值设为 0,简化如下:
      在这里插入图片描述
      然后我们先对原始数据进行特征工程处理,之后计算出 预测值 hθ(x) , 然后是 损失值J(θ1),分别得到两个图像:
      在这里插入图片描述
      上面是二维视角去体验损失函数的运作,现在我们加大难度,从三维视角去看看。为此,我们保留 θ0 的存在。
      在这里插入图片描述
      同样,先计算出 预测值 hθ(x) , 然后是 损失值J(θ0,θ1),分别得到两个图像:
      在这里插入图片描述
      虽然损失函数的简单的3D图就比较直观,但是,对于复杂的3D图对于我们来说就不太友好了。。。
      比如下面两个:
      在这里插入图片描述
      不用怀疑,就是地理里面的等高线图(Contour plots)!!!
      在这里插入图片描述
      可以看懂不?看不懂的,你品,你细品!
    • 梯度下降 (Gradient descent)
      梯度下降其实我们前面已经讲完了,什么?你走神了?那我在讲一遍…
      梯度下降其实就是一步一步更新θ,求 损失函数J(θ1) 的 最小值 的过程。
      我们把前面的过程,总结下,你就知道了。θ
      对于多个参数也是一样,比如J(θ0,θ1) :
      在这里插入图片描述
      不知道这样,你是否知道机器是如何学习的了?

    有两个 特征(Feature) 影响时

    如果一个特征的你都懂了,那么多个特征就是不难啦。
    下面就把开题写的题目推一遍:

    x1x2y
    工资年龄额度
    140002420000
    255002660000
    360006479000
    475004445000

    数学推导:
    在这里插入图片描述

    • 误差
      在这里插入图片描述
      结合上面,可以得出
      在这里插入图片描述
    • 似然函数与对数函数
      似然怎么解释呢?
      我们可以举一个栗子:
      比如你还单身,一个女生某一天在你打球的时候突然给你递了一瓶水,这时你心里就打鼓了,你老脸一红,琢磨着她是不是喜欢你了?
      当然,给你递一瓶水,你可能会开始注意到,但是不能确定她是否真的喜欢你,因为…
      你们那时在打年级赛,很多女生都给打篮球的队员递了一瓶水,嘿嘿∠( ᐛ 」∠)_没想到吧!
      我们可以把她对你的做那些事看作是数据,是实际存在的,她是不是喜欢你看作是参数,你需要一点点揣测的。
      但是后来,她不仅每次在你打球的时候给你递水,还约你一块学习,一起看电影,一起吃饭,一起逛街,一起…
      你看 她对你的做那些事(数据) 是不是越来越多,每一件事情都可以看作概率事件,这么多概率是事件出现在一块,可以组成一个联合概率,联合概率越大,那 她是不是喜欢你 的概率是不是就越大(参数 就越接近实际)
      通过 数据 ,对 她是否喜欢你 的这个“参数”进行逐步地推断,可以叫做似然,得到最可能性最大的 参数 ,就叫做最大似然估计
      如果这个时候你都不做点什么的话,那只能说明:你们两个拥有着不含情感因素的男女最高境界友谊—红颜知己…
      单身的我裂开了。。。( •̥́ ㉨ •̀ू )嘤嘤嘤~
      在这里插入图片描述
      这就把前面的坑给填上了,就是最小二乘法怎么推导的?为什么要用它?目的是什么?
      如果误差的分布是服从正态分布的,那么最小二乘法得到的 θT 的值 就是最有可能性的。
      而结合正态分布、联合概率、似然函数、对数似然,它居然就推到了最小二乘法。你说这个世界奇妙不奇妙?
    • 目标函数处理在这里插入图片描述
      对于简单的数据,才可以一步到位,直接求出 θ 的值,但是实际情况都是复杂的,不能一次求出,所以,一般都会用梯度下降算法去求解 θ 的值。
    • 评估方法
      在这里插入图片描述
      (未完待续。。。)
    展开全文
  • 多元线性回归--案例分析及python实践

    千次阅读 2020-02-03 18:06:55
    本篇主要是针对回归分析过程中所使用到的统计量进行汇总,并通过案例,结合python语言实现。适用于一元线性回归和多元线性回归。代码可直接使用。
  • 简单线性回归c语言实现,计算偏差平方和,平均标准偏差,回归平方和,偏差平均值
  • 文章目录回归定义最常用回归方法一、线性回归(Linear Regression)二、逻辑回归(Logistic Regression) 回归定义 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常...
  • 菜鸟的数学建模之路(二):线性与非线性回归

    千次阅读 多人点赞 2019-09-09 15:35:23
    根据回归方法中因变量的个数和回归函数的类型(线性或非线性),可将回归方法分为一元线性回归、一元非线性回归和多元回归。 简单粗暴理解:可以理解为找到一个从特征空间X到输出空间Y的最优的线性映射函数的过程。 ...
  • 5、Python多重线性回归(代码案例

    千次阅读 2018-12-11 10:01:40
    多重线性回归:研究一个因变量与多个自变量间线性关系的方法 1、回归分析的步骤: 01 根据预测目标,确定自变量和因变量 02 绘制散点图,确定回归模型类型 03 估计模型参数,建立回归模型 04 对回归模型进行...
  • 机器学习篇——对数线性模型

    千次阅读 2018-04-14 15:36:29
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等 1、模型 条件概率分布(对数线性模型、概率模型)、判别模型 逻辑回归: 概率分布可由广义线性模型推导得到 多分类时,分子部分为:第k类exp(-wk*x+b),...
  • 系统总结线性回归模型、logistic回归模型、广义线性模型相关知识。 ...
  • 文章目录前言线性回归之回归算法OLS一、假设/原理二、经典例子三、建立模型四、完整求解思路4.1 求解误差4.2 误差分布假定4.3 似然函数求权重参数4.3.1 似然函数4.3.2 似然估计本质4.3.3 极大似然估计4.3.4 求导法...
  • 数据科学 案例4 房价预测(代码)Step1:描述性统计1、简单预处理2、因变量(price)1)因变量直方图2)查看因变量的均值、中位数和标准差等更多信息3)查看因变量最高和最低的两条观测2、自变量1)整体来看(连续...
  • 26.线性回归通俗解释 27.线性回归方程和损失函数 28.线性回归推导-求解对象转换 29.线性回归推导-似然函数 30.线性回归推导-梯度下降 31.线性回归预测波士顿房价 32.正则化和岭回归 33.逻辑回归原理 34.逻辑回归预测...
  • 简单的一元线性回归算法已经在这里“C语言简单的一元线性回归算法”,并且也简单阐述了梯度求解推导过程。 今天我们再呈上多元线性回归算法梯度下降的C语言实现,代码中已经加入了相应的注释。如下: ...
  • 回归分析——简单线性回归实例讲解(SPSS)

    万次阅读 多人点赞 2020-09-06 22:07:58
    什么是回归分析? 回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量Y与影响它的自变量Xi(i1,2,3…)之间的回归模型,衡量自变量Xi对因变量Y的影响能力的,进而可以用来预测因变量Y...
  • 大多数数据都可以用数字来衡量,如身高和体重。然而,诸如性别、季节、地点等变量则不能用数字...7.在R语言中实现Logistic逻辑回归 8.python用线性回归预测股票价格 9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标
  • 简单线性回归 算法理论 数据集:(xi,yi,i=1,2,3,4...,n)(x_{i},y_{i},i=1,2,3,4...,n)(xi​,yi​,i=1,2,3,4...,n) 线性模型:hθ(x)=θ0+θ1x+θ2x+...h_{\theta}(x)=\theta_{0}+\theta_{1}x+\theta_{2}x+...hθ...
  • 比如我们根据根据一家企业的运营质量、盈利、运营时间等来对企业进行估值,这属于估值问题,如果存在线性关系,属于线性回归问题。再比如我们对验证码图片进行识别,将图片通过线性函数也产生了一列值,但是我们的...
  • 提示:以下是本篇文章正文内容,下面案例可供参考 一、了解数据概况 前提:新建数据集store store.info() — 读取数据 index_col=0 — 第一列就是index值,不用新增一列unnamed; (index_col=non
  • 使用sklearn库学习线性回归(一)

    千次阅读 2020-11-02 12:05:35
    1,概述 1.1,判别式方法 产生式模型需要计算输入输出的联合概率 需要知道(or 假定)样本的概率分布 定义似然密度的隐式参数 为没给类别搜索最大化样本似然的参数 ...1.2,线性回归介绍 回归是一种应
  • 本文利用Python使用多元线性回归与随机森林算法预测笔记本新品的发售价
  • 我们也可以在其中一个练习中使用MASS包来实现逐步线性回归。 我们将在实验室稍后使用此软件包中使用BAS.LM来实现贝叶斯模型。 数据 本实验室将使用的数据是在全国935名受访者中随机抽取的。 变量 描述
  • 线性回归 线性回归的原理 什么是线性回归 1)定义与公式 线性回归(Linear regression)是利用**回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)**之间关系进行建模的一种分析方式。 特点:只有一个自...
  • 这一节主要讲多元线性回归模型 一元线性回归讨论的是一个因变量与一个自变量的关系,但是在很多例子中,模型可能包含多个自变量。在一元线性回归模型中,我们希望一条直线来解释数据,而在多元线性回归模型中,...
  • 线性回归 总结

    多人点赞 2021-02-12 01:21:18
    线性回归 总结概述例子通俗解释数学推导误差评估方法梯度下降下降方法 概述 线性回归的定义是: 目标值预期是输入变量的线性组合. 线性模型形式简单, 易于建模, 但却蕴含着机器学习中一些重要的基本思想. 线性回归, ...
  • Excel—对数回归分析与预测

    千次阅读 2018-06-08 10:12:49
    背景:很多业务并不是线性增长,当增长某一程度时,其增长率会开始减缓1、准备数据 案例中准备数据如下 以excel2013为例选择数据“插入”散点图,见下图选择增加“趋势线”选择对数配置,选择公式显示,便可以看到...
  • R语言与非线性回归模型

    千次阅读 2019-11-16 12:41:13
    6.7 非线性回归模型 下面列举两个非线性模型的例子: 模型(6.52)和(6.53)都是以非线性的形式包含参数和。这这种意义下,它们都是非线性模型,但它们有本质上的区别。一个可以转化为线性模型,如果对模型...
  • 线性函数、线性回归 参考:http://blog.csdn.net/luanpeng825485697/article/details/78933084 逻辑分类LC 线性模型:把每个特征对分类结果的“作用”加起来——这就是线性模型。 逻辑分类(Logistic ...
  •   与回归算法相对应的是分类算法,简而言之,回归就是预测一系列连续的值,分类就是预测一系列离散的值。   那么如何把机器学习中的回归算法应用于日常生活呢?以下用一个简单的例子来说明:   通过市场调查...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,948
精华内容 1,179
关键字:

对数线性回归案例