精华内容
下载资源
问答
  • 于是这里插入了本篇,主要就介绍下常用的两种回归模型,从中你会知道为什么信贷风控普遍使用逻辑回归而不是我们熟悉的线性回归。希望读者看完,能对风控建模要达到的目的有一个总体的sense。~~~~~~~~~切入...

    本来想按照实操上的建模工作顺序,从数据源计算IV和WOE值、变量筛选、逻辑回归到模型评价写这系列文章,但有读者反应读起来有些生涩无聊(请原谅笔者也是第一次写公众号啊/(ㄒoㄒ)/~~)

    于是这里插入了本篇,主要就介绍下常用的两种回归模型,从中你会知道为什么信贷风控普遍使用逻辑回归而不是我们熟悉的线性回归。希望读者看完,能对风控建模要达到的目的有一个总体的sense。

    ~~~~~~~~~切入正题~~~~~~~~~

    一切预测模型,你都可以理解为是一个黑箱,往黑箱里输入一堆数据(自变量,或称之为特征变量),然后黑箱给你输出一堆数(应变量,或称之为被预测值、Y值)。

    7a4bb43dc038a6caebe5928291838820.png

    注:后文讲解我们先跳过后续文章会介绍的在IV和WOE值计算之后,还需进行的缺失值填充、相关分析、多重共线性分析、主成分分析等工序以筛选出最后“合格”的入模变量。假设此时我们已经完成上述过程,并获得符合标准格式的"prohibit"表以按列次存放主键、Y值和特征取值。

    ef31670761202f0e1c638c4ba9a3b931.png

    方法一:线性回归模型

    在信贷领域,风控人员在贷前审批无非做出是否能放款给某个客户的判断,其依据就是通过历史经验区分出具备某些特征的客户为好客户,具备另一些特征的某些客户为坏客户。

    上述过程在量化预测领域,可以简化为输出变量要么为0(好)、要么为1(坏)的0-1预测模型。很多没学过计量或者生物统计的童鞋,本能的反应就是使用中学时就学过的多元线性回归预测模型。

    46d55c6ca5fe2b57730e35dc39158509.png

    而且这个模型确实能够简单粗暴的解决0-1分类问题,我们将prohibit表第3~11列作为X1~X9,将第2列作为Y值训练线性回归模型。

    % 读取存放prohibit数据的Excel文档
    [prohibit,title]=xlsread('C:\Users\Administrator\Desktop\Prohibit.xlsx','a1:k2');
    [prohibit,txt,data_org] =xlsread('C:\Users\Administrator\Desktop\Prohibit.xlsx','a3:k7000');% 多元线性回归
    [B,BINT,R,RINT,STATS]=regress(prohibit(:,2),[ones(size(prohibit,1),1) prohibit(:,3:11)]);
    head={'判定系数','F统计量','p值','误差方差的估计值'};
    [head;num2cell(STATS)] % 展示检验统计量
    % 回归预测
    y_predict=B(1,1)+prohibit(:,3:11)*B(2:10,1);
    scatter(y_predict,prohibit(:,2));
    xlabel('预测值');
    ylabel('实际值');

    获得模型检验统计量及预测值和Y值散点图如下:

    24b1d06ad565693d6aa2057c37ac1944.png

    cfd8f5d5c02268f48957f5dd469e5ed7.png

    从p值可以看出模型是显著的,但是判定系数可以看出模型的拟合优度很差,原因在于Y值只有两个取值。我们分别取预测值为0.05和0.10作为阈值(即若阈值取0.05,则大于等于0.05就预测为坏客户,小于0.05则预测为好客户),可以得到如下混淆矩阵。可以看出使用多元线性回归模型可以较好地识别出坏客户(第二类错误),但同时也会错杀很多好的客户(第一类错误)。

    2bd64e68fe031809985e831afd70f304.png

    方法二:逻辑回归

    从上述预测值和Y值散点图以及混淆矩阵可以看出,特定的预测值范围往往同时具有好客户和坏客户。而且图中可以明显看出,随着预测值取值增大,坏客户的占比也会提高(坏客户集中在散点图右上方)。一个很自然的设想是,如果我们不直接预测客户好坏,而是预测具有一定特征的客户是坏客户的概率,这个结果是否具有业务意义呢?

    答案是肯定的。复习一下我们在微观经济学里学过的价格歧视定价策略(Price Discrimination),产品定价可以向不同的客户收取不同的价格,那么我们当然也能向具有更高概率成为坏客户的客群收取更高的费率,这个在风控领域就叫做风险定价(Risk Pricing)。

    我们将客户预测值做二十等分,并计算出各分组坏客户概率,如下图:

    880b8ade43491fa0fa0521e96da1ec1d.png

    对上述表格绘制散点图,我们同时绘制一Sigmoid函数图像,如下图:

    58cf5ea03842451cf28bc26724d9839b.png

    其中,Sigmoid函数表达式:

     6d615382ea841cb6358972c455255288.png

    可以看出,Sigmoid函数是能够比较好的拟合线性回归的预测结果和坏客户概率间关系的,那么我们就可以利用Sigmoid函数来联结上述的线性回归模型和坏客户概率建立广义线性模型(Generalized Linear Model)。利用Sigmoid作为联结函数的广义线性回归也叫做逻辑回归。函数表达式如下:

    a3910cf7a4408276119f9edc3c707d52.png

    % 逻辑回归
    [B_logit,DEV,STATS]=glmfit(prohibit(:,3:size(prohibit,2)), [prohibit(:,2) ones(size(prohibit,1),1)], 'binomial', 'link', 'logit');% 回归预测
    y_predict=glmval(B_logit,prohibit(:,3:size(prohibit,2)),'logit','binomialsize',ones(size(prohibit,1),1));

    如何评价逻辑回归模型的有效程度呢,我们先来看下回归预测值范围对应的坏客户比例统计,如下表:

    2ac2859bea4da31f12697e6ad3e37fe9.png

    可以看出,除了个别客户量较少的区间外,预测值范围区间所覆盖的91.8%客户的实际坏客户比例都落在了相应的预测区间内。故基本可以认为逻辑回归模型是有效的。当然,在信贷风控实操中常用的评价指标和工具还有诸如K-S值、AUC值、ROC Curve、Lift Chart等,相关资料网上有很多,在此就不加赘述了。

    展开全文
  • MATLAB多元线性回归

    2018-08-19 23:45:22
    MATLAB多元线性回归: 基于MATLAB的多元非线性回归模型.pdf 多元线性回归建模以及MATLAB和SPSS求解.pdf MATLAB语言在多元线性回归中的应用.pdf
  • 一、要点1、多元线性回归模型2、古典假定3、修正的可决系数二、多元线性回归模型及古典假定(一)多元线性回归模型(二)多元线性回归模型的矩阵形式Y=Xβ+u(三)多元线性回归模型的古典假定1、随机误差项的零均值假设2、...

    一、要点

    1、多元线性回归模型

    2、古典假定

    3、修正的可决系数

    二、多元线性回归模型及古典假定

    (一)多元线性回归模型

    996d64c16539bc47ccaa55491f784d9e.png

    (二)多元线性回归模型的矩阵形式

    5e04913c99611bcbaadee75b24ec602c.png

    Y=Xβ+u

    (三)多元线性回归模型的古典假定

    1、随机误差项的零均值假设

    2、随机误差项的同方差假设

    3、随机误差项无自相关

    4、随机误差项m与解释变量X之间不相关

    5、无多重共线性

    6、随机误差项服从正态分布

    三、多元线性回归模型的估计

    (一)多元线性回归模型参数的最小二乘估计

    025fb06022c467aa58371293a9ffe404.png

    bee101f499602f35425a0da9667a8e21.png

    6bbab8042588a624d514b09b6ca9233f.png

    (二)参数最小二乘估计的性质

    1、线性特征

    2、无偏特征

    3、最小方差特征

    (三)OLS估计的分布性质

    1157f1e8677406381e10e739154d880c.png

    (四)随机扰动项方差的估计

    981b33817405898fcb435c7a61e91738.png

    (五)多元线性回归模型参数的区间估计

    6437741f74f3a5a342e9d65d837da9da.png

    四、多元线性回归模型的检验

    (一)拟合优度检验

    07502e3136b76db6ab9baee4d95bfd72.png

      多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。

    018b09b008ab711babfc08b8bcbc72d3.png

    可决系数必定非负,但修正的可决系数可能为负值,这时规定修正的可决系数为零。

    (二)回归方程的显著性检验

    在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行F检验。

    91c03dd7c595faeaf5aae4256006dac2.png

    给定显著性水平α,查F分布表得临界值Fα(k-1,n-k)

    如果F> Fα(k-1,n-k),拒绝H0,说明回归模型有显著意义,即所有解释变量联合起来对Y有显著影响。

    如果F< Fα(k-1,n-k),接受H0,说明回归模型没有显著意义,即所有解释变量联合起来对Y没有显著影响。

    (三)回归参数的显著性检验

    309ad777c29da300c2b83912469a348a.png

    给定显著性水平α,查t分布表得临界值tα/2(n-k)

    如果ttα/2(n-k)t> tα/2(n-k),拒绝H0,说明βj所对应的解释变量对Y的影响是显著的。

    如果-tα/2(n-k) tα/2(n-k),接受H0,说明βj所对应的解释变量对Y的影响不显著。

    五、多元线性回归模型的预测

    (一)点预测

    1b3e67e12bfe0309dd0abeb732a958c1.png

    (二)平均值的区间预测

    e493fe6346a7b49e111ac555fcc9c7d9.png

    (三)个别值的区间预测

    64791aed795aa1ced943b703a30ce39f.png

    展开全文
  • 1.matlab多元回归示例如下:解决问题:油价预测方法:多元线性回归实现:matlab regress()函数技巧:通过增加X1^2,X2^2,或者X1*X2等构造的特征项,可以提高回归模型的拟合准确度;但计算代价增大。function result...

    1.matlab多元回归示例如下:

    解决问题:油价预测

    方法:多元线性回归

    实现:matlab regress()函数

    技巧:通过增加X1^2,X2^2,或者X1*X2等构造的特征项,可以提高回归模型的拟合准确度;但计算代价增大。

    function result=reg_new_month(XX1_bu,YYnum)

    y=YYnum;

    a=XX1_bu; %由于alldata_pca已经进行归一化了;所以在回归分析中直接用就行%a=load('alldata.txt');

    x1=a(:,1) ;

    x2=a(:,2) ;

    x3=a(:,3) ;

    x4=a(:,4) ;

    x5=a(:,5) ;

    x6=a(:,6) ;

    x7=a(:,7) ;

    x8=a(:,8) ;

    x9=a(:,9) ;

    x11=x1.^2;

    x12=x2.^2;

    x13=x3.^2;

    x14=x4.^2;

    x15=x5.^2;

    x16=x6.^2;

    x17=x7.^2;

    x18=x8.^2;

    x19=x9.^2;

    x21=x1.*x2;

    x22=x2.*x3;

    x23=x3.*x4;

    x24=x4.*x5;

    x25=x5.*x6;

    x26=x6.*x7;

    x27=x7.*x8;

    x28=x8.*x9;

    x29=x9.*x1;

    X=[ones(length(y),1), x1,x2,x3,x4,x5,x6,x7,x8,x9,x11,x12,x13,x14,x15,x16,x17,x18,x19, x21,x22,x23,x24,x25,x26,x27,x28,x29];

    [b,bint,r,rint,stats]=regress(y,X);%b; 相关系数%bint%r;残差%rint : 置信区间%stats; 检验回归模型的统计量:分别为

    rcoplot(r,rint)%画残差图

    XXnum为原数据所有特征X;

    YYnum为原数据所有目标值Y;

    XX1_bu:是补全后的数据特征;

    2.结果如下:

    2.1残差图

    2.2 指标

    stats=[0.8259, 22.0910 ,1.2622e-33, 3464.8205]

    R=stats(1)=0.82,越接近1则代表拟合得越好;

    F=1.26e-33;F<0.05代表回归模型可用;

    3 利用多元线性回归进行预测

    输入测试X_test(若有多个X_test,可用循环或矩阵实现);

    调用多元回归m函数;

    输出Y_pred。

    参考资料:

    1.https://www.cnblogs.com/Mayfly-nymph/p/10539106.html ,作者:Hk_mayfly

    2. https://zhuanlan.zhihu.com/p/45149297 ,一个大学生的日常笔记,回归分析

    展开全文
  • (1)模型准备多元线性回归模型是指含有多个解释变量的线性回归模型,用于解释被解释的变量与其他多个变量解释变量之间的线性关系。其数学模型为:上式表示一种 元线性回归模型,可以看出里面共有 个解释变量。表示被...

    (1)模型准备

    多元线性回归模型是指含有多个解释变量的线性回归模型,用于解释被解释的变量与其他多个变量解释变量之间的线性关系。其数学模型为:

    eb174f8320aec2a4d308c00dec435826.png

    上式表示一种 d0d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 元线性回归模型,可以看出里面共有 d0d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 个解释变量。表示被解释变量 d2d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 的变化可以由两部分组成:第一部分,是由 d0d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 个解释变量 d6d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 的变化引起的 d2d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 的线性变化部分

    4effd81e51ca3fc1e6ed2c034503ef30.png

    第二部分,是要解释由随机变量引起 d2d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 变化的部分,可以用 dcd8b3fd-313a-eb11-8da9-e4434bdf6706.svg 部分代替,可以叫随机误差,公式中的参数都是方程的未知量,可以表示为偏回归常数和回归常数,则多元线性回归模型的回归方程为:

    c2cf816a77e637f22e549b5d861e9d15.png

    (2)模型建立

    首先在中国A股票市场中,根据各指标与估值标准 d2d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 的关联度来选取变量,选取指标为:年度归母净利润 e0d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 、年度营业收入 e1d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 、年度单只股票交易量 e2d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 、年度单只股票交易量金额 e3d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 。有如下表达式为:

    268b67255fb99a67b1b1670038fbd9e2.png

    其中 d2d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 是因变量, e7d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 是自变量, e8d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 为误差项, e9d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 为各项系数。

    (3)中国A股票市场模型求解

    运用SPSS软件,运用多元线性回归方程可以得出如下:

    下表模型有4个自变量,模型调整后的拟合度为0.976,说明模型的拟合度非常好。

    ede04b52dc7708958ba05bb5418ff8da.png

    下表为方差分析表,告诉我们 ebd8b3fd-313a-eb11-8da9-e4434bdf6706.svg 的值值为1.794,显著性概率 d0d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 为0.004小于0.005,因此自变量系数统计较为显著。

    fca6d09be27a72b5c14a2affa75d91f8.png

    下表给出模型常数项和自变量系数,并对系数统计显著性进行检验,常数项的值为2.618,显著性为0.002,统计比较显著,其它指标的显著性都小于0.005,故该模型比较准确。

    8fcc4c490cc3a01b45d1f3ad60b856d9.png

    故得出中国A股市场中的估值水平与这四个指标的线性关系为:

    987b034b114f76b3437e6e5b6e04811e.png

    (4)美国NASDAQ市场模型求解

    下表模型有4个自变量,模型调整后的拟合度为0.862,说明模型的拟合度非常好,

    1c5b1c340f466aac9cadcb96211d9be1.png

    下表为方差分析表,告诉我们 ebd8b3fd-313a-eb11-8da9-e4434bdf6706.svg 值为15.081,显著性概率 d0d8b3fd-313a-eb11-8da9-e4434bdf6706.svg 为0.005等于0.005,因此自变量系数统计较为显著。

    a3f2301ffed92705c55728bb07f0ffa8.png

    下表给出模型常数项和自变量系数,并对系数统计显著性进行检验,常数项的值为-184.104,显著性为0.004,统计比较显著,其它指标的显著性都小于0.005,故该模型比较准确。

    c259aec2984219d5ccabd26d5bf546c2.png

    故得出美国NASDAQ市场中的估值水平与这四个指标的线性关系为:

    fb9551a0b5c30d05ee4622e4c6436e4d.png


    通过以上几个例子,你了解了吗?


    原创文章 请勿转载!

    展开全文
  • 本文含3605字,19图表截屏建议阅读8分钟本文是Python商业数据挖掘实战的第4篇1 - 基于不平衡数据的反欺诈模型实战2 - Apriori算法实现智能推荐3- 随机森林预测宽带客户离网4 - 多元线性回归模型实战前言「多元线性...
  • ------------:)----------采用MATLAB语言编程,基于梯度下降法实现多元线性回归模型,并与正规方程计算结果进行对比。
  • 一、多元线性回归1.多元线性回归的基本表达式在多元线性回归中会有多个解释变量:预测解释变量的估计方程如下:注:额外的假设条件①解释变量之间不能存在太强的线性相关关系(一般ρ<0.7)②其他条件与一元线性...
  • 关于如何使用Matlab构建多元线性回归模型在数学建模中有许多情况需要用到多远非线性回归
  • matlab多元线性回归拟合

    万次阅读 2014-04-11 10:25:18
    matlab多元线性回归拟合 a=[320 320 160 710 320 320 320];f=[0.18 0.18 0.18 0.18 0.09 0.36 0.18];v=[2.3 1.7 1.7 1.7 1.7 1.7 1];F=[38.8 29.23 26.53 25.28 19.53 35.72 16.75];模型:lnF=lnA+Blna+Clnf+Dlnv...
  • 前言多元线性回归模型非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方。其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会将原理知识穿插于代码段中,争取...
  • 基于MATLAB多元线性回归模型.pdf
  • 讲解MATLAB多元线性回归方面的一篇学术论文,非常值得参考,很有用。
  • 关注一下~,更多商业数据分析案例等你来撩前言本文重在以清晰明了的方式展示利用多元线性回归模型实现预测功能的基本流程。其中包含的知识点如下,源数据源代码可空降文末 ~~变量探索数据读入异常值处理类别变量数值...
  • matlab建立多元线性回归模型并进行显著性检验及预测问题例子;x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; 增加一个常数项 Y=[88 85 88 91 92 93 93 95 96 98 97 96 ...
  • %4、stas表示用于检验回归模型的统计量,有三个数值 r^2 F 与F对应的概率P 例如p<0.05 残差95% % r^2越接近于1,回归方程越显著 %alpha表示显著水平 %% x=[143 144 145 147 148 150 153 154 155 156 157 158 159 ...
  • 多元线性回归模型 matlab代码 自用

    万次阅读 多人点赞 2017-04-17 22:39:51
    还是校数学建模。。。发了N篇博客。。。这个代码是判断影响因素权重比的。 今天总算学会怎么把代码插入了。。...x1=[ 760.72 773.48 784.17 794.62 806.14 814.58 822.30 832.31 842.42 854.19];...x2=[ 36770 40561 ...
  • 在132位顾客中选择了第1位客户,以喜好程度作为因变量,以价格、可口可乐 or 百事可乐、有糖 or 无糖作为自变量,运用多元线性回归方法分析这位客户对不同轮廓的可乐喜爱度。通过分析得出,价格、可口可...
  • matlab实现一元线性回归和多元线性回归

    万次阅读 多人点赞 2018-01-30 10:58:46
    在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。...例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解
  • 多元线性回归regress[b,bint,r,rint,stats] = regress(y,x, alpha)b——拟合线性函数的系数bint——系数b的置信区间r——残值向量rint——残值的置信区间stats——用于检验回归模型的统计量,有三个数值:相关系数R2...
  • matlab开发-一般线性回归模型。单多元回归模型的广义形式(线性和非线性)
  • 基于matlab的各种多元统计分析模型源代码-多元线性回归MultiLineReg.rar 本人为了获得更多资源共享的权限,只好吐血奉献自己一年来收集和改写的matlab源程序,部分为原创;里面包含有主成分分析、岭回归分析、因子...
  • 线性回归系列汇总一元线性回归部分笔记关于最小二乘法的再解析概括地说,线性模型就是对输入的特征(样本)加权求和,再加上一个所谓的偏置项(也称截距项,或者噪声)的常数,对此加以预测残差平方和(RSS):等同于SSE...
  • 基于matlab多元线性回归,可以实现3元以内的线性回归,对电力系统负荷进行预测和校验
  • 实现多元线性回归的要求及假设条件:'''线性回归的假设条件:1、样本独立,即每个预测样本之间没有依赖关系;2、残差e要服从正态分布,即y_true-y_pred的残差需要服从高斯分布;3、特征之间独立,即特征之间需要独立...
  • 产生拟合方程,从而(对未知数据)进行预测回归算法(模型):用平均值,期望,方差,标准差进行预测估计回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性...
  • function [fitresult, gof] = createFit(x1, x2, y)[xData, yData, zData] = prepareSurfaceData( x1, x2, y );% Set up fittype and options.ft = fittype( '(A/x)*exp(B/x)*y^(-C)', 'independent', {'x', 'y'}, '...

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 124
精华内容 49
关键字:

matlab多元线性回归模型

matlab 订阅