- 总体回归函数(population regression function,简称 PRF)


- 说明
- 随机扰动项

- 引入随机扰动项的原因
- 样本回归函数(sample regression function,简称SRF)

- 总体回归函数与样本回归函数

- 区别





个人Stata学习笔记,代码源文件来自陈强老师教材。由于markdown文件上传丢失格式,部分公式显示可能存在一定问题,不过会typora语法的应该可以很容易看明白。另外也附上了一些截图
为直观理解总体回归函数(PRF)与样本回归函数的关系(SRF),使用蒙特卡罗法进行模拟。所谓“蒙特卡罗法”(Monte Carlo Methods,MC),是通过计算机模拟,从总体抽取大量随机样本的计算方法。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)
考虑如下数据生成过程(DGP)或总体回归模型:
解释变量x_i ~ N(3, 2^2 ),扰动项\epsilon_i ~ N(0, 3^2 ),样本容量为n=30。 从N(3, 2^2 )随机抽取30 个解释变量xi的观测值,并从N(0, 3^2 )随机抽取30 个扰动项\epsilon _i的观测值。 根据总体回归模型(4.39)计算相应的被解释变量yi。 把yi对xi进行回归,得到样本回归函数(SRF),并与总体回归函数(PRF)进行比较。
由于样本容量仅为 30,故存在一定的抽样误差。斜率的真实值为 2,而样本估计值为2.36;截距项的真实值为1,而样本估计值为-1.64,符号相反(但不显著)。
如使用不同的随机数种子再次抽样,将得到不同的SRF;而PRF始终不变
clear
#删除内存中已有数据
set obs 30
# (确定随机抽样的样本容量为30)
#数理统计里的"obs"是observation的缩写。observation指的是观测值或实测值,与其对应的是统计模型(例如线性模型)的预测值(predicted value)。
set seed 10101
#(指定随机抽样的“种子”为10101;命令“set seed 10101”用来确定随机数的初始值(称为“种子”,可任意设置,此处设为10101),以便再次模拟时得到完全一样的结果。`
gen x = rnormal(3,4)
#(得到服从N(3, 2^2 )分布的随机样本,记为x);在分析的过程中,有些变量并没有在数据中提供,需要我们用原始数据或者回归的结果构造。常用的命令是 “gen” 和 “egen” 。
# rnormal命令如下
gen e = rnormal(0,9)
#(得到服从N(0, 3^2 )分布的随机样本,记为e)
gen y = 1 + 2*x + e
#(计算被解释变量y)
reg y x
#(把y 对x 进行OLS 回归)
#ols 全称ordinary least squares(普通最小二乘法),是回归分析(regression analysis)最根本的一个形式,对模型条件要求最少,也就是使散点图上的所有观测值到回归直线距离的平方和最小。
twoway function PRF=1+2*x,range(-5 15) ||scatter y x || lfit y x,lpattern(dash)
# 把总体回归函数、散点图与样本回归函数画在一起;选择项“range(-5 15)”用于指定画图的横轴范围介于-5 与15 之间;默认为0 与1 之间,即range(0 1)
#选择项“lpattern(dash)”表示画虚线,默认画实线
#实线为总体回归函数(PRF);而虚线为样本回归线(SRF),即被解释变量的拟合值。SRF 似乎比较接近于PRF
输入twoway function PRF=1+2*x,range(-5 15) ||scatter y x || lfit y x,lpattern(dash)
返回错误代码198,并显示option 15 not allowed
查阅错误代码文件,可能存在范围无效、无效文件名、无效名称、选项不允许等错误
去除range(-5,15)后
发现返回错误代码111,查询错误代码,错误类型为没有正确定义变量,返回检查发现大小写出错
修改,重试运行,运行成功
对照百度查阅资料,可能给定范围不合适
尝试多次代换范围,发现仍然无法成功运行,回过头继续检查源代码,发现,范围给定格式错误
正确形式应当为(-5 15);我们错误的添加了一个,
修改完毕后,成功运行
4.附件
Domain m: c(mindouble)to c(maxdouble)
Domain s: 0 to c(maxdouble)
Range: c(mindouble)to c(maxdouble)
Description: returns normal(m,s)(Gaussian)random variates,where m is the mean and s is the standard deviation.(返回正态(m, s)(高斯)随机变量,其中m是平均值, s是标准差)
转载于:https://my.oschina.net/u/1785519/blog/1511502
logistic回归模型是一种线性生成模型。本文将介绍logistic回归模型相关的知识,为了更好地理解模型的决策边界函数,本文同时分析了多元变量的协方差对概率分布的影响。
本文脉络:logistic回归模型的含义
logistic模型的决策边界函数分析
logistic模型的参数最优化
logistic回归模型与感知机模型的比较
总结
logistic回归模型的含义
我们把分类模型分成两个阶段,推断阶段和决策阶段,推断阶段对联合概率分布建模,然后归一化,得到后验概率。决策阶段确定每个新输入x的类别。
我们用推断阶段的方法来推导logistic回归模型,首先对类条件概率密度
和类先验概率分布
建模,然后通过贝叶斯定理计算后验概率密度。
考虑二分类的情形,类别C1的后验概率密度;
令
则:
式中的
就是logistic函数
因此,logistic回归的值等于输入变量为x的条件下类别为C1的概率
(1) 当
分类结果为C1
(2) 当
分类结果为C2
结论:logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大所对应的类。
logistic的决策边界函数分析
决策边界函数,简而言之,就是函数的两侧是不同的分类结果。
可定性的分析协方差的三种情况与分布图的关系。
(a) 图表示正常的协方差矩阵的高斯分布图。
(b) 图表示协方差矩阵是对角矩阵的高斯分布图。
(c) 图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。
logistic的决策边界函数分析
logistic曲线如下图,红色直线(a=0)表示决策边界函数:
假设类条件概率密度是高斯分布,即P(x|Ck),然后求解后验概率的表达式,即P(Ck|x)。我们知道,logistic回归值就是所求的后验概率。
假设类条件概率密度的协方差相同,类条件概率密度为:
由上面的推导公式得后验概率为:
其中:
由后验概率
的表达式可知,当类条件的协方差矩阵相等时,决策边界函数是随x线性变化的直线。
结论:如下图,若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同),则决策边界函数是直线;若两类的条件概率密度的协方差不相同时(如C1和C3,C2和C3),则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断,如C1和C2的协方差相同,C3和C1、C2的协方差不相同。
假设类条件概率密度符合高斯分布且具有相同的协方差矩阵,则决策边界函数是一条直线;若类条件概率密度符合更一般的指数分布且缩放参数s相同,决策边界函数仍然是一条直线。
logistic模型的参数最优化
logistic模型损失函数
logistic回归模型的含义是后验概率分布,因此可以从概率的角度去设计损失函数。
考虑两分类情况,假设有N个训练样本,logistic模型是
表示后验概率y=1的概率,则
表示y=0的概率,变量
取值1或0,且分别代表模型
因此,似然函数
损失函数
logistic模型的参数最优化
损失函数最小化等价于模型参数的最优化,如下图:
利用梯度下降法求最优解,学习速率
:
具体求法本文不介绍,只给出算法的思想。
为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。
logistic模型与感知机模型的比较
logistic模型与感知机模型的相同点
由上面的分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图:
感知机模型:当点落在直线上方,y>0,则分类结果为C1;反之为C2。
logistic模型:当点落在上方,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。
考虑到对输入变量x进行非线性变换
,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:
感知机模型:当点落在圆外,y>0,则分类结果为C1;反之为C2。
logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果为C1;反之为C2。
logistic模型与感知机模型的异同点
(1) logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。
(2) 感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。
总结
logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。