精华内容
下载资源
问答
  • 清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时...

    一、什么是回归分析法

    “回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:

    回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

    二、回归分析的目的

    回归分析的目的大致可分为两种:

    第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。

    y=a0+b1x1+b2x2+…+bkxk+误差(方程A)

    把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分別代入x1,x2,…xk的数值,预测y的值。

    第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。

    希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。

    根据最小平方法,使用Excel求解y=a+bx中的a和b。那么什么是最小平方法?

    分别从散点图的各个数据标记点,做一条平行于y轴的平行线,相交于图中直线(如下图)

    平行线的长度在统计学中叫做“误差”或者‘残差”。误差(残差)是指分析结果的运算值和实际值之间的差。接这,求平行线长度曲平方值。可以把平方值看做边长等于平行线长度的正方形面积(如下图)

    最后,求解所有正方形面积之和。确定使面积之和最小的a(截距)和b(回归系数)的值(如下图)。

    使用Excel求解回归方程;“工具”→“数据分析”→“回归”,具体操作步骤将在后面的文章中具体会说明。

    线性回归的步骤不论是一元还是多元相同,步骤如下:

    1、散点图判断变量关系(简单线性);

    2、求相关系数及线性验证;

    3、求回归系数,建立回归方程;

    4、回归方程检验;

    5、参数的区间估计;

    6、预测;

    一元线性回归操作和解释

    摘要

    一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。

    什么是一元线性回归

    回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。举个例子来说吧:

    比方说有一个公司,每月的广告费用和销售额,如下表所示:

    案例数据

    如果我们把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线:

    拟合直线

    这条线是怎么画出来的

    对于一元线性回归来说,可以看成Y的值是随着X的值变化,每一个实际的X都会有一个实际的Y值,我们叫Y实际,那么我们就是要求出一条直线,每一个实际的X都会有一个直线预测的Y值,我们叫做Y预测,回归线使得每个Y的实际值与预测值之差的平方和最小,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2的和最小(这个和叫SSE,后面会具体讲)。

    现在来实际求一下这条线:

    我们都知道直线在坐标系可以表示为Y=aX+b,所以(Y实际-Y预测)就可以写成(Y实际-(aX实际+b)),于是平方和可以写成a和b的函数。只需要求出让Q最小的a和b的值,那么回归线的也就求出来了。

    简单插播一下函数最小值怎么求:

    首先,一元函数最小值点的导数为零,比如说Y=X^2,X^2的导数是2X,令2X=0,求得X=0的时候,Y取最小值。

    那么实质上二元函数也是一样可以类推。不妨把二元函数图象设想成一个曲面,最小值想象成一个凹陷,那么在这个凹陷底部,从任意方向上看,偏导数都是0。

    因此,对于函数Q,分别对于a和b求偏导数,然后令偏导数等于0,就可以得到一个关于a和b的二元方程组,就可以求出a和b了。这个方法被称为最小二乘法。下面是具体的数学演算过程,不愿意看可以直接看后面的结论。

    先把公式展开一下:

    Q函数表达式展开

    然后利用平均数,把上面式子中每个括号里的内容进一步化简。例如

    Y^2的平均

    则:

    上式子两边×n

    于是

    Q最终化简结果

    然后分别对Q求a的偏导数和b的偏导数,令偏导数等于0。

    Q分别对a和b求偏导数,令偏导数为0

    进一步化简,可以消掉2n,最后得到关于a,b的二元方程组为

    关于a,b的 二元方程组

    最后得出a和b的求解公式:

    最小二乘法求出直线的斜率a和斜率b

    有了这个公式,对于广告费和销售额的那个例子,我们就可以算出那条拟合直线具体是什么,分别求出公式中的各种平均数,然后带入即可,最后算出a=1.98,b=2.25

    最终的回归拟合直线为Y=1.98X+2.25,利用回归直线可以做一些预测,比如如果投入广告费2万,那么预计销售额为6.2万

    评价回归线拟合程度的好坏

    我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合程度到底怎么样呢?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数,系统不能上标,这里是R^2是“R的平方”),用来判断回归方程的拟合程度。

    首先要明确一下如下几个概念:

    总偏差平方和(又称总平方和,SST,Sum of Squaresfor Total):是每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平方和,即,反映了因变量取值的总体波动情况。如下:

    SST公式

    回归平方和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平方和,即,它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。

    SSR公式

    残差平方和(又称误差平方和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的。

    这些概念还是有些晦涩,我个人是这么理解的:

    就拿广告费和销售额的例子来说,其实广告费只是影响销售额的其中一个比较重要的因素,可能还有经济水平、产品质量、客户服务水平等众多难以说清的因素在影响最终的销售额,那么实际的销售额就是众多因素相互作用最终的结果,由于销售额是波动的,所以用上文提到的每个月的销售额与平均销售额的差的平方和(即总平方和)来表示整体的波动情况。

    回归线只表示广告费一个变量的变化对于总销售额的影响,所以必然会造成偏差,所以才会有实际值和回归值是有差异的,因此回归线只能解释一部分影响

    那么实际值与回归值的差异,就是除了广告费之外其他无数因素共同作用的结果,是不能用回归线来解释的。

    因此SST(总偏差)=SSR(回归线可以解释的偏差)+SSE(回归线不能解释的偏差)

    那么所画回归直线的拟合程度的好坏,其实就是看看这条直线(及X和Y的这个线性关系)能够多大程度上反映(或者说解释)Y值的变化,定义

    R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好

    假如所有的点都在回归线上,说明SSE为0,则R^2=1,意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系

    还是回到最开始的广告费和销售额的例子,这个回归线的R^2为0.73,说明拟合程度还凑合。

    四、相关系数R和判定系数R^2的区别

    判定系数R^2来判断回归方程的拟合程度,表示拟合直线能多大程度上反映Y的波动。

    在统计中还有一个类似的概念,叫做相关系数R(这个没有平方,学名是皮尔逊相关系数,因为这不是唯一的一个相关系数,而是最常见最常用的一个),用来表示X和Y作为两个随机变量的线性相关程度,取值范围为【-1,1】。

    当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正,

    当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来。

    如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。

    就如同这两个概念的符号表示一样,在数学上可以证明,相关系数R的平方就是判定系数。

    变量的显著性检验

    变量的显著性检验的目的:剔除回归系数中不显著的解释变量(也就是X),使得模型更简洁。在一元线性模型中,我们只有有一个自变量X,就是要判断X对Y是否有显著性的影响;多元线性回归中,验证每个Xi自身是否真的对Y有显著的影响,不显著的就应该从模型去掉。

    变量的显著性检验的思想:用的是纯数理统计中的假设检验的思想。对Xi参数的实际值做一个假设,然后在这个假设成立的情况下,利用已知的样本信息构造一个符合一定分布的(如正态分布、T分布和F分布)的统计量,然后从理论上计算得到这个统计量的概率,如果概率很低(5%以下),根据“小概率事件在一次实验中不可能发生”的统计学基本原理,现在居然发生了!(因为我们的统计量就是根据已知的样本算出来的,这些已知样本就是一次实验)肯定是最开始的假设有问题,所以就可以拒绝最开始的假设,如果概率不低,那就说明假设没问题。

    其实涉及到数理统计的内容,真的比较难一句话说清楚,我举个不恰当的例子吧:比如有一个口袋里面装了黑白两种颜色的球一共20个,然后你想知道黑白球数量是否一致,那么如果用假设检验的思路就是这样做:首先假设黑白数量一样,然后随机抽取10个球,但是发现10个都是白的,如果最开始假设黑白数量一样是正确的,那么一下抽到10个白的的概率是很小的,但是这么小概率的事情居然发生了,所以我们有理由相信假设错误,黑白的数量应该是不一样的……

    总之,对于所有的回归模型的软件,最终给出的结果都会有参数的显著性检验,忽略掉难懂的数学,我们只需要理解如下几个结论:

    T检验用于对某一个自变量Xi对于Y的线性显著性,如果某一个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。

    F检验用于对所有的自变量X在整体上看对于Y的线性显著性

    T检验的结果看P-value,F检验看Significant F值,一般要小于0.05,越小越显著(这个0.05其实是显著性水平,是人为设定的,如果比较严格,可以定成0.01,但是也会带来其他一些问题,不细说了)

    下图是用EXCEL对广告费和销售额的例子做的回归分析的结果(EXCEL真心是个很强大的工具,用的出神入化一样可以变成超神),可以看出F检验是显著的(Significance F为0.0017),变量X的T检验是显著的(P-value为0.0017),这俩完全一样也好理解,因为我们是一元回归,只有一个自变量X。

    用Excel做线性回归分析

    还有一点是intercept(截距,也就是Y=aX+b中的那个b)的T检验没有通过,是不显著的,一般来说,只要F检验和关键变量的T检验通过了,模型的预测能力就是OK的。

    最后推荐一个很好的统计学课程

    这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。

    一共80多条视频,全长800多分钟,只能说这是我看过的最好的统计学教程,没有之一,如果本科能看到这个水平的教程,我也不会靠考场上的纸条过这门课了。

    其实如果懂一点真正的统计学,生活中会多一些看问题的角度,还是挺有意思的。

    一元线性回归就说到这里,谢谢大家!

    使用Excel数据分析工具进行多元回归分析

    在“数据”工具栏中就出现“数据分析”工具库,如下图所示:

    给出原始数据,自变量的值在A2:I21单元格区间中,因变量的值在J2:J21中,如下图所示:

    假设回归估算表达式为:

    试使用Excel数据分析工具库中的回归分析工具对其回归系数进行估算并进行回归分析:

    点击“数据”工具栏中中的“数据分析”工具库,如下图所示:

    在弹出的“数据分析”-“分析工具”多行文本框中选择“回归”,然后点击 “确定”,如下图所示:

    弹出“回归”对话框并作如下图的选择:

    上述选择的具体方法是:

    在“Y值输入区域”,点击右侧折叠按钮,选取函数Y数据所在单元格区域J2:J21,选完后再单击折叠按钮返回;这过程也可以直接在“Y值输入区域”文本框中输入J2:J21;

    在“X值输入区域”,点击右侧折叠按钮,选取自变量数据所在单元格区域A2:I21,选完后再单击折叠按钮返回;这过程也可以直接在“X值输入区域”文本框中输入A2:I21;

    置信度可选默认的95%。

    在“输出区域”如选“新工作表”,就将统计分析结果输出到在新表内。为了比较对照,我选本表内的空白区域,左上角起始单元格为K10.点击确定后,输出结果如下:

    第一张表是“回归统计表”(K12:L17):

    其中:

    Multiple R:(复相关系数R)R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本例R=0.9134表明它们之间的关系为高度正相关。(Multiple:复合、多种)

    R Square:复测定系数,上述复相关系数R的平方。用来说明自变量解释因变量y变差的程度,以测定因变量y的拟合效果。此案例中的复测定系数为0.8343,表明用用自变量可解释因变量变差的83.43%

    Adjusted R Square:调整后的复测定系数R2,该值为0.6852,说明自变量能说明因变量y的68.52%,因变量y的31.48%要由其他因素来解释。( Adjusted:调整后的)

    标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好

    观察值:用于估计回归方程的数据的观察值个数。

    第二张表是“方差分析表”:主要作用是通过F检验来判定回归模型的回归效果。

    该案例中的Significance F(F显著性统计量)的P值为0.00636,小于显著性水平0.05,所以说该回归方程回归效果显著,方程中至少有一个回归系数显著不为0.(Significance:显著)

    第三张表是“回归参数表”:

    K26:K35为常数项和b1~b9的排序默认标示.

    L26:L35为常数项和b1~b9的值,据此可得出估算的回归方程为:

    该表中重要的是O列,该列的O26:O35中的 P-value为回归系数t统计量的P值。

    值得注意的是:其中b1、b7的t统计量的P值为0.0156和0.0175,远小于显著性水平0.05,因此该两项的自变量与y相关。而其他各项的t统计量的P值远大于b1、b7的t统计量的P值,但如此大的P值说明这些项的自变量与因变量不存在相关性,因此这些项的回归系数不显著

    转载于:http://blog.sina.com.cn/s/blog_a20c88b601014j9x.html

    展开全文
  • Stata不仅可以实现诸多的统计分析方法,还包括了许多经典和前沿计量模型。为了推进国高校开展计量教学科研及数据统计分析工作,促进Stata在计量研究及数据分析中应用与发展,提升相关科技工作者软件操作应用...
    0e0b694f6086d9bb65f1b289366a33fa.png
    b70ddc058cbc206d8094bee748bec8ed.png

    Stata强大的统计与计量分析功能、精致的绘图、简单易行的窗口操作、简练便捷的编程、强大的MATA矩阵运算、丰富的网络资源等功能使其成为世界上用户最多的软件之一; Stata不仅可以实现诸多的统计分析方法,还包括了许多经典和前沿的计量模型。

    为了推进国高校开展计量教学科研及数据统计分析工作,促进Stata在计量研究及数据分析中的应用与发展,提升相关科技工作者的软件操作应用技术及实证论文写作水平, 我单位将于七月暑假期间在青岛举办“高级计量经济学暨Stata数据统计分析与模型应用”高级研讨班,有关事项通知如下:

    ba8c7c86668a3b74b781b866ad58ca01.png

    包括但不限于高等院校和科研院所经济及社科类专业从事定量学术相关研究的资深教师、研究生和学者;以及其他对Stata计量统计与分析感兴趣的科研人员。

    c31e46838e26135d1461fd0dea0f96f8.png

    张川川,北京大学经济学博士。曾任哈佛大学经济系访问研究员、世界银行总部研究顾问。近五年来在Demography, Journal of Population Economics, Health Economics等各领域顶级国际刊物和《中国社会科学》、《经济研究》、《经济学季刊》、《世界经济》、《金融研究》等国内权威刊物发表中英文论文40余篇;主持国家自然科学基金、北京市社科规划基金、霍英东高等院校青年教师基金和国家社科基金重大项目子课题等多项国家和省部级课题;担任50本国内外学术刊物的匿名评审专家。

    26fc22a3692916c02a80c274f1b1ec5b.png

    2019/07/17 - 2019/07/22

    山东青岛

    有疑问可咨询:13643136553或472355722@qq.com

    85b0eeae06e0fbe9f54f89ecf82c4c14.png

    1,本课程采用“典型案例分析+Stata软件上机实操+实战练习workshop精品工作坊”教学模式,从应用案例入手讲解知识点,介绍目前在应用研究领域使用最为广泛的计量分析方法;用简洁易懂的语言讲述理论方法同时进行实际数据分析演示;不仅适合零基础的初学者,也适合经验较为丰富的操作者;

    2,通过本次学习,学员能够掌握高级计量经济学的核心方法及Stata软件操作,熟练运用Stata完成复杂的数据处理并完成写作;全面了解常用模型的思路、原理和建模方法,全面构建起计量经济学框架和模型思路;通过精讲经典论文的实证分析过程,帮助学员领会并掌握实证分析与论文写作的精髓;

    3,提供全部教学课件、实验数据、编程操作步骤,每个模块均设置动手实践环节以协助学员解决操作中的实际问题,协助教师深入开展相关课程教学、科研与论文写作;

    4,创建班级技术讨论群,方便学员在培训过程及后期的技术讨论、疑问解答及与讲师的长期交流;

    c7c3be61fc3c1e18266b5c5f40611997.png

    1.计量经济学方法论的起点

    1.如何理解实证研究?

    2.透过现象看本质:从相关性到因果性

    3.OLS方法:参数估计和假设检验

    4.OLS估计的经典问题:异方差、多重共线、模型误设和控制变量的选取等

    5.内生性问题的来源和及其后果

    2. STATA 入门

    1.熟悉STATA软件

    2.do文件编辑器和常用命令

    3.使用STATA进行数据管理

    4.变量生成和清理

    5.样本的合并和拆分

    6.数据描述性分析

    3. STATA绘制图形和进行回归分析

    1.使用STATA绘制图形

    2.直方图、二维图形等常用图形的绘制

    3.使用STATA进行回归分析

    4.常见计量回归模型的估计

    5.结果的保存和输出

    4. IV、RD、DID等拟实验方法的基础:潜在结果模型

    1.潜在因果模型:Rubin Causal Model

    2.一个理想情况:随机控制实验(RCT)

    3.满足条件外生假定下的估计方法

    3.1匹配方法(matching):匹配的基本思想、倾向分值匹配

    3.2匹配方法与OLS方法的异同

    4.基于Rubin因果模型的拟实验方法概述:IV, RD, DID

    5.工具变量方法(IV)

    1.传统IV方法:假设、模型设定和参数估计

    2.现代IV方法:LATE

    3.IV方法应用实例

    4.使用STATA软件进行工具变量估计

    6.断点回归方法(RD)

    1.RD思想和方法演进

    2.精准断点(Sharp RD)

    3.模糊断点(Fuzzy RD)

    4.RD分析的一般步骤

    7.面板数据分析方法(固定效应和随机效应模型)及倍差法(DID)

    1.面板数据分析方法及其在STATA软件中的实现:

    1.1固定效应模型(FE)

    1.2随机效应模型(RE)

    1.3一阶差分(FD)

    2.经典DID模型:假设、参数估计和有效性检验

    3.DID模型的拓展

    4.DID方法与固定效应估计(FE)、一阶差分估计(FD)的联系和区别

    5.DID方法应用实例

    6.使用STATA软件进行DID估计

    8.空间计量经济学

    1.空间回归模型动因

    2.空间效应

    3.空间权重矩阵

    4.空间相关性度量

    5.空间计量模型简介、流程图、识别检验、判别准则等

    6.横截面空间计量模型及stata应用

    7.面板空间计量模型及stata应用

    9.经济学实证论文写作

    1.经济学论文的基本类型

    2.实证论文写作的基本框架

    3.实证论文的选题和构思

    4.经济学论文的投稿、审稿和发表

    10.培训考核

    7月22日(Stata高级数据分析师技能水平考核,自愿参加)

    注: 学员自带笔记本电脑,跟随老师示范过程操作练习,讲师可根据学员基础对大纲进行适度调整,欢迎及时反馈相关建议

    08bcfda1be6c8b0c1f6c170cc5459fbe.png

    学员经考核合格可获得《Stata计量分析师(高级)》职业技术水平证书。该证表明持有者已通过相关考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,依据人力资源与社会保障部相关文件精神,本类型培训可记入《专业技术人员继续教育证书》或学习档案,全国通用;可代为申请国家工业与信息化部人才交流中心颁发《Stata数据分析师(高级)》职业技能水平证书。

    29e75bc090b68b9f078a3dcc5bb917c8.png

    培训费4780/人(含上课期间专家授课费、教材资料、场地费等),如申请国家工信部人才交流中心《Stata数据分析师(高级)》职业技能水平培训证书(证书为学员自愿申请,有名额要求),需另行缴纳申请费200元;住宿统一安排,费用自理。

    展开全文
  • 清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:  回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在...

    一、什么是回归分析

    “回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:

      回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。 

    二、回归分析的目的 

    回归分析的目的大致可分为两种:

    第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。

    y=a0+b1x1+b2x2+…+bkxk+误差(方程A)

     把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分別代入x1,x2,…xk的数值,预测y的值。

    第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。 

    希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。

    根据最小平方法,使用Excel求解y=a+bx中的a和b。那么什么是最小平方法?

    分别从散点图的各个数据标记点,做一条平行于y轴的平行线,相交于图中直线(如下图)

    平行线的长度在统计学中叫做“误差”或者‘残差”。误差(残差)是指分析结果的运算值和实际值之间的差。接这,求平行线长度曲平方值。可以把平方值看做边长等于平行线长度的正方形面积(如下图) 

    最后,求解所有正方形面积之和。确定使面积之和最小的a(截距)和b(回归系数)的值(如下图)。

    使用Excel求解回归方程;“工具”→“数据分析”→“回归”,具体操作步骤将在后面的文章中具体会说明。

    线性回归的步骤不论是一元还是多元相同,步骤如下:

    • 1、散点图判断变量关系(简单线性);
    • 2、求相关系数及线性验证;
    • 3、求回归系数,建立回归方程;
    • 4、回归方程检验;
    • 5、参数的区间估计;
    • 6、预测;

     

    一元线性回归操作和解释

    摘要

    一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析。这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理。


    什么是一元线性回归

    回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。举个例子来说吧:

    比方说有一个公司,每月的广告费用和销售额,如下表所示:


    案例数据

    如果我们把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线:


    拟合直线

    这条线是怎么画出来的

    对于一元线性回归来说,可以看成Y的值是随着X的值变化,每一个实际的X都会有一个实际的Y值,我们叫Y实际,那么我们就是要求出一条直线,每一个实际的X都会有一个直线预测的Y值,我们叫做Y预测,回归线使得每个Y的实际值与预测值之差的平方和最小,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2的和最小(这个和叫SSE,后面会具体讲)。

    现在来实际求一下这条线:


     

    我们都知道直线在坐标系可以表示为Y=aX+b,所以(Y实际-Y预测)就可以写成(Y实际-(aX实际+b)),于是平方和可以写成a和b的函数。只需要求出让Q最小的a和b的值,那么回归线的也就求出来了。

      简单插播一下函数最小值怎么求:

    首先,一元函数最小值点的导数为零,比如说Y=X^2,X^2的导数是2X,令2X=0,求得X=0的时候,Y取最小值。

    那么实质上二元函数也是一样可以类推。不妨把二元函数图象设想成一个曲面,最小值想象成一个凹陷,那么在这个凹陷底部,从任意方向上看,偏导数都是0。

    因此,对于函数Q,分别对于a和b求偏导数,然后令偏导数等于0,就可以得到一个关于a和b的二元方程组,就可以求出a和b了。这个方法被称为最小二乘法。下面是具体的数学演算过程,不愿意看可以直接看后面的结论。

    先把公式展开一下:


    Q函数表达式展开

    然后利用平均数,把上面式子中每个括号里的内容进一步化简。例如


    Y^2的平均

    则:


    上式子两边×n

     

    于是


    Q最终化简结果

    然后分别对Q求a的偏导数和b的偏导数,令偏导数等于0。


    Q分别对a和b求偏导数,令偏导数为0

    进一步化简,可以消掉2n,最后得到关于a,b的二元方程组为


    关于a,b的 二元方程组

    最后得出a和b的求解公式:


    最小二乘法求出直线的斜率a和斜率b

    有了这个公式,对于广告费和销售额的那个例子,我们就可以算出那条拟合直线具体是什么,分别求出公式中的各种平均数,然后带入即可,最后算出a=1.98,b=2.25

    最终的回归拟合直线为Y=1.98X+2.25,利用回归直线可以做一些预测,比如如果投入广告费2万,那么预计销售额为6.2万

    评价回归线拟合程度的好坏

    我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合程度到底怎么样呢?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数,系统不能上标,这里是R^2是“R的平方”),用来判断回归方程的拟合程度。

    首先要明确一下如下几个概念:

    总偏差平方和(又称总平方和,SST,Sum of Squaresfor Total):是每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平方和,即,反映了因变量取值的总体波动情况。如下:


    SST公式

    回归平方和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平方和,即,它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。


    SSR公式

     

    残差平方和(又称误差平方和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的。

    这些概念还是有些晦涩,我个人是这么理解的:

    就拿广告费和销售额的例子来说,其实广告费只是影响销售额的其中一个比较重要的因素,可能还有经济水平、产品质量、客户服务水平等众多难以说清的因素在影响最终的销售额,那么实际的销售额就是众多因素相互作用最终的结果,由于销售额是波动的,所以用上文提到的每个月的销售额与平均销售额的差的平方和(即总平方和)来表示整体的波动情况。

    回归线只表示广告费一个变量的变化对于总销售额的影响,所以必然会造成偏差,所以才会有实际值和回归值是有差异的,因此回归线只能解释一部分影响

    那么实际值与回归值的差异,就是除了广告费之外其他无数因素共同作用的结果,是不能用回归线来解释的。

    因此SST(总偏差)=SSR(回归线可以解释的偏差)+SSE(回归线不能解释的偏差)

    那么所画回归直线的拟合程度的好坏,其实就是看看这条直线(及X和Y的这个线性关系)能够多大程度上反映(或者说解释)Y值的变化,定义

    R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好

    假如所有的点都在回归线上,说明SSE为0,则R^2=1,意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系

    还是回到最开始的广告费和销售额的例子,这个回归线的R^2为0.73,说明拟合程度还凑合。

    四、相关系数R和判定系数R^2的区别

    判定系数R^2来判断回归方程的拟合程度,表示拟合直线能多大程度上反映Y的波动。

    在统计中还有一个类似的概念,叫做相关系数R(这个没有平方,学名是皮尔逊相关系数,因为这不是唯一的一个相关系数,而是最常见最常用的一个),用来表示X和Y作为两个随机变量的线性相关程度,取值范围为【-1,1】。

    当R=1,说明X和Y完全正相关,即可以用一条直线,把所有样本点(x,y)都串起来,且斜率为正,

    当R=-1,说明完全负相关,及可以用一条斜率为负的直线把所有点串起来。

    如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。

    就如同这两个概念的符号表示一样,在数学上可以证明,相关系数R的平方就是判定系数。

    变量的显著性检验

    变量的显著性检验的目的:剔除回归系数中不显著的解释变量(也就是X),使得模型更简洁。在一元线性模型中,我们只有有一个自变量X,就是要判断X对Y是否有显著性的影响;多元线性回归中,验证每个Xi自身是否真的对Y有显著的影响,不显著的就应该从模型去掉。

    变量的显著性检验的思想:用的是纯数理统计中的假设检验的思想。对Xi参数的实际值做一个假设,然后在这个假设成立的情况下,利用已知的样本信息构造一个符合一定分布的(如正态分布、T分布和F分布)的统计量,然后从理论上计算得到这个统计量的概率,如果概率很低(5%以下),根据“小概率事件在一次实验中不可能发生”的统计学基本原理,现在居然发生了!(因为我们的统计量就是根据已知的样本算出来的,这些已知样本就是一次实验)肯定是最开始的假设有问题,所以就可以拒绝最开始的假设,如果概率不低,那就说明假设没问题。

    其实涉及到数理统计的内容,真的比较难一句话说清楚,我举个不恰当的例子吧:比如有一个口袋里面装了黑白两种颜色的球一共20个,然后你想知道黑白球数量是否一致,那么如果用假设检验的思路就是这样做:首先假设黑白数量一样,然后随机抽取10个球,但是发现10个都是白的,如果最开始假设黑白数量一样是正确的,那么一下抽到10个白的的概率是很小的,但是这么小概率的事情居然发生了,所以我们有理由相信假设错误,黑白的数量应该是不一样的……

    总之,对于所有的回归模型的软件,最终给出的结果都会有参数的显著性检验,忽略掉难懂的数学,我们只需要理解如下几个结论:

    T检验用于对某一个自变量Xi对于Y的线性显著性,如果某一个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。

    F检验用于对所有的自变量X在整体上看对于Y的线性显著性

    T检验的结果看P-value,F检验看Significant F值,一般要小于0.05,越小越显著(这个0.05其实是显著性水平,是人为设定的,如果比较严格,可以定成0.01,但是也会带来其他一些问题,不细说了)

    下图是用EXCEL对广告费和销售额的例子做的回归分析的结果(EXCEL真心是个很强大的工具,用的出神入化一样可以变成超神),可以看出F检验是显著的(Significance F为0.0017),变量X的T检验是显著的(P-value为0.0017),这俩完全一样也好理解,因为我们是一元回归,只有一个自变量X。


    用Excel做线性回归分析

    还有一点是intercept(截距,也就是Y=aX+b中的那个b)的T检验没有通过,是不显著的,一般来说,只要F检验和关键变量的T检验通过了,模型的预测能力就是OK的。

    最后推荐一个很好的统计学课程

    可汗学院公开课:统计学计划详情 - 网易云课堂

    这门课是统计学入门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。

    一共80多条视频,全长800多分钟,只能说这是我看过的最好的统计学教程,没有之一,如果本科能看到这个水平的教程,我也不会靠考场上的纸条过这门课了。

    其实如果懂一点真正的统计学,生活中会多一些看问题的角度,还是挺有意思的。

    一元线性回归就说到这里,谢谢大家!

    转自:http://www.jianshu.com/p/fcd220697182#

     

     

    使用Excel数据分析工具进行多元回归分析

     

    在“数据”工具栏中就出现“数据分析”工具库,如下图所示:

     

     使用Excel数据分析工具进行多元回归分析

     

    给出原始数据,自变量的值在A2:I21单元格区间中,因变量的值在J2:J21中,如下图所示:

     

     使用Excel数据分析工具进行多元回归分析

     

    假设回归估算表达式为:

     

     使用Excel数据分析工具进行多元回归分析

     

    试使用Excel数据分析工具库中的回归分析工具对其回归系数进行估算并进行回归分析:

     

    点击“数据”工具栏中中的“数据分析”工具库,如下图所示:

     

     使用Excel数据分析工具进行多元回归分析

     

    在弹出的“数据分析”-“分析工具”多行文本框中选择“回归”,然后点击 “确定”,如下图所示:

     

     使用Excel数据分析工具进行多元回归分析

     

    弹出“回归”对话框并作如下图的选择:

     

     使用Excel数据分析工具进行多元回归分析

     

    上述选择的具体方法是:

     

    在“Y值输入区域”,点击右侧折叠按钮,选取函数Y数据所在单元格区域J2:J21,选完后再单击折叠按钮返回;这过程也可以直接在“Y值输入区域”文本框中输入J2:J21;

     

    在“X值输入区域”,点击右侧折叠按钮,选取自变量数据所在单元格区域A2:I21,选完后再单击折叠按钮返回;这过程也可以直接在“X值输入区域”文本框中输入A2:I21;

     

    置信度可选默认的95%。

     

    在“输出区域”如选“新工作表”,就将统计分析结果输出到在新表内。为了比较对照,我选本表内的空白区域,左上角起始单元格为K10.点击确定后,输出结果如下:

     

    使用Excel数据分析工具进行多元回归分析
     

     

    第一张表是“回归统计表”(K12:L17): 

     

    其中:

     

    Multiple R:(复相关系数R)R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本例R=0.9134表明它们之间的关系为高度正相关。(Multiple:复合、多种)

     

    R Square:复测定系数,上述复相关系数R的平方。用来说明自变量解释因变量y变差的程度,以测定因变量y的拟合效果。此案例中的复测定系数为0.8343,表明用用自变量可解释因变量变差的83.43%

     

    Adjusted R Square:调整后的复测定系数R2,该值为0.6852,说明自变量能说明因变量y的68.52%,因变量y的31.48%要由其他因素来解释。( Adjusted:调整后的)

     

    标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好

     

    观察值:用于估计回归方程的数据的观察值个数。

     

     

    第二张表是“方差分析表”:主要作用是通过F检验来判定回归模型的回归效果。

     

    该案例中的Significance F(F显著性统计量)的P值为0.00636,小于显著性水平0.05,所以说该回归方程回归效果显著,方程中至少有一个回归系数显著不为0.(Significance:显著)

     

    第三张表是“回归参数表”:

     

    K26:K35为常数项和b1~b9的排序默认标示.

     

    L26:L35为常数项和b1~b9的值,据此可得出估算的回归方程为:

     

    使用Excel数据分析工具进行多元回归分析

     

     

     

    该表中重要的是O列,该列的O26:O35中的 P-value为回归系数t统计量的P值。

     

    值得注意的是:其中b1、b7的t统计量的P值为0.0156和0.0175,远小于显著性水平0.05,因此该两项的自变量与y相关。而其他各项的t统计量的P值远大于b1、b7的t统计量的P值,但如此大的P值说明这些项的自变量与因变量不存在相关性,因此这些项的回归系数不显著

    转载于:http://blog.sina.com.cn/s/blog_a20c88b601014j9x.html

     

    即使只是凡世中一颗小小的尘埃,命运也要由自己主宰,像向日葵般,迎向阳光、勇敢盛开

    转载于:https://www.cnblogs.com/nick477931661/p/9113396.html

    展开全文
  • 今天老徐给大家讲解下硕士论文中常用spss相关性分析的步骤过程。既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相...

    有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础的一个功能应用,很多学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习的前提下,感觉云里雾里。今天老徐给大家讲解下硕士论文中常用spss做相关性分析的步骤过程。

    既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。世界上很多事情都是存在一定的相关联系,因此我们往往需要对两个或多个变量进行相关性分析。如果两个变量都是连续性的变量,就可以用Pearson 分析方法。

    首先:打开SPSS软件,并导入数据。

    6910a0c5b9f3085e6652f477b725c1f0.png

    其次:在工具栏处,点击:“分析”----”相关”----“双变量”,进行变量的选择

    45060c3cca482dacd8125a016c4bb928.png

    在变量的选取过程中,我们首先需要先确定要分析的变量

    首先将两个变量放入“变量”框中。要分析哪几个变量就只能选择那几个变量。

    1c65cbb5898222e2e19ad1a990e56f1c.png

    在“相关系数”框中选择“Pearson”,如上图所示:

    在变量选择完成后,如果需要对数据进行一定的描述,或者查看,可以打开右上角的按钮,即选择“选项”,如下图所示

    7983d3a54b44065d363d16ba6a751b99.png

    如需要对数据进行模拟分析,则选择右上角的“bootsTrap”模拟分析,如下图所示。

    样本数就是需要模拟的总共的次数,可以自己定义

    22155a2a43269b22015782d5db7fe503.png

    最后我们点击确定,在output窗口中可以看到:如下所示:

    6778ea802a7fae5ea4bc59db9f02d647.png

    1807ebc95ed69b9cfc309175378ca5f6.png

    第一个图是pearson相关分析结果,另外一个是描述性分析结果。表中字母的具体含义比较好理解,比如mean为均值,Std. Deviation为标准差。pearson correlation 为相关系数sig为P 值,N是样本数量。

    大致讲解完毕,基本的步骤流程就是这样,希望老徐今天的讲解能够对大家在相关性分析的时候有所帮助。

    展开全文
  • 今天给大家讲解下毕业论文中常用spss相关性分析的步骤过程。既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用...
  • Excel做统计分析-入门

    千次阅读 2017-02-26 19:26:11
    学习中,我们常用Excel表格,但我们没有发现Excel也有统计分析功能,我们可以对Excel稍作一下设置,就可以做出强大统计分析的功能了。 设置步骤如下: 1.在菜单栏里,点击右键,找到“自定义快速访问工具栏”,点击...
  • 我们在问卷分析时,由于因变量多为连续线性变量,多半会采用线性回归分析来研究变量之间关系。此时,一般资料或者人口学变量中,就会含有很多分组或分类变量,比如性别,学历等等。 如果因变量在这些人口学...
  • 今天老徐给大家讲解下硕士论文中常用spss相关性分析的步骤过程。既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相...
  • 本博文源于《商务统计》,旨在讲述如何对线性回归分析中已经拟合好直线残差分析。当谈起残差,必须了解残差是y实际值和预测值之差。在线性回归分析残差检验中,牢记画两个图就行了,一种是残差图,一种是QQ...
  • 张耀文提到数据分析,首先会想到的可能是t检验、回归分析等各种具体的分析方法,但对于经历过完整数据分析的同学来说,最复杂、最耗费时间的步骤往往是数据的清理,也就是将数据整理成为能够进行上述统计分析的格式...
  • 贝叶斯统计的由来发现贝叶斯逆概率人当然就叫贝叶斯了,这哥们全名叫托马斯-贝叶斯,英国猛汉,生于1702年,跪于1761年。贝叶斯曾在苏格兰爱丁堡大学学习神学和数学。后来,他子承父业成为了一名牧师,并在业余...
  • 今天我们来一起学习如何在AMOS软件中使用结构方程...图1下面就来详细讲解如何在AMOS里做分析的操作步骤:①打开amos软件,点击左侧的显变量工具(矩形工具),画好3个显变量(图2)图2②点击“单向箭头”绘制变量之间...
  • 今天老徐给大家讲解下硕士论文中常用spss相关性分析的步骤过程。 既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间...
  • 毕业季:毕业论文利用spss信度分析步骤详解有很多...但是在硕士论文中,要求相对要高一些,通常会用到spss统计分析软件来对数据进行处理,因此就会涉及到问卷信度效度分析,今天简单给大家讲解下,如何利用sp...
  • 今天老徐给大家讲解下硕士论文中常用spss相关性分析的步骤过程。 既然讲相关性,那就必须牵扯到一个名词:“相关系数”。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间...
  • 张耀文提到数据分析,首先会想到的可能是t检验、回归分析等各种具体的分析方法,但对于经历过完整数据分析的同学来说,最复杂、最耗费时间的步骤往往是数据的清理,也就是将数据整理成为能够进行上述统计分析的格式...
  • 我们在问卷分析时,由于因变量多为连续线性变量,多半会采用线性回归分析来研究变量之间关系。此时,一般资料或者人口学变量中,就会含有很多分组或分类变量,比如性别,学历等等。 如果因变量在这些人口学...
  • 关注用SPSS进行医学统计信度分析关键词:SPSS、信度分析导 读 上期,我们介绍了量表的基本形式及其研制步骤。 点击观看:《医学研究中量表研制的步骤及注意事项》 我们知道,一份合格的量表一定要满足信度和效度的...
  • 实验四 参数扫描分析和统计分析 实验目的 1学习一些特定参数分析的方法使之能够在今后的场合适用 2学会蒙托卡诺这种随机抽样统计分析的分析方法 3学会观测输出文件中的数据以及如何用图形表示出相应数据 实验步骤 ...
  • 需求:统计各省业务量,使用hive语句分析业务,用sqoop工具进行导入导出 步骤: 利用sqoop将mysql中业务表导入hive库(两种方式) 可以在hive中执行create建表语句先创建一个与mysql表结构相同表,再执行数据...
  • 在我们获得一些数据后,首先要做的就是对这些数据进行基本的统计分析,例如均值、中位数、方差等。SPSS中基本统计分析主要包括频数分析、描述性统计分析、探索分析、列联表分析等。这节先来介绍前两种SPSS操作...
  • 数据分析过程中各个步骤使用工具 数据分析也好统计分析也好数据挖掘也好商业智能也好都需要在学习时候掌 握各种分析手段和技能特别是要掌握分析软件工具学习数据分析一般是先学软件开始 再去应用再学会理论和...
  • 在我们获得一些数据后,首先要做的就是对这些数据进行基本的统计分析,例如均值、中位数、方差等。SPSS中基本统计分析主要包括频数分析、描述性统计分析、探索分析、列联表分析等。这节先来介绍前两种SPSS操作...
  • 数据分析过程中各个步骤使用工具 数据分析也好统计分析也好数据挖掘也好商业智能也好都需要在学习时候 掌握各种分析手段和技能特别是要掌握分析软件工具学习数据分析一般是先学软件 开始再去应用再学会理论和...
  • 一、定义判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。二、判别分析的一般形式y=a1x1+a2x2+……+anxn(a1为系数,Xn为变量)。事先非常...
  • 特别提示,如果是使用统计分析方法进行信度测量,那么一般都是针对量表题,这在SPSSAU手册中有特别重要的提示和说明。1 信度测量信度分析的目的就在于说明数据可信可靠,真实可信。其测量或者描述信度的方法一般有...
  • Trafodion更新统计信息原理分析

    千次阅读 2020-01-31 21:12:54
    中我们介绍了如何查看更新信息统计的详细步骤,今天正好有空对更新统计信息日志了一些基本的分析,也算是大致了解了更新统计信息的内部原理了吧,以下内容对更新统计信息的步骤做了一些简化,希望没有不小心剔除掉...
  • (1)安装前环境检查 ...Piwik要求Nginx或Apache或IIS服务器(选用Nginx) 安装前请检查Linux是否内置了PHP5.4及以下版本,否则安装会出错 如果不是要求版本则逐个卸载后,按后续步骤重新安装 [root@we
  • 导读当我们拿到一些数据,首先要做的就是对它们进行基本描述统计分析,例如均值、中位数、方差等。SPSS中基本统计分析包括频数分析、描述性统计分析、探索分析、列联表分析等。这节先来介绍前两种SPSS操作过程...
  • 一、需求分析: 根据老师提供项目“英文词频统计分析可知需求有一下几项。...这些都是通过英文词频统计软件来对近十几年试卷所做的一个统计。 2.词频词频统计需要实现几个基本功能有:可任意读取英文文...

空空如也

空空如也

1 2 3 4 5 ... 18
收藏数 347
精华内容 138
关键字:

做统计分析的步骤