精华内容
下载资源
问答
  • 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。 是在...
  • 多层回归模型简介

    万次阅读 2015-04-08 14:57:52
    多层回归模型简介 多层回归模型(Multi-level model)中有很多容易混淆的概念,因为很多概念是来源于不同的专业背景。首先让我们先罗列这些名词进行区分,再来R语言来举例。 多层回归模型通常涉及到对同一...
    多层回归模型简介 
    
    多层回归模型(Multi-level model)中有很多容易混淆的概念,因为很多概念是来源于不同的专业背景。首先让我们先罗列这些名词进行区分,再来R语言来举例。

    多层回归模型通常涉及到对同一个体进行反复测量,这样得到的数据就不再相互独立而是存在某种相关性,所以普通线性回归不再适用。当这种反复测量是在不同时点上进行时,这就称为 面板数据分析(panel data analysis)或者 纵向数据分析(longitudinal data analysis)。


    Fixed Effect:固定效应,也就是普通线性回归中处理的预测变量,它在模型中对响应变量的期望造成影响,其因子水平包含明确的信息,通常是在实验中加以控制的因素。

    Random Effect:随机效应,也就是一个随机变量,估计它是没有意义的。它在模型中对响应变量的方差造成影响,其因子水平包含信息不清楚,通常在实验中无法控制的因素,例如在面板数据分析中,不同的个体差异就是随机效应。

    Mix effect model:混合效应模型,模型中包含了fixed effect和random effect,根据random effect的影响,又区别为对模型截距的影响(random intercept)和对模型截距与斜率的影响(random intercept and slope)。

    假设一个面板数据中个体之间存在差异,那么它是一个random effect。它的影响分两种情况,一种是只影响截距,即是它与模型中其它预测变量相加,如果对不同个体分别作线性回归,那么得到回归线截距会不同,但回归线平行,此时又称为 固定效应回归模型(Fixed Effects Regression Model)。另一种同时影响模型截距与斜率,是指它还与其它变量相乘,那么分别得到的回归线截距和斜率都不同,此时又称为 随机效应模型(Random Effects Regression Model)

    如果模型中不考虑random effect,也就是认为个体和时间都没有显著性差异,此时模型退化为 混合估计模型(Pooled Regression Model),此时可以直接把面板数据混合在一起用普通线性回归估计参数。

    下面我们以faraway包中的psid数据来举例,该数据集是对美国人的收入情况进行调查所得到的,其中包括了年龄、教育、性别、时间和个体ID这几个变量,我们希望了解这些因素对收入的影响。
      age educ sex income year person
    1  31   12   M   6000   68      1
    2  31   12   M   5300   69      1
    3  31   12   M   5200   70      1
    4  31   12   M   6900   71      1
    5  31   12   M   7500   72      1
    6  31   12   M   8000   73      1

    如果假设认为这些调查对象是同质的,也就是个体间没有差异性,那么可以将数据 完全汇集(complete pooling)到一起,直接利用lm函数进行回归。但这个混合效应模型的同质假设往往不成立,数据汇集导致过度简化。

    另一种思路是假设研究的异质性,将不同的个体分别进行回归,从而得到针对特定个体的估计值,这称为 不汇集(no pooling)。但这种方法导致每个回归所用到的样本减少,从而难以估计统计量的标准差。

    多层回归模型的思路是前两者的折中,所以又称为 部分汇集(partial pooling)。在R语言中我们使用 lme4包中的 lmer函数来完成这项工作。首先载入faraway包以便读取psid数据集,然后加载mgcv包,再将年份数据中心化以方便解释模型,最后用lmer函数进行建模。
    -----------------
    library(faraway)
    library(lme4)
    psid$cyear <- psid$year-78 
    model1=lmer(log(income) ~ cyear*sex +age+educ+(cyear|person),psid) 
    -----------------
    lmer函数使用和lm是类似的,一般变量表示固定效应,括号内竖线右侧的person表示它是一个随机效应,它与模型中其它变量相加,而且与年份cyear变量相乘,影响其斜率。这就是一个随机效应模型。如果认为随机效应只影响模型截距,那么固定效应回归模型可以用下面的公式
    -----------------
    model2=lmer(log(income) ~ cyear*sex +age+educ+(1|person),psid)
    -----------------
    为了判断哪一个模型更为合适,可以使用anova函数,从结果中观察到P值很小,判断应当使用model1
    -----------------
    anova(model1,model2)

    Data: psid
    Models:
    model2: log(income) ~ cyear * sex + age + educ + (1 | person)
    model1: log(income) ~ cyear * sex + age + educ + (cyear | person)
           Df    AIC    BIC  logLik  Chisq Chi Df
    model2  8 3943.9 3987.2 -1963.9              
    model1 10 3805.6 3859.7 -1892.8 142.27      2
           Pr(>Chisq)    
    model2               
    model1  < 2.2e-16 ***
    -----------------

    得到的模型结果还可以用各种泛型函数如summary、predict、resid进行进一步处理。当响应变量不符合正态分布假设时,还可以用 广义多层回归进行(glmer)建模

    参考资料:
    环境与生态统计--R语言的应用
    The R Book
    A_Handbook_of_Statistical_Analyses_Using_R
    Extending_the_Linear_Model_with_R__Generalized_Linear__Mixed_Effects_and_Nonparametric_Regression_Model
    展开全文
  • 多层线性模型的原理

    千次阅读 2020-07-13 11:11:00
    最近要用到HLM模型,把简书上的一篇相关文章转载过来复习一下。原文写于2019.01.08,链接为:https://www.jianshu.com/p/8deb0fd0fba0。《追踪数...

    最近要用到HLM模型,把简书上的一篇相关文章转载过来复习一下。原文写于2019.01.08,链接为:https://www.jianshu.com/p/8deb0fd0fba0。

    《追踪数据分析方法及其应用》是一部介绍追踪数据的分析方法的书,方法包括一元方差分析、多元方差分析、多层线性模型、潜变量增长曲线模型等方面的内容。由于学习的需要我只看了多层线性模型的部分,看之甚浅,请看了这篇文章的人批评指正。

    一、问题

    有时候,我们会拿到多个人在同一个维度不同时期的数据。比如一个班级的小学生,在3年级到6年级时“自我概念”这个指标的变化情况,把这些数据画成一个图,是杂乱无章的。

    我们想知道,有没有一种方法,能够看到这些小朋友的整体变化是怎样的,是什么因素影响了整体变化。

    二、追踪研究中的多层线性模型

    先提出一个假设,假设三年级到六年级的时间,个体自我概念随时间有线性发展的趋势。我们知道,用线性回归可以拟合出一个人、一个维度的变化趋势情况。那用同样的思想,进行两次拟合,是不是就可以把多个人“变成”一个人,然后再分析,就可以拟合得到这个维度的变化趋势呢?

    针对追踪研究所关心的两个问题,建立对应的两水平统计模型。

    (1)第一水平模型

    描述个体某一特征随时间的发展趋势,第一水平模型可以定义为:

    其中代表第i个学生的第j年级所测量的自我概念的观测值,模型假设学生自我概念随着年级有线性变化的趋势。与传统回归方程相比,这个公式中的截距参数和斜率参数是随个体变化的随机变量。表示第一水平随机测量的误差。多层线性模型是服从均值为0、方差为一个定值的正态分布。

    这个模型,把所有学生的特征变化用一个公式表达了出来,把变化量集成在中。

    (2)第二水平模型

    在第一水平模型中,已经假设截距参数和斜率参数是随机变量,在第二模型模型中,我们需要分析这些发展参数是否存在个体之间的差异,假如存在差异,能不能在个体层面上,用个体的特征变量来解释和预测这一差异。最简单的模型(零模型)不加任何预测变量:

    其中,表示截距和斜率的整体均值,用来描述总体情况的变化趋势。到这里,我们可以看到,我们需要的描述总体变化情况的变量,就是。通常假设做如下假设。

    分别表示第一水平模型中随机截距和斜率对应的方差, =,表示第一水平模型中随机截距和斜率对应的协方差。

    如果对于上述第二水平模型的零模型,截距斜率的随机变量都显著,就说明截距和斜率存在显著的个体之间的差异,有必要进一步分析个体特征对个体之间差异的解释。一般将上述第二水平、不含任何预测变量的模型称为无条件增长模型,这一模型主要用来检验个体的增长趋势是否存在差异,是后面条件模型分析的基础。

    假如加入预测变量,那么含有第二水平预测变量的模型可以表示为:

    对于截距,各个变量的意义:

    变量意义

    表示第二水平预测变量取值为0时,第一水平截距的总体均值。比如在这个例子中,表示退缩行为得分为0的女生(性别中的0代表女生)在三年级时的自我概念的平均分

    表示在控制退缩行为这个变量是,男生对女生的截距差异,及男女在初始状态下(三年级)时的差异

    表示在控制性别影响时,退缩行为每变化一个单位,自我概念截距在初始状态(三年级)的差异

    对于斜率,各个变量的意义:

    变量意义

    表示第二水平预测变量取值为0时,第一水平斜率的总体均值。比如在这个例子中,表示退缩行为得分为0的女生(性别中的0代表女生)在三年级时的自我概念的平均斜率

    表示在控制退缩行为这个变量是,男生对女生的变化速度的差异
    表示在控制性别影响时,退缩行为每变化一个单位,自我概念斜率的平均差异

    表示在控制性别和退缩行为后,第一水平模型中随机截距和斜率对应的方差, ,表示第一水平模型中随机截距和斜率对应的协方差。

    三、多层线性模型的参数估计

    多层线性模型的参数估计可以有多种方法,包括迭代广义最小二乘估计(LGLS)、限制性广义最小二乘估计(RIGLS)、贝叶斯估计法、马尔科夫链蒙特卡罗估计法、自助法等等。这里主要介绍极大似然估计法。

    在多水平模型中,常用的极大似然估计的方法主要有两种:

    (1)全息极大似然估计(FML)全息极大似然估计在似然函数中同时包含固定部分参数和随机部分参数。

    (2)限制极大似然估计(RML)限制极大似然估计的似然函数只包含随机部分的参数,固定参数在EM(Expectation Maximum)算法的第二步参数估计过程中得到。

    极大似然估计通过迭代过程估计参数值,常用的迭代算法是EM算法。极大似然估计的所有的性质都是渐进的,只有在大样本时极大似然估计的性质才近似成立,而小样本不一定成立。那么,多大才叫大?学者们的意见也不统一,有的说要100个以上(Long, 1997),有的说要不小于30(Snijders, Bosker, 1999)。

    四、假设检验

    对于多层线性模型,可以通过极大似然估计得到固定部分参数估计结果已经对应的标准误,对于固定部分参数的显著性检验,可以用参数估计值除以标准误,即进行检验(Wald检验),在大样本时近似服从标准正态分布,在较小样本时这一个统计量服从自由度为分布,其中表示第二水平单元的个数,表示模型中预测变量的个数。

    对于随机部分的参数检验,可以近似采用估计得到的方差与标准误的比值,用检验进行检验。但考虑到检验时基于正态假设前提下的检验,所以当样本方差的分布为偏态,尤其是方差较小的情况下,用检验的前提往往不能满足,因此我们通常用卡方检验:

    其中为第j组的回归系数的最小二乘估计,为整体的回归系数估计,为第j组估计得到的样本方差。该卡方检验对应的自由度为,其中表示第二水平单元的个数,表示模型中预测变量的个数。

    参考文献

    刘红云. 追踪数据分析方法及其应用[M]. 教育科学出版社, 2005.

    展开全文
  • 文中分析了数据统计结果,得出石油生产过程中不仅事故隐患数量多而且表现形式复杂,需重点防治的结论,还分析了事故隐患类型的关系结构,得到事故发生的直接隐患和深层隐患,进一步提出事故隐患防治对策体系和治理对策。...
  • 气象要素统计分析系统根据气象业务的需求,通过采集全市所有台站的...该系统采用多层B/S服务器模型设计,层次清晰,便于软件的管理、维护、扩展。该系统自运行以来,为气象决策服务和气候统计分析发挥了积极的作用。
  • 作为第一步,R&B从一个不包含协变量的空模型开始。...要在SPSS中进行估算,请转至分析→混合模型→线性... 出现“指定主题”和“重复”菜单。在此示例中,分组变量是id,因此应将其放在“主题”框中。 ...

    原文链接:http://tecdat.cn/?p=3230

    原文出处:拓端数据部落公众号

    作为第一步,从一个不包含协变量的空模型开始。

    每所学校的截距,β 0J,然后设置为平均,γ 00,和随机误差ü 0J。

    将(2)代入(1)产生

    要在SPSS中进行估算,请转至分析→混合模型→线性...

    出现“ 指定主题”和“重复”菜单。在此示例中,分组变量是id,因此应将其放在“ 主题”框中。

    反复框保持为空。它仅在分析人员想要为重复测量指定协方差模式时使用 。单击继续

    弹出一个新菜单,用于指定模型中的变量。空模型没有自变量,因此将因变量mathach放在适当的框中。

    空模型中的截距被视为随机变化。这不是默认设置,因此单击“ 随机”以获取以下菜单:

    检查“ 包含截距”选项。另外,将id变量带到组合框中。的协方差类型无关时,只有一个随机效应,在这种情况下,随机截距。单击继续

    接下来,单击Statistics以选择其他菜单以选择在输出中报告哪些结果。

    选择参数估计值以报告固定效应的估计值。单击继续,然后单击确定。部分结果如下:

    这些结果对应于R&B中的表4.2。

    下一步是估计一种平均数- 结果模型。

    平均数之结果变项的回归模型

    在估计空模型之后,R&B开发了一种“平均数结果变项的回归”模型,其中将学校级变量meanses添加到截距模型中。该变量反映了每所学校的学生SES平均水平。方程式(1):

    截距可以模拟成一个大平均γ 00,再加上平均得分SES的效应γ 01,加上随机误差ü 0J。

    将(4)代入(1)得到

    要在SPSS估计这个,再去分析→混合模型→直线...。再次出现“ 指定主题”和“重复菜单 ”。将id放在“ 主题”框中,并将“ 重复”框保留为空。

    单击继续。在下一个菜单中,指定依赖变量和独立变量。因变量将是mathach,单个协变量将是均值。

    该meanses变量输入作为固定效应,所以点击固定按钮拉起固定效应菜单。将meanses变量带入Model框并确保选中Include Intercept

    单击继续。接下来,单击“ 随机”以打开“ 随机效应菜单。选中“ 包括截距”以将截距指定为随机,并将分组变量id放在“ 组合”框中。它仅被视为固定效应。该协方差类型又是无关紧要,因为只有一个随机效应,随机截距。

    最后,单击Statistics以选择在输出中报告的内容。选中参数估计值旁边的复选框。

    单击继续,然后单击确定。输出的一部分如下:

    这与R&B中的表4.3相对应。

    下一步是估计随机系数模型。

    随机系数模型

    接下来,R&B提供了一个模型,其中包括学生级别的SES而不是平均SES,并且他们将学生SES的斜率视为随机的。一个复杂因素是R&B以小组平均为中心的学生SES后呈现结果。群体平均中心意味着从每个学生的个人SES中减去每个学生的学校的平均SES。不幸的是,meanses变量编码为-1,0,1,因此只是每个学校平均值的粗略指标。为了更好地估计学校平均值,可以利用SPSS 中的Aggregate命令。

    分组中心变量的第一步是找到每个群集的平均值。转到数据→聚合

    出现“ 聚合数据”菜单。表示每个组的变量称为“中断”变量; 将id放入Break Variable(s)框中。目标是从每所学校获得学生的平均SES分数,因此将ses变量带到“ 变量摘要”框中。默认情况下,SPSS假定用户有兴趣获取每个组的均值,因此无需更改功能。最后,确保选中“ 将聚合变量添加到活动数据集”单选按钮。

    现在,数据中添加了一个新变量ses_mean(不要与三分法混淆)。要完成组平均居中,请从每个ses变量中减去ses_mean。转到变换→计算变量

    在出现的菜单中,创建一个名为grp_ses的目标变量,该变量等于ses减去ses_mean。

    单击确定。现在可以使用以组为中心的SES变量。

    1级方程式如下:

    截距β 0J可以模拟成一个大平均γ 00加上随机误差,ü 0J。类似地,倾斜β 1J可以被建模为具有总平均值γ 10加上随机误差Ú 1J。

    将(7)和(8)组合成(6)产生:

    要在SPSS中估算(9),请转到分析→混合模型→线性。再次出现“ 指定主题”和“重复”菜单。和以前一样,将id放在“ 主题”框中,并将“ 重复”留空。

    单击继续。在下一个菜单中,指定依赖变量和独立变量。因变量是mathach,单个协变量将是grp_ses。

    要指定模型的固定效应,请单击“ 固定”。在“ 固定效应菜单中,将grp_ses变量置于“ 模型”框中,并确保选中“ 包括截距”。

    单击继续,然后单击随机

    在“ 随机效应菜单中,将分组变量id放在“ 组合”框中。此外,因为grp_ses将具有随机斜率,所以必须将其放置在“ 模型”框中。接下来,确保选中Include Intercept,以便允许截距随机变化。最后,存在两个随机效应意味着协方差矩阵G的维数现在是2×2。SPSS中的默认值是假设一个方差分量结构,这意味着随机截距和随机斜率之间没有协方差(参见随机效应ANOVA模型综述中的协方差结构表))。可以放宽该假设,使得协方差是从数据估计的自由参数。为协方差类型指定Unstructured

    单击继续。然后单击“ 统计”以指定输出中显示的内容。检查参数估计值以获得固定效应的结果。

    单击继续,然后单击确定。部分结果如下:

    这些结果对应于R&B中的表4.4。 

    最终的模型R&B呈现的是截距和斜率外部模型。

    非常感谢您阅读本文,有任何问题请在下方留言!

    参考文献

    1.用SPSS估计HLM层次线性模型模型

    2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

    3.基于R语言的lmer混合线性回归模型

    4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

    5.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

    6.使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM

    7.R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化

    8.R语言用线性回归模型预测空气质量臭氧数据

    9.R语言分层线性模型案例

    展开全文
  • R中的统计模型

    千次阅读 2014-04-10 18:07:14
     这一部分假定读者已经对统计方法,特别是回归分析和方差分析有一定的了解。后面我们还会假定读者对广义线性模型和非线性模型也有所了解。R已经很好地定义了统计模型拟合中的一些前提条件,因此我们能构建出一些...

    R中的统计模型

     这一部分假定读者已经对统计方法,特别是回归分析和方差分析有一定的了解。后面我们还会假定读者对广义线性模型和非线性模型也有所了解。R已经很好地定义了统计模型拟合中的一些前提条件,因此我们能构建出一些通用的方法以用于各种问题。R提供了一系列紧密联系的统计模型拟合的工具,使得拟合工作变得简单。正如我们在绪论中提到的一样,基本的屏幕输出是简洁的,因此用户需要调用一些辅助函数来提取细节的结果信息。

     

    1定义统计模型的公式

    下面统计模型的模板是一个基于独立的方差齐性数据的线性模型

     用矩阵术语表示,它可以写成

           

    其中y是响应向量,X是模型矩阵(model matrix)或者设计矩阵(design ma-

    trix)。X的列 是决定变量(determiningvariable)。通常,列都是1,用来定义截距(intercept)项。

     例子

    在给予正式的定义前,举一些的例子可能更容易了解全貌。

    假定y,x,x0,x1,x2,...是数值变量,X是一个矩阵,而A,B,C,...是因子。下

    面的例子中,左边给出公式,右边给出该公式的统计模型的描述。

    y~x

    y~1+x

    二者都反映了y对x的简单线性模型。第一个公式包含了一个隐式的截距项,而第二个则是一个显式的截距项。

    y~0+x

    y~-1+x

    y~x-1                y对x过原点的简单线性模型(也就是说,没有截距项)。

    log(y)~x1+x2          y的变换形式log(y)对x1和x2进行的多重回归(有一个隐式的截距项)。

    y~poly(x,2)

    y~1+x+I(x^2)         y对x的二次多项式回归。第一种是正交多项式(orthogonal polynomial),第二种则显式地注明各项的幂次。

    y~X+poly(x,2)          y利用模型矩阵X和二次多项式项x进行多重回归。

    y~A                 y的单因素方差分析模型,类别由A决定。

    y~A+x               y的单因素协方差分析模型,类别由A决定,协方差项为x。

    y~A*B

    y~A+B+A:B

    y~B%in%A

    y~A/B                y对A和B的非可加两因子方差分析模型(two factor non-additive model)。前两个公式表示相同的交叉分类设计(crossedclassification),后两个公式表示相同的嵌套分类设计(nested classification)。抽象一点说,这四个公式指明同一个模型子空间。

    y~(A+B+C)^2

    y~A*B*C-A:B:C        三因子实验。该模型包括一个主效应(main effects)和两个因子的交互效应(interactions)。这两个公式等价。

    y~A*x

    y~A/x

    y~A/(1+x)-1            在A的各个水平独立拟合y对x的简单线性回归。三个公式的编码不一样。最后一个公式会对A各个水平分别估计截距项和斜率项的。

    y~A*B+Error(C)        一个实验设计有两个处理因素A和B以及因子C决定的误差分层(errorstrata)。如在裂区实验设计(split plotexperiment)中,所有区组(还包括子区组)都由因子C决定的。

    操作符~用来定义R的模型公式(model formula)。一个普通的线性模型式可以表示为

    response~op 1 term 1 op 2 term 2 op 3 term3...

    其中response是一个作为响应变量的向量或者矩阵,或者是一个值为向量/矩阵的表达式。op i是一个操作符。它要么是+要么是-,分别表示在一个模型中加入或者去掉某一项(公式第一项的操作符可选)。term i可以(1)是一个向量,矩阵表达式或者1,(2)因子,(3)是一个由因子,向量或矩阵通过公式操作符连接产生的公式表达式(formula expression)。

    基本上,公式中的项决定了模型矩阵中的列要么被加入要么被去除。1表示截距项,并且默认就已加入模型矩阵,除非显式地去除这一选项。

    公式操作符(formula operators)在效果上和用于程序Glim和Genstat中的Wilkinson&Rogers标记符(notation)相似。一个不可避免的改变是操作符.在R里面变成了:,因为点号在R里面是合法的命名字符。

    这些符号总结如下(参考Chambers&Hastie,1992,p.29):

    Y~M                       Y由模型M解释。

    M 1+M2                    同时包括M 1和M 2项。

    M 1-M2                    包括M 1但排除M 2项。

    M 1:M2                    M1和M 2的张量积(tensor product)。如果两项都是因子,那么将产生“子类”因子(subclasses factor)。

    M 1%in%M2                和M 1:M 2类似,但编码方式不一样。

    M 1*M 2                   M1+M 2+M 1:M 2.

    M 1/M 2                    M1+M 2%in%M1.

    M^n                        M的所有各项以及所有到n阶为止的“交互作用”项

    I(M)                       隔离M。M内所有操作符当一般的运算符处理。并且该项出现在模型矩阵中。

    注意,在常常用来封装函数参数的括弧中的操作符按普通的四则运算法则解

    释。I()是一个恒等函数(identity function),它使得常规的算术运算符可以用在模型公式中。还要特别注意模型公式仅仅指定了模型矩阵的列项,暗含了对参数项的指定。在某些情况下可能不是这样,如非线性模型的参数指定。

     

    1对照

    我们至少要知道模型公式是如何指定模型矩阵的列项的。对于连续变量这是比较简单的,因为每一个变量对应于模型矩阵的一个列(如果模型中包含截距,会在矩阵中列出值都是1的一列)。

    对于一个k-水平的因子A该如何处理呢?无序和有序因子给出的结论是不一样的。对于无序因子,因子第2,...,第k不同水平的指标产生k?1列。(因此隐含的参数设置就是把其他水平和第一个水平的响应程度进行比较)。对于有序因子,k-1列是在1,...,k上的正交项(orthogonal polynomial),并且忽略常数项。

    尽管这里的回答有点复杂,但这不是事情的全部。首先在含有一个因子项的模型中忽略截距项,这一项将会被编入指示所有因子水平的k列中。其次整个行为可以通过options设置参数contrasts而改变。R的默认设置为

    options(contrasts=c("contr.treatment","contr.poly"))

    提这些内容的主要原因是R和S对无序因子采用不同的默认值。S采用Helmert对照。因此,当你需要比较你的结果和某本书上或论文上用SPLUS代码的结果时,你必须设置

    options(contrasts=c("contr.helmert","contr.poly"))

    这是一个经过认真考虑的改变。因为处理对照(treatment contrast)(R默认)对于新手是比较容易理解的。

    这还没有结束,因为在各个模型的各个项中对照方式可以用函数contrasts和C重新设置。

    我们还没有考虑交互作用项:这些交互作用项将会产生各分量项的乘积。

    尽管细节是复杂的,R里面的模型公式在要求不是太离谱的情况下可以产生统计专家所期望的各种模型。提供模型公式的各种扩展特性是让R更灵活。例如,利用关联项而非主要效应的模型拟合常常会产生令人惊讶的结果,不过这些仅仅为统计专家们设计的。

     

    2线性模型

    对于常规的多重模型(multiple model)拟合,最基本的函数是lm()。下面是调

    用它的方式的一种改进版:

    >fitted.model<-lm(formula,data=data.frame)

    例如

    >fm2<-lm(y~x1+x2,data=production)

    将会拟合y对x1和x2的多重回归模型(和一个隐式的截距项)。

    一个重要的(技术上可选)参数是data=production。它指定任何构建这个模型的变量首先必须来自数据框production。这里不需要考虑数据框production是否被绑定在搜索路径中。

     

    3提取模型信息的泛型函数

    lm()的返回值是一个模型拟合结果对象;技术上就是属于类"lm"的一个结果列表。关于拟合模型的信息可以用适合对象类"lm"的泛型函数显示,提取,图示等等。这包括

    add1 coef effects kappa predict residuals

    alias deviance family labels print step

    anova drop1 formula plot proj summary

    其中一些常用的泛型函数可以简洁描述如下。

    anova(object 1,object2)     比较一个子模型和外部模型,并且产生方差分析表。

    coef(object)               提取回归系数(矩阵)。全称:coefficients(object).

    deviance(object)           残差平方和,若有权重可加权。

    formula(object)            提取模型公式信息。

    plot(object)               产生四个图,显式残差,拟合值和一些诊断图。

    predict(object,newdata=data.frame)提供的数据框必须有同原始变量一样标签的变量。结果是对应于data.frame中决定变量预测值的向量或矩阵。

    predict.gam(object,

    newdata=data.frame)        predict.gam()是安全模式的predict()。它可以用于lm,glm和gam拟合对象。在正交多项式作为原始的基本函数并且增加新数据意味着必须使用不同的原始基本函数。

    print(object)                简要打印一个对象的内容。常常隐式使用。

    residuals(object)            提取残差(矩阵),有权重时可加权,省略方式:resid(object)。

    step(object)                 通过增加或者减少模型中的项并且保留层次来选择合适的模型。在逐步搜索过程中,AIC(Akaike信息规范)值最大的模型将会被返回。

    summary(object)             显示较详细的模型拟合结果。

     

    4方差分析和模型比较

    aov(formula,data=data.frame)和函数lm()非常的相似,在泛型函数提取模型信息部分列出的泛型函数同样适用。

    需要注意的是aov()还允许分析多误差层次(multiple error strata)的模型,如

    裂区实验设计(split plot experiments),利用区组内信息进行的平衡不完全区组设

    计(balanced incomplete block design)等。模型公式

    response mean.formula+Error(strata.formula)

    指定了一个多层次实验设计,误差层由strata.formula定义。最简单的情况是,strata.formula是单因素的。它定义了一个双层次的实验,也就是研究在这些因子的水平内或者水平间的实验响应。

    例如,已知所有的决定变量因子,模型公式可以设计如下:

    >fm<-aov(yield~v+n*p*k+Error(farms/blocks),data=farm.data)

    这常常用来描述一个同时含有均值模型v+n*p*k和三个误差层次(“农田之间”,“农田内但在区组之间”和“区组内”)的实验。

     

    方差表的分析实际上是为拟合模型序列(sequence)进行的。在模型序列的特定地方增加特定的项会使残差平方和降低。因此仅仅在正交实验中,模型中增加项的次序是没有影响的。

    在多层实验设计(multistratum experiments)中,程序首先把响应值依次投射到各个误差层次上,并且用均值模型去拟合各个投射。细节内容可以参考Chambers&Hastie(1992)。

    除了使用常规的方差分析表(ANOVA table),你还可以直接用函数anova()来比较两个模型。这种方法更为灵活。

    >anova(fitted.model.1,fitted.model.2,...)

    结果将是一个方差分析表以显示依次加入的拟合模型的差异。需要比较的拟合模

    型常常是等级序列(hierarchical sequence)。这个和默认的设置实际上没有差别,只是使它更容易理解和控制。

     

    5更新拟合模型

    函数update()是一个非常便利的函数。它允许拟合一个比原先模型增加或减少一个项的模型。它的形式是

    >new.model<-update(old.model,new.formula)

    在new.formula中,公式中包含的句点,.,仅仅表示“旧的公式模型中的对应部

    分”。例如

    >fm05<-lm(y~x1+x2+x3+x4+x5,data=production)

    >fm6<-update(fm05,.~.+x6)

    >smf6<-update(fm6,sqrt(.)~.)

    这将分别拟合从数据框production中得到的五个变量的多重回归模型,拟合额外增加一个变量的六个回归量的模型,和进一步对响应值进行平方根变换后的模型拟合。

    注意参数data=在最开始调用模型拟合函数的时候指定。这个信息将会通过拟合模型对象传递给函数update()及其相关者。

    符号.同样可以用在其他情况下,不过含义有点不同。如

    >fmfull<-lm(y~.,data=production)

    它将会拟合响应量y对数据框production中所有变量回归的模型。

    其他研究逐步回归的函数是add1(),drop1()和step()。从字面上就可以看出这些函数的意义,更细节的内容可以参考在线帮助文档。

     

    6广义线性模型

    广义线性建模是线性建模的一种发展,它通过一种简洁而又直接的方式使得线性模型既适合非正态分布的响应值又可以进行线性变换。广义线性模型是基于下面一系列假设前提的:

    (1)有一个有意思的响应变量y和一系列刺激变量(stimulusvariable)x1,x2,...。

    这些刺激变量决定响应变量的最终分布。

    (2)刺激变量仅仅通过一个线性函数影响响应值y的分布。该线性函数称为线性预测器(linear predictor),常常写成

    η=β1x12x2+···+βpxp,

    因此xi当且仅当βi=0时对y的分布没有影响。

    (3)y分布的形式为

     

     

    其中是尺度参数(scale parameter)(可能已知),对所有观测恒定,A是一个先验的权重,假定知道但可能随观测不同有所不同,μ是y的均值。也就是说假定y的分布是由均值和一个可能的尺度参数决定的。

    (4)均值μ是线性预测器的平滑可逆函数(smooth invertible function):

    μ=m(η),η=m-1(μ)=l(μ)

    其中的反函数(inverse function)l()被称为关联函数(link function)。

    这些假定比较宽松,足以包括统计实践中大多数有用的统计模型,同时也足够严谨,使得可以发展参数估计和统计推论(estimation and inference)中一致的方法(至少可以近似一致)。读者如果想了解这方面最新的进展,可以参考McCullagh&Nelder(1989)或者Dobson(1990)。

    6.1族

    R提供了一系列广义线性建模工具,从类型上来说包括高斯(gaussian),二项式,泊松(poisson),逆高斯(inverse gaussian)和伽马(gamma)模型的响应变量分布以及响应变量分布无须明确给定的拟似然(quasi-likelihood)模型。在后者,方差函数(variance function)可以由均值的函数指定,但在其它情况下,该函数可以由响应变量的分布得到。每一种响应分布允许各种关联函数将均值和线性预测器关联起来。这些自动可用的关联函数如下表所示:

    族名字                      关联函数

    Binomial                logit,probit,log,cloglog

    Gaussian                identity,log,inverse

    Gamma                 identity,inverse,log

    inverse.aussian          1/mu^2,identity,inverse,log

    poisson                identity,log,sqrt

    quasi                  logit,probit,cloglog,identity,

    inverse,log,1/mu^2,sqrt

    这些用于模型构建过程中的响应分布,关联函数和各种其他必要的信息统称为广义线性模型的族(family)。

    6.2 glm()函数

    既然响应的分布仅仅通过单一的一个线性函数依赖于刺激变量,那么用于线性模型的机制同样可以用于指定一个广义模型的线性部分。但是族必须以一种不同的方式指定。

    R用于广义线性回归的函数是glm(),它的使用形式为

    >fitted.model<-glm(formula,family=family.generator,data=data.frame)

    和lm()相比,唯一的一个新特性就是描述族的参数family.generator。它其实是一个函数的名字,这个函数将产生一个函数和表达式列表用于定义和控制模型的构建与估计过程。尽管这些内容开始看起来有点复杂,但它们非常容易使用。

    这些名字是标准的。程序给定的族生成器可以参见族部分表格中的“族名”。当选择一个关联函数时,该关联函数名和族名可以同时在括弧里面作为参数设定。在拟(quasi)家族里面,方差函数也是以这种方式设定。

    一些例子可能会使这个过程更清楚。

    gaussian族

    命令

    >fm<-glm(y~x1+x2,family=gaussian,data=sales)

    和下面的命令结果一致

    >fm<-lm(y~x1+x2,data=sales)

    但是效率上,前者差一点。注意,高斯族没有自动提供关联函数设定的选项,因此不允许设置参数。如一个问题需要用非标准关联函数的高斯族,那么只能采用我们后面讨论的拟族。

    二项式族

    考虑Silvey(1970)提供的一个人造的小例子。

    在Kalythos的Aegean岛上,男性居民常常患有一种先天的眼科疾病,并且随着年龄的增长而变的愈明显。现在搜集了各种年龄段岛上男性居民的样本,同时记录了盲眼的数目。数据展示如下:

    Age:20 35 45 55 70

    No.:tested:50 50 50 50 50

    No.:blind:6 17 26 37 44

    我们想知道的是这些数据是否吻合logistic和probit模型,并且分别估计各个模型的LD50,也就是一个男性居民盲眼的概率为50%时候的年龄。

    如果y和n分别是年龄为x时的盲眼数目和检测样本数目,两种模型的形式都为

    y~B(n,F(β01x))

    其中在probit模型中,F(z)=Φ(z)是标准的正态分布函数,而在logit模型(默认)中,F(z)=ez/(1+ez)。这两种模型中,

    LD50=-β0/β1

    ,即分布函数的参数为0时所在的点。

    第一步是把数据转换成数据框,

    >kalythos<-data.frame(x=c(20,35,45,55,70),n=rep(50,5),y=c(6,17,26,37,44))

    在glm()拟合二项式模型时,响应变量有三种可能性:

    (1)如果响应变量是向量,则假定操作二元(binary)数据,因此要求是0/1向量。

    (2)如果响应变量是双列矩阵,则假定第一列为试验成功的次数第二列为试验失败

    的次数。

    (3)如果响应变量是因子,则第一水平作为失败(0)考虑而其他的作为‘成功’(1)考虑。

    这里,我们采用的是第二种惯例。我们在数据框中增加了一个矩阵:

    >kalythos$Ymat<-cbind(kalythos$y,kalythos$n-kalythos$y)

    为了拟合这些模型,我们采用

    >fmp<-glm(Ymat~x,family=binomial(link=probit),data=kalythos)

    >fml<-glm(Ymat~x,family=binomial,data=kalythos)

    既然logit的关联函数是默认的,因此我们可以在第二条命令中省看拟合结果,我们使用

    >summary(fmp)

    >summary(fml)

    两种模型都拟合的很好。为了计算LD50,我们可以利用一个简单

    >ld50<-function(b)-b[1]/b[2]

    >ldp<-ld50(coef(fmp));ldl<-ld50(coef(fml));c(ldp,ldl)

    从这些数据中得到的年龄分别是43.663年和43.601年。

    Poisson模型

    Poisson族默认的关联函数是log。在实际操作中,这一族常常用于拟合计数资料的Poisson对数线性模型。这些计数资料的实际分布往往符合二项式分布。这是一个非常重要而又庞大的话题,我们不想在这里深入展开。它甚至是非-高斯广义模型内容的主要部分。

    有时候,实践中产生的Poisson数据在对数或者平方根转化后可当作正态数据处理。作为后者的另一种选择是,一个Poisson广义线性模型可以通过下面的方式拟合:

    >fmod<-glm(y~A+B+x,family=poisson(link=sqrt),data=worm.counts)

    拟似然模型

    对于所有的族,响应变量的方差依赖于均值并且拥有作为乘数(multiplier)的尺度参数。方差对均值的依赖方式是响应分布的一个特性;例如对于poisson分布Var[y]=μ。

    对于拟似然估计和推断,我们不是设定精确的响应分布而是设定关联函数和方差函数的形式,因为关联函数和方差函数都依赖于均值。既然拟似然估计和gaussian分布使用的技术非常相似,因此这一族顺带提供了一种用非标准关联函数或者方差函数拟合gaussian模型的方法。

    例如,考虑非线性回归的拟合

    y=θ1z1/(z22)+e

    同样还可以写成

    y=1/(β1x12x2)+e

    其中x1=z2/z1,x2=-1/x11=1/θ1 andβ221。假如有适合的数据框,我们可以如下进行非线性拟合

    >nlfit<-glm(y~x1+x2-1,

    family=quasi(link=inverse,variance=constant),

    data=biochem)

    如果需要的话,读者可以从其他手册或者帮助文档中得到更多的信息。

     

    7非线性最小二乘法和最大似然法模型

    特定形式的非线性模型可以通过广义线性模型(glm())拟合。但是许多时候,我们必须把非线性拟合的问题作为一个非线性优化的问题解决。R的非线性优化程序是optim(),nlm()和nlminb()(自R2.2.0开始)。二者分别替换SPLUS的ms()和nlminb()但功能更强。我们通过搜寻参数值使得缺乏度(lack-of-fit)指标最低,如nlm()就是通过循环调试各种参数值得到最优值。和线性回归不同,程序不一定会收敛到一个稳定值。nlm()需要设定参数搜索的初始值,而参数估计是否收敛在很大程度上依赖于初始值设置的质量。

    7.1最小二乘法

    拟合非线性模型的一种办法就是使误差平方和(SSE)或残差平方和最小。如果观测到的误差极似正态分布,这种方法是非常有效的。

    下面是例子来自Bates&Watts(1988),51页。具体数据是:

    >x<-c(0.02,0.02,0.06,0.06,0.11,0.11,0.22,0.22,0.56,0.56,1.10,1.10)

    >y<-c(76,47,97,107,123,139,159,152,191,201,207,200)

    被拟合的模型是:

    >fn<-function(p)sum((y-(p[1]*x)/(p[2]+x))^2)

    为了进行拟合,我们需要估计参数初始值。一种寻找合理初始值的办法把数据图形化,然后估计一些参数值,并且利用这些值初步添加模型曲线。

    >plot(x,y)

    >xfit<-seq(.02,1.1,.05)

    >yfit<-200*xfit/(0.1+xfit)

    >lines(spline(xfit,yfit))

    当然,我们可以做的更好,但是初始值200和0.1应该足够了。现在做拟合:

    >out<-nlm(fn,p=c(200,0.1),hessian=TRUE)

    拟合后,out$minimum是误差的平方和(SSE),out$estimate是参数的最小二乘估计值。为了得到参数估计过程中近似的标准误(SE),我们可以:

    >sqrt(diag(2*out$minimum/(length(y)-2)*solve(out$hessian)))

    上述命令中的2表示参数的个数。一个95%的信度区间可以通过±1.96 SE计算得到。我们可以把这个最小二乘拟合曲线画在一个新的图上:

    >plot(x,y)

    >xfit<-seq(.02,1.1,.05)

    >yfit<-212.68384222*xfit/(0.06412146+xfit)

    >lines(spline(xfit,yfit))

    标准包stats提供了许多用最小二乘法拟合非线性模型的扩充工具。我们刚刚拟合过的模型是Michaelis-Menten模型,因此可以利用下面的命令得到类似的结论。

    >df<-data.frame(x=x,y=y)

    >fit<-nls(y~SSmicmen(x,Vm,K),df)

    >fit

    Nonlinear regression model

    model:         y~SSmicmen(x,Vm,K)

    data:          df

    Vm                K

    212.68370711      0.06412123

    residual sum-of-squares:    1195.449

    >summary(fit)

    Formula:  y~SSmicmen(x,Vm,K)

    Parameters:

    Estimate   Std.Error    tvalue      Pr(>|t|)

    Vm      2.127e+02 6.947e+00   30.615     3.24e-11

    K       6.412e-02  8.281e-03    7.743     1.57e-05

    Residual standard error: 10.93 on 10degrees of freedom

    Correlation of Parameter Estimates:

    Vm

    K 0.7651

    7.2最大似然法

    最大似然法(Maximum likelihood)也是一种非线性拟合方法。它甚至可以用在误差非正态的数据中。这种方法估计的参数将会使得对数似然值最大或者负的对数似然值最小。下面的例子来自Dobson(1990),pp.:108–111。这个例子对剂量-响应数据拟合logistic模型(当然也可以用glm()拟合)。数据是:

    >x<-c(1.6907,1.7242,1.7552,1.7842,1.8113,1.8369,1.8610,1.8839)

    >y<-c(6,13,18,28,52,53,61,60)

    >n<-c(59,60,62,56,63,59,62,60)

    要使负对数似然值最小,则:

    >fn<-function(p)

    sum(-(y*(p[1]+p[2]*x)-n*log(1+exp(p[1]+p[2]*x))+log(choose(n,y))))

    我们选择一个适当的初始值,开始拟合:

    >out<-nlm(fn,p=c(-50,20),hessian=TRUE)

    拟合后,out$minimum就是负对数似然值,out$estimate就是最大似然拟合的参数值。为了得到拟合过程近似的标准误,我们可以:

    >sqrt(diag(solve(out$hessian)))

    参数估计的95%信度期间可由估计值±1.96 SE计算得到。

     

    8一些非标准模型

    我们简单提一下R里面某些用于某些特殊回归和数据分析问题的工具。

    (1)混合模型(Mixed models)。用户捐献包nlme里面提供了函数lme()和nlme()。这些函数可以用于混合效应模型(mixed-effects models)的线性和非线性回归。也就是说在线性和非线性回归中,一些系数受随机因素的影响。这些函数

    需要充分利用公式来描述模型。

    (2)局部近似回归(Localapproximating regressions)。函数loess()利用局部加权回归进行一个非参数回归。这种回归对显示一组凌乱数据的趋势和描述大数据集的整体情况非常有用。函数loess和投影跟踪回归(projection pursuit regression)的代码一起放在标准包stats中。

    (3)稳健回归(Robustregression)。有多个函数可以用于拟合回归模型,同时尽量不受数据中极端值的影响。在推荐包MASS中的函数lqs为高稳健性的拟合提供了最新的算法。另外,稳健性较低但统计学上高效的方法同样可以在包MASS中得到,如函数rlm。

    (4)累加模型(Additive models)。这种技术期望可以通过决定变量的平滑累加函数(smooth additive function)构建回归函数。一般来说,每个决定变量都有一个平滑累加函数。用户捐献的包acepack里面的函数avas和ace以及包mda里面的函数bruto和mars为这种技术提供了一些例子。这种技术的一个扩充是用户捐献包gam和mgcv里面实现的广义累加模型。

    (5)树型模型(Tree-basedmodels)。除了利用外在的全局线性模型预测和解释数据,还可以利用树型模型递归地在决定性变量的判断点上将数据的分叉分开。这样做会把数据最终分成几个不同组,使得组内尽可能相似而组间尽可能差异。这样常常会得到一些其他数据分析方法不能产生的的信息。模型可以用一般的线性模型形式指定。该模型拟合函数是tree(),而且许多泛型函数,如plot()和text()都可以很好的用于树型模型拟合结果的图形显示。R里面的树型模型函数可以通过用户捐献的包rpart和tree得到。

     

    展开全文
  • 1. 数据分析多层模型介绍 这个金字塔图像是数据分析多层模型,从下往上一共有六层: 底下第一层称为Data Sources 元数据层。 比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也...
  • 应用概率统计方法对钢筋和混凝土强度以及墙板厚度、保护层厚度、箍筋间距等几何参数进行了统计分析,给出了钢筋和混凝土强度以及构件尺寸特征的统计参数和概率分布模型,并分析了其设计水平和施工建成水平的差异....
  • 本文档用于比较六个不同统计软件程序(SAS,Stata,HLM,R,SPSS和Mplus)的两级分层线性模型的过程和输出。
  • 使得三维模型具有平移、缩放、旋转的不变性,然后将三维模型映射到多个扩展高斯球面上,统计各个高斯球面网格上的法向面积分布,并对该分布作球面调和分析得到三维模型的特征描述向量.实验结果表明该方法查全一查准...
  • R语言与统计分析

    万次阅读 2015-12-16 11:20:29
    R语言与统计分析 汤银才 主编 高等教育出版社 二○○八年五月 内容介绍 本书以数据的常用统计分析方法为基础,在简明扼要地阐述统计学基本概 念、基本思想与基本方法的基础上,讲述与之相对应的R函数的实现,...
  • 1、HLM运行只运行到一半,报错:无法继续,Matrix Vtheta1 is not ...现在查到线索说是《分层线性模型层-1自变量中心化问题研究综述》何晓群,文献中有详细的说明,正在跟踪。 问题原因已找到,确实是因为数据未中心化
  • mac上好用的数据统计分析工具spss26

    千次阅读 2020-09-04 16:30:10
    IBM SPSS Statistics26中文破解版是一款来自国外的专业化数据统计分析工具,能够帮助用户轻松地在软件界面统计各种行业的数据,软件还支持对数学数据进行统计,支持多工程数据统计,软件便捷好用,让用户可以轻松...
  • (R语言)R的统计模型

    万次阅读 多人点赞 2015-04-08 09:03:36
    1定义统计模型的公式 下面统计模型的模板是一个基于独立的方差齐性数据的线性模型  用矩阵术语表示,它可以写成   其中y是响应向量,X是模型矩阵(model matrix)或者设计矩阵(design ma- trix)。X的列 ...
  • 多层(等级)线性模型 将BDI,年龄和性别包括在内作为固定效果预测指标。 选择 ,然后通过从变量列表中选择Clinic并将其拖动到标有Subjects的框中来指定 变量(或单击)。 单击以移至主对话框 。首先,我们必须指定...
  • spss统计分析基础教程(上)--自学

    千次阅读 2020-08-11 10:52:31
    #第二章 SPSS统计分析前准备 ##2.1数据文件的建立 新建数据文件 直接打开已有数据文件 利用数据库导入数据 文本向导导入数据
  • 数据分析(一)基本模型与概念

    千次阅读 2019-01-14 10:10:39
    数据分析(一)基本模型与概念基本模型数据分析模型文本分析模型主要概念数据分析数据挖掘推荐系统社交网络文本分析 基本模型 在本系列中所谈及的数据分析主要是指最基础、最常见的技术操作,以及与文本挖掘、自然...
  • SSD模型分析

    万次阅读 2017-10-12 13:36:41
    这篇文章在既保证速度,又要保证精度的情况下,提出了 SSD 物体检测模型,与现在流行的检测模型一样,将检测过程整个成一个 single deep neural network。便于训练与优化,同时提高检测速度。SSD 将输出一系列  ...
  • 神经网络模型也是近些年大火的人工智能行业基础算法,SPSS软件中支持训练出多层感知器神经网络模型,今天我们一起来看看它是如何通过该专业统计分析软件训练出来的。 一、多层感知器总体介绍 我们准备好训练集数据...
  • 《复杂网络与大数据》第二章:复杂网络模型的学习笔记 目录 1动态演化网络 1.1以网络演化的部件划分 1.2以是否考虑权重划分 1.3以演化网络采用的演化机制划分 1.4以演化网络是否动态变化划分 2社区网络 2.1...
  • R学习 R编程语言在统计人员和数据挖掘人员之间的易用性以及复杂的可视化方面已经获得了相当的普及。随着深度学习时代的到来,对R的深度学习的支持不断增长,随着越来越多的软件包的推出,本节提供以下软件包提供的...
  • 第三部分 隐马尔科夫模型与词类标注1.定义:如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。 2.词类标注...
  • 建立了汽车的统计能量分析模型,进行仿真与实验的误差分析,验证了所建模型的有效性,然后选取四层吸声材料布置于乘员舱顶棚,采用优化拉丁方法,以其厚度为设计变量,为降低驾驶员耳旁噪声和满足汽车结构轻量化和低...
  • 第一章 绪论1.1 论文的选题背景以往的基于数理统计方法的应用大多都是通过专用程序来实现的,我们知道,大多数的统计分析技术是基于严格的数学理论和高超的应用技巧的,这使得一般的用户很难从容地掌握它。...
  • 上一节把OLS最重要的一个表格解释完了,下面我们继续来解释OLS结果的其他内容。...首先要注意的是,OLS对自变量的分布是不是正态的,并不关心,但是如果Jarque-Bera统计量的P值指示,结果出现了偏差(也就是说残差的
  • 工业大数据分析综述:模型与算法

    千次阅读 2018-12-13 13:03:18
    工业大数据分析综述:模型与算法王宏志,梁志宇,李建中,高宏哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 150001摘要:随着条形码、二维码、RFID、工业传感器...
  • 8.1 系统评价决策模型概论 8.1.1 问题的引入 8.1.2 系统评价决策模型的基本概念 8.1.3 系统评价决策模型的要素 8.1.4 系统评价决策模型的...8.2 案例分析-汽车选购 8.2.1 问题引入 8.2.2 决策矩阵的规范化 ...
  • 为了解北京市住宅建筑物化环境影响情况,建立了一个环境影响评价模型。基于已有的建材环境清单数据库,针对6种建材:水泥、钢材、木材、玻璃、铝材和PVC管材,调查了目前北京市住宅建筑中主要建筑材料的使用情况,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 17,064
精华内容 6,825
热门标签
关键字:

多层统计分析模型