精华内容
下载资源
问答
  • 常用数据分析方法

    千次阅读 2019-02-21 15:06:08
    数据分析师工作中会根据变量的不同采用不同的数据分析方法,我们常用的数据分析方法包括 聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析, 可以着重研究这6个分析方法, 但是常用的数据分析方法不止...

    数据分析师工作中会根据变量的不同采用不同的数据分析方法,我们常用的数据分析方法包括

    聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析, 可以着重研究这6个分析方法,

    但是常用的数据分析方法不止这6个,下面分别介绍下常用的16个分析方法。

     

     

    一、描述统计

    描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

    2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1、参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。

    1)U检验   使用条件:当样本含量n较大时,样本值符合正态分布

    2)T检验    使用条件:当样本含量n较小时,样本值符合正态分布

    A??单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B??配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    2、非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    检査测量的可信度,例如调查问卷的真实性。

    分类:

    1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    用于分析离散变量或定型变量之间是否存在相关。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

     

    七、回归分析

    研究一个随机变量Y对另一个(X)或一组变量的相依关系的统计分析方法。回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析

    分类:

    1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2、多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法:

    A 残差检验: 观测值与估计值的差值要服从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3、Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1、性质分类:

    Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

    R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2、方法分类:

    1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

    2)逐步聚类法 :适用于大样本的样本聚类

    3)其他聚类法 :两步聚类、K均值聚类等

    九、判别分析

    1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

    2、与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    3、进行分类 :

    1)Fisher判别分析法 :

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

    适用于多类判别。

    2)BAYES判别分析法 :

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。其主要思想是降维,将n维特征映射到k维上(k<n),k维是全新的正交特征。这个k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。 

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

    十一、因子分析

    因子分析是指研究从变量群中提取共性因子的统计技术,从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法、最大似然法、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,以相关系数矩阵为基础。在社会学研究中,因子分析常采用以主成分分析为基础的反复法。

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

    与主成分分析比较:

    相同:都能够起到分析多个原始变量内在结构关系的作用;

    不同:主成分分析重在综合原始变量的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法

    1、包含内容:

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2、方法:

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变量之间的关系,而典型相关分析是分析两组变量如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

    用途:

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    用途 ;

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    展开全文
  • 数据分析方法有很多,总的来说,可分为以下几类。 一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值...

    数据分析的方法有很多,总的来说,可分为以下几类。

    一、描述统计

    描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

    2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1、参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。

    1)U验   使用条件:当样本含量n较大时,样本值符合正态分布

    2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布

    A  单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B  配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    2、非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    检査测量的可信度,例如调查问卷的真实性。

    分类:

    1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    用于分析离散变量或定型变量之间是否存在相关。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

    七、回归分析

    分类:

    1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2、多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法:

    A 残差检验: 观测值与估计值的差值要艰从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3、Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1、性质分类:

    Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

    R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2、方法分类:

    1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

    2)逐步聚类法 :适用于大样本的样本聚类

    3)其他聚类法 :两步聚类、K均值聚类等

    九、判别分析

    1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

    2、与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    3、进行分类 :

    1)Fisher判别分析法 :

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

    适用于多类判别。

    2)BAYES判别分析法 :

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

    十一、因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

    与主成分分析比较:

    相同:都能够起到済理多个原始变量内在结构关系的作用

    不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

    1、包含内容:

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2、方法:

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

    用途:

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    用途 ;

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    展开全文
  • 常用数据分析方法总结

    千次阅读 2019-11-02 14:06:23
    最近优化一个画像产品,用到一些数据分析方法,这里总结一下。 主要参考:https://www.jianshu.com/p/809fb2261b23,补充一些细节 一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对...

    最近优化一个画像产品,用到一些数据分析方法,这里总结一下。

    主要参考:https://www.jianshu.com/p/809fb2261b23 ,补充一些细节

    一、描述统计

    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

    1.集中趋势分析

    集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?

    正偏态分布是相对正太分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M>Me>Mo时,即平均数大于中位数,中位数又大于众数,则数据的分布是属于正偏态分布。正偏态分布的特征是曲线的最高点偏向X轴的左边,位于左半部分的曲线比正态分布的曲线更陡,而右半部分的曲线比较平缓,并且其尾线比起左半部分的曲线更长,无限延伸直到接近X轴。

    负偏态分布也是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M<Me<Mo时,即平均数小于中数,中数又小于众数,则数据的分布是属于负偏态分布。负偏态分布的特征是曲线的最高点偏向X轴的右边,位于右半部分的曲线比正态分布的曲线更陡,而左半部分的曲线比较平缓,并且其尾线比起右半部分的曲线更长,无限延伸直到接近X轴。

    用偏度系数反映数据分布偏移中心位置的程度,记为SK:

    SK= (均值一中位数)/标准差.

    在正态分布条件下,由于均值等于中位数,所以偏度系数等于0。当偏度系数大于0时,则为正偏态;当偏度系数小于0时,则为负偏态

    2.离中趋势分析

    离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。

    全距是用来表示统计资料中的变异量数,其最大值与最小值之间的差距

    四分差,quartile deviation。它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。Q = Q3-Q1

    平均差(Mean Deviation)是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算数平均数。

    3.相关分析

    相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。

    实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。

    例如,我们想知道对监狱情景进行什么改造,可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后让每个囚室一种实验处理,然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。

    假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。然后,我们将人口密度排入X轴,将暴力倾向分排入Y轴,获得了一个很有价值的图表,当某典狱长想知道,某囚舍扩建到N人/间囚室,暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。

    4.推论统计

    推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。

    例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显著高于初中毕业生组的成绩,二者在0.01水平上具有显著性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”

    5.正态性检验

    很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。

    常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1.参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。

    1)U验 :使用条件:当样本含量n较大时,样本值符合正态分布

    u检验是一种用来评估两个独立的顺序数据样本是否来自同一个总体的非参数检验

    2)T检验:使用条件:当样本含量n较小时,样本值符合正态分布

    A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    补充:

    在概率学和统计学中,t-分布t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。假设X服从标准正态分布N(0,1),Y服从分布,那么的分布称为自由度为n的t分布,记为,t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。随着自由度逐渐增大,t分布逐渐接近标准正态分布。标准正态分布,又称作u分布。所以,u分布是t分布的极限。

    u检验和t检验可用于样本均数与总体均数的比较以及两样本均数的比较。理论上要求样本来自正态分布总体。但在实用时,只要样本例数n较大,或n小但总体标准差σ已知时,就可应用u检验;n小且总体标准差σ未知时,可应用t检验,但要求样本来自正态分布总体。两样本均数比较时还要求两总体方差相等。

    比较的目的是推断样本所代表的未知总体均数μ与已知总体均数μ0有无差别。通常把理论值、标准值或经大量调查所得的稳定值作为μ0.根据样本例数n大小和总体标准差σ是否已知选用u检验或t 检验。

    若样本含量n较大,或n虽小但总体方差σ2已知,用u检验。u检验以u分布为基础,u分布是t分布的极限分布,当样本含量凡较大时(如n>60),t分布近似u分布,t检验等同u检验。u分布和u检验也称z分布和z检验。u检验统计量公式为

    式中,为样本均数;μ0为已知总体均数;n为样本含量;为标准差的估计值;为标准差的理论值。

    在成组设计的两样本均数比较的统计量u值计算中,需计算出两样本均数差的标准差,因此统计量u的计算公式为:

    t检验可分为单总体检验和双总体检验,以及配对样本检验

    单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。T检验的前提是样本总体服从正态分布。

    当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计分布呈t分布。

    单总体t检验统计量为:

    双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是独立样本t检验(各实验处理组之间毫无相关存在,即为独立样本),该检验用于检验两组非相关样本被试所获得的数据的差异性;一是配对样本t检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。

    1)独立样本t检验统计量为:

    (2)配对样本检验

    当我们计算出对应的t/u统计量,查表即可。所以,本质t检验和u检验是一致的,只是一个采用样本均值和已知样本均值的离差统计分布成u分布,一个采用样本均值和已知样本均值离差统计分布呈t分布。

    2.非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一致性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。

    1.方法

    1)重测信度法编辑:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。

    2)复本信度法编辑:让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。

    3)折半信度法编辑:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。

    在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表(李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。)。

    进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)。

    4)α信度系数法:α信度系数是目前最常用的信度系数,其公式为:

    α=(k/(k-1))*(1-(∑Si^2)/ST^2)

    其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。

    总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。用于检査测量的可信度,例如调查问卷的真实性。

    2.分类

    1)外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2)内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。

    1.简介

    若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。

    列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。用于分析离散变量或定型变量之间是否存在相关。

    列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1)的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。

    2.需要注意

    若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1)单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2)复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3)偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    1.分类

    1)单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2)多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3)多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4)协方差分析:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。

    七、回归分析

    1.一元线性回归分析

    只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2.多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式

    选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法

    A 残差检验:观测值与估计值的差值要艰从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例

    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3.Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4.其他回归方法

    非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    聚类与分类的不同在于,聚类所要求划分的类是未知的。

    聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

    从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

    1.定义

    依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。

    各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。

    变量类型:定类变量、定量(离散和连续)变量

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    2.性质分类

    Q型聚类分析:对样本进行分类处理,又称样本聚类分析使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等。

    R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等。

    3.方法分类

    1)系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类。

    2)逐步聚类法:适用于大样本的样本聚类。

    3)其他聚类法:两步聚类、K均值聚类等。

    九、判别分析

    1.判断分析

    根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。

    2.与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本。

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类。

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。

    3.进行分析

    1)Fisher判别分析法

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于多类判别。

    2)BAYES判别分析法

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

    主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

    1.原理

    在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

    设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。

    2.缺点

    1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

    2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

    十一、因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。

    与主成分分析比较:

    相同:都能够起到治理多个原始变量内在结构关系的作用

    不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间序列的要素有两个:

    其一是时间;

    其二是与时间相对应的变量水平。

    实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律,因而可以从时间序列中找出变量变化的特征、趋势以及发展规律,从而对变量的未来变化进行有效地预测。

    时间序列的变动形态一般分为四种:长期趋势变动,季节变动,循环变动,不规则变动。

    1.时间序列预算法的应用

    系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述;

    系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;

    预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值;

    决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。

    2.特点

    假定事物的过去趋势会延伸到未来;

    预测所依据的数据具有不规则性;

    撇开了市场发展之间的因果关系。

    时间序列分析预测法是根据市场过去的变化趋势预测未来的发展,它的前提是假定事物的过去会同样延续到未来。事物的现实是历史发展的结果,而事物的未来又是现实的延伸,事物的过去和未来是有联系的。市场预测的时间序列分析法,正是根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。市场预测中,事物的过去会同样延续到未来,其意思是说,市场未来不会发生突然跳跃式变化,而是渐进变化的。

    时间序列分析预测法的哲学依据,是唯物辩证法中的基本观点,即认为一切事物都是发展变化的,事物的发展变化在时间上具有连续性,市场现象也是这样。市场现象过去和现在的发展变化规律和发展水平,会影响到市场现象未来的发展变化规律和规模水平;市场现象未来的变化规律和水平,是市场现象过去和现在变化规律和发展水平的结果。

    需要指出,由于事物的发展不仅有连续性的特点,而且又是复杂多样的。因此,在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平,不一定与其历史和现在的发展变化规律完全一致。随着市场现象的发展,它还会出现一些新的特点。因此,在时间序列分析预测中,决不能机械地按市场现象过去和现在的规律向外延伸。必须要研究分析市场现象变化的新特点,新表现,并且将这些新特点和新表现充分考虑在预测值内。这样才能对市场现象做出既延续其历史变化规律,又符合其现实表现的可靠的预测结果。

    ②时间序列分析预测法突出了时间因素在预测中的作用,暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置,没有时间序列,就没有这一方法的存在。虽然,预测对象的发展变化是受很多因素影响的。但是,运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然起作用,并未去分析探讨预测对象和影响因素之间的因果关系。因此,为了求得能反映市场未来发展变化的精确预测值,在运用时间序列分析法进行预测时,必须将量的分析方法和质的分析方法结合起来,从质的方面充分研究各种因素与市场的关系,在充分分析研究影响市场变化的各种因素的基础上确定预测值。

    需要指出的是,时间序列预测法因突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化,往往会有较大偏差,时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观事物,尤其是经济现象,在一个较长时间内发生外界因素变化的可能性加大,它们对市场经济现象必定要产生重大影响。如果出现这种情况,进行预测时,只考虑时间因素不考虑外界因素对预测对象的影响,其预测结果就会与实际状况严重不符。

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

    1.包含内容

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2.方法

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变量之间的关系,而典型相关分析是分析两组变量(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、ROC分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。

    1.用途

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分析、项目分析、对应分析、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    决策树分析与随机森林:尽管有剪枝等等方法,一棵树的生成肯定还是不如多棵树,因此就有了随机森林,解决决策树泛化能力弱的缺点。(可以理解成三个臭皮匠顶过诸葛亮)

    决策树(Decision

    Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

    分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

    优点:决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。

    对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

    易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。

    缺点:对连续性的字段比较难预测;对有时间顺序的数据,需要很多预处理的工作;当类别太多时,错误可能就会增加的比较快;一般的算法分类的时候,只是根据一个字段来分列。

    展开全文
  • 目录 为了便于总结,这些方法已经被归类成了不同的类型 1、街灯讹方法 2、随机变动讹方法 3、责怪他人讹方法 4、AdHoc核对清单法 ...9、USE方法 ...11、向下挖掘分析 ...12、延时分析 ... 观测分析 .

    目录

    为了便于总结,这些方法已经被归类成了不同的类型

    1、街灯讹方法

    2、随机变动讹方法

    3、责怪他人讹方法

    4、AdHoc核对清单法

    5、问题陈述法

    6、科学法

    7、诊断循环

    8、工具法

    9、USE方法

    10、工作负载特征归纳

     11、向下挖掘分析

    12、延时分析

    13、R方法

    14、事件跟踪

    15、基础线统计

    16、静态性能调整

    17、缓存调优

    18、微基准测试


    为了便于总结,这些方法已经被归类成了不同的类型

    方法 类型
    街灯讹方法 观测分析
    随机变动讹方法 实验分析
    责怪他人讹方法 假设方法
    AdHoc核对清单法 观测与实验分析
    问题陈述法 信息收集
    科学法 观测分析
    诊断循环 生命周期分析
    工具法 观测分析
    USE方法 观测分析
    工作负载特征归纳    观测分析、容量规划
    向下挖掘分析 观测分析
    延时分析 观测分析
    R方法 观测分析
    事件跟踪 观测分析
    基础线统计 观测分析
    性能监控 观测分析、容量规划
    排队论

    统计分析、容量规划

    静态性能调整 观测分析、容量规划
    缓存调优 观测分析、调优
    微基准测试 实验分析
    容量规划 容量规划、调优

    1、街灯讹方法

    这个方法实际并不是一个深思熟虑的方法。用户选择熟悉的观测工具来分析性能,这些工具可能是从互联网上找到的,或者是用户随意选择的,仅仅想看看会有什么结果出现。这样的
    方法可能命中问题,也可能忽视很多问题。
    性能调整可以用一种试错的方式反复摸索,对所知道的可调参数进行设置,熟悉各种不同
    的值,看看是否有帮助。
    这样的方法也能揭示问题,但当你所熟悉的工具及所做的调整与问题不相关时,进展会很缓慢。这个方法用一类观测偏差来命名,这类偏差叫做街灯效应,出自下面这则寓言:
    一天晚上,一个警察看到一个醉汉在路灯下的地面上找东西,问他在找什么。醉汉回答说他钥匙丢了。警察看了看也找不到,就问他:“你确定你钥匙是在这儿丢的,就在路灯下?”醉汉说:“不,但是这儿的光是最亮的”
    这相当于查看top(1),不是因为这么做有道理,而是用户不知道怎么使用其他工具。
    用这个方法找到的问题可能是真的问题,但未必是你想要找的那个。有一些其他的方法可
    以衡量发现的结果,能很快地排除这样的“误报”。

    2、随机变动讹方法

    这是一个实验性质的讹方法。用户随机猜测问题可能存在的位置,然后做改动,直到问题消失。为了判断性能是否已经提升,或者作为每次变动结果的判断,用户会选择一项指标进行研究,诸如应用程序运行时间、延时、操作率(每秒操作次数),或者吞吐量(每秒的字节数)。
    整个方法如下:
    1.任意选择一个项目做改动(例如,一项可变参数)。
    2.朝某个方向做修改。
    3.测量性能。
    4.朝另一个方向修改。
    5.测量性能。
    6.步骤3或步骤5的结果是不是要好于基准值?如果是,保留修改并返回步骤1。
    这个过程可能最终获得的调整仅适用于被测的工作负载,方法非常耗时而且可能做出的调整不能保持长期有效。例如,一个应用程序的改动规避了一个数据库或者操作系统的bug,其结果是可以提升性能,但是当这个bug被修复后,程序这样的改动就不再有意义,关键是没有
    人真正了解这件事情。

    做不了解的改动还有另一个风险,即在生产负载的高峰期可能会引发更恶劣的问题,因此还需为此准备一个回退方案。

    3、责怪他人讹方法

    这个讹方法包含以下步骤:
    1.找到一个不是你负责的系统或环境的组件。
    2.假定问题是与那个组件相关的。
    3.把问题扔给负责那个组件的团队。
    4.如果证明错了,返回步骤1。
    也许是网络问题。你能和网络团队确认一下是不是发生了丢包或其他事情么?
    不去研究性能问题,用这种方法的人把问题推到了别人身上,当证明根本不是别人的问题时,这对其他团队的资源是种浪费。这个讹方法只是一种因缺乏数据而造成的无端臆想。
    为了避免成为牺牲品,向指责的人要屏幕截图,图中应清楚标明运行的是何种工具,输出
    是怎样中断的。你可以拿着这些东西找其他人征求意见。
     

    4、AdHoc核对清单法

    当需要检查和调试系统时,技术支持人员通常会花一点时间一步步地过一遍核对清单。
    个典型的场景,在产品环境部署新的服务器或应用时,技术支持人员会花半天的时间来检查一遍系统在真实压力下的常见问题。该类核对清单是AdHoc的,基于对该系统类型的经验和之
    前所遇到的问题。

    举个例子,这是核对清单中的一项:
    运行 iostat-x  1检查await列。如果该列在负载下持续超过10(ms),那么说明磁盘大慢或是磁盘过载。

    一份核对清单会包含很多这样的检查项目。
    这类清单能在最短的时间内提供最大的价值,是即时建议(参见2.3节)而且需要频繁更新以保证反映当前状态。这类清单处理的多是修复方法容易记录的问题,例如设置可调参数,
    而不是针对源代码或环境做定制的修复。
    如果你管理一个技术支持的专业团队,AdHoc核对清单能有效保证所有人都知道如何检查最糟糕的问题,能覆盖到所有显而易见的问题。核对清单能够写得清楚而又规范,说明了如何辨别每一个问题和如何做修复。不过当然,这个清单应该时常保持更新。

    5、问题陈述法

    明确问题如何陈述是支持人员开始反映问题时的例行工作。通过询问客户以下问题来完成:

    1.是什么让你认为存在性能问题?
    2.系统之前运行得好吗?
    3.最近有什么改动?软件?硬件?负载?
    4.问题能用延时或者运行时间来表述吗?
    5.问题影响其他的人和应用程序吗(或者仅仅影响的是你)?
    6.环境是怎么样的?用了哪些软件和硬件?是什么版本?是怎样的配置?


    询问这些问题并得到相应的回答通常会立即指向一个根源和解决方案。因此问题陈述法作为独立的方法收录在此处,而且当你应对一个新的问题时,首先应该使用的就是这个方法。

    6、科学法

    科学法研究未知的问题是通过假设和试验。总结下来有以下步骤:

    1.问题
    2.假设
    3.预测
    4.试验
    5.分析

    问题就是性能问题的陈述。从这点你可以假设性能不佳的原因可能是什么。然后你进行试验,可以是观测性的也可以是实验性的,看看基于假设的预测是否正确。最后是分析收集的试验数据。

    举个例子,你可能发现某个应用程序在迁移到一个内存较少的系统时其性能会下降,你假设导致性能不好的原因是较小的文件系统缓存。你可以使用观测的试验方法分别测量两个系统的缓存失效率,预测内存较小的系统缓存失效率更高。用实验的方法可以增加缓存大小(加内存),预测性能将会有所提升。另外,还可以更简单,实验性的测试可以人为地减少缓存的小大(利用可调参数),预计性能将会变差。

    下面还有一些更多的例子。
    示例(观测性)


    1.问题:什么导致了数据库查询很慢?
    2.假设:噪声邻居(其他云计算租户)在执行磁盘1/0,与数据库的磁盘I/O在竞争(通
    过文件系统)。
    3.预测:如果得到在数据库查询过程中的文件系统I/O延时,可以看岀文件系统对于查
    询很慢是有责任的。
    4.试验:跟踪文件系统延时,发现文件系统上等待的时间在整个查询延时中的比例小于5%。
    5.分析:文件系统和磁盘对查询速度慢没有责任。


    虽然问题还没有解决,但是环境里的一些大型的组件已经被排除了。执行调查的人可以回到第2步做一个新的假设。

    示例(实验性)


    1.问题:为什么HTTP请求从主机A到主机C要比从主机B到主机C的时间长?
    2.假设:主机A和主机B在不同的数据中心。
    3.预测:把主机A移动到与主机B—样的数据中心将修复这个问题。
    4.试验:移动主机A并测试性能。
    5.分析:性能得到修复—与假设的一致。


    如果问题没有得到解决,在开始新的假设之前,要恢复之前试验的变动!(对于此例,就
    是把hostA移回去)
     

    示例(实验性)
    问题:为什么随着文件系统缓存尺寸变大,文件系统的性能会下降?
    假设:大的缓存存放更多的记录,相较于较小的缓存,需要花更多的计算来管理。
    预测:把记录的大小逐步变小,使得存放相同大小的数据需要更多的记录,性能会逐渐变差0
    试验:用逐渐变小的记录尺寸,试验同样的工作负载。
    分析:结果绘图后与预测一致。向下分析现在可以研究缓存管理的程序。

    这是一个反向测试一故意损害性能来进一步了解目标系统。

    7、诊断循环

    诊断周期与科学方法相似:

    假设—仪器检验—数据—假设


    就像科学方法一样,这个方法也通过收集数据来验证假设。这个循环强调数据可以快速地引发新的假设,进而验证和改良,以此继续。这与医生看病是很相似的,用一系列小检验来诊断病情,基于每次检验的结果来修正假设。
    上述的两个方法,理论和数据都有很好的平衡。从假设发展到数据的过程很快,那么不好的理论就可尽早地被识别和遗弃,进而开发更好的理论。

    8、工具法

    工具为导向的方法如下:

    1.列出可用到的性能工具(可选的,安装的或者可购买的)。
    2.对于每一个工具,列出它提供的有用的指标。
    3.对于每一个指标,列出阐释该指标可能的规则。

    这个视角的核对清单告诉你哪些工具能用、哪些指标能读,以及怎样阐释这些指标。虽然这相当高效,只依赖可用的(或知道的)工具,就能得到一个不完整的系统视野,但是,与街灯讹方法类似,用户不知道他或她的视野不完整—而且可能自始至终对此一无所知。需要定制工具(如动态跟踪)才能发现的问题可能永远不能被识别并解决。
    在实践中,工具法确实在一定程度上辨别出了资源的瓶颈、错误,以及其他类型的问题,
    但通常不太高效。
    当大量的工具和指标可被选用时,逐个枚举是很耗时的。当多个工具有相同的功能时,情况更糟,你要花额外的时间来了解各个工具的优缺点。在某些情况下,比如要选择做文件系统
    微基准的工具的场合,工具相当多,虽然这时你只需要一个

    9、USE方法

    USE方法(utilization、satura

    tion、errors)应用于性能研宄,用来识别系统瓶颈[Gregg13]。一言以蔽之,就是:

    对于所有的资源,查看它的使用率、饱和度和错误。
     

    这些术语定义如下:

    资源:所有服务器物理元器件(CPU、总线)。某些软件资源也能算在内,提供有用的指标。
    使用率:在规定的时间间隔内,资源用于服务工作的时间百分比。虽然资源繁忙,但是资源还有能力接受更多的工作,不能接受更多工作的程度被视为饱和度。
    饱和度:资源不能再服务更多额外工作的程度,通常有等待队列。
    错误:错误事件的个数。

    某些资源类型,包括内存,使用率指的是资源所用的容量。这与基于时间的定义是不同的,这在之前的2.3.11节做过解释一旦资源的容量达到100%的使用率,就无法接受更多的工作,
    资源或者会把工作进行排队(饱和),或者会返回错误,用USE方法也可以予以鉴别

    错误需要调查,因为它们会损害性能,如果故障模式是可恢复的,错误可能难以立即察觉。
    这包括操作失败重试,还有冗余设备池中的设备故障

    与工具法相反的是,USE方法列举的是系统资源而不是工具。这帮助你得到一张完整的问题列表,在你寻找工具的时候做确认。即便对于有些问题现有的工具没有答案,但这些问题所蕴含的知识对于性能分析也是极其有用的:这些是“已知的未知“。

    USE方法会将分析引导到一定数量的关键指标上,这样可以尽快地核实所有的系统资源。在此之后,如果还没有找到问题,那么可以考虑采用其他的方法。
     

    过程:
    图2.12描绘了USE方法的流程图。错误被置于检查首位,要先于使用率和饱和度。错误
    通常容易很快被解释,在研究其他指标之前,把它们梳理清楚是省时高效的。


    这个方法辨别出的很可能是系统瓶颈问题。不过,一个系统可能不只面临一个性能问题,
    因此你可能一开始就能找到问题,但所找到的问题并非你关心的那个。在根据需要返回USE方法遍历其他资源之前,每个发现可以用更多的方法进行调查。

    指标表述
    USE方法的指标通常如下。
    •使用率:一定时间间隔内的百分比值(例如,“单个CPU运行在90%的使用率上”)。
    •饱和度:等待队列的长度(例如,“CPU的平均运行队列长度是4”)。
    •错误:报告出的错误数目(例如,“这个网络接口发生了50次滞后冲突”)

    虽然看起来有点违反直觉,但即便整体的使用率在很长一段时间都处于较低水平,一次高使用率的瞬时冲击还是能导致饱和与性能问题的。某些监控工具汇报的使用率是超过5分钟的均值。举个例子,每秒的CPU使用率可以变动得非常剧烈,因此5分钟时长的均值可能会掩盖短时间内100%的使用率,甚至是饱和的情况。

    想象一下高速公路的收费站。使用率就相当于有多少收费站在忙于收费。使用率100%意味
    着你找不到一个空的收费站,必须排在别人的后面(饱和的情况)。如果我说一整天收费站的使用率是40%,你能判断当天是否有车在某一时间排过队吗?很可能在高峰时候确实排过队,
    那时的使用率是100%,但是这在一天的均值上是看不出的。

    资源列表
    USE方法的第一步是要建一张资源列表,要尽可能完整。下面是一张服务器通常的资源列表,配有相应的例子。

    • CPU:插槽、核、硬件线程(虚拟CPU)
    • 内存:DRAM
    • 网络接口:以太网端口
    • 存储设备:磁盘
    • 控制器:存储、网络
    • 互联:CPU、内存、I/O

    每个组件通常作为一类资源类型。例如,内存是一种容量资源,网络接口是一类I/O资源
    (IOPS或吞吐量)。有些组件体现岀多种资源类型:例如,存储设备既是I/O资源也是容量资
    源。这时需要考虑到所有的类型都能够造成性能瓶颈,同时,也要知道I/O资源可以进一步被当作排队系统来研究,将请求排队并被服务。

    某些物理资源,诸如硬件缓存(如CPU缓存),可能不在清单中。USE方法是处理在高使用率或饱和状态下性能下降的资源最有效的方法,当然还有其他的检测方法。如果你不确定清单是否该包括一项资源,那就包括它,看看在实际指标中是什么样的情况。

    原理框图
    另一种遍历所有资源的方法是找到或者両一张系统的原理框图,正如图2.13所示的那样。
    这样的图还显示了组件的关系,这对寻找数据流动中的瓶颈是很有帮助的。

    CPU、内存、I/0互联和总线常常被忽视。所幸的是,它们不是系统的常见瓶颈,因为这些组件本身就设计有超过吞吐量的余量。可能你需要升级主板,或者减小负载,例如,“零拷贝”就减轻了内存和总线的负载。

    指标

    旦你掌握了资源的列表,就可以考虑这三类指标:使用率、饱和度,以及错误。表2.5列举了一些资源和指标类型,以及一些可能的指标(针对一般性的OS)。

    表2.5、USE方法指标示例
    资源 类型 指标
    CPU 使用率 CPU使用率(单CPU使用率或系统级均值)
    CPU 包和率 分配队列长度(又名队列长度)
    内存 使用率 可用空闲内存(系统级)
    内存 饱和度 匿名换页或线程换出(页面扫面时另一个指标),或者OOM事件(Out Of Memory)内存不足)
    网络接口 使用率 接受吞吐量/最大带宽、传输吞吐量/最大带宽
    存储设备I/O 使用率 设备繁忙百分比
    存储设备I/O 饱和率 等待队列长度
    存储设备I/O 错误

     

    设备错误(”硬报错“、”软错误“)

















    重复所有的组合,包括获取每个指标的步骤,记录下当前无法获得的指标,那些是已知的未知。最终你得到一个大约30项的指标清单,有些指标难以测量,有些根本测不了。所幸的是,
    常见的问题用较简单的指标就能发现(例如,CPU饱和度、内存容量饱和度、网络接口使用率、磁盘使用率),所以这些指标要首先测量

    一些较难的组合示例可见表2.6。
     

    表2.6、USE方法指标的进阶实列
    资源 类型 指标
    CPU 错误 例如,可修正的CPU缓存ECC事件,或者可修正的CPU故障(如果操作系统加上硬件支持)
    内存 错误 例如,失败的 malloc() (虽然这通常是由于虚拟内存耗尽,并非物理内存)
    网络 饱和度 与饱和度相关的网络接口或操作系统错误,例如,Linux的overrun和Solaris的nocanput
    存储控制器 使用率 取决于控制器,针对当前活动可能有最大IOPS或吞吐量可供检查
    CPU互联 使用率 每个端口的吞吐量/最大带宽(CPU性能计数器)
    内存互联 饱和度 内存停滞周期数,偏高的平均指令周期数(CPU性能计数器)
    I/O互联 使用率 总线吞吐量/最大带宽(可能你的硬件上有性能计数器,例如,Intel的“非核心”事件)

    上述的某些指标可能用操作系统的标准工具是无法获得的,可能需要使用动态跟踪或者用CPU性能计数工具。

    附录A是针对Linux系统的一个USE方法核对清单的范例,囊括了硬件资源和Linux观测
    工具集的所有组合。附录B提供的内容一样,不过针对的是基于Solaris的系统。两个附录还包含了一些软件资源

    软件资源
    某些软件资源的检测方式可能相似。这里指的是软件组件,而不是整个应用程序,示例如
    下。

    • 互斥锁:锁被持有的时间是使用时间,饱和度指的是有线程排队在等锁。
    • 线程池:线程忙于处理工作的时间是使用时间,饱和度指的是等待线程池服务的请求数目。
    • 进程/线程容量:系统的进程或线程的总数是有上限的,当前的使用数目是使用率,等待分配认为是饱和度,错误是分配失败(例如,“cannot fork”)。
    • 文件描述符容量:同进程/线程容量一样,只不过针对的是文件描述符。

    如果这些指标在你的案例里管用,就用它们;否则,用其他方法也是可以的,诸如延时分析。
    使用建议
    对于使用上述这些指标类型,这里有一些总体的建议。

    • 使用率:100%的使用率通常是瓶颈的信号(检查饱和度并确认其影响)。使用率超过
      60%可能会是问题,基于以下理由:时间间隔的均值,可能掩盖了100%使用率的短期
      爆发,另外,一些资源,诸如硬盘(不是CPU),通常在操作期间是不能被中断的,即使做的是优先级较高的工作。随着使用率的上升,排队延时会变得更频繁和明显。有更多关于60%使用率的内容,参见2.6.5节。
    • 饱和度:任何程度的饱和都是问题(非零)。饱和程度可以用排队长度或者排队所花的时间来度量。
    • 错误:错误都是值得研究的,尤其是随着错误增加性能会变差的那些错误。

    低使用率、无饱和、无错误:这样的反例研究起来容易。这点要比看起来还有用一缩小
    研究的范围能帮你快速地将精力集中在出问题的地方,判断其不是某一个资源的问题,这是一个排除法的过程。

    云计算

    在云计算环境,软件资源控制在于限制或给分享系统的多个租户设定阈值。在Joyent公司我们主要用OS虚拟技术(SmartOSZones),来设定内存限制、CPU限制,以及存储I/O的门限值。每一项资源的限定都能用USE方法来检验,与检查物理资源的方法类似。
    举个例子,“内存容量使用率”是租户的内存使用率与他的内存容量的比值。“内存容量饱和”出现于匿名的分页活动,虽然传统的页面扫描器此时可能是空闲的。

    10、工作负载特征归纳

    工作负载特征归纳是辨别这样一类问题简单而又高效的方法—由施加的负载导致的问题。这方法关注于系统的输入,而不是所产生的性能。你的系统可能没有任何架构或配置上的问题,但是系统的负载超岀了它所能承受的合理范围。

    工作负载可以通过回答下列的问题来进行特征归纳:

    • 负载是谁产生的?进程ID、用户、远端的IP地址?
    • 负载为什么会被调用?代码路径、堆栈跟踪?
    • 负载的特征是什么?I0PS、吞吐量、方向类型(读取/写人)?包含变动(标准方差),如果有的话。
    • 负载是怎样随着时间变化的?有日常模式吗?

    将上述所有的问题都做检查会很有用,即便你对于答案会是什么已经有很强的期望,但还是应做一遍,因为你很可能会大吃一惊。

    请思考这么一个场景:你碰到一个数据库的性能问题,数据库请求来自一个Web服务器池。你是不是应该检查正在使用数据库的IP地址?你本认为这些应该都是Web服务器,正如所配置的那样。但你检查后发现好像整个因特网都在往数据库扔负载,以摧毁其性能。你正处于拒绝服务(denial-of-service,DoS)攻击中!

    最好的性能来自消灭不必要的工作。有时候不必要的工作是由于应用程序的不正常运行引的,例如,一个困在循环的线程无端地增加CPU的负担3不必要的工作也有可能来源于错误的配置一举个例子,在白天运行全系统的备份—或者是之前说过的DoS攻击。归纳工作负载的特征能识别这类问题,通过维护和重新配置可以解决这些问题。

    如果被识别岀的问题无法解决,那么可以用系统资源控制来限制它。举个例子,一个系统备份的任务压缩备份数据会消耗CPU资源,这会影响数据库,而且还要用网络资源来传输数据用资源控制来限定备份任务对CPU和网络的使用(如果系统支持的话),这样虽然备份还是会发生(会慢得多),但不会影响数据库。


    除了识别问题,工作负载特征归纳还可以作为输入用于仿真基准设计。如果度量工作负载只是用的均值,理想情况,你还要收集分布和变化的细节信息。这对于仿真工作负载的多样性,而不是仅测试均值负载是很重要的。关于更多的均值和变化(标准方差)的内容,参见2.8节和第12章的内容。


    工作负载分析通过辨识出负载问题,有利于将负载问题和架构问题区分开来。负载与架构在2.3节中有过介绍。


    执行工作负载特征归纳所用的工具和指标视目标而定。一部分应用程序所记录的详细的客户活动信息可以成为统计分析的数据来源。这些程序还可能提供了每日或每月的用户使用报告,这也是值得关注的。

     11、向下挖掘分析

    深度分析开始于在高级别检查问题,然后依据之前的发现缩小关注的范围,忽视那些无关的部分,更深人发掘那些相关的部分。整个过程会探究到软件栈较深的级别,如果需要,甚至还可以到硬件层,以求找到问题的根源。

    在《Solaris性能与工具》(SolarisPerformanceandTools[McDougall06b])一书中,针对系统性能,深度分析方法分为以下三个阶段

    • 监测:用于持续记录高层级的统计数据,如果问题出现,予以辨别和报警。
    • 识别:对于给定问题,缩小研究的范围,找到可能的瓶颈。
    • 分析:对特定的系统部分做进一步的检查,找到问题根源并量化问题。

    监测是在公司范围内执行的,所有服务器和云数据都会聚合在一起。传统的方法是使用
    SNMP(简单网络管理协议),监控支持该协议的网络设备。数据可以揭示长期的变化特点,这些是无法由短时间段内运行的命令行工具获得的。如果发现怀疑的问题,多数的监测方案会
    报警,此时及时分析并进入下一个阶段。

    问题的识别在服务器上是交互执行的,用标准的观测工具来检查系统的组件:CPU、磁盘、
    内存,等等3通常是用诸如vmstat(1)、iostat(1)和mpstat(1)这样的工具起一个的命令行会话来完成的。还有一些较新的工具通过GUI支持实时的性能分析(例如,Oracle的Oracle ZFS Storage Appliance Analytics)。

    有些分析工具还具备tracing或profiling的功能,用以对可疑区域做更深层次的检查。做这类深层的分析可能需要定制工具乃至检查源代码(如果可以的话)。大量研究的努力就花在这里,需要对软件栈的层次做分离来找出问题的根本原因。执行这类任务的工具包括strace(l)、truss(1)、perf和DTrace0

    五个Why
    在分析阶段,你还有一个能用的方法,叫做“五个Why”技巧:问自己“why?”然后作答,
    以此重复五遍。下面是一个例子:

    • 查询多了数据库性能就开始变差。Why?
    • 由于内存换页磁盘I/O延时。Why?
    • 数据库内存用量变得太大了。Why?
    • 分配器消耗的内存比应该用的多。Why?
    • 分配器存在内存碎片问题。Why?

    这是一个真实的例子,但出人意料的是要修复的是系统的内存分配库。是持续的质问和对问题实质的深入研究使得问题得以解决。

    12、延时分析

    延时分析检查完成一项操作所用的时间,然后把时间再分成小的时间段,接着对有着最大延时的时间段做再次的划分,最后定位并量化问题的根本原因。与深度分析相同,延时分析也会深人到软件栈的各层来找到延时问题的原因。

    举个例子,MySQL的请求延时分析可能涉及下列问题的回答(回答的示例已经给出):

    • 存在请求延时问题吗?(是的)
    • 请求时间大量地花在CPU上吗?(不在CPU上)
    • 不花在CPU上的时间在等待什么?(文件系统I/O)
    • 文件系统的I/O时间是花在磁盘I/O上还是锁竞争上?(磁盘I/O)
    • 磁盘I/O时间主要是随机寻址的时间还是数据传输的时间?(数据传输时间)

    对于这个问题,每一步所提出的问题都将延时划分成了两个部分,然后继续分析那个较大可能的部分:延时的二分搜索法,你可以这么理解。整个过程见图2.14。

    一旦识别出A和B中较慢的那个,就可以对其做进一步的分析和划分,依此类推。
    数据库查询的延时分析是R方法的目的。

    13、R方法

    R方法是针对Oracle数据库开发的性能分析方法,意在找到延时的根源,基于Oracle的traceevents[Millsap03],它被描述成“基于时间的响应性能提升方法,可以得到对业务的最大经济收益”,着重于识别和量化查询过程中所消耗的时间。虽然它是用于数据库研究领域,但它的方法思想可以用于所有的系统,作为一种可能的研究手段,值得在此提及。

    14、事件跟踪

    系统的操作就是处理离散的事件,包括CPU指令、磁盘1/0,以及磁盘命令、网络包、系统调用、函数库调用、应用程序事件、数据库查询,等等。性能分析通常会研究这些事件的汇总数据,诸如每秒的操作数、每秒的字节数,或者是延时的均值。有时一些重要的细节信息不会出现在这些汇总之中,因此最好的研究事件的方法是逐个检查。

    网络排错常常需要逐包检查,用的工具有tcpdump(1)。下面这个例子将各个网络包归纳汇总成了一行行的文字:


    tcpdump(l)按照需要可以输出各类信息(参见第10章)。
    存储设备I/O在块设备层可以用iosnoop(1M)来跟踪(DTrace-based,参见第9章):

    这里打印岀了一些时间戳,包括起始时间(STIME)、终止时间(TIME)、请求和完成之间的时间(DELTA),以及服务这次I/O的估计时间(DTIME)。

    系统调用层是另一个跟踪的常用层,工具有Linux的strace(1)和基于Solaris系统的truss(1)(参见第5章)。这些工具也有打印时间戳的选项。

    当执行事件跟踪时,需要找到下列信息。

    • 输入:事件请求的所有属性,即类型、方向、尺寸,等等
    • 时间:起始时间、终止时间、延时(差异)。
    • 结果:错误状态、事件结果(大小尺寸)。

    有时性能问题可以通过检查事件的属性来发现,无论是请求还是结果。事件的时间戳有利于延时分析,一般的跟踪工具都会包含这个功能。上述的tcpdump(l)用参数-ttt,输岀所包含的DELTA时间,就测量了包与包之间的时间。

    研究之前发生的事件也能提供信息。一个延时特别差的事件,通常叫做延时离群值,可能是因为之前的事件而不是自身所造成的。例如,队列尾部事件的延时可能会很高,但这是由之前队列里的事件造成的,而并非该事件自身。这种情况只能用事件跟踪来加以辨別。

    15、基础线统计

    把当前的性能指标与之前的数值做比较,对分析问题常常有启发作用。负载和资源使用的变化是可见的,可以把问题回溯到它们刚发生的时候。某些观测工具(基于内核计数器)能显示启动以来的信息统计,可以用来与当前的活动做比较。虽然这比较粗糙,但总好过没有。另外的方法就是做基础线统计。

    基础线统计包括大范围的系统观测并将数据进行保存以备将来参考。与启动以来的信息统计不同,后者会隐藏变化,基础线囊括了每秒的统计,因此变化是可见的。

    在系统或应用程序变化的之前和之后都能做基础线统计,进而分析性能变化。可以不定期地执行基础线统计并把它作为站点记录的一部分,让管理员有一个参照,了解“正常”是什么
    样的。若是作为性能监测的一部分,可以每天都按固定间隔执行这类任务。(参见2.9节)。

    16、静态性能调整

    静态性能调整处理的是架构配置的问题。其他的方法着重的是负载施加后的性能:动态性能[Elling00]。静态性能分析是在系统空闲没有施加负载的时候执行的。

    做性能分析和调整,要对系统的所有组件逐一确认下列问题:

    • 该组件是需要的吗?
    • 配置是针对预期的工作负载设定的吗?
    • 组件的自动配置对于预期的工作负载是最优的吗?
    • 有组件岀现错误吗?是在降级状态(degradedstate)吗?

    下面是一些在静态性能调整中可能发现的问题。

    幸运的是,这些问题都很容易检查。难的是要记住做这些事情!

    17、缓存调优

    从应用程序到磁盘,应用程序和操作系统会部署多层的缓存来提高I/O的性能。详细内容参见第3章的3.2.11节。这里介绍的是各级缓存的整体调优策略:

    • 缓存的大小尽量和栈的高度一样,靠近工作执行的地方,减少命中缓存的资源开销
    • 确认缓存开启并确实在工作
    • 确认缓存的命中/失效比例和失效率。
    • 如果缓存的大小是动态的,确认它的当前尺寸。
    • 针对工作负载调整缓存。这项工作依赖缓存的可调参数。
    • 针对缓存调整工作负载。这项工作包括减少对缓存不必要的消耗,这样可以释放更多空间来给目标工作负载使用。

    ​​​​​​​要小心二次缓存—比如,消耗内存的两块不同的缓存块,把相同的数据缓存了两次。还有,要考虑到每一层缓存调优的整体性能收益。调整CPU的L1缓存可以节省纳秒级别的时间,当缓存失效时,用的是L2。提升CPU的L3缓存能避免访问速度慢得多的主存,从而获得较大的性能收益。(这些关于CPU缓存的内容可参考第6章的内容。)

    18、微基准测试

    微基准测试测量的是施加了简单的人造工作负载的性能。微基准测试可以用于支持科学方法,将假设和预测放到测试中验证,或者作为容量规划的一部分来执行。

    这与业界的基准定标是不同的,工业的基准定标是针对真实世界和自然的工作负载。这样的基准定标执行时需要工作负载仿真,执行和理解的复杂度高。

    微基准测试由于涉及的因素较少,所以执行和理解会较为简单。可以用微基准测试T具来施加丁.作负载并度量性能。或者用负载生成器来产生负载,用标准的系统工具来测量性能。两种方法都可以,但最稳妥的办法是使用微基准测试工具并用标准系统工具再次确认性能数据。

    下面是一些微基准测试的例子,包括一些二维测试。

    • 系统调用:针对fork()、exec()、open()、read()、close()
    • 文件系统读取:从缓存过的文件读取,读取数据大小从1B变化到1MB
    • 网络吞吐量:针对不同的socket缓冲区的尺寸测试TCP端对端数据传输。

    ​​​​​​​微基准测试通常在目标系统上的执行会尽可能快,测量完成大量上述这类操作所要的时间,
    然后计算均值(平均时间=运行时间/操作次数)。

    后面的章节中还有微基准测试的特定方法,列出了测试的目标和属性。关于基准测试的更多内容参见第12章。

    建立系统的分析模型有很多用途,特别是对于可扩展性分析:研究当负载或者资源扩展时性能会如何变化。这里的资源可以是硬件,如CPU核,也可以是软件,如进程或者线程。

    除对生产系统的观测(“测量”)和实验性测试(“仿真”)之外,分析建模可以被认为是第三类性能评估方法[jain91]。上述三者至少择其二可让性能研究最为透彻:分析建模和仿真,或者仿真和测量。

    如果是对一个现有系统做分析,可以从测量开始:归纳负载特征和测量性能。实验性分析,如果系统没有生产环境负载或者要测试的丁作负载在生产环境不可见,可以用工作负载仿真做测试。分析建模基于测试和仿真的结果,用于性能预测。

    可扩展性分析可以揭示性能由于资源限制停止线性增长的点,即拐点。找到这些点是否存在,若存在,在哪里,这对研究阻碍系统扩展性的性能问题有指导意义,帮助我们在碰到这些问题之前就能将它们修复。

    展开全文
  • 16种常用的数据分析方法汇总

    万次阅读 多人点赞 2017-04-04 16:16:33
    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运用制表和...
  • 数据分析常用的16种方法

    千次阅读 2018-09-11 20:24:43
    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-...
  • 统计学常用的数据分析方法总结

    千次阅读 2019-10-31 15:54:45
    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 集中趋势分析 ...
  • 数据分析,重要的是数据分析的思维,工具等的掌握是次要的,今天分享下16个常用的数据分析方法,供大家一起学习进步。 一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、...
  • 16种常用的数据统计分析方法汇总

    万次阅读 2019-04-24 16:43:00
    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 (注:这些统计分析方法基本都是统计学的方法...
  • 常用时间序列分析方法

    千次阅读 2017-11-13 10:50:00
    这种方法是指数平滑方法中的一种,其认为序列是存在一个较固定的趋势γ,那么第 t 期的估计值应该为第 t-1 期的观测值加上固定趋势的影响 每一期的固定趋势会受到随机因素的影响不恒等于r,所以r本身是一个...
  • 阿平 | 作者知乎 |来源1判别分析1. 定义根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。2. 与聚类分析区别聚类分析...
  • 统计学常用的数据分析方法大总结

    千次阅读 2020-05-13 09:07:40
    来源:知乎作者:阿平一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中...
  • 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。 描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 △集中趋势分析 ...
  • 作者:阿平@zhihu来源:知乎一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描...
  • 类比法、二分法、量纲分析法、差分法、变分法、图论法、层次分析法、数据拟合法、回归分析法、数学规划(线性规划,非线性规划,整数规划,动态规划,目标规划)、机理分析、排队方法、对策方法、决策方法、模糊评判...
  • 在今天的博文中,笔者整理了数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科)。当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整。除此以外,笔者尝试学习了SMARTBI公司中的Smart ...
  • 一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以...
  • 一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势...
  • 作者:阿平@zhihu来源:知乎一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描...
  • 本文是<统计学最常用的数据分析方法清单>的下篇,没有看过上篇的小伙伴请点击【干货】统计学最常用的「数据分析方法」清单(上)复习内容哦!9判别分析根据已掌握的一批分类明确的样...
  • 分析国内外动态预计方法的基础上,将现有动态预计方法依据其建立方法和思路分为时间函数法、速度函数法和下沉折减法3类,分析了这些方法的优势和局限性。分析了随开采充分性变化地表下沉速度的分布特征,通过对4个...
  • 数据分析常用名词解释

    千次阅读 2020-01-09 09:13:32
    数据分析常用的术语解释。 按照以下三类进行汇总。 1、互联网常用名词解释 2、统计学名词解释 3、数据分析名词解释 一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,125
精华内容 2,850
关键字:

动态分析常用观测方法有