精华内容
下载资源
问答
  • 内容分析的主要步骤
    千次阅读
    2020-03-02 16:16:57

    不管是公司安排的软件项目,还是合同项目。我们拿到一个新的软件项目,首先要做的事情就是根据现有的人力资源、技术能力、项目工期合理地制定项目管理计划。如果现有的人力资源或技术能力不能满足项目工期要求,则需要增加人员或提高人员的技术能力。

    项目管理计划内容可多可少,主要以自己能够管控项目开发为原则。一般说来,项目管理计划包括项目组织架构、工作分解结构、进度管理计划、需求调研计划、配置管理计划、质量管理计划。小规模的软件项目可以只有进度管理计划,进度管理计划将整个软件项目工作分解为不同的阶段,每个阶段的工作又分解为多个子工作,分解的子工作以1周以内完成为宜。进度管理计划的第一个工作任务一般是需求调研工作,需求调研工作的主要任务是调查系统需求、绘制需求模型、编写需求规格说明书。

    下面这张图给出了需求调研的基本过程和步骤。

     

    图 1需求调研的基本步骤

    需求调研的基本步骤是调查系统需求、编制事件列表、发现系统角色、编制用例模型、编制类图模型、编制界面模型、编制部署模型、最后形成需求规格说明书。

    需求调研的第一步是调查系统需求,调查系统需求的方法,在前面的课程我们已经讨论过了。在这里主要采用与用户的面谈方式,通过与用户的面谈,找出系统的相关事件,并写出事件列表。

    需求调研的第二步是依据前面给出的事件列表,归纳和抽象出系统相关角色,建立角色列表。归纳和抽象系统相关角色,要注意角色不是指具体的人和事务,而是表示人或事物在系统中所扮演的角色。

    需求调研的第三步是建立角色用例图,角色用例图是系统需求的功能模型,描述了角色的行为及角色间的关系。每个用例需要给出用例规约,用例规约描述了用例的用例名称、参与角色、与其它用例间的关系、前置条件、后置条件、操作流程、输入与输出数据项等内容。

    需求调研的第四步是根据角色和用例模型建立类图模型。一般说来,前面分析的系统角色就是系统中的对象,也称为类。类图模型描述了类的名称、属性及行为,以及类与类之间的关系。

    需求调研的第五步是依据角色用例和用例规约建立界面模型,需求阶段的界面模型只要给出原型就可以了,不需要考虑界面的美观性。需求界面模型可以使用PowerPoint、Axure RP等工具进行绘制。

    需求调研的第六步是确定系统的部署需求。部署需求主要由网络环境、硬件环境、软件环境组成的需求。网络一般采用网络拓扑图等模型,给出部署系统所需的网络环境需求;硬件环境给出部署系统所需的硬件环境需求;软件环境给出系统所需的软件支撑环境需求。

    最后形成完整的需求规格说明书,将前面的文字表格资料、绘制的模型、图片等内容放置到需求规格说明书中。需求调研的成果物除了需求规格说明书外,还有需求跟踪矩阵,编写需求跟踪矩阵主要目的是可以有效跟踪项目需求变更和需求实现,做到在需求和项目之间维护双向可跟踪性。跟踪需求是因为在系统研发期间,需求会由于各种各样的原因而发生变更,因此有效的管理这些需求和需求变更是很重要的,我们有必要去了解每个需求的来源以及对系统的影响。

    更多相关内容
  • 数据分析的3大阶段6大步骤

    万次阅读 多人点赞 2019-05-14 01:40:51
    这是一本科普性质的文章,让我们能更好的理解数据分析的每一个过程与步骤,其中包含的大量例子能够帮助我们很好的理解每一个步骤。书本风格是欧美风,是国外书的译本。 书本共分为三个模块: 引言(了...

    前言

    这篇文章是我读《成为数据分析师:6步练就数据思维》之后,进行的一篇梳理、回顾的文章。我将对这本书中我认为重要的知识点与大家分享,感兴趣的小伙伴可以找这本书看看。

    一、这是一本什么样的书?

    (1)书本概述

    这是一本科普性质的文章,让我们能更好的理解数据分析的每一个过程与步骤,其中包含的大量例子能够帮助我们很好的理解每一个步骤。书本风格是欧美风,是国外书的译本。

    书本共分为三个模块:

    • 引言(了解)
      • 主要讲数据分析是什么?
    • 3大阶段、6大步骤,高效商业决策的秘密(重点)
      • 主要讲如何进行数据分析?
    • 未来人人都是数据分析师(了解)
      • 对数据分析师的工作方式以及思想进行宣导

    (2)适合人群

    我觉得这本书适合:

    • 数据分析的入门者,想要了解数据分析步骤,以及讲解数据分析故事的方法。
    • 已经是数据分析师,还没有形成自己的一套完整的数据分析项目的流程或步骤的,可以参考制定自己的工作流程。

    书中介绍的该书的适合受众是:

    • 能基于分析结果制定出好的决策并采取行动的人。
    • 虽然是企业内部的非定量分析人员,但需要基于定量数据和分析来开展工作并制定决策。

    我对书本受众人员的解读就是:业务层的分析人员,需要借助技术方向的人来做决策。

    二、引言部分解读:数据分析的本质

    在这里插入图片描述

    (1)数据分析本质

    通过对大量数据进行统计、分析、解释和挖掘,然后推动现实问题的决策和价值的实现。

    从另一本书《从零进阶 数据分析的统计基础中》,我读到了更接地气的一个定义,如下:

    数据分析是指通过某种方法和技巧,对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律等分析结果,为特定的研究或商业目的提供参考。

    (2)按分析的方法和目的分类

    • 描述性分析
      • 所谓的“报告”,通过报表,描述某项事物的特性。
      • 用来表达这是一个什么情况很有效,但不能解释某种结果发生的原因或者未来会发生的事情
      • 比如:某公司2018年的月度销售额报表,报表仅表达了一个结果,而不能解释为什么有些月份的销售额猛增。
    • 预测性分析
      • 对数据特征和变量的关系进行描述,基于过去的数据对未来进行预测;
      • 步骤一般是:先确定变量之间的联系,然后基于这种联系来预测另一种现象出现的可能性
      • 比如:用户看到啤酒后,顺便拿上尿布的可能性
    • 规范性分析
      • 偏向数据挖掘,通过实验等方式,通过多个变量的处理,得到实验环境,达到预期目标
      • 在得到预期结果后,就施行实验环境下的条件,最终达到商业目标。
      • 比如:一件商品,在某个价格的情况下,大量顾客都会购买,但是又要有比较高的收益,这时会进行分析,在哪个价格区间,销量最大,收益最高。

    (3)按分析方法以及收集和分析的数据类型分类

    • 定性分析(非结构化数据)
      • 定性,即说明是什么的问题。目的是深入了解某种现象出现的根本原因和诱因。
      • 是分析的最初阶段,也是探索性研究的有效工具
      • 是探索初期的,识别是什么的问题的一个步骤
    • 定量分析(结构化数据)
      • 通过统计、数学或者计算的方法或方式,对现象进行系统的实证研究。
      • 属于研究阶段
      • 是一个分析过程,验证猜想与实施的过程

    (4)按照研究者的目的分类(作为了解即可,不做展开)

    • 统计
    • 预测
    • 数据挖掘
    • 文本挖掘
    • 优化
    • 实验设计

    三、三大阶段与六大步骤

    阶段一:构建问题

    1、识别问题

    2、回顾之前的发现

    阶段二:解决问题

    3、建模或选择变量

    4、收集数据

    5、分析数据

    阶段三:传达结果并基于结果采取行动

    6、传达结果并基于结果采取行动

    四、步骤1解读:识别问题

    即我们需要知道并理解要做什么?发生了什么?这样才能知道我们下一步该做什么。
    而在这个过程中,我们需要识别利益相关者是谁,明白最终是谁拍板,就跟做项目一样,你要知道你的受众是谁,对症下药。
    同时,在构建问题的过程中要聚焦、了解清晰的范围,始终贯彻一点:你想知道什么?因为用不同的方法得到的结果是不一样的。

    在这里插入图片描述

    下面是详细解读:

    (1)构建问题的来源

    • 纯粹的好奇,通常是基于常识或对事物的观察
    • 识别问题
    • 工作相关经验
    • 需要制定一个决策或需要采取行动
    • 需要关注当前存在的问题
    • 创建理论或者辨明现有理论或以往的研究

    (2)利益相关者

    • 找到利益相关者(一般是管理者或者决策者)
    • 需要注意的问题
      • 项目跟谁有关?包括需求来源、资源配备、汇报对象等等
      • 是否对需要解决的问题以及你的方案有个大概的了解?
      • 是否能够给到你进行数据分析的必要的资源?
      • 是否支持在决策过程中使用分析和数据?
      • 交流方式、案例等是否与他们的思维和决策方式一致?
      • 是否有计划向利益相关者定期反馈和汇报阶段成果?
    • 管理分析项目的利益相关者
      • 识别所有的利益相关者
      • 记录利益相关者的需求
      • 评估和分析利益相关者的兴趣或影响
      • 管理相关者的预期
      • 采取行动
      • 审核身份和重复步骤

    (3)问题聚焦

    • 数据分析不是一次毫无目标的实践,需要让业务需求方明白自己的目标在哪儿,限定分析范围
    • 问题不聚焦,那么分析结果也将不聚焦,结果是分散的
    • 所以需要识别相关利益者,并管理利益相关者的预期,识别最终拍板行动的人。

    (4)问题的范围

    • 问题如果很宽泛,数据手机就会变得很困难
    • 不要过早的限制问题或决策的范围,开放性的思考有哪些可选择的方向
    • 问题要是一个可以检验的假设,即:问题要能得出结果。

    (5)关键在于:你想知道什么

    • 在分析挖掘过程中,对事物的不同定义方法会对结果造成很大影响
    • 例如:研究顾客喜欢吃什么口味薯片。
      • 一位分析师让顾客记录下每次吃的是哪个品牌的什么口味的薯片
        • 结果精准,但参与度低,受环境影响大
      • 另一位分析师让顾客选择近半年经常吃的薯片是哪个品牌的什么口味的
        • 结果可能不精准,但参与度会高,受环境影响小

    五、步骤2解读:回顾之前的发现

    有很多其他书本上,没有写这个步骤,没有将其放入数据分析步骤中。但我觉得,回顾过去发现很有必要。
    最重要的,应该是了解当前故事的古往今来,避免踩坑,以及避免重复性工作。
    在这里插入图片描述
    (1)回顾之前的发现,思考:

    • 到目前为止这个问题时是如何被构建的?
    • 这个问题可能以何种不同的方式被概念化?
    • 是否有不同类型的发现?

    (2)回顾之前的发现,可能带来:

    • 能讲什么样的故事?这个故事与什么有关?
    • 我们更需要什么样的数据?
    • 以前的变量是如何定义的?
    • 我们更可能进行哪种分析?
    • 如何用一种与过往不同的方式来讲述我们的新故事?

    第一阶段收尾:问自己10个问题来判断自己是否真的很好的构建了问题

    在这里插入图片描述

    1、是否清晰的定义了一个问题或机会来解决企业的实际问题?

    • 要分析的内容清楚了么?

    2、是否有考虑过多种方式来解决问题?

    • 选择的方式是不是最优的?

    3、是否识别出了问题的利益相关者,并针对这个问题进行过广泛的交流?

    • 问题不是凭空捏造的,有过充分交流么?

    4、是否与利益相关者产生共鸣,且对他们会使用问题的结果来制定决策拥有信心?

    • 你的问题能够带来成果?(谜之问题)

    5、一旦问题被解决,决策的内容以及决策的制定者是谁?

    • 后期好收反馈

    6、是否对问题的解读是一个由大到小的过程,最后形成了一个需要解决、需要应用数据以及明确可能出现的结果的非常确切的问题?

    • 问题是否是一个渐进明细的问题?

    7、是否能够描述出你想讲述的分析故事的类型?

    • 按照自己的故事套路进行分析讲解问题

    8、是否有人能够协助你完成这个特定类型的分析故事?

    • 找帮手?更专业

    9、是否通过查询,了解是否有与想解决的问题相关的之前的发现或经验?

    • 找过去经验,在巨人的肩膀上做事

    10、是否基于之前的发现和所了解到的内容,对问题的定义进行修正?

    • 不断修正自己所要研究的问题

    六、步骤3解读:建模或选择变量

    在这里插入图片描述

    这个部分描述不多,因为书的性质就是科普性的不会涉及技术方便,所以作为说明内容,篇幅不多。

    建议阅读其中的案例,了解一些案例是怎么选取变量和进行分析的

    (1)模型定义

    • 某个现象或问题的一种有目的性的简化呈现。
    • “有目的性”的意思是这个模型是为解决特定问题而专门建立的
    • ”简化“是我们必须舍弃所有非必须的和无关紧要的细节,并保留最重要、有效、关键的且会造成影响的特征。

    (2)变量选取原则

    • 建立模型需要使用逻辑、经验和之前的发现来假设你的独立变量,以及你设法预测或解释的问题,还有会对这个问题产生影响的独立变量。
    • 即便是相当琐碎、高度主观性的决策也能通过定量和建模的方式进行分析

    七、步骤4解读:收集与测量数据

    数据一般来自于企业的数据库或者Excel,需要注意的是如何对数据进行ETL处理,要熟悉SQL、Excel操作。

    对第三步中选定的变量进行数据获取和收集

    (1)变量的类型

    • 二元变量:变量只有两个值,即是或否,比如性别
    • 分类变量:比如:眼睛的颜色,国家等
    • 序变量:即排序值
    • 数值(间隔和比率):即值大小。如:体重、身高等
    • 可以理解为:维度和度量

    八、步骤5解读:数据分析

    (1)识别出适当的模型,我们需要考虑

    • 需要同时分析多少变量?
    • 需要得到描述性或推论性的问题答案么?
    • 在感兴趣的变量中,什么样的测量是可行的?

    (2)变量数目影响模型的选择

    • 两个数值型变量:可能是进行相关性分析;
    • 两个或者几个类别型变量:适合用表格方式呈现分析结果(维度之间的关系);
    • 两个及以上数值型数据变量:回归分析,或称多远线性回归。

    #关键的统计概念和方法#

    在这里插入图片描述

    (1)ANOVA:方差分析

    • 是关于超过两组的均值是否相等的统计检验。

    (2)因果关系

    • 事情A(原因)和事件B(影响)之间的关系,这时事件B被认为是事件A的结果。
    • 因果关系需要满足的三个条件:
      • 原因必须在时间和空间上先于产生的影响
      • 当影响起作用时,原因必须已经出现
      • 当影响不起作用时,原因必须消失

    理解:先有因才有果,有果必有因,无果因不成。

    (3)聚类或聚类分析

    • 将具有同一特征的数据进行分组
    • 相关系数:两个变量或多个变量相互之间的关联程度,范围在-1~1之间
      • 1:正相关
      • 0:无关
      • -1:负相关

    相关性不代表因果性,相关性对因果关系而言是一个必要但不充分条件,即:有因果关系必然有相关性,有相关性不一定有因果关系。

    (4)独立变量

    指想要预测和解释其未知值的变量。也可称为:被解释变量或者反应变量

    (5)因子分析

    • 一个使用了大量变量或目标并披露它们之间的内在联系的统计程序。
    • 目的:用来把大规模的变量压缩成更小规模
    • 用途:常被用来数据简化或者结构识别。

    (6)拟合度检验

    一个判断样本数据与特定的分布之间的匹配程度的统计检验

    1)假设检验

    • 一个用于评估关于现实的假设(声明)的系统性方法。

    • 声明分为:

      • 零假设(H0):给定的一组观测值之间没有显著的差别或相关性。
      • 备择假设(Ha/H1):我们希望展示的变化或关系在数据中确实存在。

    2)独立变量

    • 一个已知能够用于帮助预测或解释一个独立变量的变量。
    • 也可称为:被解释变量、预测变量或回归量

    3)ρ值

    • 当进行一次假设检验时,ρ值提供了在零假设(H0)成立的情况下,数据出现的可能性。
    • 小的ρ值表示来自H0的罕见或异常数据,这时候提供了H0不成立的依据,并支持备择假设的成立
    • 在假设检验中,当ρ值小于显著性水平α时,我们“拒绝零假设”,它通常为0.05或者0.01。
    • 当零假设被拒绝是,结果被称为统计上的显著

    4)回归

    任何寻求一个预测公式的统计方法,这个公式允许一个独立变量的未知值由来自一个或多个独立变量的已知值来确定。

    • 简单回归分析
      • 使用一个独立变量来预测一个因变量
    • 多元回归分析
      • 使用多元独立变量来预测一个因变量。
    • 逻辑回归分析
      • 使用多元独立变量来预测一个二元的、绝对的独立变量(如:购买/不够买、对/错)

    5)决定系数(R^2)

    • 最常用的用于测量一条回归线拟合它所基于的样本数据程度的方法
    • 数值在:0-1之间
    • 它的值越大,模型就越好。说明拟合程度越好

    6)显著性水平(α)

    • 当零假设成立时,在所有可能的样本结果中,足够异常来拒绝零假设的结果的(任意的)最大比例被称为显著性水平。
      • 即:显著性水平表示认可一个事件不可能是偶然发生所需的证据量

    传统的显著性水平是5%(0.05),显著性水平的值为5%意味着我们需要来自H0(如果H0确实是成立的)的低于5%的概率下会发生的数据,来怀疑H0的正确性并拒绝承认H0成立。

    在需要提供更强有力的证据来接受备择假设(比如α=1%[0.01])的情况下,我们可以使用更严格的显著性水平的值。

    在实践中,显著性水平通常通过计算ρ值来判断;小于α的ρ值意味着拒绝H0并支持备择假设。

    7)t检验

    指检验两组数据的均值是否相等,或者一组数据的均值是否有一个特定的值的统计性检验。

    • 一类错误或α错误
      • 当零假设成立时,一类错误或α错误出现,但是错误被拒绝。在传统的假设检验中,如果ρ值比显著性水平α小时,那么人们拒绝零假设。不正确地拒绝一个正确的零假设的概率等于α,因此,这个错误也被称为α错误。
      • Ⅰ型错误,拒绝了实际上成立的H0 ,即错误地判为有差别,
      • 这种弃真的错误称为Ⅰ型错误。其概率大小用即检验水准用α表示。α可取单尾也可取双尾。假设检验时可根据研究目的来确定其大小,一般取0.05或者0.01,当拒绝H0时则理论上理论100次检验中平均有5次或者1次发生这样的错误。
    • 二类错误或β错误
      • Ⅱ型错误,接受了实际上不成立的H0 ,也就是错误地判为无差别,这类取伪的错误称为第二类错误。
      • 第二类错误的概率用β表示,β的大小很难确切估计。当样本例数固定时,α愈小,β愈大;反之,α愈大,β愈小。因而可通过选定α控制β大小。要同时减小α和β,唯有增加样本例数。
      • 统计上将1-β称为检验效能或把握度(power of a test),即两个总体确有差别存在,而以α为检验水准,假设检验能发现它们有差别的能力。

    统计学上差别显著与否,与实际意义是有区别的。

    如应用某药治疗高血压,平均降低舒张压0.5kPa,并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kPa是无临床意义。

    因此要结合专业作出恰如其分的结论。

    (7)模型的修正

    所有应用了定量模型的分析,必须定期检查模型,确保他们仍然适用并仍然拟合数据。

    如果不再适用,那就需要对模型进行一些必要的改变。

    至少每年进行一次检查,除非有理由需要更加频繁的进行检查。

    九、步骤6解读:传达结果并基于结果采取行动

    好故事该有的特征:

    (1)在设计好故事的中间部分之前想好出结尾。

    • 分析结果是讲述故事的唯一原因
    • 要想清楚自己希望听众知道写什么?
    • 要清楚你希望他们做什么?

    用以上三点来检测要讲的故事的其他部分,只留下能支持你结尾的内容。

    (2)把结果进行记录,并付出行动

    一个再好的分析,没有进行实践那也是白费。

    (3)能用3-5句话讲述故事的基本要点

    用最简单的方式,告诉大家你发现了什么。

    #讲述分析结果故事的方法#

    (1)犯罪现场调查故事

    将出现的问题作为“犯罪现场”,并寻找出现问题的本质、解决办法

    例如:销售额降低了(犯罪现场),这是为什么(找本质和解决办法)?

    (2)尤卡里故事

    犯罪现场调查故事类似

    不同之处:是一种解决特定问题和目的的方法,用来检验组织战略或商业模式中进行的重大改变。(决定进行某种决策,会带来什么问题)

    例如:点外卖的时候,有些店铺强制性要求购买1元的延时服务,那么现在店铺打算取消强制购买话,接单量是否会提升?

    (3)疯狂科学家故事

    即通过实验进行证明结论

    比较适合零售或者银行,对小范围的人群进行实验,分为测试组和对照组,研究两组实验结果的显著性(即A/B Test)

    例如:作为宝洁公司的主管,我把商品放在沃尔玛买,和放在普通超市买,沃尔玛能卖掉更多商品么?

    (4)调查故事

    在已发生现象的基础上,进行观察、编码、分析。

    类似于调查问卷的形式进行,然后针对调查所得结果进行分析,(分析师不会试图控制结果)

    例如:在一次问卷调查中,样本容量为100,随机进行调查,分析在18-25岁之间,人们的学历水平如何?

    (5)预测故事

    预测未来会发生什么的一种故事

    通过对过往数据的分析和理解,发现导致过去某种现象发生的原因,进而调整策略达到某种商业目的的分析

    例如:调查哪有在职超过6个月,没有实际项目成员将会在未来3个月离职?

    (6)“情况是这样的”故事

    最常见的,仅仅使用数据说明发生了什么的故事

    即讲述一个事实,不会用复杂的数学计算。

    比如:公司2019年第一季度的财报

    十、总结

    全文通读下来,我的收获如下:

    1、数据分析的3大阶段6大步骤,在书中的示例中有了深刻的理解;

    再次重复3大阶段6大步骤:

    (1)构建问题:

    • 识别和构建问题
    • 回顾之前的发现

    (2)解决问题

    • 建模或选择变量
    • 收集数据
    • 分析数据

    (3)传达结果并基于结果采取行动

    • 传达结果并基于结果采取行动

    2、了解了在数据分析过程中的注意事项,如

    • 利益相关者的识别与管理;
    • 如何判断自己真的做好了问题构建;
    • 有哪些故事?如何讲故事;

    3、自己觉得可以精读地方

    • 文章中关于数据分析的举例;
    • 关键的统计概念和方法;

    4、初步构建了自己的数据分析项目的处理套路与做事方法。

    结语

    每本书关于数据分析步骤的描述可能都会不一样, 但基本大同小异,我也会持续优化我的文章。
    附上,关于整篇文章的脑图:

    在这里插入图片描述

    以上就是我对该书的理解和梳理,若有错误之处,欢迎大家评论指正。

    在学习数据分析的小伙伴们可以私信我,一起讨论交流呀!

    也欢迎大家关注我的知乎专栏《数据分析学习之路》,我将持续更新我数据分析学习之路的点点滴滴,与大家共同进步。谢谢大家!

    展开全文
  • 实用干货!因子分析超全步骤总结

    万次阅读 多人点赞 2020-07-13 12:15:18
    本文主要讨论探索性因子分析。 一、研究背景 关于工作满意度有14个问题,调研得到215份问卷结果。希望通过因子分析,用少量因子反映14个题目的信息,从而达到降低维度,便于分析的目的,并对因子命名用于后续...

    因子分析是统计数据分析方法之一,因子分析包括探索性因子分析和验证性因子分析。本文主要讨论探索性因子分析。

     

    一、研究背景

    关于工作满意度有14个问题,调研得到215份问卷结果。希望通过因子分析,用少量因子反映14个题目的信息,从而达到降低维度,便于分析的目的,并对因子命名用于后续分析。

     

    二、分析步骤

     

    Step1数据准备:

    依据研究目的,收集相关数据。本例中就是我们收集得到的14个问题的有关数据。

    因子分析要求数据一定为定量数据,问卷数据一般为量表题。

     

    Step2选项设置:

    点击【进阶方法】--【因子分析】。

     

     

    将分析项拖拽至右侧,点击[开始分析],即可得到分析结果。

     

     

    • 设置[因子个数]:如果有预期想提取的因子个数,可以主动设置输出的因子个数。
    • 勾选[因子得分]:可自动保存因子得分。
    • 勾选[综合得分]:可自动保存综合得分。

     

    Step3结果解释:

    ①判断数据是否适合因子分析

    首先考察收集到的原有变量适不适合进行因子分析,我们利用KMO检验和Bartlett的检验结果进行判断。

     

    表1:KMO和Bartlett的检验

     

    上表展示KMO检验和Bartlett的检验结果

    通常KMO值的判断标准为0.6。大于0.6说明适合进行分析,反之,说明不适合进行分析。同时Bartlett检验对应P值小于0.05也说明适合分析。

    SPSSAU输出的结果中会给出智能解读结果,直接查看智能分析:

     

     

    ②判断提取因子个数

    多数情况下,我们在分析时已经带着主观预期,希望题项如何归类,此时可以直接设置对应的因子个数。

    本例中,工作满意度预期分为4个维度,因此将因子个数设为4。再进行分析。

     

    因子个数设为4

    表2:方差解释率表格

     

    方差解释率表格,主要用于判断提取多少个因子合适。以及每个因子的方差解释率和累计方差解释率情况。方差解释率越大说明因子包含原数据信息的越多。因子分析中,主要关注旋转后的数据部分。

    从上表可知:本次共提取了4个因子。此4个因子旋转后的方差解释率分别是24.993%,22.049%,20.191%,18.809%,旋转后累积方差解释率为86.042%。

    说明4个因子能够提取14个分析项86.042%的信息量,这个值没有固定标准,一般超过60%都可以接受。

     

    如果研究人员并没有预设维度。而选择默认选项,SPSSAU默认以特征根大于1作为标准。

     

    特征根:指标旋转前每个因子的贡献程度。此值的总和与项目数匹配,此值越大,代表因子贡献越大。

    当然因子分析通常需要综合自己的专业知识综合判断,即使是特征根值小于1,也一样可以提取因子。

    碎石图

     

    同时可结合碎石图辅助判断因子提取个数。当折线由陡峭突然变得平稳时,陡峭到平稳对应的因子个数即为参考提取因子个数。

    实际研究中更多以专业知识,结合因子与研究项对应关系情况,综合权衡判断得出因子个数。

     

    ③判断因子与题项对应关系

    上面提到确定因子提取个数除了要考虑以上指标,更重要的是结合因子与研究项对应关系情况判断。

    因子载荷系数表,正是反映因子和研究项对应关系情况。

    表3:旋转后因子载荷系数表格

     

    从结果中可以看出,使用因子分析对14个项进行浓缩处理,浓缩为四个因子。

    因子与题项对应关系,其中Q12-Q14在F1因子上有较高的载荷,说明F1因子可以解释这几个分析项,它们主要反映了工作报酬方面的满意度;

    Q9-Q11在F2上有较高的载荷,它们主要反映了领导管理方面的满意度;

    Q5-Q8在F3上有较高的载荷,它们主要反映了工作环境方面的满意度;

    Q1-Q4在F1上有较高的载荷,它们主要反映了个人发展方面的满意度。

     

    Step4结果调整:

    如果出现因子分析结果与预期结果不一致,这种情况是非常常见的。对于不理想的题项可以移出该项,再次分析,直至所有分析项与因子对应关系良好。

     

    如果出现以下3种问题,则需要对不合理题项进行删除:

    第一类:如果分析项的共同度值小于0.4,则对应分析项应该作删除处理;

    第二类:某分析项对应的”因子载荷系数”的绝对值,全部均小于0.4,也需要删除此分析项;

    第三类:如果某分析项与因子对应关系出现严重偏差(通常也称作‘张冠李戴’),也需要对该分析项进行删除处理。

    这部分在帮助手册中有详细介绍,有需要可阅读帮助手册中对应内容:

    https://spssau.com/front/spssau/helps/advancedmethods/factor.html

     

    Step5因子命名:

    当确定了最终提取的因子数及题项对应关系,即可对提取的因子命名。

    可以结合旋转后的因子载荷矩阵结果进行命名,最终将四个因子分别命名为F1工作报酬、F2领导管理、F3工作环境、F4个人发展。

     

    三、后续分析

    因子分析往往是预处理步骤,后续还需要结合具体研究目的进行分析,如回归分析、聚类分析等。

    此时,可能需要用到因子得分,返回分析页面勾选[因子得分]即可生成因子得分。

     

     

    如果是量表数据,建议通过【数据处理】--【生成变量】计算均值得到维度均值,用于后续研究。

     

     

    四、其他说明

    有关因子分析过程中可能遇到的问题,在之前的文章已经整理过,具体可参考:因子分析常见问题汇总,你想知道的都在这里

     

    展开全文
  • 大数据分析流程步骤都有哪些

    千次阅读 2020-08-24 13:57:34
    一个成功的大数据分析程序对于收集以及分析大数据都是至关重要的,对于大数据分析程序我们需要一个有效的流程管理,而今天我们就一起来了解和学习一下,大数据分析过程都包含了哪些内容。  大数据分析流程都...

      一个成功的大数据分析程序对于收集以及分析大数据都是至关重要的,对于大数据分析程序我们需要一个有效的流程管理,而今天我们就一起来了解和学习一下,大数据分析过程都包含了哪些内容。

    大数据分析流程步骤都有哪些

     

      大数据分析流程都包含哪些步骤

     

      1、数据收集

     

      大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如Flume、Logstash、Kibana等,它们都能通过简单的配置完成复杂的数据收集和数据聚合。

     

      2、数据存储

     

      收集到数据后,下一个问题就是:数据该如何进行存储?通常大家最为熟知是MySQL、Oracle等传统的关系型数据库,它们的优点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了HadoopHDFS、KFS、GFS等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。

     

      分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了HBase、MongoDB。

     

      3、数据分析

     

      大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。

     

      批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有HadoopMapReduce、Spark、Flink等;

     

      流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有Storm、SparkStreaming、FlinkStreaming等。

     

      批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。

     

      上面的框架都是需要通过编程来进行数据分析,那么如果你不是一个后台工程师,是不是就不能进行数据的分析了?当然不是,大数据是一个非常完善的生态圈,有需求就有解决方案。为了能够让熟悉SQL的人员也能够进行数据的分析,查询分析框架应运而生,常用的有Hive、SparkSQL、FlinkSQL、Pig、Phoenix等。这些框架都能够使用标准的SQL或者类SQL语法灵活地进行数据的查询分析。这些SQL经过解析优化后转换为对应的作业程序来运行,如Hive本质上就是将SQL转换为MapReduce作业,SparkSQL将SQL转换为一系列的RDDs和转换关系(transformations),Phoenix将SQL查询转换为一个或多个HBaseScan。

     

      4、数据应用

     

      数据分析完成后,接下来就是数据应用的范畴,这取决于你实际的业务需求。比如你可以将数据进行可视化展现,或者将数据用于优化你的推荐算法,这种运用现在很普遍,比如短视频个性化推荐、电商商品推荐、头条新闻推荐等。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。

     

      5、其他框架

     

      上面是一个标准的大数据处理流程所用到的技术框架。但是实际的大数据处理流程比上面复杂很多,针对大数据处理中的各种复杂问题分别衍生了各类框架:

     

      单机的处理能力都是存在瓶颈的,所以大数据框架都是采用集群模式进行部署,为了更方便的进行集群的部署、监控和管理,衍生了Ambari、ClouderaManager等集群管理工具;

     

      想要保证集群高可用,需要用到ZooKeeper,ZooKeeper是最常用的分布式协调服务,它能够解决大多数集群问题,包括领选举、失败恢复、元数据存储及其一致性保证。同时针对集群资源管理的需求,又衍生了HadoopYARN;

     

      复杂大数据处理的另外一个显著的问题是,如何调度多个复杂的并且彼此之间存在依赖关系的作业?基于这种需求,产生了Azkaban和Oozie等工作流调度框架;

     

      大数据流处理中使用的比较多的另外一个框架是Kafka,它可以用于消峰,避免在秒杀等场景下并发数据对流处理程序造成冲击;

     

      另一个常用的框架是Sqoop,主要是解决了数据迁移的问题,它能够通过简单的命令将关系型数据库中的数据导入到HDFS、Hive或HBase中,或者从HDFS、Hive导出到关系型数据库上。

     

      大数据分析的过程和结果都要依托于一个强大的计算机基础架构,这对于处理大数据信息也是至关重要的,如果要开发一些交互的系统,那么对于满足不同的用户需求是很重要的。

    展开全文
  • 需求分析步骤

    万次阅读 多人点赞 2014-03-25 18:03:07
    遵循科学的需求分析步骤可以使需求分析工作更高效。需求分析的一般步骤如图2-3所示。 需求涉及的方面有很多。 在功能方面,需求包括系统要做什么,相对于原系统目标系统需要进行哪些修改,目标用户有哪些,以及...
  • 过程FMEA:步骤二 结构分析

    千次阅读 2020-03-10 09:45:55
    过程结构分析旨在识别制造系统并将其...过程结构分析主要目标是: • 分析范围的可视化 • 结构树或其他:过程流程图 • 识别过程步骤和子步骤 • 顾客和供应商工程团队之间的协作(接口职责) • 功能分析步骤的基础
  • 过程FMEA步骤三:功能分析

    千次阅读 2020-03-17 09:55:29
    过程功能分析旨在确保产品/过程的...过程功能分析主要目标是: • 产品或过程功能可视化 • 结构树/网或等效过程流程图 • 将要求或特性与功能关联 • 工程团队(系统、安全和组件)之间的协作 • 失效分析步骤的基础
  • 数据分析的作用及步骤

    千次阅读 2018-04-10 20:19:02
    一、数据分析 数据分析是指用适当的统计方法对收集来的数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中...
  • 信度分析(spss信度分析步骤)

    万次阅读 2021-01-16 14:21:16
    对于调查问卷信度分析也称为可靠性分析,用于测量样本回答结果是否可靠,即样本有没有真实作答量表类题项。比如说,在对同一对象进行测量,多次测量结果都很接近,就会认为这.信度分析,它是指采用同样的方法对同一...
  • DFMEA步骤二:结构分析

    千次阅读 2020-02-07 12:25:38
    设计结构分析主要目标是: ● 分析范围的可视化 ● 结构树或其它:方块图、边界图、数字模型、实体零件 ● 设计接口、交互作用和间隙的识别 ● 顾客和供应商工程团队之间的协作(接口职责) ● 功能分析步骤的基础 ...
  • 本文主要讨论探索性因子分析。1研究背景关于工作满意度有14个问题,调研得到215份问卷结果。希望通过因子分析,用少量因子反映14个题目的信息,从而达到降低维度,便于分析的目的,并对因子命名用于后续分析。 2分析...
  • 大数据分析模型构建步骤

    千次阅读 2020-07-10 13:45:26
    今天我们就来了解一下,大数据分析中的模型构建步骤。  大数据环境下的数据分析模型构建步骤  常用的数据挖掘方法主要是基于客户画像体系与结果,选取相关性较大的特征变量,通过分类模型、聚类模型、回归...
  • 数据分析-PART1--数据获取和步骤

    千次阅读 多人点赞 2018-07-31 09:51:26
    数据分析-PART1--数据获取和步骤 数据分析-PART2--10大数据分析模型 数据分析-PART3--数据分析常用指标 数据分析-PART4--数据分析方法 数据分析-PART5--数据分析可视化 数据分析-PART6--数据分析能力培养 ...
  • 5个步骤,用SPSS进行数据分析

    千次阅读 2020-12-28 21:30:16
    原标题:5个步骤,用SPSS进行数据分析 SPSS是一款非常强大的数据处理软件,那么该如何用SPSS进行数据分析呢?什么是SPSSSPSS是社会统计科学软件包的简称, 其官方全称为IBM SPSS Statistics。SPSS软件包最初由SPSS ...
  • 数据分析的过程包括哪些步骤

    千次阅读 2019-09-26 19:05:29
    而数据分析一般都要用一定的步骤,数据分析步骤主要包括4个既相对独立又互有联系的过程,分别是:设计数据分析方案、数据收集、数据处理及展现、数据分析4个步骤。 设计数据分析方案 我们都知道,做任何事情都要有...
  • 设计FMEA步骤四:失效分析

    万次阅读 2020-02-07 12:45:30
    设计失效分析主要目标是: ●确认每个产品功能的潜在失效影响、失效模式和失效起因(失效链) ●顾客和供应商之间的协作(失效影响) ●FMEA表格中失效文件化和风险分析步骤的基础 失效 功能的失效由功能推导而来。...
  • 数据分析学习总结笔记06:T检验1 单样本T检验1.1 单样本T检验概念1.2 单样本T检验步骤2 独立样本T检验2.1 独立样本T检验概念2.2 独立样本T检验步骤 1 单样本T检验 1.1 单样本T检验概念 目的:利用来自某总体的样本...
  • 在一组多变量的数据中,很多变量常常是一起变动的。一个原因是很多变量是同一个驱动影响的的结果。...主成分分析是一个定量的严格的可以起到简化作用的方法。它产生一组叫做主成分的新变量,每一个主成分是原始变...
  • 什么是数据分析? 数据分析是指用适当的统计分析对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 数据分析的...
  • 设计FMEA步骤三:功能分析

    千次阅读 2020-02-07 12:32:34
    设计功能分析主要目标是: ● 产品或过程功能可视化 ● 制定功能树/网或者功能分析表格和参数图(P图) ● 具备相关要求的顾客(内部和外部)功能的展开 ● 将要求或特性与功能关联 ● 工程团队(系统、安全和组件)之间...
  • 下面通过一个实例来具体了解一下,验证性因子分析的操作步骤以及过程中需要注意的内容。1、背景当前有一份215份的研究量表数据,共由四个因子表示,第一个因子共5项,分别是A1~A5;第二项因子共5项,分别是B1~B5;第...
  • 数据分析分核心步骤分为:业务认知与数据探索、数据预处理、业务认知与数据探索等三个核心步骤。本文介绍第三个步骤:业务认知与数据探索,包括常见业务分析模型,如AB测试、RFM、AARRR、对比分析、来源分析、细分...
  • 用Excel做回归分析的详细步骤

    千次阅读 2020-12-19 04:21:39
    清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时...
  • 失效分析的流程

    千次阅读 2022-03-29 13:47:23
    1.确定失效问题 为了提高失效分析效率,最好在提出分析申请前,尽可能的把问题定位到具体的...主要包括以下内容,失效样品失效发生的阶段:SMT阶段、测试阶段、组装阶段等;失效样品失效的具体测试工站等,具体信息如
  • 实验内容 试利用主成分综合评价全国各地区水泥制造业规模以上企业的经济效益,原始数据来 源于2014 年《中国水泥统计年鉴》,如表5一5所示。 实验目的 掌握主成分分析的使用方法,提取主成分,计算主成分得分及综合...
  • 设计FMEA步骤五:风险分析

    千次阅读 2020-02-07 12:50:02
    设计风险分析主要目标是: • 对现有和/或计划的控制进行分配、并对失效进行评级 • 针对失效起因,分配预防控制 • 针对失效起因和/或失效模式,分配探测控制 • 针对每个失效链进行严重度、频度和探测度评级 ...
  • 机器学习的7个步骤

    千次阅读 2021-05-09 00:46:26
    预测步骤是最终用户在各自行业中使用机器学习模型时看到的内容。这一步凸显了为什么许多人认为机器学习是各个行业的未来。复杂但执行良好的机器学习模型可以改善其各自所有者的决策过程。做出决定时,人类只能处理...
  • 软件架构设计的6个步骤及工作内容

    千次阅读 2021-07-30 10:21:31
    在整个软件架构设计过程中,笔者结合自身项目经验将架构设计步骤罗列为6个大步骤,依次是需求分析、领域建模、确定关键需求、概念架构设计、细化架构设计、架构验证。在实际项目过程中,也是遵循这6个大步骤进行软件...
  • 主成分分析(PCA)原理详解

    万次阅读 多人点赞 2018-06-09 15:08:25
    “微信公众号”本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s/Xt1vLQfB20rTmtLjiLsmww本文同步更新在我的知乎专栏里面:主成分分析(PCA)原理详解 - Microstrong的文章 - 知乎...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 427,729
精华内容 171,091
关键字:

内容分析的主要步骤