精华内容
下载资源
问答
  • 标题《深入浅出统计学》读书笔记 第2篇 本文内容: 第2章 集中趋势的量度:中庸之道 第3章 分散性与变异性的度量:强大的“距”

    《深入浅出统计学》读书笔记 第2篇

    本文内容:

    • 第2章 集中趋势的量度:中庸之道
    • 第3章 分散性与变异性的度量:强大的“距”

    在这里插入图片描述

    展开全文
  • 在数据库技术中,用数据模型的概念描述数据库的结构和语义,是对现实世界的数据抽象。数据模型是研究数据库技术的核心和基础。 文章目录1.概念数据模型(CDM)2.逻辑数据模型(LDM)3.物理数据模型(PDM) 1.概念...

        模型是现实世界特征的模拟和抽象。在数据库技术中,用数据模型的概念描述数据库的结构和语义,是对现实世界的数据抽象。数据模型是研究数据库技术的核心和基础。



    1.概念数据模型(CDM)

        现实世界主要涉及以下一些概念:
        (1)实体(Entity)
        客观存在并可相互区别的事物称为实体。
        可以是具体的人、事、物或抽象的概念。
        (2)属性(Attribute)
        实体所具有的某一特性称为属性。
        一个实体可以由若干个属性来刻画。
        (3)码(Key)
        唯一标识实体的属性集称为码。
        (4)实体型(Entity Type)
        用实体名及其属性名集合来抽象和刻画同类实体称为
    实体型
        (5)实体集(Entity Set)
        同一类型实体的集合称为实体集
        (6)联系(Relationship)
        现实世界中事物内部以及事物之间的联系在信息世界中反映为实体(型)内部的联系和实体(型)之间的联系。
        实体内部的联系通常是指组成实体的各属性之间的联系
        实体之间的联系通常是指不同实体集之间的联系
        实体之间的联系有一对一、一对多和多对多等多种类型

        概念数据模型是现实世界到信息世界的第一层抽象,主要是在高水平和面向业务的角度对信息的一种描述,通常作为业务人员和技术人员之间沟通的桥梁。作为现实世界的概念化结构,这种数据模型使得数据库的设计人员在最初的数据库设计阶段将精力集中在数据之间的联系上,而不用同时关注数据的底层细节(如所用的计算机系统的特性以及数据库管理系统—DBMS的特性)。

        概念数据模型主要的贡献在于分析数据之间的联系,它是用户对数据存储的一种高度抽象,反应的是用户的一种业务层面的综合信息需求。

        在这个阶段一般会形成整个数据模型或者是软件系统中的实体的概念以及实体之间的联系,为构建逻辑数据模型奠定基础。下图中描述了现实世界和信息世界以及最终转换成计算机世界信息的转换流程。

    图 1    数据的抽象以及转换流程图

        设计概念数据模型的主要工具是E-R图,扩展的E-R图。
        概念模型的表示方法最常用的是P.P.Chen于1976年提出的"实体-联系图方法(Entity-Relationship Approach),简称E-R模型"。E-R实体联系图是直观表示概念模型的工具,其中包含了实体、联系、属性三个成分,联系的方法为一对一(1:1)、一对多(1:N)、多对多(M:N)三种方式,联系属于哪种方式取决于客观实际本身。
        E-R模型图,既表示实体,也表示实体之间的联系,是现实世界的抽象,与计算机系统没有关系,是可以被用户理解的数据描述方式。通过E-R模型图可以使用户了解系统设计者对现实世界的抽象是否符合实际情况,从某种程度上说E-R模型图也是用户与系统设计者进行交流的工具,E-R模型图已成为概念模型设计的一个重要设计方法。
      在这里插入图片描述
    在这里插入图片描述



    2.逻辑数据模型(LDM)

    数据模型由三部分组成:数据结构、数据操作和数据约束。
      (1)数据结构:数据结构主要描述数据的类型、内容、性质、以及数据之间的联系,是整个数据模型的基础,而针对数据的操作和数据之间的约束都是建立在数据结构的基础上的;
      (2)数据操作:主要定义了在相应的数据结构上的操作类型和操作方式(数据库中的增删改查等);
      (3)数据约束:数据约束主要用来描述数据库中数据结构之间的语法、词义联系以及彼此之间的相互约束和制约关系(如MySQL中使用外键保证数据之间的数据完整性)

    逻辑数据模型是对概念数据模型进一步具体化,在概念数据模型定义实体的基础上定义了各个实体的属性,是用户从数据库的角度能够看到的数据的模型,是所使用的数据库管理系统(Database Management System,DBMS)所支持的数据类型(网状数据模型、层次数据模型、关系数据模型)。这种数据模型架起了用户和系统之间的桥梁,既要面向用户,同时也考虑到了所用的DBMS所支持的特性。

    逻辑数据模型反映了系统分析设计人员针对数据在特定的存储系统(如MySQL)的观点,是对概念数据模型的进一步细化和划分。逻辑数据模型是根据业务之间的规则产生的,是关于业务对象、业务对象数据以及业务对象彼此之间关系的蓝图。

    逻辑数据模型的内容包括所有的实体、实体的属性、实体之间的关系以及每个实体的主键、实体的外键(用于维护数据完整性)。其主要目标是尽可能详细的描述数据,但是并不涉及这些数据的具体物理实现。逻辑数据模型不仅会最终影响数据库的设计方向,并最终会影响到数据库的性能(如主键设计、外键等都会最终影响数据库的查询性能)。

    逻辑数据模型是开发物理数据库的完整文档,逻辑数据模型主要采用的是层次模型、网状模型、关系模型,其中最常用的是关系模型,对应的数据库称之为关系型数据库,如MySQL。
      常用的结构数据模型是关系模型和面向对象模型,关系模型的理论基础是数学理论,数据的操作通过关系运算实现。在关系模型中用二维表表示实体及实体之间的联系,关系模型的实例称为关系。从数学的观点上看,关系是集合,其元素是元组(记录)。遵循一定的规则后,可以将E-R模型图转换成关系模型。


        将E-R模型图转换成关系模型的规则
    E-R模型图中的主要成分是实体及实体之间的联系,对于实体的转换方式是:
      1) 将一个实体转换成一个关系模型。实体的属性为关系模型的属性,实体的标识符为关系模型的关键字,如上图所示的E-R模式中有两个实体:学生、课程,可以分别转换学生模型和课程模型:
        学生模型(学号,姓名,性别,年龄),学号是学生模型的关键字
        课程模型(课程号,课程名,学时数),课程号是课程模型的关键字
        2) 联系转换为关系模型。联系转换成关系模型时,要根据联系方式的不同采用不同的转换方式:
        若联系的方式是一对一的(1:1),可以在两个实体关系模型中的任意一个关系模型中加入另一个关系模型的关键字和联系类型的属性。
        若联系方式是一对多的(1:N),则在N端(为多的一端)实体的关系模型中加入1端实体关系模型的关键字和联系类型的属性
        若联系方式是多对多的(M:N),则将联系也转换成关系模型,其属性是互为联系的两个实体的关键字和联系的属性
    在这里插入图片描述



    3.物理数据模型(PDM)

    物理数据模型,又称为物理模型,是概念数据模型和逻辑数据模型在计算机中的具体表示。该模型描述了数据在物理存储介质上的具体组织结构,不但与具体的数据库管理系统相关,同时还与具体的操作系统以及硬件有关,但是很多工作都是由DBMS自动完成的,用户所要做的工作其实就是添加自己的索引等结构即可。

    物理数据模型是在逻辑数据模型的基础上,综合考虑各种存储条件的限制,进行数据库的设计,从而真正实现数据在数据库中的存放。其主要的工作是根据逻辑数据模型中的实体、属性、联系转换成对应的物理模型中的元素,包括定义所有的表和列,定义外键以维持表之间的联系等,具体例子如下:

    图2 逻辑数据模型到对应的数据库之间的转换示例

    展开全文
  • 数据集中趋势

    2019-07-21 22:52:42
    数据集中趋势 众数 一组数据中出现频次最高的数 中位数 一组数中间的数 分位数 极差 算数平均数 加权平均数 几何平均数 数据的离散趋势 方差 标准差 极差 平均差 四分位数 第一四分位数 (Q1),又称“较小四分位数...

    数据的集中趋势

    众数

    一组数据中出现频次最高的数

    中位数

    一组数中间的数

    分位数

    极差

    算数平均数

    加权平均数

    几何平均数

    数据的离散趋势

    方差

    标准差

    极差

    平均差

    四分位数

    第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
    第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
    第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
    第三四分位数与第一四分位数的差距又称四分位距。

    众异比率

    异众比率指的是总体中非众数次数与总体全部次数之比。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

    相对离散程度

    离散系数

    离散系数又称变异系数。离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
    当进行两个或多个资料离散程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

    分布的形状

    偏态系数

    偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
    偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画。一般认为,没有百年以上的资料,偏态系数的计算结果很难得到一个合理的数值。

    峰态系数

    峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标,用于衡量离群数据离群度,峰度系数越大,说明该数据集中的极端值越多。在正态分布情况下,峰度系数值是3。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。

    展开全文
  • 衡量数据的离散程度

    千次阅读 2019-02-27 20:43:55
    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...

    转载自https://www.cnblogs.com/kira2will/p/4357434.html

    衡量数据的离散程度

    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

    极差(Range)

      极差也叫全距,指数据集中的最大值与最小值之差:

    Range

      极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

    四分位距(interquartile range,IQR)

      我们通常使用箱形图来表现一个数据集的分布特征:

    box-plot

      一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

     interquartile-range

      如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

    方差(Variance)

      方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

    Variance

      方差是最常用的衡量数据离散情况的统计量。

    标准差(Standard Deviation)

      方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

    Standard-Deviation

      基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

    平均差(Mean Deviation)

      方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

    Mean-Deviation

      平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

    变异系数(Coefficient of Variation,CV)

      上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

      变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

    Coefficient-of-Variation

      变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

      

    展开全文
  • 数据离散程度的衡量

    千次阅读 2019-03-01 23:26:42
    我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计...
  • 定义:离散程度用于衡量各变量值距离其中心值的程度,离散程度越大,则代表用于代表集中趋势的度量值对于这一组数据的代表性也越差。 1.1 分类数据:异众比率 因为分类数据一般采用众数来代表其集中趋势,因此对于...
  • 即一组数据距离数据中心的靠近程度
  • 文章目录内容介绍离散程度度量 内容介绍 不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的...从另一个侧面说明了集中趋势测度值的代表程度。 不同类型的数据有不同的离散程度测度值。
  • 《数据库原理》— 数据库系统概论第五版习题解析

    万次阅读 多人点赞 2017-05-29 14:57:48
    (l)数据(Data):描述事物的符号记录称为数据数据的种类有数字、文字、图形、图像、声音、正文等。数据与其语义是不可分的。解析在现代计算机系统中数据的概念是广义的。早期的计算机系统主要用于科学计算,处理...
  • 2019工程伦理慕课答案(2019秋)习题及期末答案

    万次阅读 多人点赞 2019-11-08 18:19:53
    根据伦理规范得到社会认可和被制度化的程度,我们可以把伦理规范分为制度性的伦理规范和描述性的伦理规范两种情况。 正确 错误 判断题 (1/1 point) 伦理是个体性、主观性的,侧重个体的意识、行为与...
  • 图像分割综述

    万次阅读 多人点赞 2019-07-09 22:03:48
    近年来还提出了基于曲面拟合的方法、基于边界曲线拟合的方法、基于反应-扩散方程的方法、串行边界查找、基于变形模型的方法。 边缘检测的优缺点: (1)边缘定位准确; (2)速度快; (3)不能保证边缘的连续...
  • 数据库面试

    千次阅读 多人点赞 2019-02-13 09:03:42
    数据定义DDL:Create Table,Alter Table,Drop Table, Create/Drop Index等 数据操纵DML:Select ,insert,update,delete, 数据控制DCL:grant,revoke 2. 内联接,外联接区别? 内连接是保证两个表中所有的行都要满足...
  • 基于SSM的校园二手交易平台的设计与实现

    万次阅读 多人点赞 2018-05-06 14:24:44
    商品信息需要建立一个Bean对象,存储内容是商品的id、商品名称、商品单价、商品类别、商品数量、商品详细信息、商品成色、商品附带的图片地址、热门程度、发表用户的id、留言的集合,当用户发表之后,保存数据到Bean...
  • 软件测试面试题汇总

    万次阅读 多人点赞 2018-09-27 12:31:09
    转载自: ... 软件测试面试题汇总 测试技术面试题 ...........................................................................................................
  • C#基础教程-c#实例教程,适合初学者

    万次阅读 多人点赞 2016-08-22 11:13:24
    大家注意,这里我们实际定义了一个新的数据类型,为用户自己定义的数据类型,是对个人的特性和行为的描述,他的类型名为Person,和int,char等一样为一种数据类型。用定义新数据类型Person类的方法把数据和处理数据...
  • SDN

    千次阅读 多人点赞 2017-06-29 11:35:37
    理解一:集中式的管理下 分布式1)控制2)管理3)数据平面。 这句话,从前半句话和后半句话进行理解。首先 集中式的管理,代表着SDN体系和传统体系的不同:由我们计划的策略决定的一些规则 集中地进行管理(比如...
  • 决策树

    千次阅读 2016-05-28 22:28:11
    该公式表明表示从数据集中任选两个得到样本的标签不同的概率。 ∑ k = 1 | y | p 2 k \sum_{k=1}^{|y|}p_k^2 表示从数据集中任选两个得到样本的标签相同的概率。 3.剪枝操作—–用于防止过拟合 由于决策树...
  • 基于MATLAB的语音信号处理

    万次阅读 多人点赞 2018-07-15 01:21:20
    提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式 程序设计语言 的编辑模式,代表了当今国际科学计算软件的先进水平 [7] 。  MATLAB7.0 是美国 Math Works 公司出品的商业数学软件,用于算法开发、数据...
  • 数据分析统计学基础之数据的趋势

    千次阅读 2019-05-15 18:01:25
    数据集中趋势就是一组数据数据的中心值靠拢的程度。   集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。 1.1平均数   平均数为集中趋势的最常用测度值,目的是确定一组数据的均衡点...
  • 很多时候有描述集中趋势的统计量是不够的,还要有描述数据的离散程度的统计量。 极差=最大值-最小值,简单地描述数据的范围大小 A:9-1=8; B:7-3=4 可以看出A的极差比B的极差大,所以A组数据比B组数据要分散 ...
  • 无线传感器网络复习大纲

    千次阅读 多人点赞 2019-04-30 10:31:40
     ②、从节点的物理层集成化程度、成本的角度来考虑,虽然当前的CMOS工艺已经成为主流,但是对大电感的集成化还是一个非常大的挑战,由于无线传感器网络是一种面向应用的网络,FCC组织给出2.4GHz的一个全球ISM频段。...
  •  直方图可以直观的看到数据的大致情况;一般有频数分布直方图和频率分布直方图两种。 二、数据的计量尺度  数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类: 定类尺度:表现为“ 类别 ” ...
  • 数据分析面试知识点总结(更新中...)

    万次阅读 多人点赞 2019-05-03 18:12:58
    https://blog.csdn.net/wypersist/article/details/80114709 (海量数据处理问题) 怎么做恶意刷单检测 分类问题用机器学习方法建模解决,我想到的特征有: 1)商家特征:商家历史销量、信用、产品类别、发货快递...
  • 极差:极差为数据样本中的最大值与最小值的差值,是所有方式中最为简单的一种,它反应数据样本的数值范围,是最基本的衡量数据离散程度的方式,受极值影响较大。如在数学考试中,一个班学生得分的极差为60,放映了...
  • 数据集中趋势 在统计研究中,需要搜集大量数据并对其进行加工整理,大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;与中间位置距离越远,出现的次数越少,从而形成了...
  • 二、数据分布特征的测度

    千次阅读 2021-01-29 20:52:56
    1、集中趋势:各数据向中心值靠拢或聚集的程度;【平均数、中位数、四分位数、众数】 2、离散程度:各数据远离其中心值的趋势;【极差、四分位差、方差、标准差、离散系数】 2、分布形状:数据分布偏斜程度和峰度...
  • 数据库, 数据仓库, 数据集市,数据湖,数据中台

    千次阅读 多人点赞 2019-02-22 16:21:47
    数据仓库和数据集市的区别 作者:修鹏李 出处:CSDN 大数据:数据仓库和数据库的区别 作者:南宫蓉 出处:简书 第一篇:数据仓库概述 第二篇:数据库关系建模 作者:穆晨 出处:CNBLOS 摘要 本文简要介绍...
  • 一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 28,906
精华内容 11,562
关键字:

反映数据的集中程度