精华内容
下载资源
问答
  • 对关系的描述
    千次阅读
    2019-04-16 00:26:12

    即在探寻总体内在数量规律性的过程中的不同阶段(根据对样本/总体数据的描述统计来推断统计总体的数量特征)

    更多相关内容
  • 为了搞清楚表之间的关系,可以用ER图方便方便的描述

    为了搞清楚表之间的关系,可以用ER图方便方便的描述。

    展开全文
  • 目录散点图描述关系特征相关性协方差Pearson相关性非线性关系Spearman秩相关相关性和因果关系 之前提到过描述单个随机变量的一些工具,比如正针对整体总体细节的“分布”、针对总体概述的各种统计量(期望、方差等)...


    之前提到过描述单个随机变量的一些工具,比如正针对整体总体细节的“分布”、针对总体概述的各种统计量(期望、方差等),也提到过针多元随机变量的描述量:协方差和相关系数,现在此总结下多个变量之间关系的研究。

    注:针对机器学习的问题,“变量”可以直接理解为“特征”。

    1. 散点图

    研究两个变量之间关系的最简单方法是散点图(scatter plot)。但好的散点图的绘制并不简单。

    注:可以将数据进行抖动(jittering),即加入随机噪音弥补四舍五入的效果,以减少丢失信息对散点图的影响。
    但是,抖动数据通常只应用于视觉效果,你应该避免在分析时使用经过抖动处理的数据。
    在这里插入图片描述
    即便经过了抖动处理,散点图也不是展示数据的最佳方法。图中有很多重叠的点,遮盖了密集部分的数据,使离群值显得特别突出。这种效果称为饱和(saturation)。

    2. 描述关系特征

    散点图能让我们对变量关系有个大体了解,而其他可视化方法则可以让我们更深入地了解变量关系的本质。一种方法是对一个变量进行分区,绘制另一个变量的百分位数

    3. 相关性分析

    相关性(correlation)是一个统计量,用于量化两个变量之间关系的强弱

    度量相关性的困难之处在于,我们需要比较的变量通常使用不同的单位。即便变量使用相同的单位,也可能来自不同的分布。

    这些问题有两个常见的解决方法。

    • 将每个值都转换为标准分数(standard score),即其偏离均值的标准差数。这种转换会产生“Pearson乘积矩相关系数”。
    • 将每个值都转换为秩,即其在所有值的排序列表中的索引。这种转换会产生“Spearman秩相关系数”。

    3.1 协方差

    协方差(covariance)可以度量两个变量共同变化的趋势
    对于随机变量X和Y,两者的协方差定义如下:
    Cov[X,Y] = E[(X-μx)(Y-μy)],(中括号只是一种约定俗成的表示手段)可以这样理解:
    在这里插入图片描述

    • 协方差公式中包含的含义
      协方差为正,表示X增大时,Y也增大——正相关性;
      协方差为负,表示X增大时,Y倾向于减小——负相关性;
      协方差为0时,表示X增大,Y没有明显的增大或减小的倾向——两者独立相关。

    几点注意:

    1.与方差的关系
    Var[X] = E[(X-μ)2] = E[(X-μ)(X-μ)] ,其实方差就是一种特殊的协方差

    2.协方差矩阵

    我们可以引入一个协方差矩阵,将一组变量X1,X2,X3两两之间的协方差用矩阵的形式统一进行表达:

    [ 
    V[X~1~]      Cov[X~1~X~2~]      Cov[X~2~X~3~]
    Cov[X~2~X~1~      V[X~2~]       Cov[X~2~X~3~]
    Cov[X~2~X~1~]      Cov[X~3~X~2~]     V[X~3~]     
    ]
    

    注:看上面的公示就会发现若均值μ都为0 ,则计算会简便很多,所以一般先对变量进行0均值处理(xi或者yi减去他们的均值)

    3.PCA降维的过程

    假设我们研究的对象有两个特征属性X和Y,对 5 个样本进行数据采样的结果如下:

    XY
    样本122
    样本226
    样本346
    样本488
    样本548

    我们的目标是对其降维,只用一维特征来表示每个样本,只用一维特征来表示每个样本。我们首先将其绘制在二维平面图中进行整体观察:
    在这里插入图片描述
    查看这两个变量的协方差矩阵,

    import numpy as np
    import matplotlib.pyplot as plt
    
    x = [2,2,4,8,4]
    y = [2,6,6,8,8]
    S = np.vstack((x,y))
    
    print(np.cov(S))
    
    
    [[ 6.  4.]
     [ 4.  6.]]
    

    结合之前的二维散点图可以发现5个样本的特征 X 和特征 Y 呈现出正相关性,数据彼此之间存在着影响。

    若直接粗暴地去掉一个特征,可行么?则会变成:
    在这里插入图片描述显然效果不理想:忽视了数据中的内在结构关系,并且带来了非常明显的信息损失。
    (降维——>高维数据向低维进行投影)

    一个解决思路便是:

    ① 去除原始特征的相关性,使用心新的一组特征来表示原始数据
    ② 然后从新的彼此无关的特征中舍弃不重要的特征,保留较少的特征,实现降维。

    首先,第一点的目的是使用新的特征来对样本来进行描述为了让这两个新特征满足彼此无关的要求,就需要让这两个新特征的协方差为0,构成的协方差矩阵是一个对角矩阵(原始特征X和Y的协方差不是0,只是一个普通的对称矩阵

    对变量分别进行0均值处理后,通过求解协方差矩阵的特征向量,就可以得到线性无关的特征矩阵(图中两个新的坐标方向)。

    在这里插入图片描述
    接下来的工作就是从这两个特征中选取一个作为原始数据的特征表达,其判断标准是方差,方差越大表示这个特征里的数据分布的离散程度就越大,特征所包含的信息量就越大。

    在这里插入图片描述

    3.2 Pearson相关性

    协方差在一些计算中非常有用,但其含义很难解释,因此人们很少将协方差作为摘要统计量。别的不提,协方差的单位是 X 和 Y 的单位乘积,这一点就很难理解。例如,BRFSS数据集中体重和身高的协方差是113千克-厘米,天晓得这是什么意思。
    解决这个问题的方法之一是将偏差除以标准差,得到标准分数,然后计算标准分数的乘积。
    Pearson相关性容易计算,也易于解释。因为标准分数是无量纲(无单位),所以 ρ 也是无单位的。

    非线性关系

    如果Pearson相关性接近0,你可能会认为变量之间没有关系,但这个结论并不成立。Pearson相关性只度量了线性(linear)关系。如果变量之间存在非线性关系,那么 ρ 对变量相关性强弱的估计就可能是错误的。

    Spearman秩相关

    如果变量之间的关系是线性的,而且变量大致符合正态分布,那么Pearson相关性能够很好地说明相关性的强弱。但是离群值会影响Pearson相关性的稳健性。Spearman秩相关能够缓解离群值以及偏斜分布的的影响,也可以用于描述变量的相关性。要计算Spearman相关性,必须计算每个值的秩(rank),即该值在排序样本中的索引。

    相关性和因果关系

    记住:“相关性并不意味着因果关系”

    我们可以用 X 的信息,去预测 Y 的分布或者某些特征,但并不能告诉我们 X 的变化一定会导致 Y 的变化。

    统计关系,无论多么强、多么富有启示性,都不能确立因果关系。因果关系的思想必须来自于统计学之外,来源于一些理论或者其他方面
    ——Kendall & Stuart(1961)

    参考:

    1. 《概率思维》
    2. 线性回归:描述变量间预测关系最简单的回归模型
    3. 简单相关性分析(两个连续型变量)
    4. 矩阵特征值分解与主成分分析(Python 实现)
    展开全文
  • 分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!... 说明:其中Running表示运行状态,Runnable表示就绪状态(万事俱备,只欠CPU),Blocked表示阻塞状态。...

    分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请点击http://www.captainbed.net 

    说明:其中Running表示运行状态,Runnable表示就绪状态(万事俱备,只欠CPU),Blocked表示阻塞状态。

    阻塞状态又有多种情况,可能是因为调用wait()方法进入等待池,也可能是执行同步方法或同步代码块进入等锁池,或者是调用了sleep()方法或join()方法等待休眠或其他线程结束,或是因为发生了I/O中断。

    展开全文
  • 类图用来表示系统中类和类与类之间的关系,它是系统动态结构的描述。(选择1项) A.正确 B.不正确 解答:B 类图是系统静态结构的描述。 转载于:https://www.cnblogs.com/borter/p/9562328.html...
  • 一 用表格方式汇总两个变量的数据 1 交叉分组表 常用于一个变量为分类型变量,一个变量为数量型变量 下面是由洛杉矶300家饭店组成的一个样本,其质量等级与参加数据的应用。 质量等级是一个分类变量,等级...
  • 关系,关系模式,关系模型区别和联系

    万次阅读 多人点赞 2019-12-18 09:40:11
    关系模式是型,关系是值,关系模式是对关系描述 关系关系模式在某一个时刻的状态或者内容,关系模式是静态的,稳定的,而关系是动态的,随时间不断变化的,因为关系操作在不断地更新着数据库中的数据 类似于面向对象...
  • 数据库多关系

    千次阅读 2018-02-27 23:59:06
    一般我们用三张表来描述多的关系。例子:多个分类,每个分类有多个商品。另外每个商品在不同的分类。以下例子不太恰当,自己瞎举得,知道意思就好类:水果 A类 B类商品:A果,A菜,B果,B菜,我们创建数据表商品...
  • 关系运算符

    万次阅读 2020-03-18 18:43:44
    程序设计是实际问题解决过程的模拟,常常需要做判断,像“如果这样,我就执行动作A,如果那样,我就执行动作B”,那怎么判断这样那样呢,就需要关系运算符和关系表达式。 关系运算符表达式示例代码: 运行...
  • 描述性统计分析

    万次阅读 2018-06-07 10:56:17
    数据分析之前,需先明确变量的度量类型。变量的度量类型主要分三种:名义、等级、连续; 1、名义变量:如饮料类型; 1.1 描述名义变量的分布:频数表、... 3.1.1 需要变量进行分布探索,并了解以下情况:  ...
  • 数据库中:E-R图也称实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。 实体之间的关系有 一一(如一个学生对应一个档案,一个档案对应一个学生)...
  • SPSS中的数据分析—描述性统计分析【1】

    万次阅读 多人点赞 2020-06-17 10:52:57
    从今天开始,小白将深入给大家带来关于数据分析工具SPSS的使用和讲解,在这段时间里我会带着大家来一起学习了解如何使用SPSS进行描述性统计分析、假设检验、相关分析、回归分析、聚类分析、主成份分析、因子分析等。...
  • UML各种关系,图的介绍(附加案例)

    万次阅读 多人点赞 2019-04-10 21:07:59
    本篇文章系我总结了网上好多片文章外加自己做图编辑而成,留作自用。...UML图中类之间的关系:依赖,泛化,关联,聚合,组合,实现 类与类图 1)类(Class)封装了数据和行为,是面向对象的重要组成部分,它是具有相...
  • 算法描述

    千次阅读 2019-09-22 17:40:02
    (1)算法:描述数据对象之间的关系(包括数据逻辑关系、存储关系描述)。 (2)描述算法的工具:算法可用自然语言、框图或高级程序设计语言进行描述。自然语言简单但易产生二义性;框图直观但不擅长表达数据的组织...
  • SPSS统计描述分析

    千次阅读 2022-01-11 16:02:29
    SPSS统计描述分析
  • 数据库:第二章 《关系模式》概念总结

    千次阅读 多人点赞 2020-03-31 11:27:37
    一、关系数据结构及形式化定义 1. 关系模式的相关概念: 域: 域是一组具有相同数据类型的值的集合 笛卡尔积: 域上的一种集合运算 其中每一个元素(d1,d2,d3,……dn)叫做一个元祖,元祖中的每一个值叫做一个分量。...
  • 类图六大关系总结

    千次阅读 2020-06-12 17:46:41
    用于描述系统中类(对象)本身的组成和类(对象)之间的各种静态关系。 二、类之间的关系         六大关系:依赖、泛化(继承)、实现、关联、聚合与组合。   &...
  • 原文指路:添加链接描述 数据:数据就是数据库中存储的基本数据,比如学生的学号、学生的班级 数据库:存放数据的仓库 数据库管理系统:数据库软件,如MySQL、Oracle 数据库系统:数据库+数据库管理系统+应用程序+...
  • IDEA查看类关系图的正确姿势

    万次阅读 2019-04-28 22:22:56
    有时候学习某个类库需要了解类之间的关系,用来理解或者写文章,有些人会手动画UML图,比较浪费时间。 其实可以通过IDEA提供的功能来实现。 可以菜单或者快捷键直接显示继承关系图: 效果如下: 另外还...
  • 到底什么是文件描述符???

    千次阅读 多人点赞 2021-10-28 10:10:51
    文件描述符1、文件描述符的引入1.1 系统调用接口的引入1.2 文件描述符2、文件描述符2.1 演示文件描述符2.2 文件描述符的返回值2.3 文件描述符底层原理(重点)2.3 文件描述符修饰规则3、总结 1、文件描述符的引入 ...
  • 在python里面有这样一个函数:网上解释什么是,文件描述符:内核(kernel)利用文件描述符来访问文件。文件描述符是非负整数。打开现存文件或新建文件时,内核会返回一个文件描述符。读写文件也 需要 文件描述符来...
  • 从零开始学USB(十、USB的描述符)

    万次阅读 多人点赞 2018-12-23 14:10:27
    USB设备使用描述符报告其属性。描述符是具有定义格式的数据结构。每个描述符都以字节宽度字段开头,该字段包含描述符中的总字节数,后跟...适当时,描述符包含字符串描述符的引用,这些字符串描述符提供以可读形式...
  • EXCEL中的数据分析—描述统计

    千次阅读 2019-09-11 10:07:18
    在百科的解释中,描述统计是通过图表或数学方法,数据资料进行整理、分析,并数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。在...
  • 算法的描述方法有哪几种

    万次阅读 2021-07-29 02:05:32
    答案一、流程图流程图是描述代码的一种很好的工具,利用流程图,可以很好的表现出秩序执行过程中的三种基本结构组成—顺序结构、选择结构、循环结构等。需要注意的是,在使用流程图时,规定需要使用一些基本图形。...
  • 关系型数据库系统的关系模型、关系、元组、属性、关系实例概念说明
  • 案例讲解如何将ER图转化为关系模型

    万次阅读 多人点赞 2021-03-29 15:31:38
    要将ER图转化为关系模型,就得先弄清楚ER图中的基本元素。 如果不清楚主体、属性、键等元素分别代表什么,那么下面谈转化准则的时候,大家可能会冒出很多问号。 关于ER图的基本元素,此前在这篇文章中做过详细介绍...
  • 一:结论 1.两个进程中分别产生生成两个独立的fd 2.两个进程可以任意文件进行读写操作,操作系统并不保证写的原子性 3.进程可以通过系统调用文件加锁,从而实现文件...二:文件描述符与打开文件的关系? 内核...
  • 类和类之间的关系

    万次阅读 多人点赞 2018-06-28 17:21:10
    类和类之间的6种关系一、UMLa) Unified Modeling Language (UML)又称统一建模语言或标准建模语言b) 它是一个支持模型化和软件系统开发的图形化语言,为软件开发的所有阶段提供模型化和可视化支持c) 它不仅统一了...
  • 数据分析的入门思维,首先要认识数据,然后数据进行简单的分析,比如描述性统计分析和相关性分析等。 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把...
  • 0 前言 1 输出端口的设计 端口的设计,区别主要在于输出端口是默认的wire还是自定义的reg,本篇...数据流描述其实是隐式地使用门级原语,因为他是直接描述数据在寄存器直接的流动关系,本质上,还是在阐述逻辑门的使...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,455,241
精华内容 582,096
关键字:

对关系的描述