精华内容
下载资源
问答
  • 连续变量的描述统计与SPSS实现

    千次阅读 2020-03-09 23:29:10
    第一个问题,连续变量是什么? 一个人的年级,统计出来有1、2、3…… 一个人的年纪,统计出来有18、19、20…… 但是,虽然都是数字,只有年纪是连续变量。 为什么?顾名思义,年纪是连续的,18 - 19之间可以无限划分...

    第一个问题,连续变量是什么?

    一个人的年级,统计出来有1、2、3……
    一个人的年纪,统计出来有18、19、20……

    但是,虽然都是数字,只有年纪是连续变量。

    为什么?顾名思义,年纪是连续的,18 - 19之间可以无限划分,而年级不行,你只能位于这几个数之间的一个,而不能在他们中间。

    所以我们定义连续变量为:在一定区间内可以任意取值的变量。

    下面进入正题,连续变量的描述统计。

    概述

    对于统计学和SPSS来说,描述统计很直观,非常适合入门,它的作用就是进行描述

    描述一组数据,最普及的当然是平均数了,它属于集中趋势的量数,那么在数据工作中,我们可以从以下几个方面对数据进行描述:

    • 集中趋势 central tendency
    • 离散趋势 dispersion tendency
    • 分布特征 distribution tendency

    下面一个个介绍

    集中量数

    它用来体现一组数据的一般水平,集中意为数据们向某一点集中,众数据奔它而来。
    这一点并不固定,我们会根据数据的不同分布状况进行选择,比如:

    • 算术平均数:观察值总和与总频数之商;这是最常用的指标,但不适合对严重偏态分布的变量进行描述。譬如一个很常用的比分:一名CEO 的薪资为50w,10名员工薪资为3000,他们的算数平均数能代表该公司的平均薪资水平吗?显然不能。
    • 中位数:将全体数据从大到小排列,在数列中处于中间位置的数。
    • 众数:出现次数最多的数。
    • 还有截尾均数、几何均数、调和均数,其中截尾均数用得相对较多,截尾截尾,截去头尾,再求算术平均数;它能够有效防止极端值影响,一个很广泛的场景是:比赛计算得分时,去掉最高分和最低分,再求算术平均数。

    差异量数

    差异量数用来描述数据分布的变异性,能够量化描述数据的延伸、聚集状态,也就是我们常说的分散还是集中。
    集中量数和差异量数密不可分,在推断统计中,我们会同时用这两组数据来进行分析。
    常用的差异量数有以下几种:

    • 全距 range:最大值与最小值之差,很简单,不过也没什么用hhh
    • 百分位数、四分位数、四分位距一起说
      • 百分位数用来表示位置,如P99,就是将观察值分为两部分,理论上有99%的观察值比它小,1%比它大,是非常靠前的位置了。
      • 四分位数就是3个特定的百分位数,P25/P50/P75,可以发现,在同一组数据中,这三个四分位数是按上面的顺序升序排列的。(也可这样表示:Q1=P25;Q2=P50;Q3=P75)
      • 四分位距就是中间50%的数据的全距,也就是P75-P25。
    • 标准差和方差:这是一种算起来麻烦但是应用非常广泛的量数,大概仅次于算数平均数。标准差描述的是分布中每一个个体与均值之间的距离,也就是说,这组数据离中心偏离了多远。
    • 变异系数:当你要比较两组数据离散程度大小的时候,很多时候不能直接比较,主要为以下两种情况:
      • 测量尺度相差太大;比如蚂蚁的体重和大象的体重,显然不是一个量级,大象一点点的变化,在蚂蚁身上都会显得非常大,直接用标准差是不合适的;
      • 数据量纲不同;比如想要比较人的身高和体重离散程度大小,cm和kg如何比较呢?
      • 所以我们推出了变异系数CV(Coefficient of Variation),它的公式很简单,就是**(标准差/平均值)**,用除法消除了量纲,又按照均数大小进行了标准化。

    分布特征

    最常见的分布就是正态分布了,我们知道正态分布的形态,那么偏离的那些如何描述呢?于是偏度系数、峰度系数也被推出来,描述当前数据偏离正态分布的程度。
    这些用得比较少,我们只介绍一下其含义:

    • 偏度:分布不对称的方向和程度,记为g1;他是与正态分布比较而言的。
      • g1>0时,呈正偏态分布,长尾在右边
      • g1=0时,对称
      • g1<0时,呈负偏态分布,长尾在左边
    • 峰度:分布的尖峭程度或峰凸程度,记为g2;仍然是与正态分布相比较而言的统计量。
      • g2>0,峰的形状比较尖
      • g2=0,正态峰
      • g2<0,峰的形状比正态分布要平坦

    SPSS实现

    在SPSS中呢,想要知道这些数据都是非常非常方便的!

    • 他们在哪里?

    • 在“描述统计”子菜单中
      在这里插入图片描述

    • 频率:这里能够产生原始数据的频数表以及百分位数等各种统计数据;
      在这里插入图片描述

    • 最简单的,把你需要统计的变量移到右边的“变量”框内再按“确定”就可以了;

    • 右边的“统计”提供了百分位值、集中量数、差异量数、分布等的选项,勾选了就可以在输出中显示啦;“图表”可以勾选你需要显示的条形图、饼图等噢;默认是全部不勾选的,欢迎diy~

    • 描述:它用于一般性的统计描述,不能作图,可选项也没有那么多,但是简单高效,使用频率非常高,一般用于正态分布。

    • 探索:都是描述统计,为什么explore听起来高级一点?因为他是用于连续性资料分布状况不清时进行探索式分析。除了常用统计量,还可以做截尾均数、极端值列表等,当然也可以画图,功能非常强大。

    其实SPSS对新手真的非常友好,基本就是“所见即所得”,新手可以直接点开一个数据集,尝试各种功能,相信能够进步非常快~

    展开全文
  • 连续变量离散化的原因

    千次阅读 2020-01-16 15:58:05
    数据离散化的原因主要有以下几点: 算法需要 比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本...

    一、离散化原因
    数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:

    • 算法需要
      比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。
    • 离散化的特征相对于连续型特征更易理解,更接近知识层面的表达
      比如工资收入,月薪2000和月薪20000,从连续型特征来看高低薪的差异还要通过数值层面才能理解,但将其转换为离散型数据(底薪、高薪),则可以更加直观的表达出了我们心中所想的高薪和底薪。
    • 可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定

    二、离散化的优势
    在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:

    • 离散特征的增加和减少都很容易,易于模型的快速迭代;
    • 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
    • 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
    • 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
    • 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
    • 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;
    • 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

    三、离散化的方法
    1、无监督学习方法

    • 1.1等宽法

    等宽法即是将属性值分为具有相同宽度的区间,区间的个数k根据实际情况来决定。比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20] 、[21,40] 、[41,60],每个属性值对应属于它的那个区间
      缺点是对离群点比较敏感,不均匀地分布数据。

    • 1.2等频法

    将相同数量的记录放进每个区间。

    缺点是可能将相同的数据分到不同的区间。

    • 1.3基于聚类的方法
      基于聚类的方法分为两个步骤,即:
      选定聚类算法将其进行聚类
      将在同一个簇内的属性值做为统一标记。
      注:基于聚类的方法,簇的个数要根据聚类算法的实际情况来决定,比如对于k-means算法,簇的个数可以自己决定,但对于DBSCAN,则是算法找寻簇的个数。

    2、有监督学习方法:

    • 1R方法
    • 基于信息熵的方法
    • 基于卡方的方法

    四、总结
    模型是使用离散特征还是连续特征,其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型,也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说,前者容易,而且可以n个人一起并行做,有成功经验;后者目前看很赞,能走多远还须拭目以待。

    大多数人都以为是才智成就了科学家,他们错了,是品格。—爱因斯坦

    展开全文
  • 遇到有一个二进制变量与一个连续变量相乘的形式,可以通过大M算法来线性化,转化后的形式也可以被cvx接受。 大M算法见以下链接: ... ...

    遇到有一个二进制变量与一个连续变量相乘的形式,可以通过大M算法来线性化,转化后的形式也可以被cvx接受。

    大M算法见以下链接:
    https://or.stackexchange.com/questions/39/how-to-linearize-the-product-of-a-binary-and-a-non-negative-continuous-variable

    展开全文
  • 与离散型随机变量相对,连续随机变量的可能结果是可计数的。例如,如果1.250是连续随机变量的一个可能值,则能命名下一个更高或更低的可能值。从技术上讲,连续随机变量的可能结果的范围是实线(−∞和∞之间的...

    与离散型随机变量相对,连续随机变量的可能结果是不可计数的。例如,如果1.250是连续随机变量的一个可能值,则不能命名下一个更高或更低的可能值。从技术上讲,连续随机变量的可能结果的范围是实线(−∞和∞之间的所有实数)或实线的某些子集。

    正态分布可能是定量研究工作中应用最广泛的连续概率分布。它在现代投资组合理论和许多风险管理技术中发挥着关键作用。因为它有很多用途,所以是投资专业人士必备知识。

    正态分布在统计推断和回归分析中的作用被一个称之为中心极限定理的重要结果大大扩展了。中心极限定理指出,大量独立随机变量的和(和均值)近似于正态分布。

    1733年,法国数学家亚伯拉罕·德莫伊夫(1667-1754)在发展中心极限定理的过程中引入了正态分布。正态分布是对称的,呈钟形,正态分布的可能结果的范围是整个实数:位于−∞和∞之间的所有实数。钟形曲线的尾巴不受限制地向左和向右延伸。

    d29b07ac343fe465d46e6d7054be0b3a.png

    正态分布的定义特征如下:

    • 正态分布完全由两个参数描述-均值μ和方差σ2.我们表示为X~N(μ,σ2),读作“X服从正态分布,均值μ和方差σ2”。我们也可以用平均值和标准差σ来定义正态分布,这通常很方便,因为σ是用与X和μ相同的单位来测量的。因此,如果我们知道一个正态随机变量的均值和方差(或标准差),我们就可以回答它的任何概率问题。
    • 正态分布的偏度为0(它是对称的)。正态分布的峰度为3;由于对称的结果,它的超额峰度(峰度−3.0)等于0.16,对于一个正态随机变量,均值、中值和模都是相等的。
    • 两个或多个正态随机变量的线性组合也是正态分布。

    这里还有个观点,涉及单变量或单变量正态分布:一个正态随机变量的分布。单变量分布描述单个随机变量。多元分布指定了一组相关随机变量的概率。在投资工作和阅读中,你将遇到多元正态分布,并应了解以下情况。当我们有一组资产时,我们可以分别对每个资产的收益分布进行建模,或者将资产上的收益分配作为一个组来建模。“作为一个群体”意味着我们考虑到所有的统计之间的相互关系返回序列。一个经常用于安全回报的模型是多元正态分布。n种股票收益的多元正态分布完全由三个参数列表定义:

    e0439cd0b4ee71a78f07de57958cfe7e.png
    • 单个证券的平均回报列表(n表示总计);
    • 证券收益差异列表(共计n个差异);
    • 所有两两回归相关的列表:共计n(n−1)/2。

    与单变量正态分布相比,需要指出相关性是多元正态分布的一个显著特征。

    “假定回报是正态分布”的语句有时被用来表示联合正态分布。例如,对于30种证券组合,投资组合回报是30种证券收益的加权平均值。加权平均值是线性组合。因此,如果单个证券收益是(联合)正态分布的,则投资组合收益是正态分布的。为了确定投资组合收益的正态分布,我们需要组合证券的均值、方差和两两相关关系。

    考虑到这些概念,我们可以返回到一个随机变量的正态分布。正态密度函数如下:

    7e7647842b45d3b3f5be1e0fe5ae2b54.png

    虽然不完全准确,但正态分布可被视为回报的近似模型。几乎所有正态随机变量的概率都包含在均值的三个标准差内。对于许多资产的平均回报和回报标准差的实际值,低于−100%的正常概率非常小。这个近似在给定的应用中是否有用是一个经验性的问题。例如,与每日或每周的回报率相比,正态分布更适合多元化股票组合的季度和年度持有期回报。在大多数股票回报序列中,长期偏离常态的是峰度大于3,这就是肥尾问题。因此,当我们用正态分布逼近股票收益分布时,我们应该意识到正态分布往往低估了极端收益的概率。期权收益是倾斜的。由于正态分布是一种对称分布,所以我们应该谨慎地使用正态分布来模拟包含期权中重要头寸的投资组合的收益。

    1761aedc6c48238ecf6d8b90757627c9.png

    因此,正态分布应用于资产价格模型不如应用于回报模型更加精确有用。一个正常的随机变量没有下限,这一特性对投资应用有几个含义,资产价格只能降到0,此时资产变得毫无价值。因此,投资分析人士一般不使用正态分布来模拟资产价格的分布。还请注意,从任何资产价格到0的水平转换为−100%的回报率。由于正态分布不受限制地扩展到0以下,因此它不能作为资产回报的精确模型。后面会提到,要想预测资产价格,模型最实用对数正态分布函数。

    展开全文
  • 目录   1 基本概念 2 离散型随机变量的概率分布 ...3 连续型随机变量的概率分布 3.1 均匀分布  3.1.1 概念 3.2 正态分布 3.2.1 概念 3.3  指数分布  3...
  • 【多选题】下列表达式的值为False的是( )【单选题】关于 Python 语句 P = –P,以下选项中描述正确的是________【判断题】已知 x, y = 3, 5,那么执行x, y = y, x 之后,x的值为15。【单选题】22 % 3 表达式输出结果为_...
  • (注:集合论与谓词逻辑中并未使用变量这一概念,因此接下来并存在循环定义的错误) 一个变量v的定义如下:设集合T,集合X,谓词合式公式p(t,x)(注:此处的t,x是个体变元,不是变量)。 其中符号“:=”表示...
  • 1. 离散型和连续型随机变量的定义离散型随机变量(discrete random variable):...连续型随机变量(continuous random variable):取值是一个区间中的任意一点(也就是可数)的随机变量,比如南京大学同学身高。
  • 定义以下变量:     并且把信息增益公式推广为如下形式: 其中: 对于第二个问题,若样本在划分属性a上取值已知,就把样本划分到对应的子结点,并且权重保持wx不变。若样本在属性a上 取值 未知 ...
  • 测量变量(measurement variable)是用来描述一个特定的实体的未知属性的,可以被分为以下四类:名义变量、序级变量、区间变量和比率变量。其中名义变量和序级变量描绘数据的定性属性(qualitative attributes),区间...
  • 《机器学习实战》学习笔记(一):机器学习基础

    万次阅读 多人点赞 2019-08-19 17:01:32
    如果目标变量是连续型的数值,则需要选择回归算法 如果想预测目标变量的值,则可以选择无监督学习算法 进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法; 如果还需要估计...
  • 华中科技大学计算机组成原理慕课答案

    万次阅读 多人点赞 2020-01-26 00:09:18
    计算机系统层次结构中,微程序属于硬件级 2、完整的计算机系统通常包括( A ) A.硬件系统与软件系统 B.运算器、控制器、存储器 C.主机、外部设备 D.主机和应用软件 3、CPU地址线数量与下列哪项指标密切相关...
  • js面试题

    千次阅读 多人点赞 2019-04-09 19:42:32
    JavaScript 由以下三部分组成: ECMAScript(核心):JavaScript 语言基础 DOM(文档对象模型):规定了访问 HTML 和 XML 的接口 BOM(浏览器对象模型):提供了浏览器窗口之间进行交互的对象和方法 JS 的基本数据...
  • 【多选题】下列运算符的使用正确的有哪些( )【多选题】以下选项中,符合 Python 语言变量命名规则的有( )【单选题】以下程序的输出结果是________ s = "python 编程 很 容易 学" print(len(s))【多选题】...
  • 入门学习Linux常用必会60个命令实例详解doc/txt

    千次下载 热门讨论 2011-06-09 00:08:45
    因为Linux与Windows不同,其后台运行着许多进程,所以强制关机可能会导致进程的数据丢失,使系统处于稳定的状态,甚至在有的系统中会损坏硬件设备(硬盘)。在系统关机前使用 shutdown命令,系统管理员会通知所有...
  • 【多选题】以下选项属于 Python 整数类型的是( )【其它】根据CAD原文件绘制别墅立面图:如图 别墅立面图002.dwg【单选题】字符串是一个连续的字符序列,用________方式打印出可以换行的字符串。【单选题】下列不合法的...
  • · drag:拖拽期间在被拖拽元素上连续触发 · drop:鼠标在拖放目标上释放时,在拖放目标上触发.此时监听器需要收集数据并且执行所需操作.如果是从操作系统拖放文件到浏览器,需要取消浏览器默认行为. · dragend:...
  • 机器学习中的特征变量及处理总结

    千次阅读 2019-12-09 20:48:41
    定性特征变量1.1 定类变量处理1.2 定序变量处理2. 定量特征变量3. 总结   牢记一句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。   机器学习的根本目标,就是用数据的特征变量...
  • 数据挖掘

    千次阅读 多人点赞 2019-04-16 16:26:36
    预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程, 而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。 6.时间序列 分析时间序列分析的是随时间而变化...
  • Makefile

    千次阅读 多人点赞 2019-05-12 10:53:21
    概述 什么是makefile?或许很多Winodws的程序员都知道这个东西,因为那些Windows的IDE都为你做了这个工作,但我觉得要作一个好的和...特别在Unix下的软件编译,你就自己写makefile了,会不会写makefile...
  • C#基础教程-c#实例教程,适合初学者

    万次阅读 多人点赞 2016-08-22 11:13:24
    C#基础教程-c#实例教程,适合初学者。...当然仅靠一章的内容就完全掌握C#语言是可能的,如需进一步学习C#语言,还需要认真阅读有关C#语言的专著。 1.1 C#语言特点 Microsoft.NET(以下简称.NET)框...
  • 高级变量类型

    万次阅读 2019-07-27 17:38:31
    高级变量类型 目标 列表 元组 字典 字符串 公共方法 变量高级 知识点回顾 Python 中数据类型可以分为 数字型 和 非数字型 数字型 整型 (int) 浮点型(float) 布尔型(bool) 真 True 非 0 数 —— 非零即真...
  • 离散型随机变量的常见概率分布

    千次阅读 2018-01-07 21:48:37
    事件A在某次试验中发生的概率稳定计为pp,但A要么发生要么发生,随机变量XX,单次试验中A发生记为1,没有发生记为0,则P(X=1)=p,P(X=0)=1−pP(X=1)=p,P(X=0)=1-p,也可以统一成这个公式: f(x|p)=px(1−p)1−x,x=...
  • 文章目录1、变量的声明1.1、标准格式1.2、简短格式1.3、批量格式2、变量的初始化2.1、标准格式2.2、编译器推导类型的格式2.3、声明并初始化3、多个变量同时赋值4、匿名变量(没有名字的变量)5、变量的作用域5.1、...
  • 手绘知识点——指针运算&变量的内存分配原理

    千次阅读 多人点赞 2019-09-30 13:17:42
    来到了指针系列的第三篇,我们来说说指针的运算以及变量在内存中的存储问题,重点在于后者。 首先看一下指针的算术运算: int a = 1,*pa=&a,*pa1=&a; double b=3.1415,*pb=&b; printf("before pa++,...
  • 监督学习 无监督学习 半监督学习@监督学习 无监督学习 半监督学习 监督学习 在监督学习中,给定一组数据,我们知道...也就是说我们试图将输入变量和输出用一个连续函数对应起来;比如通过房地产市场的数据,预测一个...
  • 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里? A:在工业界,很少直接将...
  • 笔者在学习的过程中也受到了以上的困扰,经过查阅资料后,得到以下理解: 首先,让我们先上代码,通过例子来深入理解 /* 2019年6月26日10:37:17 目的:一个指针变量所占字节数 */ #include<stdio.h> int ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 80,573
精华内容 32,229
关键字:

下列不属于连续变量的是