精华内容
下载资源
问答
  • 数据规约

    2020-10-27 22:59:22
    数据分析的常用方法 基本内容 一、数据归约基本知识: 对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤...

    数据归约
    88%的人还看了
    数据处理
    数据统计分析方法
    数据分析的常用方法
    基本内容
    一、数据归约基本知识:

    对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。

    对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。

    在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:

    (1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。

    (2)预测/描述精度:估量了数据归纳和概括为模型的好坏。

    (3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。

    展开全文
  • 目的: 对属性和数值进行规约获得一个比原始数据集小的规约表示,但仍接近原数据的完整性,在规约数据集上挖掘可产生近乎相同分析结果。简单来说,通过降维或维数规约来缓解维数灾难(在高维数据中可能会让...

    目的: 对属性和数值进行规约获得一个比原始数据集小的多的规约表示,但仍接近原数据的完整性,在规约后数据集上挖掘可产生近乎相同的分析结果。简单来说,通过降维或维数规约来缓解维数灾难(在高维数据中可能会让样本稀疏,即样本中出现大量的0,以及距离计算困难等等)

    常用方法:

    • 属性规约:向前选择,向后删除,决策树,PCA
    • 数值规约:有参方法(回归法、对数线性模型),无参法(直方图、聚类、抽样)

    一、属性规约

    以PCA(主成成分析)为例
    from sklearn.decomposition import PCA
    X = preprocessing.scale(boston.data)
    pca = PCA(n_component = 'mle') # mle表示系统自动选择满足方差百分比的成分个数,也可设置为自定义个数,如5
    pca.fit(X)
    print(pca.explained_variance_ratio_)#各个成分的方差百分比,也就是变量的方差贡献率,越大代表向量的权重越大
    #通过sun()计算多个特征的累计贡献率可以确定选择的特征个数,0.995表示可以解释99.5%的样本
    

    二、数值规约

    以直方图为例

    表现:用分箱表示数据分布,每个箱子代表一个属性-频率对

    #以50个随机整数为例
    import numpy as np
    data = np.random.randint(1,10,50)
    import matplotlib.pyplot as plt
    plt.hist(data)
    

    在这里插入图片描述
    直方图每一个箱子代表了属性-频率对,例如属性9对应的箱子高度(Y值)为3,表示9在数据集中出现了3次。

    bins = np.linspace(data.min(), data.max(), 3, endpoint = True)
    ##out: bins = array([1., 5., 9.]),基于这三个点把区间分为[1,5), [5,9]
    #利用bins结果重新生成直方图
    plt.hist(data, bins = bins, rwidth = 0.95, edgecolor = 'k')
    

    在这里插入图片描述
    可以看出箱子被分成两个。

    抽样

    抽样是数据规约中非常常见的做法,通过在原始数据集中随机采样样本构子集,从而降低数据规模达到数据规约的目的

    • 随机抽样:不放回/放回
    • 聚类抽样
    • 分层抽样
      以iris 数据为例
    #不放回
    iris_df.sample(n= 10)
    iris_df.sample(frac = 0.3) #抽样数据的百分比
    #有放回,replace = True
    iris_df.sample(n = 10, replace = True)
    iris_df.sample(frac = 0.3, replace = True)
    
    展开全文
  • 1、数据规约:产生更小且保持数据完整性的新数据集。意义在于降低无效、错误数据;降低存储成本;少量且具有代表性的数据大幅加快,主要分为以下两类: ①属性规约:属性合并或删除无关维,目标是寻找最小子集使...

    一、相关理论:

    1、数据规约:产生更小且保持数据完整性的新数据集。意义在于降低无效、错误数据;降低存储成本;少量且具有代表性的数据大幅加快,主要分为以下两类:

    ①属性规约:属性合并或删除无关维,目标是寻找最小子集使子集概率分布尽可能与原来相同。

        常用方法:

    (1)合并属性 将就属性合并为新属性 {A1,A2,A3,B1,B2,C}——{A,B,C}
    (2)逐步向前选择 从空集开始,逐个加入最优属性,直到无最优或满足条件 {}—{A1}—{A1,A4}
    (3)逐步向后删除 从全集开始,每次删除最差属性,直到无最差或满足阈值
    (4)决策树归纳 利用决策树归纳能力进行分类,删除未出现的属性,即效果差的属性
    (5)主成分分析 用少量变量解释大部分变量,保留大部分信息,将相关性高的数据转为彼此独立

    ②数值规约:通过选择替代的、较小的数据来较少数据量,包括有参数(回归、对数线性模型)和无参数方法(直方图、聚类、抽样)。

    2、主成分分析(Principal components analysis,简称PCA):是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。主要原理是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。相关原理可参考 主成分分析(PCA)原理详解

    二、代码实战:

    1、准备阶段:

    (1)示例数据:本例使用的是某时间的淘宝商品数据,存储在MySQL数据库中(数据分享链接:https://pan.baidu.com/s/1SsSy-mxvCStxk4e2PYxB3A  提取码:tquy,将该文件从MySQL打开执行即可)。

    (2)导入相关模块并读取数据库数据:

    import pymysql
    import pandas as pda
    import numpy as npy
    from sklearn.decomposition import PCA
    #连接数据库获取数据
    conn=pymysql.connect(host="127.0.0.1",user="root",passwd="*****",db="sys")
    sql="select hits,comment from myhexun"
    data1=pda.read_sql(sql,conn)
    #构造新属性:评点比
    ch=data1[u"comment"]/data1["hits"]
    data1[u"评点比"]=ch

    (3)主成分分析示例:

    #主成分分析示例过程
    pca1=PCA()
    pca1.fit(data1)#设定分析数据
    #可返回模型各个特征量
    character=pca1.components_
    #可返回各个成分中各自方差的百分比,贡献率
    rate=pca1.explained_variance_ratio_

    结果:

    (4)主成分分析降维示例:

    #主成分分析降为2维的过程
    pca2=PCA(2)
    pca2.fit(data1)#设定分析数据
    reduction=pca2.transform(data1)#降维方法
    #恢复降维前的数据
    recovery=pca2.inverse_transform(reduction)

    结果:

     

    展开全文
  • 主成分分析是数据规约(包含属性规约和数值规约)一种常用方法。用较少变量去解释原始数据中大部分变量,即将许多相关性很高变量转化成彼此相互独立或不相关变量。 主成分分析,当自变量之间不是相互独立...

    属性规约的目的是寻找出最小的属性子集,并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。

    方法包括合并属性、主成分分析等。

    主成分分析是数据规约(包含属性规约和数值规约)的一种常用方法。用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。

    主成分分析,当自变量之间不是相互独立时,能够将自变量变换成独立的成分;在自变量太多的情况下,能够降维。主成分分析是一种经常使用的辅助性的分析方法。

    R语言实现:

    举例来说,数据集如下,含有8个变量:

    1、通过princomp()函数进行主成分分析

    PCA = princomp(data,cor = FALSE)  #主成分分析,其中cor默认为FALSE,表示使用样本的协方差阵作主成分分析,若为TRUE表示使用相关系数矩阵
    
    names(PCA) #查看输出项

    输出如下:

    2、查看主成分特征根和主成分贡献率

     (PCA$sdev)^2 #主成分特征根
    
    summary(PCA) #主成分贡献率

    输出如下:

    这时,当选取3个主成分时,累计贡献率已达到97%,所以选取3个主成分。

    3、查看主成分载荷和主成分得分

    PCA$loadings #主成分载荷
    
    PCA$scores #主成分得分

    输出如下:

    原始数据从8个变量被降维到3个变量,同时这3个变量占了原始数据95%以上的信息。

    Python实现:

    import pandas as pd
    data = pd.read_excel('principal_component.xls',header=None)
    
    from sklearn.decomposition import PCA
    pca = PCA()
    pca.fit(data)
    pca.components_ #返回模型的各个特征向量
    
    pca.explained_variance_ratio_ #返回各个成分各自的方差百分比(贡献率)

    方差百分比的输出结果为:

    当选取3个主成分时,累计贡献率已达到97%,所以选择3个主成分。

    pca = PCA(3)
    
    pca.fit(data)
    
    low_d = pca.transform(data) #降低维度
    low_d

    输出结果为:

    原始数据从8维降维到了3维,这3维数据占了原始数据95%以上的信息。

    pd.DataFrame(low_d).to_excel('a.xls') #保存结果
    
    pca.inverse_transform(low_d) #复原原始数据

     

    展开全文
  • 属性规约通过属性合并或者删除不相关属性来减少数据维数,寻找出最小属性子集并确保数据子集概率分布尽可能地接近原来数据概率分布。 1.常用方法 2.主成分分析: 3.代码实现 #-*- coding: utf-8 ...
  • 数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel...CRISP-DM和SEMMA是两种常用的数据挖掘流程。 数据挖掘的一般步骤 从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数...
  • 文章目录前言一、什么是 and 为什么要标准化二、方法介绍与实操1.实现中心化和正态分布的Z-Score2.实现归一化的Max-Min3.用于稀疏矩阵的MaxAbs4....数据标准化是一个常用的数据预处理操作,目的是处理不同.
  • 数据分析之数据预处理

    千次阅读 2018-10-04 09:26:03
    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 数据清洗 数据清洗主要是删除原始数据集的无关数据、重复数据,...其中常用的数据插补方法: 均值/中位数/众数插补:根据属性值的类型,用该属性...
  • 数据预处理(1)数据清洗

    千次阅读 2018-11-27 13:44:34
    数据预处理的内容主要包括数据清洗,数据集成,数据变换和数据规约。...常用的数据 插补方法有: 均值中位数众数插补 使用固定值插补 使用最近临插补 回归方法 建立拟合模型预测缺失的属性值 插值法 利用已知...
  • 数据预处理

    2019-01-26 23:29:29
    数据预处理的主要内容包括:数据清洗,数据集成,数据变换,数据规约。 数据清洗 缺失值处理 分为3类:删除记录,数据插补,不处理 常用的插补方法有以下: 插补方法 方法描述 均值/中位数/...
  • 数据预处理一些笔记

    千次阅读 2017-03-02 17:37:51
    异常值常用的检验方法有:聚类,散点图,偏度和峰度值,同时去除一下重复的、不重要的属性和数据 数据集成(将不同的来源归纳在同一个数据集中) 数据变换(将数据整理为可以挖掘的样式) 数据规约 1、基于树的...
  • 数据预处理包括哪几步?

    万次阅读 多人点赞 2019-02-12 20:01:51
    数据预处理的目的 为了提高数据的质量 ...常用的数据插补方法: - 均值,中位数,众数插补 - 使用固定值 - 回归方法(预测) - 插值法(拉格朗日插值法,牛顿插值法等) 拉格朗日插值多项式: L(x)=∑i=0n(yi∏...
  • 目录Chapter4 数据预处理序言数据清洗缺失值处理异常值处理数据集成实体识别冗余属性识别数据变换简单函数变换规范化连续离散属性化离散化过程常用的离散化方法属性构造小波变换数据规约属性规约数值规约小结 ...
  • 目录 数据预处理 1、概述 2、缺失值处理 ...6、数据规约 维灾难 维规约 数据预处理 1、概述 实际数据库极易受到噪声、缺失值和不一致数据侵扰,因为数据库太大,并且多半来自多个异种数据源...
  • Fuxi对象图的数据表示采用一种与平台无关的、符合机器视觉标准的表示方法; 通过运行于各平台上的Fuxi抽象机来对Fuxi对象图进行图规约计算,获得计算结果。 2020年趋高的Fuxi语言机器视觉范围包括:机器视觉、目标...
  • 数据预处理主要包括数据清洗、数据集成、数据交互和数据规约 数据清洗:删除原始数据集中无关数据、重复数据、平滑噪声数据,处理缺失值、异常值等 ①缺失值处理 删除记录、数据插补、不处理 常用插补...
  • 第四章 数据预处理 【有问题或错误,请私信我将及时改正;借鉴文章标明出处,谢谢】 第四章相关代码看我的文章:《Python数据分析与挖掘...(2)常用的插补方法: ①均值/中位数/众数插补:根据属性值的类型,用该属性取
  • 常用聚类算法以及算法评价

    千次阅读 2016-07-24 17:02:45
    聚类模型是一种非监督的学习方法,聚类的输入是一组未标记的数据,聚类模型根据自身的距离或相似性将其化为若干组,划分的原则是组内距离最小化而组间距离最大化。常见聚类方法见下表: 类别 主要算法 划分方法 k...
  • PCA 将数据投射到一个低维子空间实现降维,是数据规约的一种常用方法。 PCA 计算步骤如下所示: (1)原始数据标准化; (2)计算标准化变量间相关系数矩阵; (3)计算相关系数矩阵特征值和特征向量;(4)...
  • #聚类分析: # 聚类分析是在没有...# 常用的聚类方法: # 1、划分方法:K-Means(K均值),K-Medoids(K-中心点),Clarans算法 # 2、层次分析方法:BIRCH算法(平衡迭代规约和聚类),CURE算法(代表点聚类),C...
  • 换句话说,这是表示和处理一个HTML或XML文档的常用方法。有一点很重要,DOM设计是以对象管理组织(OMG)的规约为基础,因此可以用于任何编程语言。 GDataXMLNode是Google提供用于XML数据处理...
  • 收集器简介 ...对流调用collect方法将对流中的元素触发一个规约操作 ...Collectors实用类提供了很多静态工程方法,可以方便...最常用的是toList方法,它会把流收集到一个List中: 1 List transactio
  • 本文主要介绍一种降维方法,PCA(Principal Component Analysis,主成分分析),是数据规约中属性规约的其中一种方法,也是最常用的方法数据规约: 在大数据集上进行复杂的数据分析和挖掘需要很长的时间 ,数据...
  • 数据建模-聚类分析-K-Means算法

    千次阅读 2018-08-17 21:53:23
    常用聚类方法 类别 包括主要算法 划分(分裂)方法 K-Means算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(基于选择算法) 层次分析方法 BIRCH算法(平衡迭代规约和聚类)、CURE算法...
  • 队列及其操作:队列是一种常用的数据抽象类型他服从先进先出的FIFO规则。在某一时刻队列可以为空。 1 活性 2 安全性 汉诺塔操作规划问题 计算树逻辑是一种离散,分支时间命题时态逻辑...
  • 聚类分析

    2020-01-20 17:30:20
    总述:聚类分析是寻找数据当中高数据浓度的集合,这些高数据浓度的集合可以辅助后续的数据规约、数据变换、数据分类等操作。这些具体的处理方法需要根据实际的业务数据需要进行配合。 什么是聚类分析 聚类分析中...
  • 文章目录前言由來阿里代码规约spring包下apache包下apache下的BeanUtils最常用的方法为:Apache Common BeanUtil的常见使用场景。 前言 BeanUtil是一个常用的在对象之间复制数据的工具类,著名的web开发框架struts...

空空如也

空空如也

1 2 3
收藏数 49
精华内容 19
关键字:

常用的数据规约方法