精华内容
下载资源
问答
  • 目的: 对属性和数值进行规约获得一个比原始数据集小的多的规约表示,但仍接近原数据的完整性,在规约数据集上挖掘可产生近乎相同的分析结果。简单来说,通过降维或维数规约来缓解维数灾难(在高维数据中可能会让...

    目的: 对属性和数值进行规约获得一个比原始数据集小的多的规约表示,但仍接近原数据的完整性,在规约后数据集上挖掘可产生近乎相同的分析结果。简单来说,通过降维或维数规约来缓解维数灾难(在高维数据中可能会让样本稀疏,即样本中出现大量的0,以及距离计算困难等等)

    常用方法:

    • 属性规约:向前选择,向后删除,决策树,PCA
    • 数值规约:有参方法(回归法、对数线性模型),无参法(直方图、聚类、抽样)

    一、属性规约

    以PCA(主成成分析)为例
    from sklearn.decomposition import PCA
    X = preprocessing.scale(boston.data)
    pca = PCA(n_component = 'mle') # mle表示系统自动选择满足方差百分比的成分个数,也可设置为自定义个数,如5
    pca.fit(X)
    print(pca.explained_variance_ratio_)#各个成分的方差百分比,也就是变量的方差贡献率,越大代表向量的权重越大
    #通过sun()计算多个特征的累计贡献率可以确定选择的特征个数,0.995表示可以解释99.5%的样本
    

    二、数值规约

    以直方图为例

    表现:用分箱表示数据分布,每个箱子代表一个属性-频率对

    #以50个随机整数为例
    import numpy as np
    data = np.random.randint(1,10,50)
    import matplotlib.pyplot as plt
    plt.hist(data)
    

    在这里插入图片描述
    直方图每一个箱子代表了属性-频率对,例如属性9对应的箱子高度(Y值)为3,表示9在数据集中出现了3次。

    bins = np.linspace(data.min(), data.max(), 3, endpoint = True)
    ##out: bins = array([1., 5., 9.]),基于这三个点把区间分为[1,5), [5,9]
    #利用bins结果重新生成直方图
    plt.hist(data, bins = bins, rwidth = 0.95, edgecolor = 'k')
    

    在这里插入图片描述
    可以看出箱子被分成两个。

    抽样

    抽样是数据规约中非常常见的做法,通过在原始数据集中随机采样样本构子集,从而降低数据规模达到数据规约的目的

    • 随机抽样:不放回/放回
    • 聚类抽样
    • 分层抽样
      以iris 数据为例
    #不放回
    iris_df.sample(n= 10)
    iris_df.sample(frac = 0.3) #抽样数据的百分比
    #有放回,replace = True
    iris_df.sample(n = 10, replace = True)
    iris_df.sample(frac = 0.3, replace = True)
    
    展开全文
  • 数据变换 简单变换 1、数据变换的目的是将数据转化为更方便分析的数据 2、简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方,平方,对数等 数据规范化 1、离差标准化--消除量纲(单位)影响以及...

    数据变换

    简单变换

    1、数据变换的目的是将数据转化为更方便分析的数据

    2、简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方,平方,对数等

    数据规范化

    1、离差标准化--消除量纲(单位)影响以及变异大小因素的影响(最小最大标准化)

        x1 = (x-min) / (max-min)  # 将大数据转为小数据

    2、标准差标准化--消除单位影响以及变量自身变异影响。

        x1 = (x-平均数) / 标准差  # 一半数据大于0,一半数据小于0

    3、小数定标规范化--消除单位影响(除以10的倍数)

        x1 = x/10**(k)

        k = log10(x的绝对值的最大值)

    离散化

    1、等宽离散化,将属性的值分为相同宽度的区间

    pd.cut() # 第一个参数是数据  第二个参数是区间  第三个参数是标签,每一份代表什么

    2、等频率离散化,将相同数量的数据放入每个区间

    3、一维聚类离散化,将连续的值通过聚类算法聚类,

    属性构造

    通过原属性得到新属性

    数据规约

    属性规约与数值规约概述

    规约的核心就是精简

    1、属性规约,

    2、数值规约

    主成分分析(属性规约)

    PCA算法,主要用于数据的降维

    展开全文
  • 1、数据规约概念和目的 数据规约是产生更小且保留数据完整性的新数据集。 意义:降低无效错误数据的影响、更有效率、降低存储成本。 2、属性规约 (1)属性合并(降维):比如PCA (2)删除不相关属性 3、数值...

    1、数据规约概念和目的

    数据规约是产生更小且保留数据完整性的新数据集。

    意义:降低无效错误数据的影响、更有效率、降低存储成本。

    2、属性规约

    (1)属性合并(降维):比如PCA

    (2)删除不相关属性

    3、数值规约:离散化也算是数值规约

    转载于:https://www.cnblogs.com/Lee-yl/p/8675717.html

    展开全文
  • # 4.4数据规约:降低无效、错误数据对建模的影响,提高建模的准确性;少量且具有代表性的数据将大幅缩减数据挖掘所需时间;降低存储数据的成本。 # 属性规约:通过属性合并来创建新属性维数,或者直接通过删除不相关...
    # 4.4数据规约:降低无效、错误数据对建模的影响,提高建模的准确性;少量且具有代表性的数据将大幅缩减数据挖掘所需时间;降低存储数据的成本。
    # 属性规约:通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数。
    # 常见方法:
    # 1、合并属性:将一些旧属性合为新属性
    # 2、逐步向前选择:从一个空属性集开始,每次从当前属性子集中选择一个当前最优的属性并将其添加到当前属性子集中,知道无法选择出最优属性或满足一定阈值约束为止;
    # 3、逐步向后删除:从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,知道无法选择出最差属性为止或满足一定阈值约束为止;
    # 4、决策树归纳:利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可以认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集;
    # 5、主成分分析:用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。主成分一般选择使贡献率达到80%的主成分个数。
    # python中主成分分析函数位于scikit-earn下:sklearn.decomposition.PCA(n_components=None,copy=true,whiten=False)
    # 其中,n_cmponentsPCA算法中所要保留的主成分个数n,也就是保留下来的特征个数。默认为None,即所有特征被保留。
    # copy:表示是否在运行算法时,将原始训练数据复制一份。若为True,运行算法后原始训练数据不会 有任何改变,否则原始训练数据被改变。
    # whiten:白化,使得每个特征具有相同的方差。
    # 使用主成分分析降维的程序代码:
    import pandas as pd
    inputfile='E:/WTTfiles/自我学习/机器学习/python数据分析与挖掘实战/chapter4/demo/data/principal_component.xls'
    outputfile='E:/WTTfiles/自我学习/机器学习/python数据分析与挖掘实战/chapter4/demo/tmp/dimention_reducted.xls'
    data=pd.read_excel (inputfile,header=None)
    from sklearn.decomposition import PCA
    # pca=PCA()
    # pca.fit(data)
    # print(pca.components_)#返回模型的各个特征向量
    # print(pca.explained_variance_ratio_)#返回各个主成分各自的方差百分比
    # 以上代码计算后可以看到有8个特征根、8个特征向量,以及各自的方差百分比(也称贡献率),方差百分比越大,权重也越大,当选取前4个主成分时,累积贡献率已经达到97.3%,说明选取前三个主成分就可以。
    pca=PCA(3)#选择前三个主成分
    pca.fit(data)
    low_d=pca.transform(data)#用它来降低纬度
    pd.DataFrame(low_d).to_excel (outputfile)#保存结果
    pca.inverse_transform(low_d)#必要时可以用inverse_transform()来复原函数
    print(low_d)
    
    # 数据规约:通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法
    # 有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归和对数线性模型;无参数方法就需要存放实际数据,例如聚类、直方图、抽样等
    # 直方图:使用分箱来近似数据分布,如果每个桶只代表单个属性值/频率对,则称为单桶,通常,桶表示给定属性的一个连续区间
    # 聚类:将数据元组视为对象,将对象划分为簇,使一个簇中的对象相互相似,而与其它簇中的对象相异,在数据规约中,用数据的簇替换实际数据。
    # 抽样:用比原始数据小得多的随机样本表示原始数据集。
    # 参数回归:简单线性模型和对数线性模型可以用来近似描述给定的数据。
    [[  8.19133694  16.90402785   3.90991029]
     [  0.28527403  -6.48074989  -4.62870368]
     [-23.70739074  -2.85245701  -0.4965231 ]
     [-14.43202637   2.29917325  -1.50272151]
     [  5.4304568   10.00704077   9.52086923]
     [ 24.15955898  -9.36428589   0.72657857]
     [ -3.66134607  -7.60198615  -2.36439873]
     [ 13.96761214  13.89123979  -6.44917778]
     [ 40.88093588 -13.25685287   4.16539368]
     [ -1.74887665  -4.23112299  -0.58980995]
     [-21.94321959  -2.36645883   1.33203832]
     [-36.70868069  -6.00536554   3.97183515]
     [  3.28750663   4.86380886   1.00424688]
     [  5.99885871   4.19398863  -8.59953736]]
    
    展开全文
  • 1、数据规约:产生更小且保持数据完整性的新数据集。意义在于降低无效、错误数据;降低存储成本;少量且具有代表性的数据大幅加快,主要分为以下两类: ①属性规约:属性合并或删除无关维,目标是寻找最小子集使...
  • 数据规约

    2019-10-16 17:04:32
    数据规约 上一篇:数据转换 # -*- coding: utf-8 -*- # -------------------------------------- # @Time : 2019/10/16 16:24 # @Author : hxf # @Email : 1870212598@qq.com # @File : shuju5.py # Description :...
  • 数据预处理主要包括数据清洗、数据集成、数据变换和数据规约四个部分。1. 数据清洗1.1 缺失值处理缺失值一般由NA表示,在处理缺失值时要遵循一定的原则。首先,需要根据业务理解处理缺失值,弄清楚缺失值产生的原因...
  • 严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一...
  • 这个专栏用来记录我在学习和实践《Python数据分析与挖掘实战》一书时的一些知识点总结和代码实现。 文章目录数据脚本lagrange_newton_interp.pydata_normalization.py 归一化data_discretization.py 离散化line_...
  • python数据分析与挖掘实战是一本python语言数据分析和挖掘指南,由张良均,王路,谭立云和苏剑林等十余个专家编著而成。本书以大家熟知的数据挖掘建模工具Python语言来展开,以解决某个应用的挖掘目标为前提,先介绍...
  • 本课程面向各类编程学习者,讲解利用Python语言表达N维数据并结合数据特点合理展示数据的技术和方法,帮助学习者掌握表示、清洗、统计和展示数据的能力。本课程介绍Python计算生态中最优秀的数据分析和展示技术,所...
  • python数据分析——属性规约

    千次阅读 2018-10-08 22:05:38
    属性规约通过属性合并或者删除不相关的属性来减少数据维数,寻找出最小的属性子集并确保数据子集的概率分布尽可能地接近原来数据集的概率分布。 1.常用方法 2.主成分分析: 3.代码实现 #-*- coding: utf-8 ...
  • 数据预处理:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。预测建模:参数设置、交叉验证、模型训练、模型验证、模型预测常用的数据挖掘...
  • 数据预处理:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。预测建模:参数设置、交叉验证、模型训练、模型验证、模型预测常用的数据挖掘建模工具...
  • 数据规约初学

    2021-03-31 20:50:24
    数据规约初学 库的导入 import numpy as np import pandas as pd from matplotlib import pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False 成绩分级练习 ...
  • "特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于 特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,461
精华内容 1,384
关键字:

python数据规约

python 订阅