精华内容
下载资源
问答
  • 常用的数据规约方法
    千次阅读
    2021-01-29 22:17:19

    一.概念

    "数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2:"属性规约""数值规约"
    

    二.属性规约
    1.概念:

    "属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
    于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大
    类:"特征选择""特征提取"
    

    2.特征选择
    (1)概念:

    "特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间
    

    (2)方法:

    "决策树"(Decision Tree)
    "分支定界法"(Branch and Bound)
    "序列前向选择"(Sequential Forward Selection)
    "序列后向选择"(Sequential Backward Selection)
    "模拟退火"(Simulated Annealing)
    "竞技搜索"(Tabu Search)
    "遗传算法"(Genetic Algorithms)
    

    3.特征提取
    (1)概念:

    "特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
    特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA
    

    (2)主成分分析:

    参见 机器学习.主成分分析 部分
    

    (3)线性判别分析:

    参见 机器学习.线性判别分析 部分
    

    (4)独立成分分析:

    "独立成分分析"(Independent Component Analysis;ICA)
    

    三.数值规约
    1.概念:

    "数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法""无参数方法"
    

    2.有参数方法
    (1)概念:

    "有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数
    

    (2)方法:

    "回归"(Regression)
      "多元回归"(Multivariable Regression)
      "线性回归"(Linear Regression)
    "对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布
    

    3.无参数方法
    (1)概念:

    "无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据
    

    (2)方法:

    "直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
    "聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
    "抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集
    
    更多相关内容
  • SL/T 427-2021水资源监测数据传输规约
  • 解析输变电设备物联网传感器数据规约,显示传感器各参量的名称以及参量值,可以用于输变电传感器传输数据的测试
  • 数据规约一、简介二、数据分析与挖掘体系位置三、数据规约方法1、维度规约(Dimensionality Reduction)(1)小波变换(Wavelet Transform,WT)(2)主成分分析(Principal Component Analysis,PCA)(3)特征集...

    一、简介

    在数据集成与清洗后,我们能够得到整合了多数据源同时数据质量完好的数据集。但是,集成与清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模,这就是数据规约(Data Reduction)。数据规约采用编码方案,能够通过小波变换或主成分分析有效的压缩原始数据,或者通过特征提取技术进行属性子集的选择或重造。

    二、数据分析与挖掘体系位置

    数据规约是有数据预处理中的一个过程。所以其在数据分析与数据挖掘中的位置如下图所示。
    在这里插入图片描述

    三、数据规约方法

    数据规约方法类似数据集的压缩,它通过维度的减少或者数据量的减少,来达到降低数据规模的目的,数据压缩(Data Compression)有无损与有损压缩。方法主要是下面两种:

    • 维度规约(Dimensionality Reduction):减少所需自变量的个数。代表方法为WT、PCA与FSS。
    • 数量规约(Numerosity Reducton):用较小的数据表示形式替换原始数据。代表方法为对数线性回归、聚类、抽样等。

    1、维度规约(Dimensionality Reduction)

    (1)小波变换(Wavelet Transform,WT)

    小波变换是由傅里叶变换(FFT)发展而来的。

    首先,傅里叶变换是一种针对信号频率的分解转换方法。它通过把信号分解成正余弦函数,把时域信号转为频率信号。但是FFT方法存在缺陷,就是经过拆分之后的信号只能显示其包含哪些成分,但是包含的各个成分出现的时间无法体现出来。

    因此,就出现了短时傅里叶变换(STFT),它再FFT的基础上加入的时域的概念。STFT通过设置窗格,并假设窗格内信号是平稳的,对每个窗格内的信号分段进行FFT变换。其引入了时域信息,但是窗格的正确划分确很难判定。

    最后,就产生了小波变换(WT),在方法上,WT将FFT的基由无限长的三角函数基换成了有限长会衰减的小波基。能在获取频率的同时定位时间。

    在数据规约中,对数据进行小波转换后截断数据,保存最强的小波系数,从而保留近似的压缩数据。

    (2)主成分分析(Principal Component Analysis,PCA)

    主成分分析通过寻找原自变量的正交向量,将原有的n个自变量重新组合为不相关的新自变量。

    当数据中存在的自变量个数过多,或者自变量之间存在相关性时,可以考虑使用PCA的方法重构自变量。

    与小波变换相比,PCA能更好的处理离散数据,而WT更适合高维度数据。

    (3)特征集选择(Feature Subset Selection,FSS)

    特征选择时通过删除不相关或冗余的属性来减少维度与数据量。其目的是:定位最小属性集,使得数据的概率分布尽可能接近使用所有属性得到的原分布,简单说,就是从全部属性中选取一个特征属性子集,使构造出来的模型更好。

    特征集选择的步骤一般是:建立子集集合、构造评价函数、构建停止准则、验证有效性。

    选择特征集的方式一般有:序列向前、序列向后、序列前后组合、决策树方式这4中。

    2、数量规约(Numerosity Reduction)

    (1)参数化数据规约

    参数化数据规约可以用回归模型与对数线性模型来实现。

    首先,对数值型的数据,可以用回归的方法,对数据建模,使之拟合成直线或平面。在简单线性回归中,随机变量y可以表示为另一个随机变量x的线性函数。通过最小二乘法可以定义线性函数方程。在多元线性回归中,随机变量y可以用多个随机变量表示。

    其次,如果我们想分析多个分类变量间的关系,对多个分类变量间的关系给出系统而综合的评价,就可以采用对数线性模型。常见的逻辑回归就是对数线性模型的一种。对数线性模型中的Logit过程如果用来分析自变量与因变量的交互项的话,其实是逻辑回归模型的结果。只不过对数线性模型显示的是属性之间的相互关系,并不需区分Y与X。

    (2)非参数化数据规约

    非参数化数据规约包括直方图、聚类、抽样、数据立方体聚集等方法。

    第一,直方图方法就是分箱,之前在数据清理一章提到过,噪声光滑的一种方法就是分箱,即将数据划分为不相交的子集,并给予每个子集相同的值。而用直方图规约数据,就是将图中的bin个数由观测值的数量n减少到k个。从而使数据变成一块一块的呈现。bin的划分可以是等宽的,也可以是等频的。

    第二,聚类算法是将数据进行分群,用每个数据簇中的代表来替换实际数据,以达到数据规约的效果。

    第三,抽样。通过选取随机样本(子集),实现用小数据代表大数据的过程。抽样的方法包括:简单随机抽样、簇抽样、分层抽样等。

    第四,数据立方体聚集。数据立方体聚集帮助我们从低粒度的数据分析聚合成汇总粒度的数据分析。我们认为表中最细的粒度是一个最小的立方体,在此上每个高层次的抽象都能形成一个更大的立方体。数据立方体聚集就是将细粒度的属性聚集到粗粒度的属性。

    展开全文
  • 本标准规定了水文监测系统中智能传感器与遥测终端的接口及数据通信协议、测站与中心站之间的数据通信协议。本标准适用于江河、湖泊、水库、近海、水电站、灌区及输水工程等各类水文监测系统和水资源监测(控)系统,...
  • 针对中国地区腐蚀等级以及相关环境参数数据稀疏分布的特性,提出了一种基于稀疏数据规约的CMAC大气腐蚀数据补偿方法。同时,针对二氧化硫浓度缺失的情况,根据现有的有效数据,提出了二氧化硫浓度的经验公式。结果...
  • 本标准规定了数据报文传输规约数据传输报文及结构、通信方式和误码率、传感器与终端通信的接口和规约数据传输的考核。本标准适用于各级各类水资源、水文自动监测系统中遥测站与中心站之间的数据传输、遥测终端与...
  • 数据预处理(五)——数据规约

    千次阅读 2021-08-04 15:47:54
    数据规约 数据变换与离散化 利用sklearn进行数据预处理 五、数据规约 数据归约(Data Reduction)用于在尽可能保持数据完整性的基础上得到数据的归约表示。也就是说,在归约后的数据集上挖掘将更有效,而且仍会...

    主要内容:
    数据预处理的必要性
    数据清洗
    数据集成
    数据标准化
    数据规约
    数据变换与离散化
    利用sklearn进行数据预处理
    小结

    五、数据规约

    数据归约(Data Reduction)用于在尽可能保持数据完整性的基础上得到数据的归约表示。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩

    (一)维归约

    维归约的思路是减少所考虑的随机变量或属性的个数,使用的方法有属性子集选择、小波变换和主成分分析。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测或删除。而后两种方法是原始数据变换或投影到较小的空间。

    1.属性子集选择
    属性子集选择通过删除不相关或者冗余属性(或维)减少数据量。
    (1)逐步向前选择
    (2)逐步向后删除
    (3)逐步向前选择和逐步向后删除的组合
    (4)决策树归纳

    2.小波变换

    小波变换是一种新的变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。

    将图像进行小波变换并显示。
    原图:
    在这里插入图片描述

    import cv2 as cv

    import numpy as np
    import pywt  # 小波变换的包
    import cv2 as cv  # pip install opencv-python
    import matplotlib.pyplot as plt
    img = cv.imread("lena.jpg")  # 读取图像
    img = cv.resize(img,(448,448))  # 最近邻插值缩放,更改图片大小
    # 将多通道图像变为单通道图像
    img = cv.cvtColor(img,cv.COLOR_BGR2GRAY).astype(np.float32)
    plt.figure('二维小波一级变换')
    coeffs = pywt.dwt2(img,'haar')  # 一维Haar变换
    cA,(cH,cV,cD) = coeffs
    # 将各个子图进行拼接,最后得到一张图
    AH = np.concatenate([cA,cH+255],axis=1)
    VD = np.concatenate([cV+255,cD+255],axis=1)
    img = np.concatenate([AH,VD],axis=0)
    # 显示为灰度图
    plt.axis('off')
    plt.imshow(img,'gray')
    plt.title('result')
    plt.show()
    

    在这里插入图片描述
    3.主成分分析

    主成分分析(Principal Component Analysis,PCA)又称Karhunen-Loeve或K-L方法,用于搜索k个最能代表数据的n维正交向量,是最常用的一种降维方法。PCA通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等,在数据压缩消除冗余和数据噪音消除等领域也有广泛的应用。
    PCA的主要目的是找出数据里最主要的方面代替原始数据。

    PCA 算法:
    在这里插入图片描述
    sklearn实现鸢尾花数据降维,将原来4维的数据降维为2维。

    import matplotlib.pyplot as plt                 
    from sklearn.decomposition import PCA
    from sklearn.datasets import load_iris
    data = load_iris()
    y = data.target
    x = data.data
    pca = PCA(n_components = 2)     
    #加载PCA算法,设置降维后主成分数目为2
    reduced_x = pca.fit_transform(x)   #对样本进行降维
    print(reduced_x)
    #在平面中画出降维后的样本点的分布
    red_x,red_y = [],[]
    blue_x,blue_y = [],[]
    green_x,green_y = [],[]
    for i in range(len(reduced_x)):
        if y[i] == 0:
            red_x.append(reduced_x[i][0])
            red_y.append(reduced_x[i][1])
        elif y[i]== 1:
            blue_x.append(reduced_x[i][0])
            blue_y.append(reduced_x[i][1])
        else:
            green_x.append(reduced_x[i][0])
            green_y.append(reduced_x[i][1])
    plt.scatter(red_x,red_y,c='r',marker='x')
    plt.scatter(blue_x,blue_y,c='b',marker='D')
    plt.scatter(green_x,green_y,c='g',marker='.')
    plt.show()
    

    在这里插入图片描述

    (二)数量归约

    数量归约(Numerosity Reduction)用替代的、较小的数据表示形式换原始数据。这些技术可以是参数或者非参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数而不是实际数据(离群点需存放),如回归和对数-线性模型
    存放数据规约表示的非参数方法包括: 直方图、聚类、抽样和数据立方体聚类

    (三)数据压缩

    数据压缩(Data Compression)使用变换,一遍得到原始数据的归约或“压缩”表示。如果数据可以在压缩后的数据重构,而不损失信息,则该数据归约被称为无损的。如果是近似重构原数据,称为有损的。基于小波变换的数据压缩是一种非常重要的有损压缩方法。

    展开全文
  • 数据集成、数据变换、数据规约(小波变换主成分分析……)

    Python介绍、 Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置
    python基础知识及数据分析工具安装及简单使用(Numpy/Scipy/Matplotlib/Pandas/StatsModels/Scikit-Learn/Keras/Gensim))
    数据探索(数据清洗)①——数据质量分析(对数据中的缺失值、异常值和一致性进行分析)
    数据探索(数据清洗)②—Python对数据中的缺失值、异常值和一致性进行处理
    数据探索(数据集成、数据变换、数据规约)③—Python对数据规范化、数据离散化、属性构造、主成分分析 降维
    数据探索(数据特征分析)④—Python分布分析、对比分析、统计量分析、期性分析、贡献度分析、相关性分析
    挖掘建模①—分类与预测
    挖掘建模②—Python实现预测
    挖掘建模③—聚类分析(包括相关性分析、雷达图等)及python实现
    挖掘建模④—关联规则及Apriori算法案例与python实现
    挖掘建模⑤—因子分析与python实现

    数据集成

    • 数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。

    • 在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,不一定是匹配的,要考虑实体识别问题和属性冗余问题,从而把源数据在最低层上加以转换、提炼和集成。

    实体识别

    实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。

    • 同名异义:数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号,即描述的是不同的实体。
    • 异名同义:数据源A中的sales_dt和数据源B中的sales_date都是是描述销售日期的,即A. sales_dt= B. sales_date。
    • 单位不统一:描述同一个实体分别用的是国际单位和中国传统的计量单位。

    冗余属性识别

    1. 数据集成往往导致数据冗余
    • 同一属性多次出现
    • 同一属性命名不一致导致重复
    1. 不同源数据的仔细整合能减少甚至避免数据冗余与不一致,以提高数据挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。
    2. 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,根据其属性值,可以用相关系数度量一个属性在多大程度上蕴含另一个属性。

    数据变换

    主要是对数据进行规范化的操作,将数据转换成“适当的”格式,以适用于挖掘任务及算法的需要。

    简单函数变换就是对原始数据进行某些数学函数变换,常用的函数变换包括平方、开方、对数、差分运算等,即:
    在这里插入图片描述

    规范化

    数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。如将工资收入属性值映射到[-1,1]或者[0,1]之间。
    下面介绍三种规范化方法:最小-最大规范化、零-均值规范化、小数定标规范化

    最小-最大规范化

    也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间。转换函数如:
    在这里插入图片描述
    其中max为样本数据的最大值, min为样本数据的最小值。max-min 为极差。

    Python处理

    import numpy as np
    (data - data.min())/(data.max() - data.min())
    

    在这里插入图片描述

    零-均值规范化

    也叫标准差标准化,经过处理的数据的平均数为0,标准差为1。转化函数为:
    在这里插入图片描述

    其平均为原始数据的均值,σ为原始数据的标准差。

    Python处理

    (data - data.mean())/data.std()
    

    在这里插入图片描述

    小数定标规范化

    通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。转化函数为:
    在这里插入图片描述

    Python处理

    data/10**np.ceil(np.log10(data.abs().max()))
    

    在这里插入图片描述

    连续属性离散化

    一些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式,如ID3算法、Apriori算法等。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。

    • 离散化的过程
      连续属性变换成分类属性涉及两个子任务:决定需要多少个分类变量,以及确定如何将连续属性值映射到这些分类值。

    • 常用的离散化方法
      常用的无监督离散化方法有:等宽法、等频法、基于聚类分析的方法

    属性构造

    在数据挖掘的过程中,为了帮助提取更有用的信息、挖掘更深层次的模式,提高挖掘结果的精度,需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。

    比如已有人的身高体重,构造一个关键指标——体重指数BMI,改过程就是构造属性:
    BMI=(体重)/身高²
    身高与体重的比例生成的BMI指数,能用来衡量人的体形发育匀称度和体型,作为评定人的身体匀称度。

    小波变换

    基于小波变换的特征提取方法及其方法描述如下表所示:
    在这里插入图片描述

    小波基函数是一种具有局部支集的函数,平均值为0,小波基函数满足:在这里插入图片描述 。Haar小波基函数是常用的小波基函数,如下图所示:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    数据规约

    • 数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小得多。
    • 通过 数据规约,可以达到:
      1.降低无效、错误数据对建模的影响,提高建模的准确性
      2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
      3.降低储存数据的成本

    属性规约

    属性规约常用方法有:合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析

    合并属性

    在这里插入图片描述

    逐步向前选择

    在这里插入图片描述

    逐步向后删除

    在这里插入图片描述

    决策树规约

    在这里插入图片描述

    主成分分析

    下面详细介绍主成分分析计算步骤:
    在这里插入图片描述
    在这里插入图片描述

    Python实现

    from sklearn.decomposition import PCA

    PCA(n_components=None, *, copy=True, whiten=False, svd_solver=“auto”, tol=0.0, iterated_power=“auto”, random_state=None)

    1)n_components

    这个参数可以帮我们指定希望PCA降维后的特征维度数目。最常用的做法是直接指定降维到的维度数目,此时n_components是一个大于等于1的整数。当然,我们也可以指定主成分的方差和所占的最小比例阈值,让PCA类自己去根据样本特征方差来决定降维到的维度数,此时n_components是一个(0,1]之间的数。当然,我们还可以将参数设置为"mle", 此时PCA类会用MLE算法根据特征的方差分布情况自己去选择一定数量的主成分特征来降维。我们也可以用默认值,即不输入n_components,此时n_components=min(样本数,特征数)。

    2) copy:

    类型:bool,True或者False,缺省时默认为True。
    意义:表示是否在运行算法时,将原始训练数据复制一份。若为True,则运行PCA算法后,原始训练数据的值不会有任何改变,因为是在原始数据的副本上进行运算;若为False,则运行PCA算法后,原始训练数据的值会改,因为是在原始数据上进行降维计算。

    3)whiten

    判断是否进行白化。所谓白化,就是对降维后的数据的每个特征进行归一化,让方差都为1.对于PCA降维本身来说,一般不需要白化。如果你PCA降维后有后续的数据处理动作,可以考虑白化。默认值是False,即不进行白化。

    除了这些输入参数外,有两个PCA类的成员值得关注。第一个是explained_variance_,它代表降维后的各主成分的方差值。方差值越大,则说明越是重要的主成分。第二个是explained_variance_ratio_,它代表降维后的各主成分的方差值占总方差值的比例,这个比例越大,则越是重要的主成分。

     inputfile = 'data/principal_component.xls'
     outputfile = 'tmp/dimention_reducted.xls' #降维后的数据
    
     data = pd.read_excel(inputfile) #读入数据
     pca = PCA()
     pca.fit(data)
     print(pca.components_) #返回模型的各个特征向量
     print(pca.explained_variance_ratio_ )#返回各个成分各自的方差百分比 
    

    在这里插入图片描述
    从上面结果来看得到特征方程det(R-λE)=0有7个特征根,对应7个单位特征向量以及各个成分的方差百分比(也成为了贡献率)。其中方差百分比越大,说明向量的权重越大。
    当选取前3个主成分时,累计贡献率已经达到98.78%,说明选取前2个主成分进行计算已经相当不错,因此可以重新建立PCA模型,设置n_components=2,计算出成分结果。

    pca=PCA(2)
    pca.fit(data)
    low_d=pca.transform(data)# 用它来降低纬度
    pd.DataFrame(low_d).to_excel(outputfile)# 保存结果
    pca.inverse_transform(low_d) #必要是可以用inverse_transform()函数来复原数据
    

    降维结果
    在这里插入图片描述
    原始数据从8维被降到了2维,关系式由公式在这里插入图片描述
    确定,同时这2维数据占原始数据95%以上的信息。

    数值规约

    数值规约通过选择替代的、较小的数据来减少数据量。数值规约可以是有参的,也可以是无参的。有参方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据。有参的数值规约技术主要有两种:回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。数值规约常用方法有直方图、用聚类数据表示实际数据、抽样(采样)、参数回归法。

    展开全文
  • SLT 812.1-2021 水利监测数据传输规约 第1部分:总则
  • 数据规约 数据的变换 1、Min-Max 规范化 [0,1]规划 2、Z-Score 规范化 两种归一化方法的使用场景: 正则化 每文一语 本来这些储备知识,我想在后续的实际算法案例中进行解释,但是考虑到很多的小伙伴在学习的...
  • SLT 427-2021 水资源监测数据传输规约
  • 水文监测数据通信规约SL651-2014。
  • 数据规约产生更小且保持完整性的新数据集,在规约后的数据集上进行分析和挖掘将提高效率 一、属性规约 属性规约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,从而提高数据挖掘的效率...
  • 讨论基于数据规约的近似挖掘技术,在数据预处理阶段对海量数据集进行数据规约.近似数据挖掘的工作流程包括任务定义、数据准备与预处理、数据挖掘建模、结果的解释与评估、模型发布与应用5个阶段.同时,提出使用属性...
  • 数据分析与挖掘之数据规约

    千次阅读 2018-09-23 23:00:23
    数据规约三种方法 1、维归约(dimensionlity) 减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,他们把原始数据变换或投影到较小的空间。属性子集选择是一种维归约方法,其中不相关、弱相关...
  • 206水资源协议
  • 数据规约

    千次阅读 2019-10-17 16:13:43
     数据归约是指在对挖掘任务和数据本身内容理解的基础上、寻找依赖于发现目标的数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。 数据归约的途径  数据归约主要有两个...
  • 水资源监测数据传输规约pdf,水资源监测数据传输规约
  • 电力 CDT 规约 远动RTU数据采集 该模块运用于现场试验合格
  • 水文监测数据通信规约pdf,水文监测数据通信规约
  • 《水文监测数据通信规约》V1.1版20121008(重点)(带书签) 本标准是依据 GB/T 1.1—2009《标准化工作导则 第 1 部分:标准的结构和编写》的规则起草。 本标准由水利部水文局提出。 本规范由水利部水文局归口并负责...
  • Q/GDW-376.1-2009《电力用户用电信息采集系统通信协议:主站与采集终端通信协议》及编制说明.doc 电力负荷管理系统数据传输规约-Q/GDW 130-2005.pdf
  • 水资源206-2016通讯协议,嵌入式工程师,水利行业
  • 电力规约报文解析器,可以将规约报文解读出来,便于查看数据
  • 电力系统规约,遥测系统传输数据遥测系统传输数据
  • 数据预处理-数据规约

    2020-04-30 21:10:59
    数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。 有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。...
  • 3、数据规约方法 3.1 维度规约(Dimensionality Reduction) 3.2 数量规约(Numerosity Reduction) 1、简介 在数据集成与清洗后,我们能够得到整合了多数据源同时数据质量完好的数据集。但是,集成与清洗无法...
  • 网上特别难找的2016版水资源监测数据传输规约

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 35,942
精华内容 14,376
热门标签
关键字:

常用的数据规约方法