精华内容
下载资源
问答
  • 常见数据处理方法

    千次阅读 2021-05-14 09:09:29
    有时候更多数据处理从语言角度,调用不同api处理数据。但是从业务的角度想就很少了,最近从业务的角度了解了下常见数据处理方法,总结如下:

    有时候更多数据处理从语言角度,调用不同api处理数据。但是从业务的角度想就很少了,最近从业务的角度了解了下常见数据处理的方法,总结如下:


    标准化:标准化是数据预处理的一种,目的的去除量纲或方差对分析结果的影响。作用:1、消除样本量纲的影响;2、消除样本方差的影响。主要用于数据预处理

     

    归一化:将每个独立样本做尺度变换从而使该样本具有单位LP范数。

     

    主成分分析:主成分分析是将原来指标重新组合成一组新的互相无关的几个综合指标,从而达到降维的目的。

     

    奇异值分解:特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。主要运用于降维类似PIC、压缩图像、潜在语义索引、去除噪音、将一个矩阵分解为3个矩阵、实现原始矩阵的维度下降。

     

    分箱:分箱是根据一个或多个现有连续字段的值自动创建新字段的算子。即将数字输入转换为分类输入。

     

    转置:将数据由行转换为为列。

     

    重构:字段重排:该节点用于下游字段显示的自然顺序。此顺序将影响字段在多个位置的显示方式,如表格、列表和等。分为自定义排序和自动排序。

    字段重命名:该节点用户可以根据自己对数据的理解对一个或多个字段的名称重命名。用户可过滤哪些字段在下一个节点不出现。在设为标志节点中不能对设为标志的字段进行重命名。

     

    排序:排序节点可以根据一个或多个字段的值,按照升序或者降序对记录进行排序。排序时在表中选择作排序关键的字段。如果关键字段为数字字段,则适用于排序。

     

    样本:可以选择记录的子集进行分析,或指定要丢弃的记录的比例。

    可以选择记录的子集进行分析,或指定要丢弃的记录的比例。样本类型包括了如下几个

    1)    分层样本。首先对样本分层,在分层的子集中独立选择(单个或多个)样本。

    2)    系统化或n中取1抽样。如果随机选择难以实现,则可以系统(以固定间隔)或顺序方式抽取单元。将总体排序,每隔n个样本取一个。

     

    选择:选择可以基于特定条件从数据流中选择或者丢弃记录子集。通过对输入数据的任意数据字段设置过滤条件,实现对数据集记录的过滤筛选。

     

    区分:可以使用区分节点来查找或删除数据集中的重复记录。可以将第一个可区分记录传递到数据流,以删除重复的记录。或者丢弃第一个记录,将任何重复记录传递到数据流,以查找重复的记录。另外,可以在每个区分关键字值中为返回结果定义一种排序顺序。如果需要为每个区分关键字返回特定行,则必须在区分节点中对记录排序,而不能使用上游排序节点。

     

    平衡:可以使用平衡节点修正数据集中的不平衡,以便它们符合指定的检验标准。例如,假设某个数据集只有两个值(low 或 high),并且 90% 的观测值为 low,而只有 10% 的观测值为 high。很多建模技术处理此类偏倚数据都有困难,因为它们倾向于只学习这些 low 的结果,而忽略 high 的结果(因为这些结果少的可怜)。如果数据平衡很好,low 和 high 结果具有大致相同的数量,那么模型将更有可能找出分辨这两个组的模式。这种情况下,平衡节点对于创建平衡指令,从而减少带有 low 结果的观测值数量非常有用。

    平衡节点用于修正数据集中的不平衡,以便它们符合指定的检验标准。平衡是通过复制记录,然后根据指定的条件丢弃记录完成执行的。不符合任何条件的记录总是会被传递。因为此过程的工作模式为复制和/或丢弃记录,所以在下游操作中将丢失数据的原始顺序。在向数据流使用平衡功能之前,需要确保派生任何与序列相关的值。

     

    汇总:汇总是一个经常用于减小数据集大小的任务。汇总是一个经常用于减小数据集大小的任务。执行汇总之前,应该花一些时间来清理数据,尤其要关注缺失值。在汇总节点上,可以指定以下内容。

    1)    一个或多个关键字段

    2)    一个或多个汇总字段

    3)    一种或多种汇总模式(汇总类型)以用于每个汇总字段的输出

    4)    指定默认汇总模式

     

    追加:追加节点将结构类似的表,选取一个主表,将另外的表追加在主表后面(相当于增加行记录)。注意:要追加文件,字段测量级别必须相似。例如,名义字段无法附加测量级别为连续的字段,即字段类型的相同。

     

    合并:输入多个记录字段,创建一个包含全部或部分输入字段的输出记录。

     

    追加:追加节点将结构类似的表,选取一个主表,将另外的表追加在主表后面(相当于增加行记录)。当主表的字段比另一输入表中的字段多时,对于不完整的值使用Null值字符串($null$)。

     

    过滤:可以重命名或排除字段。

     

    导出:用户可以修改数据值并从现有数据中派生出新字段。可以根据一个或多个现有字段按6种方式创建出一个或者多个相同的新字段:

    1)    公式。表达式。

    2)    标志。代表指定条件的标志。

    3)    名义。名义的,表示其成员是一组指定值。

    4)    状态。两种状态之一。通过指定条件触发这两种状态之间的切换。

    5)    计数。新字段以某个条件为真的次数为基准。

    6)    条件。新字段根据某个条件值,从两个表达式中择选其一用作字段值。

     

    填充:填充节点用于替换字段值。填充节点通常与类型节点结合使用,用于替换缺失值。

     

    分区:分区节点用于生成分区字段,将数据分割为单独的子集或样本,以供模型构建的训练、测试和验证阶段使用。通过用某个样本生成模型并用另一个样本对模型进行测试,可以预判此模型对类似于当前数据的大型数据集的拟合优劣。

     

    分箱:使用“分箱”节点,可以根据一个或多个现有连续(数值范围)字段的值自动创建新的名义字段。分箱的实用性源于以下几个原因:

    1)    算法要求。某些特定算法(如NaiveBayes、Logistic回归)要求分类输入。

    2)    性能。如果减少输入字段的不同值数量,算法(如多项Logistic)的性能可能会提高。

    3)    数据隐私。敏感类个人信息(如工资)可采用范围的报告形式,而不使用实际工资数字,以保护个人隐私。

     

    转置:默认情况下,列为字段,而行为记录或观测值。可使用转置节点交换行和列中的数据,使字段变为记录、记录变为字段。

     

    类型:类型指定数据的属性和用途。字段属性可在源节点中指定也可在单独的类型节点中指定。两种节点的功能相似。

    1)    字段。描述某个属性(类似表头名)。

    2)    测量。用于描述某个给定字段中数据的特征。注意:字段的测量级别与字段的存储类型不同,后者表明数据是以字符串、整数、实数、日期、时间还是时间戳存储。

    3)    值。指定从数据集读取数据值的选项,还可以选择传递字段,而不读取它们的值。

    4)    角色。用于告知建模节点字段将成为用于某个机器学习过程的输入(预测变量字段)还是目标(预测字段),两者,无。

     

    设为标志:设为标志节点用于根据为一个或多个名义字段定义的分类值,派生出标志字段。例如,数据集包含名义字段BP(血压),其值为High,Normal和Low。可以创建一个代表高血压的标志字段BP_HIGH,用于指示患者是否患有高血压。默认情况下,是用真T标识,否用假F标识。

     

    时间区间:使用时间区间节点,可以为时间序列数据指定间隔并生成标签,以便于估计或预测。此外,还可以指定要用于估计的记录的范围。可以选择是否要排除序列中最早的记录。

     

    历史:历史节点最常用于顺序数据,如时间序列数据。这种节点用于创建包含先前字段数据的新字段。使用历史节点时,可能需要使用按特定字段预先排序好了的数据。

    展开全文
  • 分类-物理装置-一种数据处理方法、装置与数据处理系统.zip
  • 前端常用数据处理方法

    千次阅读 2020-02-06 19:24:01
    本文主要介绍的是项目开发过程中使用频率较高的一些数据处理方法,其他一些使用频率不高的方法就不在此处多做介绍了,有兴趣的同学可以自行延伸探索哦~ 数据类型类型(基本类型):字符串(String)、数字(Number...

    本文主要介绍的是项目开发过程中使用频率较高的一些数据处理方法,其他一些不太常用的方法就不在此处多做介绍了,有兴趣的同学可以自行延伸探索哦~

    数据类型

    1. 值类型(基本类型):字符串(String)、数字(Number)、布尔(Boolean)、对空(Null)、未定义(Undefined)、Symbol
    2. 引用数据类型:对象(Object)、数组(Array)、函数(Function)
      两者区别:
      存储上,基本类型的值是存在栈中,引用类型的值是存在堆中,引用类型的指针是存在栈中;
      赋值上,基本类型是按值传递,引用类型是按指针传递。

    深拷贝与浅拷贝

    1. 赋值运算符(=)
    2. 扩展运算符(…)
    3. JSON.parse(JSON.stringify(a))
    // 浅拷贝
    var a = [1, 2, 3];
    var a2 = a;
    a2[0] = 9;
    console.log(a); // [9, 2, 3]
    
    // 简单的深拷贝
    var a = [1, 2, 3];
    var a2 = [...a];
    a2[0] = 9;
    console.log(a); // [1, 2, 3]
    
    // 复杂的深拷贝 - 失败例子
    var a = [{id: 1}, {id: 2}, {id: 3}];
    var a2 = [...a];
    a2.push({id: 4});
    console.log(a); // [{id: 1}, {id: 2}, {id: 3}]
    // 但是子元素还是属于浅拷贝
    a2[0].id = 9;
    console.log(a); // [{id: 9}, {id: 2}, {id: 3}]
    
    // 复杂的深拷贝 - 成功例子
    var a = [{id: 1}, {id: 2}, {id: 3}];
    var a2 = JSON.parse(JSON.stringify(a));
    a2[0].id = 9;
    console.log(a); //[{id: 1}, {id: 2}, {id: 3}]
    

    判断数据类型

    1. typeof
    2. instanceof
      区别:
      typeof 一般只能返回如下几个结果:
      number, boolean, string, function, object(NULL, 数组, 对象), undefined
      instanceof 可用于判断一个变量是否某个对象的实例
    // 判断是否为数组
    var a = [];
    var b = {};
    typeof(a); // "object"
    typeof(b); // "object"
    Array.isArray(a); // true
    Array.isArray(b); // false
    // 其他方法
    a instanceof Array; // true
    b instanceof Object; // true
    
    // 判断是否为空对象
    var data = {};
    JSON.stringify(data) === "{}"; // true
    // 其他方法
    Object.keys(data).length === 0; // true
    

    数组转换

    1. join 数组转字符串
    2. split 字符串转数组
    var a = [1, [2, [[3, 4], 5], 6]]
    a.join().split(,);
    // 输出:[1,2,3,4,5,6]
    

    数组遍历

    1. for
    2. forEach
    3. map
    4. for of
    var a = [{id: 1}, {id: 2}, {id: 3}]
    // for
    // 使用临时变量,将长度缓存起来,避免重复获取数组长度
    let len = a.length;
    for(let i = 0; i < len; i++) {}
    
    // foreach -- 推荐使用
    a.forEach((item, index, array) => {})
    // 参数:item数组中的当前项, index当前项的索引, array原始数组
    // 遍历数组中的每一项,没有返回值,对原数组没有影响,不支持IE
    // 注:这里的“对原数组没有影响”指的是原始数据类型的数组,引用数据类型的数组还是会受影响
    // eg:
    a.forEach(item => {
    	item.id ++;
    })
    console.log(a);
    // 输出:[{id: 2}, {id: 3}, {id: 4}]
    
    var b = [1, 2, 3];
    b.forEach(item => {
    	item ++;
    })
    console.log(b);
    // 输出:[1, 2, 3]
    
    b.forEach((item, index, array) => {
    	array[index] ++;
    })
    console.log(b);
    // 输出:[2, 3, 4]
    
    // map -- 需要一份新数组时使用
    a.map((item, index, array) => {})
    // 同foreach,但是可以有返回值,相当于把原数组克隆一份,把克隆的这一份的数组中的对应项改变了
    var b = [1, 2, 3];
    b = b.map(item => {
    	return (item + 1);
    })
    console.log(b);
    // 输出:[2, 3, 4]
    
    // for of
    for(let i of a) {
    	console.log(i);
    	console.log(i.id);
    }
    // 输出:{id: 1} 1 {id: 2} 2 {id: 3} 3
    
    // for in
    for(let i in a) {
    	console.log(i);
    	console.log(i.id);
    }
    // 输出:0 undefined 1 undefined 2 undefined
    

    数组过滤

    1. filter
    2. find
    var a = [{id: 1}, {id: 2}, {id: 3}]
    // 取id大于1的数据
    // filter
    // 不会改变原始数组,返回新数组
    // 注:这次是真的解耦,不影响任何类型的原数组
    // eg:
    let b = a.filter(item => item.id > 1);
    console.log(b);
    console.log(a);
    // 输出: 
    // [{id: 2}, {id: 3}]
    // [{id: 1}, {id: 2}, {id: 3}]
    
    // 转为ES5语法,方便理解
    let b = a.filter(function(item){
    	return item.id > 1;
    })
    
    // 取id等于2的数据
    // find
    // find()方法返回数组中符合测试函数条件的第一个元素。否则返回undefined 
    a.find(item => item.id == 2);
    // 输出:{id: 2}
    a = [{id: 1}, {id: 2}, {id: 3}, {id: 2}];
    // 输出:{id: 2}
    

    数组判断

    1. indexOf
    2. includes
      Array.prototype.includes方法返回一个布尔值,表示某个数组是否包含给定的值,与字符串的includes方法类似。该方法属于 ES7 ,但 Babel 转码器已经支持。没有该方法之前,我们通常使用数组的indexOf方法,检查是否包含某个值。
    // eg:
    var a = [1, 2, 3];
    if (a.includes(3)) {}
    // 或
    if (a.indexOf(3) !== -1) {}
    

    对象遍历

    1. for in
    2. Object.keys(a)
    3. Object.values(a)
    // eg:
    var a = {id: 1, name: "zhangsan", age: 18};
    for(let key in a) {
    	console.log(key + ":" + a[key]);
    }
    // 输出:
    // id:1
    // name:zhangsan
    // age:18
    
    Object.keys(a);
    // 输出:["id", "name", "age"]
    
    Object.values(a)
    // 输出:[1, "zhangsan", 18]
    
    展开全文
  • 行业分类-物理装置-数据处理方法、装置以及数据查询方法、装置.zip
  • 8种常用类别型数据处理方法

    8种常用类别型数据处理方法 

     

    展开全文
  • 行业分类-机械工程-数据处理方法数据处理装置、空调系统和存储介质.zip
  • 行业分类-物理装置-数据处理方法数据处理装置、空调系统和存储介质.zip
  • 行业分类-物理装置-数据处理方法及其应用、数据处理装置及计算机可读介质.zip
  • 行业分类-物理装置-数据处理方法及装置、光子神经网络芯片、数据处理电路.zip
  • 行业分类-机械工程-数据处理方法数据处理装置、空调系统和存储介质[1].zip
  • 行业分类-物理装置-数据处理方法数据处理装置、空调系统和存储介质[1].zip
  • 行业分类-作业装置-一种数据处理方法、装置和用于数据处理的装置.zip
  • 分类-物理装置-一种数据处理方法数据处理装置和电子设备.zip
  • 针对制造业生产过程中多源异构数据处理方法与技术等进行系统性的综述,首先明确了制造业生产过程多源异构数据内容及分类;其次,阐述了多源异构数据处理数据采集、数据集成及数据分析各个阶段应用的数据处理方法...
  • 类型数据聚类方法. 根据每个分类属性的每个值相关的数据分布信息, 同时结合数据的纵向横向分布来评价数 据对象类之间的差异性, 定义了一种新的距离度量. 该方法能发现同一属性不同值间的内在关系, 并能...
  • 如何针对不平衡数据分类问题设计分类算法,同时保证不平衡数据中多数类少数类的分类精度,已成为机器学习领域的研究热点,并相继出现了一系列优秀的不平衡数据分类方法.鉴于此,对现有的不平衡数据分类方法给出较为...
  • 处理缺失数据方法可分为以下几类: 1. 只保留观察数据 (Procedures based on completely recorded units) 这种方法去除所有在某一变量上有缺失数据的纪录,只保留所有数据完整的纪录。 优点:容易实施 缺点:只...

    处理缺失数据的方法可分为以下几类:

    1. 只保留观察数据 (Procedures based on completely recorded units)

    这种方法去除所有在某一变量上有缺失数据的纪录,只保留所有数据完整的纪录。
    优点:容易实施
    缺点:只适用于缺失数据较少的数据,可能产生较大误差。

    2. 加权 (Weighting procedures)

    这种方法也是通过对现有未缺失数据通过以下公式进行加权处理

      y ˉ H K = ∑ i = 1 n ( π i p ^ i ) − 1 y i ∑ i = 1 n ( π i p ^ i ) − 1 \ \bar y_{HK} = \frac{\sum_{i=1}^n (\pi_i \hat p_i)^{-1}y_i}{\sum_{i=1}^n (\pi_i \hat p_i)^{-1}}  yˉHK=i=1n(πip^i)1i=1n(πip^i)1yi
    在这里,
    p ^ i 是 未 缺 失 数 据 单 位 i 的 概 率 估 计 π i 是 已 知 未 缺 失 变 量 包 含 在 样 本 中 的 概 率 \hat p_i 是未缺失数据单位i的概率估计\\ \pi_i 是已知未缺失变量包含在样本中的概率 p^iiπi

    3. 填补(Imputation)

    这种方法与上两种方法有着本质上的不同就是不仅仅单纯忽略缺失值,而是通过现有完整的数据来填补缺失值。
    常用的标准方法有:

    1. 热卡填充(hot deck imputation)即就近补齐
      这种方法简单的通过一些现有的相似数据来补充缺失数据。
    2. 均值补齐(mean imputation)
      用现有数据的均值来填充缺失数据。
    3. 回归补齐(regression imputation)
      先依据已知数据建立一个回归模型,再通过回归模型预测缺失数据。

    然而我们不能完全照搬这些标准方法,针对不同数据的不同特点要做一些调整。

    4. 建立模型(Model-based methods)

    我们对未缺失的数据建立模型,然后基于模型中似然(likelihood)或后验概率(posterior distribution)进行分析。
    这个方法比以上方法要复杂但更为灵活。

    展开全文
  • 常用数据处理方法,你都会吗?

    千次阅读 2019-04-26 19:32:45
    数据编辑处理是在统计和分析数据时,第一步要做的。尤其是当面对大量数据时,数据处理是一个重要的过程,可以达到提高处理效率及精度的目的。 为配合进行更好的分析,研究过程过可能涉及到以下数据处理工作: 定义...
  • 数据类型与数据分析方法

    千次阅读 2018-12-03 20:28:43
    1.分类数据和数值型数据 按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 归属于某一类别的数据称为分类数据(categorical data),其结果均表现为类别,也称为品质数据...
  • 行业分类-电子电器-工作流数据处理方法、装置及工作流数据处理平台.zip
  • df= pd.read_csv('data/train.csv')#读取到的数据类型为DataFrame DataFrame通过行、列索引,获取指定位置的值 print('查看df行索引:', df.index) print('查看df列索引:', df.columns) print('输出按数字索引所取的...
  • 数据缺失值的4种处理方法

    千次阅读 2021-06-24 09:38:37
    机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。 人为原因是由于人的主观失误、历史局限或有意...
  • 什么是非均衡数据? 举个生活中的例子,我想大致调查一个年级(男生...当我们进行机器学习任务时,如果样本有大量的非均衡数据,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样...
  • 点云数据处理方法概述

    千次阅读 2020-12-28 23:52:39
    这篇博客主要介绍三维计算机视觉中点云数据处理面对的问题,主要方法和技术,概述其特点。这篇博客主要介绍最基本的点云数据处理技术和概念,不会有任何代码。ICP点云配准就是我们非常熟悉的点云处理算法之一。实际...
  • 文章目录数据分类按获取方式分按表现方式分4D产品-从应用来分空间数据采集与处理的基本流程数据源选择数据采集方法的确定数据的编辑与处理数据质量控制评价数据入库 【GIS】整个地理信息系统就是围绕 空间数据...
  • * * * * * * * * * * * 第5章 数据图表处理 本章知识点 数据图表的主要类型 数据图表的常用术语 数据图表的建立方法 数据图表的编辑操作 数据图表的格式设置 复杂图表的制作技巧 动态图表的制作方法 * 本章目录 5.1 ...
  • 流式数据处理方法

    千次阅读 2020-10-21 22:44:15
    通常需要处理类似字节流的流式数据,那么会面临一个问题就是当数据流源源不断的传输,如何知道数据流中从哪个点开始到那个点结束是一个完整的数据呢? 通常有如下种方法: 定长记录 定义每个记录的固定长度。读方...
  • 文章目录内容介绍缺失值的定义缺失值的可视化缺失值的处理方法 内容介绍 在日常的数据分析工作中,数据中的缺失值是最头疼的一个内容。 在日常数据采集的过程中,由于各种原因在数据采集的过程中会造成数据的部分...
  • 商务数据分析应用 ;了解数据分类的作用 熟悉分类汇总常用方法 熟悉数据清洗转化及排序的主要方法; ;数据清洗;数据转化;谢谢您的聆听
  • VUE 前端处理数据常用方法

    千次阅读 2019-05-08 17:59:01
    1、对象排序 let arrData={"张三":15,"李四":30,"万系":2,"是三":3}; function ObjectOrder(data){ let keysSorted = Object.keys(data).sort(function(a,b){return data[b]-data[a]}) //排序健名 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,385,772
精华内容 1,354,308
关键字:

常见的数据分类与处理方法