精华内容
参与话题
问答
  • 数据预处理

    千次阅读 2019-06-24 16:22:38
    数据预处理的主要任务 数据清洗: 填充缺失值,平滑噪声数据,识别并删除孤立点,解决不一致问题 数据集成: 将多个数据库或数据文件进行集成 数据规约: 在取得相同结果的条件下,减少特征数量 数据变换: 数据...

    数据预处理的主要任务

    • 数据清洗:  填充缺失值,平滑噪声数据,识别并删除孤立点,解决不一致问题
    • 数据集成:  将多个数据库或数据文件进行集成
    • 数据规约:  在取得相同结果的条件下,减少特征数量
    • 数据变换:  数据格式、取值区间等的标准化

    数据清洗的任务

    • 属性选择与处理
    • 填充空缺
    • 噪声数据的处理

    属性选择与处理:


    填充空缺值:导致数据缺失的原因有多种,如设备失灵、数据收集难度大、因与其它记录重复而删除等
    填充方法:

    • 忽略元组
    • 人工填充
    • 默认值填充
    • 使用属性的中心度量填充
    • 同一类元组的属性均值或中位数填充
    • 使用最可能的值填充

    噪声数据的处理:在测量一个变量时可能产生一些误差或者错误,使得测量值相对于真实值有一定的偏差,这种偏差称之为噪声
    处理方法:

    • 分箱
    • 聚类
    • 回归

    分箱知识点:https://blog.csdn.net/weixin_42859280/article/details/93486998

    数据集成:

    • 卡方检验
    • 皮尔逊相关系数

    例子:

    相关系数分析(皮尔逊相关系数):

    数值数据的协方差:

    例子:

    数据规约:

    【小波变换:将数据进行多尺度的细化分析】

    • 数据规约目的:     在保持数据完整的前提下,减少原始数据量,从而增加数据挖掘算法的效率。
    • 维规约:    减少所考虑样本的属性个数。小波变换,主成分分析,属性子集选择
    • 数量规约    用原始数据的子集进行数据挖掘。回归,直方图,聚类,采样,数据立方体集成
    • 数据压缩    使用变换,以得到原始数据的规约或压缩表示。有损与无损

    数据变换与离散化:

    • 数据变换 :   将数据原始数据映射到新的空间中,实现多个数据库数据的统一。
    • 规范化 :   将数据原始数据映射到一个较小的区间。

    数据离散化:

    分箱知识点:https://blog.csdn.net/weixin_42859280/article/details/93486998

    概念分层:

    概念分层与离散化: 标称属性中的取值具有一定的意义,概念分层这些值泛化到较高的概念层。如,年龄小、青、中、老的界定等。

    方法:

    展开全文
  • 预处理

    2018-02-18 10:43:53
    1.预处理的意义预处理器帮编译器完成编译前的杂事;2.常见的预处理a.头文件包含,如:#include <>、#include " ";#include <>一般都是用来包含系统提供的头文件或者有一个...

    1.预处理的意义

    预处理器帮编译器完成编译前的杂事;

    2.常见的预处理

    a.头文件包含,如:#include <>、#include " ";

    #include <>一般都是用来包含系统提供的头文件或者有一个自己指定的头文件路径,只会到特定的路径中去查找;

    #include ""一般常用于包含自己写的头文件,会优先到当前目录下去找相应的头文件,再到系统的指定目录下去找;

    b.注释,如: //、/* */

    在预处理阶段会将注释的语言去掉;

    c.条件编译

    #ifdef NUM 如果定义了NUM 这个符号执行

    #else 如果没有定义 执行

    #endif 结束

    #if

    d.宏定义

    宏定义的解析方法:在预处理阶段,直接替换,不做类型检查;



    展开全文
  • SPSS——数据预处理

    千次阅读 2016-05-11 23:48:41
    SPSS——数据预处理

    SPSS——数据预处理

    排序个案(Sort Case)

    用于对数据集的变量进行排序

    1. 数据——>排序个案
      这里写图片描述

    2. 选择需要排序的列,右键
      这里写图片描述

    转置过程 Transpose

    用于对数据文件中的行列进行转换

    • 变量 Variable(s): 将要进行转置的变量
    • 名称变量 Name Variable:

    选择一个变量作为转置后的新变量名,默认情况下,系统自动生成新编量 Var001, Var002等变量

    数据集
    这里写图片描述

    转置配置
    这里写图片描述

    结果
    这里写图片描述

    类汇总Aggregate

    • 分组变量,类似sql中的group by
    • 汇总变量,类似于sum函数
      这里写图片描述

    结果如下
    这里写图片描述

    展开全文
  • 图像预处理-基本概念

    千次阅读 2017-11-09 14:33:46
    图像预处理-基本概念1. neighborhood, region neighborhood: 邻域,附近像素形成的区域。常见四邻域,八邻域。 region:区域,相邻相似性质点组成的集合。像素的连通集(connectedness)。 连通集:同一区域中,任意...

    图像预处理-基本概念


    1. neighborhood, region

    • neighborhood: 邻域,附近像素形成的区域。常见四邻域,八邻域。
    • region:区域,相邻相似性质点组成的集合。像素的连通集(connectedness)。
    • 连通集:同一区域中,任意两个像素点至少存在一条连通路径。

    四连通

    四连通区域或四邻域,是指对应像素位置的上、下、左、右,是紧邻的位置。共4个方向,所以称之为四连通区域,又叫四邻域。

    八连通

    八连通域或八邻域,对应位置的上、下、左、右、左上、右上、左下、右下,是紧邻的位置和斜向相邻的位置。共8个方向,所以称之为8连通区域或八邻域。

    2. neighborhood operation

    邻域运算或模版运算(filter mask, template)。

    • 相关运算

      g(x,y)=Tf(x,y)=i=0m1j=0m1T(i,j)f(x+im12,y+jm12)
    • 卷积运算

      g(x,y)=Tf(x,y)=i=0m1j=0m1T(i,j)f(xi+m12,yj+m12)
    展开全文

空空如也

1 2 3 4 5 ... 20
收藏数 87,529
精华内容 35,011
关键字:

预处理