数据清洗 订阅
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 展开全文
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
信息
外文名
Data cleaning
对    象
数据
中文名
数据清洗
目    的
发现并纠正数据文件
数据清洗基本概念
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成 [1]  。一致性检查一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:例如,许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。变量删除(variable deletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性 [2]  。
收起全文
精华内容
下载资源
问答
  • Python数据清洗实战入门

    万人学习 2019-12-09 10:47:41
    本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。
  • 数据挖掘:数据清洗——数据噪声处理 一、什么是数据噪声? 数据噪声(Noise):数据集中的干扰数据(对场景描述不准确的数据),即测量变量中的随机误差或方差。 二、噪声数据与离群点的区别 观测量(Measurement) = ...
  • 数据增加和删除 在数据中,直接添加列 使用df.insert方法在数据中添加一列 drop(labels, axis, inplace=True)方法(删除) ...'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据' os.chdir('D:\\Jupyter\\notebo
  • 数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。本节介绍数据清洗的主要处理方法。 遗漏数据处理 假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如顾客的收入属性,则对于为空...
  • 无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。 数据清洗整体...
  • 数据分组方法 分组计算根据某个或某几个字段对数据集进行分组,然后运用特点的函数,得到结果 使用groupby方法进行分组计算,...'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之数据统计' os.chdir('D:\\Jup
  • 数据清洗一般先从重复值和缺失值开始处理 重复值一般采取删除法来处理 但有些重复值不能删除,例如订单明细数据或交易明细数据等 import pandas as pd import numpy as np import os os.getcwd() 'D:\\Jupyter\\...
  • csv文件读写 pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL 使用read_csv方式读取。结果为dataframe格式 ...'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之文件读写' os.chdir('D
  • 数据清洗指南.pdf

    2020-05-22 11:01:10
    讲述了人工智能领域的数据清洗的各种指导和方法:数据缺失、混乱、重复怎么办?最全数据清洗指南!要获得优秀的模型,⾸先需要清洗数据。这是⼀篇如何在 Python 中执⾏数据清洗的分步指南。
  • 数据清洗

    2020-10-12 17:39:38
    私人数据清洗的文件,不用下载,里面只有个和一个练习用的数据集,以及代码
  • 第一章:数据清洗常用工具1.numpy常用数据结构常用清洗工具:numpy常用数据结构:Numpy常用方法数组访问方法练习(jupyter)代码下面是结果2.Numpy常用数据清洗函数数据的排序数据的搜索练习(jupyter)代码下面是...
  • 资料清理 河工程二年级数据清洗课程 数据说明:共五类糖尿病细胞拉曼光谱数据:文件夹名称就是对应的分类
  • 数据清洗习题B.pdf

    2020-10-31 22:53:58
    学 院 期末 试 卷B 2020-2021 学年第 一 学期 考 试 课 程数据清洗 课 程 代 码 考 试 形 式闭卷考试 考 试 班 级20 大数据 命 题 教 师 教研室主任 系 院主任 教 务 处 长 学院期末试卷 秘密 第 页 共 页 学 院 ...
  • 通过10个文件从小功能一步步更新到网络爬虫、数据清洗 1.AQI计算 2.读取已经获取的JSON数据文件,并将AQI前5的数据输出到文件 3.CSV 4.根据输入文件判断是CSV还是JSON格式,并进行相应操作(with语句 os模块) 5、6、7...
  • HTML数据清洗

    2019-02-21 17:40:31
    可以对网络上爬取的文本数据进行一个处理,对里面数据用||||的形式进行一个划分,一目了然,没有一堆HTML标签的干扰,处理后的数据更方便数据库对数据的应用,请忽略文件名字
  • 数据清洗之 数据筛选

    2020-12-21 12:10:11
    'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之数据表处理' os.chdir('D:\\Jupyter\\notebook\\Python数据清洗实战\\数据') df = pd.read_csv('baby_trade_history.csv', encoding=
  • python数据清洗

    2018-07-22 19:22:13
    本资源部分参考《干净的数据 ——数据清洗入门与实践》,但更多的都是个人撰写。
  • 数据清洗讲义

    2017-10-13 14:29:37
    数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗 数据清洗
  • 数据清洗方案的设计

    2018-10-14 21:50:22
    一种脏数据的处理方案,目的是提高脏数据的处理效率和统一脏数据处理模式。这种方案将有助于建立统一数据模型,实现企业信息资源的全面共享和管理价值的增值,实现公司信息管理从分散管理到集中管理的转变;实现主要...
  • 此文件为Python 123 平台 Python语言程序设计 练习7:文件与数据格式化的CSV格式数据清洗附件
  • kettle数据抽取、数据清洗、数据装换, 作业根据时间戳更新插入数据完整demo 1、先获取时间戳 2、删除目标库大于时间戳的 3、数据同步,获取源表跟目标表大于时间戳的,比较, 目标表多的删除, 少的插入更新 4...
  • 这是由中国工信出版社集团、人民邮电出版社联合出版的由美国的MeGan Squire著作任政委翻译的《干净的数据 数据清洗入门与实践》,这是关于数据清洗的知名书籍,个人也是怀着敬仰之心细读全书,获益匪浅,分享给大家...
  • 记一个python处理excel数据清洗的实例的源文件
  • kettle数据清洗

    2018-09-18 16:48:30
    利用kettle工具进行数据清洗,按照条件去除不需要的内容
  • 这是一份python数据清洗思维导图,参加数学建模竞赛时朋友共享给我的,共享给大家,一起学习
  • MapReduce--->实现简单的数据清洗需要的数据文件
  • 'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之数据统计' os.chdir('D:\\Jupyter\\notebook\\Python数据清洗实战\\数据') df = pd.read_csv('online_order.csv', encoding='gbk', dtype={'customer':str...
  • python数据清洗学习记录–文件读写 目录python数据清洗学习记录–文件读写csv文件读写excel文件读写数据库文件的读写创建连接,连接MySQL数据保存 前期准备: #导入os模块 import os #获得当前路径地址 os.getcwd() ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 97,166
精华内容 38,866
关键字:

数据清洗