精华内容
下载资源
问答
  • 数据清洗工具.zip

    2019-08-30 11:06:29
    里面包含多种数据清洗工具,包括Hawk,OpenRefine数据清洗工具.
  • SQL Power提供的数据清洗工具,用于大数据采集过程,此工具提供了丰富的方法来做数据清洗
  • 开源数据清洗工具,github,官网由于墙的原因,无法下载,共享到CSDN,方便大家下载。
  • 数据清洗工具OpenRefine

    千次阅读 2019-02-15 16:59:02
    数据清洗工具OpenRefine
                   

    数据清洗工具OpenRefine

    作者:chszs,转载需注明。博客主页: http://blog.csdn.net/chszs

    数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。
    怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。

    一、介绍OpenRefine


    我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。

    正确且清晰地认识以上的现状,是我们开始使用OpenRefine的前提。于是有了数据质量的说法。
    下面先熟悉三个基础概念。

    数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

    数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

    IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

    OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。

    二、安装OpenRefine

    要学习OpenRefine,首先需要下载最新版本的OpenRefine。
    下载地址: http://openrefine.org/
    OpenRefine最早是众所周知的Freebase Gridworks,随后又变成Google Refine,几年后又被社区接管,在2012年10月变成了彻底开源的OpenRefine。
    OpenRefine 2.6版是它改名为OpenRefine的第一个发行版本。
    如果你对OpenRefine的开发版感兴趣,可以访问:https://github.com/OpenRefine.OpenRefine
    OpenRefine基于Java环境,因此是跨平台的。

    OpenRefine 2.6版目前还处于Beta1版,也是所谓的开发版,不适合在生产环境中使用。如果要选择稳定版,那么还是该下载Google Refine 2.5版。

    1、OpenRefine在Windows的安装
    1)下载ZIP包,地址:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip ;
    2)解压到某个目录;
    3)要运行OpenRefine,双击openrefine.exe文件。


    2、OpenRefine在Mac的安装

    1)下载DMG文件:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg ;
    2)打开磁盘镜像,拖动OpenRefine的图标到Applications目录;
    3)双击图标以启动OpenRefine。
     
    3、OpenRefine在Linux的安装
    1)下载gzipped包:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz ;
    2)解压到当前用户的home目录;
    3)在终端命令行环境,键入./refine以启动OpenRefine。





               

    再分享一下我老师大神的人工智能教程吧。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow

    展开全文
  • 数据清洗工具 OpenRefine简介

    千次阅读 2020-03-31 13:50:48
    目前有三款免费的数据清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介绍OpenRefine。 ● OpenRefine前身是谷歌公司(Google) 开发的数据清洗工具GoogleRefine, 随后于2012年开放源代码,改为现在的OpenRefine...

    OpenRefine简介

    目前有三款免费的数据清洗工具:OpenRefine,Weka,Data Wrangler。下面主要介绍OpenRefine。

    ● OpenRefine前身是谷歌公司(Google) 开发的数据清洗工具GoogleRefine,
    随后于2012年开放源代码,改为现在的OpenRefine
    ● 一款基于计算机浏览器的数据清洗软件
    ● 在数据清洗、数据探索以及数据转换方面非常有效的一个格式化工具

    ●它是一个开源的网络应用,可以在计算机中直接运行,这样可以避开上传指
    定信息到外部服务器的问题
    ●它类似于传统Excel处理软件,但是工作方式更像是数据库,以列和字段的
    方式工作,而不是以单元格的方式工作
    ●下载地址: http://openrefine.org/download.html

    OpenRefine操作界面

    在这里插入图片描述

    OpenRefine数据清洗案例

    OpenRefine运行

    解压下载的文件后,直接打开.exe应用程序:
    在这里插入图片描述
    然后会出现以下命令行:
    在这里插入图片描述
    稍等片刻便会自动弹出默认浏览器显示OpenRefine,OpenRefine使用的是计算机的3333接口,所以如果没有自动弹出也没事,可以直接在浏览器输入127.0.0.1:3333,关掉OpenRefine可以使用Ctrl+C,也可以直接关闭浏览器。
    在这里插入图片描述
    下面从以下几个方面对OpenRefine进行介绍:
    在这里插入图片描述

    配置语言

    可以点击Language Settings进行语言选择:选择简体中文
    在这里插入图片描述

    新建项目

    新建项目:在OpenRefine中导入数据集

    支持多种格式的数据文件,如:
    TSV、CSV、 JSON、MS Excel文件(包括XLS和XLSX文件) 、logs. 开放文
    档格式(Open Document Format,ODF)以及spreadsheets 、XML和资
    源描述框架(Resource Description Framework, RDF)等

    多种导入数据方式:
    本地计算机:从本地选择文件导入
    网址:直接从网上的数据源导入数据
    剪贴板:直接将数据进行复制粘贴
    Google Data:提供Google Spreadsheet或者Fusion Table接口
    在这里插入图片描述

    导入数据

    点击新建项目,导入数据
    在这里插入图片描述

    数据展示
    1. 数据的总行数
    2. 显示选项
    3. 列名称:如Record ID
    4. 具体数据

    在这里插入图片描述

    导出项目

    点击右上角“导出”,选择“导出项目”

    在这里插入图片描述

    撤销重做

    进行多步操作之后,若要恢复到操作之前,可在撤销/重做中进行,蓝色选中部分就是要撤销的操作:

    在这里插入图片描述

    OpenRefine Expression Language(GREL)

    ●GREL语言为OpenRefine的内建语言
    ●可与正则表达式结合进行数据转换
    ●GREL两种基本的函数格式为:
    functionName(arg0, arg1, …)
    arg0.functionName(arg1, …)

    字符串操作
    ●startsWith(string s, string sub):判断string s是否以string sub为起始字符串,
    返回布尔类型
    例如:startsWith( “food” ,“foo” )返回true
    ●endsWith(string S, string sub):判断string s是否以string sub为终止字符串,返回布尔类型
    例如:endsWith( “food” ,“ood” )返回true
    ●contains(string s, string sub);判断string s是否包含string sub字符串,返回布尔类型
    例如:contains( “food”,"oo” )返回true
    ●toLowercase(string s):将s转换为小写
    ●toUppercase(string s):将s转换为大写
    ●toTitlecase(string s):将s转换为每个词的首字母大写
    例如:toTitlecase( “Once upon a midnight dreary” )返回Once Upon A Midnight Dreary
    查找替换
    ●indexOf(string s, string sub):返回子字符串第- -次出现在s中的字符位置, 如果没有,返回-1
    例如:indexOf(“internationalization”, “nation”) returns 5
    ●lastIndexOf(string s, string sub):返回子字符串最后一次出现在s中的字符位置,如果没有,返回-1
    例如:lastlndexOf( “parallel” ,“a” )返回3
    ●replace(string s, string f, string r):返回将s中的f替换为r之后的字符串
    例如:replace(“The cow jumps over the moon and moos”, “o0”, “ee”)返回The cow jumps over the meen and mees.
    子字符串
    ●substring(s, number from, optional number to)返回起始位置为number from,终止位置为optional number to的子字符串,如果没有终止位置,直到字符串结束
    例如:substring( “profound” , 3)返回found
    substring( “profound” , 2, 4)返回of

    声明:本博文内容为学习完数据酷客中的数据清洗课程后所总结,建议大家学习数据酷客上面的课程。

    展开全文
  • 文章目录数据清洗步骤函数大全数据清洗的内容总结 数据清洗步骤 数据获取,使用read_csv或者read_excel 数据探索,使用shape,describe或者info函数 行列操作,使用loc或者iloc函数 数据整合,对不同的数据源进行...
  • 数据清洗工具kettle

    万次阅读 2015-05-26 09:47:58
    kettle简介:  kettle是pentho的一...kettle是开源工具,有源代码可以下载,ant管理编译,流程比较清楚,如果满足不了自己的需求可以去开发,也可以嵌入使用java代码以及javascript代码,来进行数据清洗。下面我来简

    kettle简介:

             kettle是pentho的一个组件,用来做数据清洗的,现在已经支持很多数据库以及文件格式,也包括大数据hdfs等。有图形界面,也可以在linux下去调用,用起来非常方便。kettle是开源工具,有源代码可以下载,ant管理编译,流程比较清楚,如果满足不了自己的需求可以去开发,也可以嵌入使用java代码以及javascript代码,来进行数据清洗。下面我来简单的说下一些常用的工具。

         

    1.Transform=转换
    Dummy Plugin=空操作
    =这是一个空的测试步骤


    2.Input=导入数据
    ESRI Shapefile Reader=读取矢量数据
    =从SHP文件中读取图形数据和属性数据

    S3 CSV Input=CSV文件输入
    =将读取的CSV文件数据并行存储到Amazon中


    3.输入
    Access Input=导入数据库文件
    =从微软数据库文件中读取数据

    CSV file input=导入CSV文件
    =导入简单的CSV文件

    Cube 输入=导入Cube文件
    =从一个cube文件中读取数据

    Excel 输入=导入Excel文件
    =从微软的Excel文件中读取数据,兼容Excel 95,97,2000

    Fixed file input=导入文本文件
    =导入文本文件

    Generate random value=生成随机数
    =随机数生成器

    Get file Names=获得文件名称
    =从系统中获得文件并将其发送到下一步

    Get files Rows Count=获取文件行数
    =获取文件行数

    Get SubFolder names=获取子文件夹名称
    =读取一个主文件夹获取所有的子文件

    Get data from XML=从xml文件中获取数据
    =使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件

    LDAP Input=使用LDAP协议读取远程数据
    =利用LDAP协议连接远程主机读取数据

    LDIF Input=导入LDIF文件
    =从LDIF文件中读取数据

    Mondrian Input=导入MDX文件
    =用MDX查询语句执行和审核数据,分析LDAP服务器

    Property Input=导入属性文件
    =从属性文件中读入键值对

    RSS Input=导入RSS订阅
    =读取RSS订阅信息

    SalesForce Input=导入salesforce服务
    =读取slaseforce模块服务,并将其转换成数据,并把这些数据写入多个输出流

    XBase输入=导入DBF文件
    =从一个XBase类型的DBF文件中读取记录


    4.输出
    Access Output=导出数据
    =将记录存储到微软的数据库表中

    Cube输出=导出Cube文件
    =将数据写入Cube文件中

    Excel Output=导出Excel文件
    =存储记录到Excel格式化文档中

    Properties Output=导出属性信息
    =将数据写入属性文件

    RSS Output=导出RSS订阅信息
    =读RSS订阅信息流

    SQL File Output=导出SQL文件
    =SQL INSERT语句输出到文件

    Synchronize after merge=合并后同步信息
    =根据某个字段值的条件插入,删除,更新数据库表


    5.转换
    Add XML=添加xml文件内容
    =将几个字段编码写入xml文件

    Add a checksum=添加checksum列
    =为每个输入行添加checksum列(校验和)

    Closure Generator=结束操作
    =允许利用ID的父子关系生成一个结束表


    Number range=编码范围
    =创建数字字段的范围

    Replace in string=替换字符串
    =用另一个单词替换当前的所以得字符串

    Row Normaliser=行转换(数据恢复)
    =从透视表中还原数据到事实表(通过指定维度字段及其分类值,度量字段,最终还原出事实表数据)

    Split field to rows=拆分字段
    =按指定分隔符拆分字段

    Strings cut=裁剪字符串
    =裁剪字符串生成子串

    Unique rows (HashSet)=除去重复行
    =去掉输入流中的重复行(在使用该节点前要先排序,否则只能删除连续的重复行。)

    XSL Transformation=XSL转换
    =实现XML到XSL的转换

    值映射=值映射
    =实现对特定字段总一个值到另一值得映射

    行扁平化=行扁平化
    =将输入流出现的结果字段进行扁平化处理(指定需处理的字段和扃平化后的新字段,将其它字段做为组合Key进行扃平化处理)

    行转列=行转列
    =通过检索键值对拆分行,分配他们到新的字段中。(同Normaliser过程相反,)

    5.utility(应用)
    Clone row=复制行
    =根据需要可以多次复制行

    Delay row=延迟行
    =对输入字段延迟一定时间后输出

    Execute a process=执行一个进程
    =执行一个进程然后返回一个结果

    If field value is null=如果字段为空
    =如果字段为空,为它设置一个常数

    Mail=邮递
    =发送一个邮件

    Metadata structure of stream=数据流结构
    =读取传入数据流

    Null if...=设置空字符
    =如果某个字符值为指定的值,就将它设置为null

    Process files=文件操作
    =通过输入文件名,对文件进行删除,拷贝,转移操作

    Write to log=写日志
    =向日志文件中写入数据


    6. Flow()
    Abort=中止
    =中止一个转变

    Append streams=追加流
    =追加一个有序流

    Blocking Step=阻塞
    =阻塞到所有的输入行都执行完

    Detect empty stream=空输入流检测
    =如果输入流里没有字段将会输出空字段

    Identify last row in a stream=区分最后的一个输入流
    =对最后一个输入流进行标识

    Switch / Case=判断
    =根据判断条件,转到特定的路径


    7. 脚本
    Execute row SQL script=执行sql脚本语言
    =对前一步创建的字段执行SQL

    Modified Java Script Value=建设JavaScript表达式
    =建设JavaScript表达式更好的性能和更容易表达的用户界面,也允许您创建多个脚本

    Regex Evaluation=正则表达式验证
    =允许你输入一个字段用正则表达式就行验证

    User Defined Java Expression=用户定义java表达式
    =利用Janino优化java性能


    8. 查询
    Check if a column exists=检索列
    =此步骤可以验证数据库表中的一个特定的列是否存在

    Dynamic SQL row=动态SQL语句
    =以前的字段执行动态SQL语句

    File exists=文件存在
    =检索文件是否存在

    HTTP Post=HTTP 请求
    =使用URL请求一个web Service服务

    HTTP client=HTTP 客户端
    =HTTP客户端执行一个简单的调用

    Table exists=表存在
    =验证某一个表在数据库中是否存在


    9. 连接
    Merge Join=合并连接
    =执行一个典型的数据集之间的合并

    Sorted Merge=排序合并
    =用给定的关键字段对多个输入流进行排序

    XML Join=添加XML标签
    =向目标XML字段中添加一个XML标签

    11. Validation(验证)
    Credit card validator=信用卡验证
    =1.帮助你验证一个信用卡号是有效的,2.判断信用卡类别

    Data Validator=数据验证
    =根据设置规则对数据进行验证

    Mail Validator=邮件验证
    =验证邮件地址是否有效

    XSD Validator=xml文件验证
    =根据XML模式定义验证XML文件


    12. statistics(统计)
    Analytic Query=分析查询
    =执行分析查询有序集

    Reservoir Sampling=数据仓库抽样
    =从输入流中抽取复制的数据行

    Sample rows=抽样记录
    =根据设置数目过滤记录

    Univariate Statistics=变量分析
    =对一个输入字段进行一些简单的计算

    13. 作业
    Get Variables=获得变量
    =找到指定的变量,将他们放到有用的字段中

    Get files from result=从以前的结果中获得文件
    =这个步骤允许你读取先前的文件,或者上一个job工程的入口

    Set Variables=设置环境变量
    =根据输入行设置环境变量

    Set files in result=复制文件名到结果
    =设置文件名到转换结果,以后的job工程入口可以运用这个信息

    15.内联
    Injector=记录注册器
    =通过API端口注册行记录到转换过程

    Socket reader=套接字读取器
    =用在集群环境下实现服务器之间的数据传输

    Socket writer=写套接字
    =用在集群环境,利用TCP/IP协议实现服务器之间数据传输


    16. 实验
    GZIP CSV Input=导入压缩文件
    =导入压缩文件到输入流读取器

    Greenplum Bulk Loader=Greenplum批量加载
    =加载

    MySQL Bulk Loader=MySQL批量加载
    =利用已知通道进行文件加载

    PostgreSQL Bulk Loader=PostgreSQL批量加载
    =PostgreSQL批量加载

    Set field value=设置字段值
    =和其他字段共同设置字段值

    Set field value to a constant=设置常数字段
    =为一个字段设置常数


    17.不推荐
    Get previous row fields=获得先前的字段
    =获得先前字段的值

    Streaming XML Input=导入XML文件流
    =基于SAX分析器,对XML文件提供价值分析


    18. Bulk Loading(批量加载)
    Infobright Loader=数据仓库加载器
    =加载数据到数据仓库表中

    LucidDB Bulk Loader=批量加载LucidDB数据库
    =使用流模式加载数据到LucidDB数据库

    MonetDB Bulk Loader=批量加载MonetDB数据库
    =使用流模式加载数据到MonetDB数据库

    Oracle Bulk Loader=批量加载数据到Oracle数据库
    =使用流模式加载数据到Oracle数据库

    以上是我在网上找到,加上自己的理解。之前也一直在使用kettle 以及weka。如果要进行自定义开发的话,我推荐几个网站:

    Step 接口:

     Stepmetalnterfacebasestepmeta

    Stepdialoginterface base stepdialog step属性信息配置窗口

    Stepinterface base step 处理row

    Stepdatainterface base stepdata 为数据处理提高数据存储,保存中间处理数据

    Job entry:

    Jobentryinterface jobentrybase

    Jobentrydialoginterface  jobentruydialog jobentry 属性信息配置

    Database接口

    Databaseinterface

     Basedatabasemeta访问各类数据库

    http://download.csdn.net/detail/wenzhongwu/4201347


     

    展开全文
  • 当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智...

    数据清洗是数据分析过程中最基础的工作,也是最累、最繁琐的部分,不像数据挖掘、数据分析看起来那么光鲜,做起来枯燥乏味。当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智,提升数据价值。下面是加入了“智能化”元素的数据清洗流程图。
    在这里插入图片描述

    1. 构建数据质量探查规则。传统的数据质量分析(或探查)是需要人工分析数据字典、数据内容后,设计并配置相关的质量分析规则,包括完整性、唯一性、一致性、有效性、准确性等几个方面。这个过程费时费力,因此一般清洗前的数据质量分析都是手工完成的,由工程师根据经验编写SQL脚本完成分析。上面流程中的“生成数据质量探查规则”,可以根据源库的数据结构、数据字典、数据标准等,利用挖掘算法(语义分析、聚类算法等),识别出业务主键、业务关键字段、字段含义等,匹配内置的质量检查规则模板,自动生成所有表的质量探查规则。经人工检查完善后配置到系统中,形成数据质量探查任务;
    2. 数据质量报告。执行数据质量探查任务后生成报告,报告包括两方面的内容,一是对规则的满足情况,比如,某张表的某个字段有N条记录违反了完整性约束等;二是对字段数据的值域分析,用常见的统计算法描述,包括最大值、最小值、平均值、空值等。
    3. 构建数据清洗任务。系统可以根据数据质量规则与数据质量报告,自动构建出合适的清洗任务脚本和清洗流程,除了常见的去重、去空之外,随着对行业了解的不断加深,也可以将诸如编码自动补齐等规则加入,比如,企业异常名录中缺少统一信用代码,可以自动从法人表中获取并补齐。
    4. 数据质量标签。数据清洗不能把所有问题数据都进行修正,对于不能修正的问题数据,将以标签的形式记录下来,比如,A字段存在空值、格式不正确等问题,一方面是为了记录问题,另一方面也就为了支撑不同应用场景下的数据分析,根据需求对问题数据进行过滤或其它处理。

    上述几个步骤当中,最关键的就是构建质量规则,需要通过对元数据、数据字典等内容的分析挖掘,将字段与预置的规则进行自动匹配,识别的效果除了算法的性能之外,还与字段含义、规则模板等的沉淀有关系,后者往往决定了生成规则的实用性。

    展开全文
  • 一个用node.js编写的命令行工具,用于通过将数据从API转移到另一个API的作者不希望的方式来“清洗数据。 洗衣店可以做以下事情: 使Twitter上所有关于主题标签的提及都成为RSS提要 将您所有的Instagram点赞写入...
  • 数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步; 数据分析的过程决定了数据分析的准确性。 2 常用工具 2.1 numpy numpy常用数据结构: numpy中重用的数据结构是ndarray格式 使用...
  • 清华大学出品的大数据-数据清洗课程学习课件,非常适合大学生和职场认识学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~
  • ETL数据清洗工具总结

    万次阅读 2016-07-11 16:18:00
    点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ftp://ftp.seu.edu.cn/Pub/Develop ... taStage.v7.5.1A-iSO BT种子下载:http://pan.baidu.com/share/link?shareid=172289&uk=67437475 ------...
  • etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 ...
  • 数据清洗、可视化工具

    千次阅读 2019-07-02 20:24:58
    数据清洗、可视化工具 数据清洗 为什么需要清洗? 数据来源不一导致出现 (1)格式不同 (2)数据冗余 (3)没有统一标准,描述方式 (4)数据合并方式不同 数据清理工具: (1)IBM InfoSphere信息服务器 分析、...
  • Haw数据清洗和抓取工具

    千次下载 热门讨论 2016-07-28 08:53:41
    HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。 Hawk的含义为...
  • 我用批处理写的一个清除硬盘残留数据的小工具。比一般的同类软件清理效率高。最多支持108G的磁盘剩余空间。里面有使用说明。我在测试中没有发现太大的问题。如果有问题。可以发邮件到aa22aa@139.com.另外我是在xp下...
  • 完全免费的ETL数据迁移同步清洗工具,支持Oracle、SQLServer、Access、SQLite等常用数据库之间的数据迁移、增量同步。独有的迁移引擎,使迁移效率远高于一般同步软件。支持虚拟表,支持不同结构之间的数据迁移,支持...
  • 数据预处理之常用工具数据清洗常用工具NumpyNumpy常用数据结构Numpy常用方法数据访问方法Numpy常用清洗函数PandasPandas常用数据结构series和方法Pandas常用数据结构dataframe和方法series和dataframe常用方法如下 ...
  • HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。 Hawk的含义为...
  • 数据清洗及OpenRefine工具

    千次阅读 2017-09-11 17:40:30
    数据分析中,首先要进行数据清洗,才可以继续训练模型,预测等操作。  首先介绍一下什么是数据清洗  数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 36,425
精华内容 14,570
关键字:

数据清洗工具