精华内容
下载资源
问答
  • 数据清洗与数据分析实践项目
    千次阅读 多人点赞
    2019-02-13 11:00:11

    当今信息化建设程度不断深入,企业在优化整合各种IT能力,使IT成为企业的前进驱动力与核心竞争力的同时,将视角关注于更深层次的数据治理与分析,预示着以数据、流量、知识为主的数字经济时代到来,此背景下,数字化转型正在各行业快速萌生并发展。

    随着各行业逐渐走向多元化、服务化、个性化发展,行业竞争趋势愈演愈烈,这时收集、利用数据资产,以支撑战略决策、风险规避、业务创新的需求急剧上升,而数据价值对于企业的作用不言而喻,因此许多数据治理、数据治理分析、大数据平台构建项目正如火如荼的进行,数通畅联在过去的一年里承接的项目大多都为数据治理分析项目,在建设过程中对于数据治理分析项目沉淀许多实施方法论和最佳实践,在此分享。

    常见问题

    在数据治理分析项目调研阶段及项目实施过程中会发现,很多企业在数据治理分析项目中无论是信息化基础设施环境,还是对项目本身的意识和认知,或多或少都存在多样的问题,具体问题如下:

    1 缺乏数据思维

    数据思维与信息化意识略有不同,具备信息化意识的管理者未必具备数据思维,数据思维是一种量化的思维模式,即理性的运用数据去分析处理事物。很多管理者已经习惯依靠自身经验的惯性思维或根据某件事情的规律去判断、解读事物的本质,没有做到用数字说话。一种为没有意识到数据思维的重要性,另一种为有意忽略数据思维,因为即使个人判断有误权威上也不会受到损害,而这些现象都会造成数据重要性被弱化,数据架构出现断层,无法更好建设数据分析平台。

    2 概念理解偏差

    大数据的宣传和噱头导致很多企业对数据分析工具或成果过于神化、期待,认为只要进行了数据分析平台的构建,就可以解决企业内部存在的一切数据问题,例如:提高内部数据质量、有效利用数据价值;节省员工对业务处理时间、提高工作效率;帮助解决数据集成共享问题,屏蔽数据信息孤岛等。事实上,上述问题仅依靠大数据分析工具是无法做到的,一味偏信过度的宣传,盲目建设只会增加信息化成本,而不能带来真切收益。

    3 数据资产混乱

    数据治理分析对于有些企业来说,仅是停留在概念层面,建设原因多为追赶当前信息化形势、信息部为凸显功绩等,他们并不知道当前内部到底有多少数据、哪些数据是核心数据、哪些是重复数据、哪些数据是需要做为数据分析源头、数据都是以什么形式存在。造成认为只要是数据,皆为重要资源,在系统没有建设到位或没有数据治理的情况下就展开项目,甚至不惜花费大量时间精力去收集内外部一切数据,认为收集数量越大,分析效果越好,殊不知在这个过程中为企业数据中心添加大量的垃圾数据,事实上对于企业内部系统中的现有数据价值密度更高,如果企业内部数据都没有梳理、治理好情况下,盲目追求大数据只是缘木求鱼。

    4 数据质量不高

    数据治理分析项目的重要前提是有数据且有正确的数据可以提供分析,但很多企业并没有注意到或者真正重视起来,反而将数据可视化部分作为建设重点,注重构建炫酷的分析界面,看起来美观且高大上,实际上只起到了花瓶的作用。事实上,数据可视化只是数据治理分析的一部分,更重要的是对数据质量的把控、数据的挖掘、预测、数据分析算法的合理应用、多维查询、即席分析等。数据质量不高表现为数据以多种格式,杂乱无序的存在于企业内外部的各个业务应用系统中,无统一数据源,数据分析可用的准确数据无法识别,展示信息不准,很难有效支持领导决策。

    5 分析偏离业务

    数据分析成果如何让领导真实看到企业数据资产情况、有效辅助企业战略决策,避免分析结果出现偏离业务现象,也是项目中需要注意产生的问题之一。各个业务部门配合差、业务梳理进展慢、领导不够重视、没有提出针对性需求、企业信息化团队业务理解掌控能力弱都会导致分析成果业务偏离。除此之外,存在一些实施厂商对客户行业不了解,套用通用业务分析模型,不能满足企业自己的实际业务情况,造成数据分析模式、分析结果不能真实体现业务价值。

    6 资源保障薄弱

    基础资源薄弱包括做项目必备的资源保障,即企业具备充足的资金、信息化团队及涉及业务员工的配合等,数据治理分析项目建设是一项周期长、投资大的工程,需要长时间资金投入去运维,在实施过程中经常会出现企业内部不够重视项目的建设,对项目期望值不高,不肯投入足够的资金或选择较为便宜的平台产品进行构建,最终做成烂尾。同样的,数据治理分析与应用集成、门户集成等项目不同,需要企业信息部及各部门人员的配合才能做好,很多企业信息部推动不利,员工不愿配合业务的梳理等情况都会导致项目进展缓慢。

    对应方案

    面对上述问题,数通畅联会根据企业信息化现状及真实业务需求,将数据治理套件进行拆分重组,构建成适合企业当下业务场景的解决方案,通常来说不同阶段的方案是由简单逐渐向高阶进行的,方案之间是一脉相承的。

    第一步解决企业内部应用、信息、数据的整合问题,同时构建数据门户,以实现企业内部运营数据的简单统计分析;第二步实施基础数据治理,保证企业内部质量,为后续数据分析奠定基础;第三步利用企业的BI决策分析与ETL工具进行数仓构建;第四步加深数据治理,结合数仓建设数据分析平台,实现企业内外部数据决策分析;最后构建数据中台,全面实现大数据分析,走向数字化、云计算、智能企业阶段,具体建设步骤如下:

    1 数据门户构建

    数据门户是企业各系统数据的统一展现平台,通过多样的图表、表格等Portlet组件高效地展现,以数据不落地的形式帮助企业实现内部应用数据分析,主要针对处在应用集成、门户集成阶段的企业,具体表现为企业具备一定数量的信息化系统,但尚未达到需要大规模数据分析的程度。

    企业数据门户解决方案涉及两款产品:AEAI ESB应用集成平台、AEAIPortal门户集成平台,AEAI ESB应用集成平台实现异构应用系统的对接,数据门户搭建的工作主要由AEAI Portal门户集成平台承担,通过配置相关的数据源进行数据获取,以图表报表的形式展现结合后的基础数据与业务数据,AEAI ESB应用集成平台负责显示数据的提供,AEAI Portal门户集成平台提供显示界面,并且支持灵活的布局以及多种图表方式展现。

    2 基础数据治理

    基础数据治理是规范企业数据的必要步骤,也是实现大数据分析的重要支撑,对于此方案实施的时间,数通畅联建议越早越好,可以在企业信息化建设第一阶段并行,不仅有效保证企业内部数据的一致性、完整性、准确性,还可以为后续深入应用集成、全面数据分析奠定基础。

    基础数据治理解决方案涉及两款产品:AEAI ESB应用集成平台、AEAI MDM基础数据平台,通过AEAI MDM基础数据平台,在整个企业内部制定并执行统一的、符合业务要求的、科学合理的数据标准,通过数据标准的执行使得企业内部的各个业务环境使用的主数据完整统一,有效简化数据清洗工作,提高数据治理,加快业务系统集成、数据治理分析、业务流程再造速度。AEAI ESB应用集成平台主要用来完成业务数据同步分发部分的功能,内置组件可以实现批量数据传输、同步、分发及控制、多协议调用、多方式触发等,辅助基础数据治理。

    3 数据仓库构建

    比起全面的数据决策分析,很多企业会根据内部原有的BI决策分析、ETL数据抽取工具等产品,先着手构建传统的数据仓库,为数据决策分析提供良好的环境,数据仓库可以有效的将数据集成到统一的环境中,提供决策数据的访问,让用户可以更快的查询所需的重要信息。通常构建数仓可以结合AEAI DAP数据分析平台展开。

    AEAI DAP数据分析平台为能够高效存储、计算、分析并处理海量数据的数据分析产品,在本方案中ETL作为数据采集、交换、传输工具,将转换处理后的数据加载到目标数据源,如ODS中,AEAI DAP数据分析平台基于ODS创建数据仓库,支持关系型数据库和大数据存储两种形式存储,通过元数据管理对数仓数据进行分类管理。结合企业内部BI数据分析系统,将系统内容集成在DAP下进行综合展现。

    4 数据治理分析

    数据治理分析属于大数据平台搭建的前期,通常在企业信息化建设的后期阶段,本阶段实施内容主要包括加强数据治理、数据集成,扩大数据治理范围,基于数仓,构建企业数据分析平台,实现数据在企业范围内的流转,并将数据分析结果以多种方式展现。数据治理分析涉及五款产品:AEAI DAP数据分析平台、AEAI DBP数据总线平台、AEAI MDM基础数据平台、AEAI ESB应用集成平台、AEAI DRP数据上报平台。

    基于AEAI MDM基础数据平台进行深入数据治理,利用AEAI DAP数据分析平台全面建立企业决策分析平台,结合数据仓库,改善人工数据与信息统计方式,利用数据库技术和信息处理能力,面向管理者提供实时、智能化、多维度的运营数据查询和统计分析,AEAI ESB应用集成平台一方面用于解决应用/数据集成问题,另一方面辅助MDM实现数据同步分发操作。

    AEAI DBP数据总线平台作为数据抽取交换工具,通过数据采集实现各系统数据的统一转换、抽取、传输,并将转换处理后的数据加载到目标数据源,如数仓、数据集市等,支撑数据分析。AEAI DRP数据上报平台用于解决企业系统之外的线下工作产生的数据上报问题,提供数据的上报及下发。

    5 数据中台构建

    数据中台模式为企业信息化建设的后期,推动着传统企业完成数字化转型,是企业信息化建设真正走向数字化、云计算、人工智能的阶段,数据中台主要帮助企业进行数据管理,打造数字化运营能力,不仅包括对业务数据的治理,还包括对海量数据的采集、存储、计算、配置、展现等一系列手段。数据中台的构建涉及七款产品:AEAI DAP数据分析平台、AEAI DBP数据总线平台、AEAI MDM基础数据平台、AEAI ESB应用集成平台、AEAI DRP数据上报平台、AEAIPortal门户集成平台、AEAI MAP移动应用平台。

    AEAI DAP数据分析平台用于搭建大数据平台,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,通过数据分析算法,进行数据统计分析、实时流处理,机器学习和图计算等,根据不同行业的业务场景更具有多样化、丰富化,同时包括自定义指标、表单查询等功能,可以满足用户不同的展示和分析需求。

    AEAI DBP数据总线平台从系统、社交、网络等渠道采集结构化或半结构、非结构化数据,按照所需的业态选择不同技术手段接入数据,之后将数据存入到相应的数据库中进行处理,通过MDM主数据治理清理脏数据,保证所需数据的准确性、完整性,之后将数据抽取或分发至计算平台中,通过不同的分析手段根据业务板块、主题进行多维度分析、加工处理,之后得到有价值的数据用于展现,辅助决策分析。AEAI DRP数据上报平台仍做为线下数据上报的工具,支撑线下业务部分的数据分析。

    企业大数据平台可以以企业战情室、战略决策室的形式集成在AEAI Portal门户集成平台构建的企业应用中心下,便于实现一体化办公与决策分析,对于移动办公需求,大数据平台支持多端展现,也可集成在AEAI MAP移动应用平台使用。

    实施过程

    数据治理分析类项目与普通集成类项目不同,其解决方案不是通用的,而是需要高度贴近行业业务的,通常都要基于行业经验结合企业实际情况来定制实现,所以做好此类项目依靠的不仅是性能高、功能全的产品和多业务场景的解决方案,还要有具备扎实行业知识的信息化团队和相关项目的实施方法论。

    1 需求调研

    需求调研主要通过信息采集、现场调研等形式,充分了解和获取客户相关方面的现状和用户对系统的具体需求及期望,本项目主要明确在实际业务环节中,业务部门共享的数据有哪些,明确数据指标,不同主数据的数据源头、数据源头部门、数据主责部门、数据使用部门、使用频度、数据范围、数据流程等。

    >>>>目标明确

    在需求调研过程中,实施方要目标明确,准确掌握项目中需要的数据、明确需要调研的部门人员、拟定调研计划及整理调研问题,有效开展调研工作,时刻明确调研工作并不只是将客户需求记录下来,更重要的是挖掘客户没有说清楚的需求、甚至客户发现的真实需求,为企业解决实际问题。同时实施方需要引导客户进行目标明确,明确其对项目所达成果的认知,清楚建设成果为其带来的好处,从而使客户可以在项目中积极配合业务梳理,提高对项目的重视程度,正视项目的开展。

    >>>>业务调研

    需求调研需要对不同层级的人员进行展开,例如企业管理者、部门主管、业务人员等,通常以沟通访谈的形式开展,至于开放式还是封闭式,可根据访谈者角色、配合程度决定,整体围绕访谈、梳理、引导三个阶段。首先从访谈中把握客户对项目的需求及建设方向,之后对企业组织架构、业务流程、信息化环境等进行引导、深入调研,在客户不了解需求或想要的效果时,需要基于以往的项目经验进行引导。

    >>>>需求确认

    调研结束后,将整理的需求与客户进行确认是必不可少的,切忌口头确认,一定要整理成文档形式,有凭有据,如《数据治理分析需求规格说明书》、《主数据标准》、《数据清洗方案》等,内部评审后需要与客户反复确认,这时需要用封闭式确认法,待客户认可并理解后签订需求确认书,也叫蓝图确认单,届时正式确定项目实施范围。

    >>>>功能设计

    很多人会认为蓝图确认后再展开功能设计工作,事实上功能设计部分的工作在调研的中后期,即达到需求准确率65%甚至更高占比的情况下就已经开展了,功能设计可以有效推动需求确认工作,通过规格说明书的撰写能反推、倒逼业务需求梳理是否正确、完备,例如通过对数据同步流程和业务对接方式的设计,可以验证调研过程中业务逻辑是否出错,存在问题。

    2 项目实施

    项目实施过程中,在进行数据来源采集、数据转换、清洗、汇总、数据分析模型建立、配置、分析展现等一系列技术类工作的同时,数通畅联会根据特有实施方法论进行实施过程全面监督、保障,通过一整套完备的管控方法及产品功能实现客户的需求,这里主要讲述对于项目的管控。

    >>>>制度保障

    数通畅联内部实行日报及周报管理制度,对项目人员人天/周工作内容及计划实时审查追溯,可及时发现项目中已知或未知的问题,并加以解决防控。对外实行项目双周滚动制,每周定时为客户发送当周项目工作总结及下周工作计划、后续工作安排,便于客户精准掌握项目进度,及时发现项目问题,有效控制项目进度,防止项目偏离拖期。

    >>>>客户参与

    项目中时刻保持与客户的良好沟通,为加强客户对项目的认知程度与参与程度,在项目进行中同步开展技能培训,包括技术人员培训、使用人员和管理层使用培训,技术人员培训主要包括MDM产品培训,数据集成规范培训,管理和维护培训,平台和工具培训包括初级数据流程集成培训和高级集成开发培训。通过原厂培训知识转移,用户IT部能掌握相关接口开发等技能,实现临时性的需求及后期维护系统服务等。

    >>>>分步上线

    分步上线是对下一阶段全面上线验收的保障,在项目交付上仍遵循敏捷机制,在项目开展2个月左右,部分功能即可上线供客户使用,所有功能正式上线前,都会经过几轮严密测试,包括内部自测、交叉联测、整体业务联测,过程中对发现的问题及时记录并快速修改,在保证系统稳定运行的情况下,同步对其它功能进行实施、扩展,对系统运行过程中或即将开发功能中的问题进行重点攻克,功能开发完毕之后,通过灰度升级方式部署在已上线的系统中,平滑过渡,整个过程不影响用户使用。

    3 上线验收

    上线验收做为项目全生命周期的结尾阶段,意味着项目整体工作已经完成,线下测试全部通过,该阶段也是较为重要的收款节点。通常在项目验收阶段会进行有效知识传递、项目经理推进验收、运维人员驻场交接等工作。

    >>>>快速验收

    基于局部上线、全面测试等良好基础,可以实现项目的快速验收,验收阶段主要工作是对项目整体实施工作的回顾和总结,对实施工作的认可,也是对双方高层领导的一个工作汇报,验收合格后,即进入系统维护期。在验收时会针对项目情况进行汇总及文档整理;双方共同召开项目验收会议,对项目实施过程、业务内容、工作程序和结果进行汇报及演示;将项目中所有文档交接于客户,并专派技术人员现场驻守,保证稳定运行后撤离,后期进行远程维护。

    >>>>知识传递

    考量一个项目是否成功,除上线的系统及为企业达到的效果之外,还有一个较为重要的指标就是看实施方在项目中知识传递的过程是否顺利、高效。数通畅联在知识传递上采用文档、沟通、培训等多种方式保障。实施过程中加强客户的参与程度,保持良好的沟通和关键功能点的指导,同时为客户输出系统操作手册、培训资料,帮助客户更好的理解掌握平台的操作。培训讲师由项目经理及主力技术人员担任,根据不同使用对象安排不同授课内容,使培训更具有针对性。

    >>>>运维保障

    实现技术驻守期与运维保障期的平滑过渡,系统上线后项目经理会根据实际情况在现场值守一周左右,这段时间工作主要为对项目成果进行迭代完善,确保系统正常平稳运行。同期项目运维人员进场进行工作交接,同样在项目值守一周左右,对客户信息化环境、关键联系人、系统测试问题等进行全面了解掌握,便于后续对项目进行运维支持。

    最佳实践

    大数据既然会火,一定有它的作用,笔者也相信未来大数据平台的建设会对企业决策分析起到灯塔作用,做到剖析过去、管控现在、预测未来,帮助企业发现以往业务中存在的问题,快速整改;管理监控当下运营过程,合理规避偏差;预测分析未来发展趋势,指明方向,辅助制定计划目标,很多企业也开始着手构建。

    关于大数据平台、数据治理分析相关项目是典型行业类项目,实施方必须具备深厚行业知识及交付经验,无论是项目经理还是技术经理、实施人员都需要对客户所处行业的特征、经营模式、运营管理、业务流程十分熟悉,可以根据企业需求快速切入,理解其个性化业务部分,从而有针对性的进行全面分析、业务梳理、整体规划。

    对于客户方不具备一定的前置条件和认知也是无法有效展开项目的,以下是数通畅联在承接行业类数据治理分析项目中,所沉淀的最佳实践,供参考。

    1 整体意识到位

    数据思维是一定要有的,重视事实,理性的正确的运用数据去分析处理事务,讲究逻辑关系,用数字说话,而不是仅仅靠个人经验拍脑门判断。除此之外,要求管理者具备较强的信息化意识、超前的规划能力、对待变革的创新力、推进执行的决断能力,对构建情况持续监督和推进,摆正对数据治理分析的预期,理性、长远、全局的看待数据治理分析所带来的成果。注重培养各部门负责人及基层员工的信息化意识,提高整体信息化能力,协作推进信息化建设。

    2 数据治理先行

    若想做好数据分析,对数据的治理很重要,通常包括企业内部信息化系统中产生的数据和外部的行业、产业、社交、政策等数据,利用数据分析前,首先要明确企业有哪些数据资产可以利用、数据都来源于哪些,应该怎么利用,之后有针对性的,进行数据的统一标准、规范、清洗、转换等操作,从数据源头保障数据质量,使分析所用数据是一致性、完整性、准确性的。

    3 强调顺势而为

    顺势而为已经成为笔者文章中老生常谈的一个关键点,本文仍要重点强调这点,大数据热潮的确炒的很火,但盲目追新并不可取,构建不得力,荒废或调整的成本远超于建设成本,在企业信息化能力或业务需求没有达到标准的基础上,按部就班保守建设不会错。因为真正做到大数据分析阶段的企业,信息化基础设施都是较为完备的,一方面具备全面的信息化系统,另一方面实现数据治理、门户集成、数据集成、应用集成、流程集成等操作,消除企业系统内外部、尤其内部的信息系统孤岛,只有这样才能有效支撑起数据分析的最终效果。

    4 合理选择方案

    若想基于数据分析结果为企业带来价值,就要注重差异化,贴近自身业务,从业务角度去考虑规划,如:业务梳理、逻辑关系、分析配置、效果展现等,根据不同的业务场景去选择合适的解决方案。对于一般大中型企业来说,关注点基本会围绕成本、收入、利润、风险这四点问题,而这些问题的数据通常存在于企业系统内部,不会涉及过多外部系统,可以先从这个问题入手,从数据治理、数据门户、数据分析平台、全面大数据平台一步一步构建。

    5 综合考量选型

    对于此类项目要从产品、供应商、实施团队多方面进行产品选型,选择具备扩展开发能力、业务集成能力、敏捷应用能力的产品,不要被炫酷的界面、分析的效果所干扰,真正去考量产品中对分析模型的构建是否敏捷、抽象能力如何、数据挖掘程度、算法是否合理等。拥有自主知识产权,能够提供底层源代码级的服务,解决系统级问题能力、快速响应问题的源厂商;具备丰富的行业知识及数据治理分析项目实施经验,提供成体系的实施方法论,并在过程中传递最佳实践,拥有良好的项目风险预测和风险管控能力的实施团队。

    6 强化培训学习

    为何要将培训学习单列出来阐述,因为在过往项目中会出现由于客户对产品理解或使用不到位而出现认为系统平台有问题的情况,所以对于行业类面向最终用户群体占比大的项目,数通畅联在实施过程中会针对企业各层级员工进行平台学习及应用,包括管理者对平台的使用、理解和建议,便于后续平台更好的升级,更贴近业务;信息化团队对平台应用、配置的掌握,便于后续独立进行平台维护、扩展或改造,实现自主可控。

    在大数据、移动互联、人工智能的技术背景下,数字化、智能化建设会越来越成为大势,未来企业如何快速响应业务需求、支撑业务创新,结果必然会在数字化、智能化方面展开竞争。数据治理分析之路如文中方案一样,是存在多样性的,企业可以根据自身情况和业务需求去构建,但只重结果不管过程的构建是无用功,发现问题不去调整的治理是瞎忙活,一旦要做,就要真正实现数据治理分析与经营管理过程的联动,通过数据发现问题、调整问题、预测问题,分阶段进行,逐步加码构建、持续提升。事实上,企业整体IT架构、数据治理分析建设之路只有进行时,没有完成时,未来也一定会源源不断有新的技术或理念出现,当下能做的就是根据形势、稳扎稳打、逐步构建,让信息化建设程螺旋式上升,持续支撑业务良好运转、推进业务不断升级与创新。

    更多相关内容
  • Python数据分析实践数据清洗实例.pdf
  • 数据分析是数学计算机科学相结合的产物。 数据分析的流程 数据分析步骤:  (一)需求分析 首先是明确数据分析目的,只有明确目的,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,亦即目的...
  • Python数据清洗实践

    2021-02-24 08:01:05
    ”——IBM数据分析数据清洗是处理任何数据前的必备环节。在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。数据清洗名如其意...
  • 数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。本书从文件格式、数据类型、...
  • 1.1 Python数据分析概述 模块一 Python数据分析概述及环境搭建 Python数据分析实践 数据分析概念 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发...
  • 头歌(educoder)平台实战项目——共享单车大数据分析
  • 本文主要介绍在美团的推荐个性化团队实践中的数据清洗与特征挖掘方法。主要内容已经在内部公开课”机器学习InAction系列”讲过,本博客的内容主要是讲座内容的提炼和总结。如上图所示是一个经典的机器学习问题框架...
  • 数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。本书从文件格式、数据类型、...
  • 实践 2:清理和分析数据 描述: 这项工作对应于加泰罗尼亚开放大学数据科学硕士对应的主题类型学和数据生命周期。 作者: 毛里西奥·莫斯克拉·桑切斯 喷泉: 数据摘自以下链接: :
  • 至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始...
  • 关于数据分析项目实例

    千次阅读 2021-11-27 15:22:30
    项目概述 此项目是学习实践的一个小项目,内容涉及较为简单,仅以此练习验证所学,项目旨在通过对某平台图书数据爬取、处理、可视化等技术手段分析研究图书读者...在本数据分析项目中,通过对某平台各类数据....

    项目概述  

      此项目是学习实践的一个小项目,内容涉及较为简单,仅以此练习验证所学,项目旨在通过对某平台图书数据爬取、处理、可视化等技术手段分析研究图书与读者偏好等因素的内在关联。

    摘要

      随着技术进步推动数码产品的迭代更新,人们能获得的娱乐形式趋于多样化,更多精彩刺激的娱乐休闲形式深受人们喜爱,无疑对人们的阅读习惯造成了极大冲击。此外,电子书在快节奏且信息碎片化的时代中更受人们的欢迎。在这个时候,国人的阅读喜好呈现什么样的状态?中国的文学作品阅读情况如何?在本数据分析项目中,通过对某平台各类数据爬取,并对数据进行分析与可视化,对国人文学作品阅读偏好等特点做初步的分析,为进一步深入分析研究提供可能性。

    一、数据爬取

    技术要点:Python requests、Beautifulsoup、re

    通过观察标签页可知每页有20条数据,url中参数start控制页数,因此我们可以通过改变参数start数值来爬取前50页数据

     

     

     

     二、数据处理

    技术要点:Pandas、jieba、wordcloud

    由于爬取的数据较为杂乱且数据列字段未进行精细分割,为将更好的利用数据遂进行数据清洗处理

    在这里我们打开terminal通过import python库pandas将处理数据缺失值

     

     将autor字段拆分为四个字段

     

     

     最后得到数据:

     通过jieba中文分词后用wordcloud将出版社以词云的形式显示

    三、数据分析

    技术要点:Pandas 

    为探究数据各项指标数值使用pandas进行进一步分析,得出以下数据

    1.豆瓣中国文学Top1000评分

    平均值:8.502915

    最小值:6.0

    最大值:10

    25%:8.1

    50%:8.6

    75%:9.0

    2.各评分区间占比情况(个数)

    6~6.5:15

    6.5~7:16

    7~7.5:46

    7.5~8:103

    8~8.5:257

    8.5~9:295

    9~9.5:234

    9.5~10:38

    中国文学评分前10:

    红楼梦:插图本(上中下)

    平如美棠:我俩的故事(纪念修订版)

    脂砚斋评石头记(上下)

    红楼梦脂评汇校本(清华大学出版社)

    红楼梦脂评汇校本(万卷出版公司)

    红楼梦(人民文学出版社)

    鲁迅全集

    红楼梦(三秦出版社)

    红楼梦(岳麓书社)

    我的阴阳两界

     

     

    出版社出现次数前5:

    人民文学出版社:137

    北京十月文艺出版社:107

    作家出版社:41

    广西师范大学出版社:31

    上海文艺出版社:21

    四、结果&数据可视化

    技术要点:Pyecharts

     

     

    五、结论

    根据数据分析与可视化的结果,可以得出以下结论:

    1. 总体评分较高,平均评分8.502915,高评分呈现集中趋势,但也有最低评分为6的进入榜单,可见优秀的文学小说受到大多数人喜欢
    2. 最受欢迎的作者是曹雪芹,他的作品《红楼梦》获得最高评分(10分),《红楼梦》及其相关著作也受到多个出版社青睐,曾被13个不同出版社出版且前评分前10占据7个,所谓经典永流传由此可见,中国文学中古代经典大多评分较高,榜单前席古代经典著作占据大半。
    3. 出版社中最受欢迎的是人民文学出版社、北京十月文艺出版社、作家出版社等老牌出版社,其他出版社与其呈现两级分化

    综上,信息时代下文学作品虽受冲击,但作品久经历史和时代考验的优秀文学作品依旧会绽放属于自身独特的光芒,优秀的作品在这个时代中会显得更加珍贵。

    参考资料:

    1. (7条消息) 豆瓣电影Top250数据爬取、数据分析及数据可视化_heartbeat196的博客-CSDN博客
    2. Bar - Bar_xyaxis_name - Document (pyecharts.org)
    3. Pandas手册(4)- 对数据进行筛选和排序 - 简书 (jianshu.com)
    4. (7条消息) pandas(dataframe)中重置索引(从零开始顺序排序)---(超级详细)_爱代码的小哥的博客-CSDN博客_pandas重新排索引
    5. WordCloud for Python documentation — wordcloud 1.8.1 documentation (amueller.github.io)

         6. wordcloud库基本介绍和使用方法 - RandySun - 博客园 (cnblogs.com)

    展开全文
  • 数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。 本书从文件格式、数据类型、...
  • 数据分析--数据清洗详解流程

    千次阅读 2020-03-31 11:51:54
    无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。 数据清洗整体...

    无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。

    数据清洗整体流程脑图(不断更新中…)

    在这里插入图片描述

    数据准备

    本次数据清洗工作我们使用得数据是一个借贷机构开放的用户数据(仅用于个人练习),由于源数据量有将近30万,考虑到运行速度,这里例子从这30万中随机抽取1万条数据。
    下载地址:LCIS.csv
    提取码:ag8t
    注:此数据仅仅作为方法演示使用,忽略真实数据分析时的业务逻辑考虑。

    导入相应的python工具包和数据
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    import seaborn as sns
    plt.rcParams['font.sans-serif']=['SimHei']#这两句作用为防止中文乱码
    plt.rcParams['axes.unicode_minus']=False
    data = pd.read_csv('data/LCIS.csv')
    data = data.sample(10000)#抽取样例10000个
    data.reset_index(inplace=True)#重置索引
    

    数据缺失值判定

    一、热力图显示数据的缺失
    sns.heatmap(data.isnull(),cmap="YlGnBu")
    plt.show()
    

    在这里插入图片描述

    深颜色的横线就代表缺失值。因为数据中我们使用了innull()方法,若判断为空,则值为1,否则值为0。从上图中,我们可以看到,最后几个属性的缺失值最多,其他的几乎没有。
    优点:能够清楚看到哪些地方有缺失,缺失程度。

    二、使用info()查看缺失值
    print(data.info())
    

    在这里插入图片描述
    在这里插入图片描述
    info()这个方法能够统计每个属性下非空值的数量,总个数以及数据量的大小。
    优点:操作方便,执行更快,能立刻发现哪个属性存在缺失值。

    三、使用apply()统计缺失率
    count_missing = data.apply(lambda x:'{}%'.format(round(100*sum(x.isnull())/len(x),2)))
    print(count_missing)
    

    在这里插入图片描述
    通过这样的方法,可以统计出每一个属性的缺失率。
    优点:百分比显示缺失率更加直观,对于缺失率高的属性,可以考虑删除。

    缺失值处理

    一、单行数据删除
    data.dropna(inplace=True)
    

    该方法将存在缺失值的数据全部删除,这里省略axis=0,因为axis默认为0.

    二、整列属性删除
    data.dropna(inplace=True,axis=1)
    

    该方法将存在缺失值的属性删除。

    三、均值、众数、0填充缺失值
    #单列填充
    data['下次计划还款利息'].fillna(value=data['下次计划还款利息'].mean(),inplace=True)
    #多列同时填充
    data1 = data[['下次计划还款本金','下次计划还款利息']].apply(lambda x:x.fillna(value=x.mean()))
    

    上述方法是均值填充,众数填充只需要将mean()换成mode()[0]
    0填充将x.mean()换成0即可。

    异常值检测

    一、均值标准差异常值检测

    此方法公式是:均值±2x标准差
    数值不在区间【均值-2x标准差的,均值+2x标准差的】判定为异常值。

    datamean = data['下次计划还款利息'].mean()#均值
    datastd = data['下次计划还款利息'].std()#标准差
    topdata = datamean+2*datastd#上限
    bottomdata = datamean-2*datastd#下限
    countdata = data['下次计划还款利息'].between(left=bottomdata,right=topdata)
    #统计异常值和非异常值数量
    print(countdata.value_counts())
    
     
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    在这里插入图片描述

    二、上下四中位和中位差异常值检测

    此方法公式:上(下)四中位±1.5x中位差
    正常值区间位:【下四中位-1.5x中位差,上四中位+1.5x中位差】

    mediandata = data['下次计划还款利息'].quantile(0.75)-data['下次计划还款利息'].quantile(0.25)
    topdata = data['下次计划还款利息'].quantile(0.75)+1.5*mediandata
    bottomdata = data['下次计划还款利息'].quantile(0.25)-1.5*mediandata
    countdata = data['下次计划还款利息'].between(left=bottomdata,right=topdata)
    #统计异常值和非异常值数量
    print(countdata.value_counts())
    

    在这里插入图片描述
    这两种方法取决于你的数据,大家可以在实践中尝试选择合适的方法进行异常值检测。

    异常值处理

    一、异常值删除

    异常值删除操作需要两步,第一步是判断,第二步删除

    mediandata = data['下次计划还款利息'].quantile(0.75)-data['下次计划还款利息'].quantile(0.25)
    topdata = data['下次计划还款利息'].quantile(0.75)+1.5*mediandata
    bottomdata = data['下次计划还款利息'].quantile(0.25)-1.5*mediandata
    countdata = data['下次计划还款利息'].between(left=bottomdata,right=topdata)
    #取出异常值索引
    index_list = data[countdata==False].index.tolist()
    data['下次计划还款利息'].drop(labels=index_list,inplace=True)
    

    当发现某一列异常值特别多的时候,我们会选择删除改属性。

    data.drop(columns=['下次计划还款利息'],axis=1,inplace=True)
    
    二、异常值重写

    检测完异常值之后,除了删除数据之外,我们做的最多的就是重写异常值。

    使用数据的最大值重写:

    mediandata = data['下次计划还款利息'].quantile(0.75)-data['下次计划还款利息'].quantile(0.25)
    topdata = data['下次计划还款利息'].quantile(0.75)+1.5*mediandata
    bottomdata = data['下次计划还款利息'].quantile(0.25)-1.5*mediandata
    countdata = data['下次计划还款利息'].between(left=bottomdata,right=topdata)
    index_list = data[countdata==False].index.tolist()
    data.loc[index_list ,'下次计划还款利息'] = data[countdata]['下次计划还款利息'].max()#最大值填充
    data.loc[index_list ,'下次计划还款利息'] = data[countdata]['下次计划还款利息'].min()#最小值填充
    data.loc[index_list ,'下次计划还款利息'] = -1#特殊值填充
    

    原文链接:https://blog.csdn.net/lzx159951/article/details/104793585

    展开全文
  • 之后 进⾏数据预处理,包括数据清洗,数据变换、特征选择;再后⽤逻辑回归、⽀持向量、朴素⻉叶 斯、决策树、随机森林等算法进⾏建模,通过不同性能度量,选出为表现最好的模型并进⾏调 参;最后,根据描述性统计和...
  • 上述内容参考知乎[酒仙美嘉雪]的《数据分析中缺失值的处理方法》,数据分析中缺失值的处理方法 - 知乎,以及CSDN[marsjhao]的《机器学习算法笔记之6:数据预处理》,https://blog.csdn.net/marsjhao/ 上面部分节选...

        刚入坑的小白可以看一下,大佬勿喷,我也是小白,白的不能再白的那种,所以吧,我把我入坑时候大量搜索的代码,没日没夜调试的代码,能用的以及自己写的代码,给各位汇总,会以每篇文章的形式进行更新,所以各位记得点赞,关注,收藏!(要不然就找不到我了!)

    问题一:什么是数据预处理?

    答:数据预处理就是将大量的数据进行整齐话,对数据进行清洗,把没用的,或者是异常的(就是坏的)剔除掉,剔除掉呢就是删掉他就行了,然后空白值什么的进行删除就行了,就这么简单(在我建模的历程中没遇到过空白值,哈哈哈哈,看个人吧)

    问题二:如何进行数据预处理?

    答:数据预处理的方法主要包括去除唯一属性、处理缺失值、属性编码、数据标准化正则化、特征选择、主成分分析等。

    一、去除唯一属性

    就是简单的id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除就行了。

    二、缺失值处理

    (一)缺失值的分类

    完全随机缺失:指的是数据的缺失是完全随机的;
    随机缺失:指的是数据的缺失不是完全随机的,和完全变量有关;
    完全不随机缺失:指的是数据的缺失与不完全变量自身的取值相关; 缺失值会使得系统丢失了大量的有用信息,系统所表现出来的不确定性更加显著,系统中蕴含的确定性成分更难把握,包含空值的不完全变量会使得挖掘过程陷入混乱。

    (二)缺失值处理的三种方法

    直接使用含有缺失值的特征;删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的);缺失值补全。
    删除含有缺失值的特征:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除。
    (1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。
    Ps : 定距型数据--数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
    (2)利用同类均值插补。同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。
    (3)极大似然估计(Max Likelihood ,ML)。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。该方法比删除个案和单值插补更有吸引力,它一个重要前提:适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
    (4)多重插补(Multiple Imputation,MI)。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
    多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
    假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布为正态分布,将这组数据处理成三组,A组保持原始数据,B组仅缺失Y3,C组缺失Y1和Y2。在多值插补时,对A组将不进行任何处理,对B组产生Y3的一组估计值(作Y3关于Y1,Y2的回归),对C组作产生Y1和Y2的一组成对估计值(作Y1,Y2关于Y3的回归)。
    当用多值插补时,对A组将不进行处理,对B、C组将完整的样本随机抽取形成为m组(m为可选择的m组插补值),每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计,然后基于这m组观测值,对于这m组样本分别产生关于参数的m组估计值,给出相应的预测即,这时采用的估计方法为极大似然法,在计算机中具体的实现算法为期望最大化法(EM)。对B组估计出一组Y3的值,对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组(Y1,Y2)。
    上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设是人为的,但是已经通过验证(Graham和Schafer于1999),非正态联合分布的变量,在这个假定下仍然可以估计到很接近真实值的结果。
    多重插补和贝叶斯估计的思想是一致的,但是多重插补弥补了贝叶斯估计的几个不足。
    1)贝叶斯估计以极大似然的方法估计,极大似然的方法要求模型的形式必须准确,如果参数形式不正确,将得到错误得结论,即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布将极小的影响结果,所以先验分布的对结果的影响不大。
    2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。而多重插补对参数的联合分布作出了估计,利用了参数间的相互关系。
    以上四种插补方法,对于缺失值的类型为随机缺失的插补有很好的效果。两种均值插补方法是最容易实现的,也是以前人们经常使用的,但是它对样本存在极大的干扰,尤其是当插补后的值作为解释变量进行回归时,参数的估计值与真实值的偏差很大。相比较而言,极大似然估计和多重插补是两种比较好的插补方法,与多重插补对比,极大似然缺少不确定成分,所以越来越多的人倾向于使用多值插补方法。

    (5)插值法填充

    包括随机插值,多重差补法,热平台插补,拉格朗日插值,牛顿插值等

    (6)模型填充

    使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。

    上述内容参考知乎[酒仙美嘉雪]的《数据分析中缺失值的处理方法》,数据分析中缺失值的处理方法 - 知乎,以及CSDN[marsjhao]的《机器学习算法笔记之6:数据预处理》,https://blog.csdn.net/marsjhao/

    上面部分节选的是机器学习(三):数据预处理--数据预处理的基本方法 - 知乎 (zhihu.com)

    其实主要就是

    • 缺失值查找
    • 缺失值删除
    • 缺失值填充

    就这三步骤

    下面我们就要开始在我们python中进行了!我们先导入我们的库! 

    import pandas as pd
    import numpy as np

    这个呢就是pandas库的调用来读取我们的excel表格, numpy库呢就是对数组进行处理的,所以一般都是先调用到这两个库,as的意思就是类似于一个简写让后面调用库的时候简单话

    好了我们来导入我们的数据

    df =pd.read_excel(r'C:\Users\14927\Desktop\数据.xls',sheet_name = 'Sheet1')  #读取数据 
    #如果是cvs文件 read_cvs

    这个sheet_name也可以不写他就是用来定位你的工作表单的如果你想定位在第二个表单 那就改预先相对应的名字就可以了,默认不写就是第一个表单,看下面的图吧

     是吧很详细了吧,好啦,我们导入数据之后,我们先对空值进行检索,就是数据查找空值

    df.info() 

    就这一行代码就可以了 ,你也不用去理解他的原理,你就输入进去,运行就是了

    如何跑出来结果

    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 22 entries, 0 to 21
    Data columns (total 2 columns):
     #   Column  Non-Null Count  Dtype  
    ---  ------  --------------  -----  
     0   x       22 non-null     int64  
     1   y       21 non-null     float64
    dtypes: float64(1), int64(1)
    memory usage: 480.0 bytes

     我把数据做成了这样大家看一下就可以了,好啦我们现在对我们的空值进行定位

    df.isnull()
    

     然后输入的结果

        x      y
    0   False  False
    1   False  False
    2   False  False
    3   False  False
    4   False  False
    5   False  False
    6   False  False
    7   False  False
    8   False  False
    9   False  False
    10  False  False
    11  False   True
    12  False  False
    ..........

    后面我就不写了太长了,各位看到true就是我们的空值

    对于这种值我们一般直接删除就行了,对数据影响不大

    # 使用dropna(0)函数删除所有含Nan空值的行
    df.dropna()
    

    对于缺失的我们也可以用平均值等进行填充

    #使用fillna函数填充空值
    df.fillna(0)
    

     这样填进去的就是0了

     

     然后我们可以指定位置进行填充

    #指定列用指定值填充
    df.fillna({'y':'2022'}) 
    

     这样就可以了

    三、重复值的处理

     一样重复上面的操作进行导入数据

    然后

    df.drop_duplicates()  #没有设置默认全列重复行的删除,有重复列需要进行设置
    

     这里我就不上数据图了,各位有不懂的评论回复留言我吧,

    然后我们根据定位列去除重复值

    df.drop_duplicates(subset='你的列的索引')
    

    四、异常值得检测与处理 

    就是不正常的数据喽,解决方法

    • 删除;
    • 用正常值替换;(replace函数)
    • 研究数据异常的原因;

     replace函数

    df1=df["列的索引"].replace("目标","替换内容")

    这样基本就完成了哦!

    然后总结运行,下面就是我们的总结代码啦!各位拿到数据可以直接运行就可以了!

    交论文时候别交我这个哈,切记,切记,切记! 

    import pandas as pd#调用库
    
    df =pd.read_excel(r'C:\Users\14927\Desktop\数据.xls)  #读取数据 
    #如果是cvs文件 read_cvs
    
    print(df.head(5))       #得到数据的前五行 进行判断
    
    print(df.info())       #得到数据整体的格式
    
    print(df.duplicated()) #查询重复值 此数据没有重复值
    
    print(df.isnull())  #查缺失值 此数据没有缺失值
    
    #此代码是建模前期数据预处理的代码
    #有一些自己加一下吧,懂得都懂哈,哈哈哈哈哈,想要的留言评论我私发

    展开全文
  • 考核项目2_数据清洗及筛选综合实践参考答案.zip 考核项目3_基于PostgreSQL的消费数据解析参考答案.zip 考核项目05-利用销售数据建立报表.zip 考核项目06-结合公式制作超市物流分析报表.zip 项目07参考答案-【练习】...
  • IMDB电影数据分析实践

    千次阅读 2021-12-10 02:34:07
    根据IMDB5000部电影数据集进行下列数据分析: 1. 数据准备:读取数据并查看数据的基本信息。 2. 数据清洗:缺失值处理,重复值处理,处理后“干净”数据的基本信息。 3. 数据分析及可视化展示。
  • 文章目录摘要关键词:数据分析;数据可视化;数据预处理;协调过滤1.问题描述1.1问题背景1.2所需关键技术2.数据分析任务 1 数据预处理任务1.1对照附录1,理解各字段的含义,进行缺失值、重复值等方面的必要处理。...
  • 数据清洗的主要办法

    千次阅读 2022-01-07 15:35:45
    在获得数据后并不能直接进行数据分析处理,为什么?因为得到的数据不一定完全准确,直接使用这些数据进行分析的话可能会产生不小的偏差。所以,我们需要数据清洗这个步骤。 总而言之,数据清洗是要对脏数据进行处理...
  • 首先对同期群分析的概念做了简短介绍,然后循着数据概览、数据清洗、思路剖析、单点实现以及最终实现的流程,力图做到每一步清晰明确和可复现。跟着实践一遍,无论是模型理解程度还是Pandas运用的熟练度,都会蹭蹭往...
  • 前言 “压根儿就没有干净的数据集。” —— 乔希·沙利文 《纽约时报》将数据清洗称为“看门人工作”,并称数据科学家百分之八...(4)数据分析和机器学习。 数据需要哪些处理?需要什么样的转换?适用什么样的算法?
  • 前言==============================================================Python 是军刀型的开源工具,被广泛应用于 Web 开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面,而且 Python 的语法简洁易读,...
  • 数据分析与数据处理实例(某银行数据)

    万次阅读 多人点赞 2019-09-13 13:08:14
    数据分析与数据处理 数据及含义 这里先上截图,具体的数据及数据含义点击下边链接,自行获取! https://download.csdn.net/download/weixin_44423698/11737958 方法 探索数据、清洗数据、清洗过后的选择需要的数据...
  • 在不导入其他厍的情况下,仅仅使用 pandas就可实现聚类分析离散化 C、 pandas 可以实现所有的数据预处理操作 D、 cut 函数默认情况下做的是等宽法离散化 正确答案: D 我的答案:D ...
  • python数据分析-数据清洗流程(附脑图和代码实例)

    千次阅读 多人点赞 2020-03-11 16:11:28
    无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。
  • 文本数据分析里面情感分析的应用十分广泛,本质上来说就是一个分类任务,在我之前的文章里面对有对中文数据的情感分析相关的工作,对于英文数据的分析还没有实践过,这里就想基于英文数据集来做一点分析性的工作,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,301
精华内容 6,520
关键字:

数据清洗与数据分析实践项目