精华内容
下载资源
问答
  • 数据工程
    千次阅读
    2016-10-20 16:45:56

    谈到大数据,大家总会听到几个词:数据科学、数据技术和数据工程,它们之间到底有些什么区别和联系呢?

     

    实际上,科学、技术与工程是现代“科学技术”中的三个不同领域或不同层次。


    科学是对客观世界本质规律的探索与认识。其发展的主要形态是发现(Discovery),主要手段是研究(Research),其成果主要是学术论文与专著。技术是科学与工程之间的桥梁。其发展的主要形态是发明(Innovation),主要手段是研发(Research & Development),其成果主要是专利,也包括论文和专著。工程则是科学与技术的应用和归宿,是以创新思想(New idea)对现实世界发展的新问题进行求解(Solution)。其主要的发展形态是综合集成(Integration),主要手段是设计(Design)、制造(Manufacture)、应用(Application)与服务(Service),其成果是产品、作品、工程实现与产业。科学家的工作是发现,工程师的工作是创造。

     

    有了这些概念后,回过头再来看看大数据的情况。我们先来生搬硬套一下。

     

    数据科学是对大数据世界的本质规律进行探索与认识,是基于计算机科学、统计学、信息系统等学科的理论,甚至发展出新的理论,研究数据从产生与感知到分析与利用整个生命周期的本质规律,是一门新兴的学科。

     

    数据技术是数据科学与数据工程之间的桥梁。包括数据的采集与感知技术、数据的存储技术、数据的计算与分析技术、数据的可视化技术等。

     

    数据工程则是数据科学与数据技术的应用和归宿,是以创新思想对现实世界的数据问题进行求解,是利用工程的观点进行数据管理和分析以及开展系统的研发和应用。包括数据系统的设计、数据的应用、数据的服务等。


    嗯,还是有一定道理的。


    数据科学和工程可以作为支撑大数据研究与应用的交叉学科,其理论基础来自多个不同的学科领域,包括计算机科学、统计学、人工智能、信息系统、情报科学等。数据科学与工程学科的目的在于系统深入地探索大数据应用中遇到的各类科学问题、技术问题和工程实现问题,包括数据全生命周期管理、数据管理和分析技术和算法、数据系统基础设施建设以及大数据应用实施和推广。因此,多学科交叉融合是数据科学与工程学科的一个特点。

     

    与传统计算机和软件工程等学科相比,数据科学与工程学科具备独特的学科基础和内涵。数据科学与工程学科的理论基础涉及统计分析、商务智能以及数据处理基础,具体包括以下几个方面:


    • 大数据表达理论方面:包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制以及大数据的结构与效能的规律性。

    • 在大数据计算理论方面:研究大数据的表示以及大数据的计算模型及其复杂性。

    • 在大数据应用基础理论方面:研究大数据与知识发现,大数据环境下的实验与验证方法以及大数据的安全与隐私。

     

    相比较而言,计算机科学学科是研究算法的科学,而数据科学不局限于此,其研究对象是数据,随着计算机应用从以计算为中心逐渐向以数据为中心的迁移,数据科学与工程学科的内涵和外延更加宽泛。软件工程学科中的相关技术提供了数据分析处理的工具以及具体开发时的范式。数据处理技术是数据研究领域的一种重要的研究方法,用于研究和发现数据本身的现象和规律。

     

    数据科学与工程也不同于传统的商业智能和统计学,商业智能主要从商业模式、经济管理的角度对数据应用进行研究,而统计学提供具体的数据分析处理的方法论,但是面对PB级以上的海量数据,大数据的分析不能停留在获得概率分布结果,也不能满足于对细节问题的数据挖掘,而是需要更简单、有效的问题求解方法,争取从大数据中获得新的知识,构建新的应用范式。


    大数据不仅仅是信息技术领域的事情,它的典型特点就是与应用密切结合。在当前阶段,大数据概念的提出和被广泛接受才不过三四年,属于发展初期。大数据的概念已经被社会各个层面广泛认可,开始从线上走到线下,越来越多的人从企业管理、社会治理、科学研究等领域探讨大数据的应用。这种来源于应用的关于大数据技术的爆发式需求,为一门新型的独立学科的形成和发展带来了挑战和机遇。


    以上说的都还是比较理想的情况。任何领域的研究,若要成为一门科学,一定是研究共性的问题。针对非常狭窄领域的某个具体问题,主要依靠该问题涉及的特殊条件和专门知识做数据挖掘,不大可能使大数据成为一门科学。数据科学的研究需要在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。抽象出一个领域的共性科学问题往往需要较长的时间,提炼“数据界”的共性科学问题还需要一段时间的实践积累。至少未来5至10 年内计算机界的学者还需多花精力协助其他领域的学者解决大数据带来的技术挑战问题。通过分层次的不断抽象,大数据的共性科学问题才会逐步清晰明朗。

     

    在国家大数据人才的需求中,国家既需要优秀的数据科学家,也需要数据工程师这样的工程系型人才,更需要大量高素质的能够创造性解决国民经济与社会发展实际问题的卓越应用型人才。


    注:本文参考了如下资料

    • 李国杰, 程学旗, 大数据研究:未来科技及经济社会发展的重大战略领域, 中国科学院院刊, 2012.

    • 周傲英, 钱卫宁等, 数据科学与工程:大数据时代的新兴交叉学科, 大数据, 2015.

    更多相关内容
  • 关于MLOps中的数据工程,你一定要知道的.......背景:数据工程是什么:MLOps中的数据工程有哪些看点?1.数据收集2.数据探索3.数据处理5.暗线 背景: 21世纪以来,以Hadoop、Spark、Hive为代表的大数据工具,和以...

    背景:

    21世纪以来,以Hadoop、Spark、Hive为代表的大数据工具,和以Google Cloud、AWS、阿里云、华为云等为代表的公共云奠定了当今数据生态系统的基础。随着海量数据处理工具集的发展以及数据源和数据格式在种类和规模上的不断增长,数据工程越来越成为一门多技术综合应用的学科,用以实现最终业务目标。

    数据工程是什么:

    数据工程是关注数据的流向和访问的机制,原始数据从源系统引入、存储和处理,生成高质量、符合标准的数据,转为下游人员可用的数据形式,如数据科学家、数据分析师等。数据工程师致力于构建自动化和规模化的数据处理管道,保障下游业务分析和决策的流畅进行。

    MLOps中的数据工程有哪些看点?

    比起普通的数据工程,MLOps(机器学习开发运营一体化)中的数据工程更加聚焦于为机器学习模型的开发做准备,它是MLOps开发管理流程的重要一环,其目标是为后续模型开发及最终决策提供高质量的数据。MLOps数据工程架构图如下图所示,从外部或内部系统生成的数据作为数据工程的输入,需经过数据收集、数据探索、数据处理和特征工程一系列的步骤。数据管理和Pipeline编排作为暗线贯穿了数据工程始终。数据工程的输出可以直接提供给下游的传统机器学习任务(如SVM、决策树、逻辑回归等)和深度学习任务(如人脸识别、图像分割、智能对话、机器翻译等)使用。
    MLOps数据工程架构图

    MLOps数据工程架构图

    1.数据收集

    数据收集是指从分散的来源中提取、集成和组织数据。数据收集主要分为两种类型:流式处理数据与批处理数据。实际上,我们处理的所有数据本质上都是流式的,数据几乎总是在其源头不断生成和更新。流式处理使我们能够以连续、实时的方式向下游系统(无论是其他应用程序、数据库还是数据分析系统)提供数据。批处理数据要么按预定的时间间隔引入,要么在数据达到预设大小阈值时引入。批处理数据是一种以块状形式处理数据流的专用且便利的方法,例如在单个批处理中处理全天的数据。

    2.数据探索

    数据探索是在不改动数据本身的前提下,挖掘数据的统计信息,通过可视化的方式展现数据中隐含的规律和特质。数据探索主要包括三个方面:整体分析、统计描述和相关分析。
    (1)整体分析:需要检查数据集的数量、完整度,确认数据质量是否存在问题(缺失值、重复值、错误值、异常值),判断样本是否平衡。
    (2)统计描述:采用描述性统计的方式刻画数据分布的集中趋势(均值、中位数、众数等)、离散趋势(方差、标准差、极差等)和分布形状(偏度、峰度)。描述性统计中常用的可视化图表有直方图、箱线图、柱形图、茎叶图、折线图、条形图等。
    (3)相关分析:考察不同变量之间的关系,分为连续变量与连续变量、离散变量与离散变量、连续变量与离散变量三种,有各自使用的量化指标和图表可视化方式。

    数据探索相关分析要点

    3.数据处理

    数据处理是指对数据进行清洗、转化和准备,使之可用。数据处理可以解决数据可能存在的质量问题(如异常、缺失、冗余等),将数据加工为模型开发能够直接使用的形式。数据处理主要包含三个部分:数据预处理、数据标注和数据版本管理。
    数据处理步骤

    数据处理步骤

    (1)数据预处理:包含数据清洗、数据转换、数据增强、数据纠偏等操作。
    ·数据清洗包括检查数据一致性、数据去重、异常值检测、处理无效值和缺失值等。
    ·数据转换是指将数据进行转换,从而构成一个适合数据处理的描述形式,包含格式转换、数据重组(排序、合并、过滤)等。
    ·数据增强是指基于有限数据生成更多等价数据,丰富训练数据集的分布,提高模型泛化能力,如基于GAN的对抗样本生成、神经风格转换等。
    ·数据纠偏是针对数据不平衡的问题进行如上采样、下采样等数据纠偏操作。
    (2)数据标注:对需要机器识别和分辨的数据贴上标签,是机器学习模型能够学习和准确预测的关键。数据标注通常包括图像标注、语音标注、文本标注、视频标注等类型,标记的基本形式有标注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。
    数据标注示意图

    数据标注示意图(图片来源:百度智能云数据众包之数据标注)

    (3)数据版本管理:数据版本管理是对处理过程中的数据各版本进行管理,以实现数据的可追溯性。

    4.特征工程

    特征工程,目的是最大限度地从原始数据中提取特征以供算法和模型使用,从而获取更好的训练数据。
    特征工程步骤

    特征工程步骤

    特征工程由特征预处理、特征提取、特征选择和特征压缩四个步骤组成。
    (1)特征预处理包括特征过滤(反常值的平滑化)、特征无量纲化(标准化、归一化)、特征分箱、特征二值化等数据格式和范围的处理操作。
    (2)特征提取是将原始特征转换为一组具有明显物理意义(如Gabor、几何特征[角点、不变量]、纹理
    [LBP HOG])或者统计意义的特征。
    原始特征转化为直方图特征举例

    原始特征转化为直方图特征(图片来源:LearnOpenCV官网)

    (3)特征选择是从步骤(2)的特征中挑选一组最具有统计意义的特征,主要的方法包括过滤法、封装法和嵌入法。
    过滤法Filter:,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
    –方差选择法:计算各个特征方差,选择方差高于阈值的特征;
    –相关系数法:计算各个特征对目标值的相关系数(如Pearson相关系数)和对应的P值,选择相关系数高于阈值的特征;
    –互信息法:计算各个特征的信息增益,选择信息增益高于阈值的特征。
    封装法Wrapper:通过递归的方式来消除特征。根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
    嵌入法Embedded:使用带惩罚项的某些机器学习算法(如随机森林、决策树)进行特征选择和模型训练,得到特征全集中各个特征的权值系数,根据系数从大到小选择特征。
    (4)特征降维是在信息损失最少的情况下,用更少的特征代表原有数量庞大的特征,缓解维度灾难,减小运行时间,便于可视化。特征降维主要有主成分分析(PCA)和线性判别分析等方法。
    PCA 是一种无监督的线性降维算法,利用正交变换对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分。它的目标是通过某种线性投影,将数据映射到低维空间中,并期望映射后的数据方差尽可能大(数据分散开),从而保留更多的有用信息。PCA示例:从n维特征到2维特征

    PCA:从n维特征到2维特征

    线性判别分析是一种有监督算法,它的目标是寻找一个投影矩阵,将数据投影到低维空间后,同一类数据尽可能紧凑,不同类数据尽可能分散。

    线性判别分析:从2维特征到1维特征 (图片来源:知乎柳枫)

    5.暗线

    数据工程的构建和实施是由数据管理、Pipeline编排构成的暗线贯穿的,它们跨越了数据工程生命周期的各个阶段。缺少这些暗线,数据工程生命周期的任何部分都无法正常运行。
    (1)数据管理。这里的数据管理是广义范围的所有与数据相关的计划、统筹、实施和复盘的操作,它管理的是数据工程生命周期中的数据安全、数据存储、数据质量、数据流转、数据治理的方方面面,参见下方的数据管理金字塔图。而数据治理更侧重于组织全局范围内的制度体系、职责分配、责任边界划分、统筹规划、风险审计等,形成对于数据安全、数据存储、数据质量、数据流转的流程,发挥更大数据价值。
    数据管理金字塔

    数据管理金字塔

    (2)Pipeline编排。Pipeline编排是指对流程中各步骤进行串联和标准化的管理机制,以加快执行速度,提高生产效率。Pipeline流水线的自动化执行程度充分反映了组织的人工智能研发技术和管理水平。
    数据工程Pipeline

    数据工程Pipeline
    展开全文
  • 1.什么是数据工程师 数据工程师这个概念其实很模糊,不同的人和公司对它赋予的含义也区别很大,感兴趣的可以看一下多智时代的相关文章。在这里,我们大概聊一下一般意义上的数据工程师在工作中会做什么? 集群运维...

    1.什么是数据工程师

    数据工程师这个概念其实很模糊,不同的人和公司对它赋予的含义也区别很大,感兴趣的可以看一下多智时代的相关文章。在这里,我们大概聊一下一般意义上的数据工程师在工作中会做什么?

    集群运维:安装、测试、运维各种大数据组件

    数据开发:细分一点的话会有ETL工程师、数据仓库工程师等

    数据系统开发:偏重Web系统开发,比如报表系统、推荐系统等

    这里面有很多内容其实是十分重合的,下面大致聊一下每一块内容大致需要学什么,以及侧重点。

    2.集群运维

    数据工程师,基本上是离不开集群搭建,比如hadoop、Spark、Kafka,不要指望有专门的运维帮你搞定,新组件的引入一般都要自己来动手的。

    因此这就要求数据工程师了解各种大数据的组件。

    由于要自己的安装各种开源的组件,就要求数据工程师要具备的能力:Linux。要对Linux比较熟悉,能各种自己折腾着玩。

    由于现在的大数据生态系统基本上是JVM系的,因此在语言上,就不要犹豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要学的很深,Scala就看情况了。

    3.ETL

    ETL在大数据领域主要体现在各种数据流的处理。这一块一方面体现在对一些组件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是编程语言的需要,Java、Shell和Sql是基本功。

    4.系统开发

    我们大部分的价值最后都会由系统来体现,比如报表系统和推荐系统。因此就要求有一定的系统开发能力,最常用的就是JavaWeb这一套了,当然Python也是挺方便的。

    需要注意的是,一般数据开发跑不掉的就是各种提数据的需求,很多是临时和定制的需求,这种情况下,Sql就跑不掉了,老老实实学一下Sql很必要。
      人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    入行大数据,需要学习哪些基本知识
    http://www.duozhishidai.com/article-15279-1.html
    对于大数据开发的学习,最经典的学习路线是什么
    http://www.duozhishidai.com/article-1544-1.html
    在人工智能和大数据的开发过程中,需要注意的要点
    http://www.duozhishidai.com/article-2052-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 也许想要从事数据研究领域的你,一直不太清楚数据工程师和数据科学家之间的区别,甚至不少人可能觉得这就是一回事儿。如果你真的这么想,那就大错特错啦!这两种职位的差异如今正在逐步加大,如果你不能深入地了解...

    也许想要从事数据研究领域的你,一直不太清楚数据工程师和数据科学家之间的区别,甚至不少人可能觉得这就是一回事儿。如果你真的这么想,那就大错特错啦!这两种职位的差异如今正在逐步加大,如果你不能深入地了解异同之处,那未来等着你去踩的雷绝对不在少数。这篇文章,不得不读!

    在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

    数据工程师的工作技术性很强。他们负责设计和维护数据系统架构,这其中涵盖了从基础设施分析到数据仓库等众多概念。数据工程师需要对常用脚本语言有深入的理解,并通过利用和改进数据分析系统,稳步提高数据质量和数量。他们还负责创建用以建模、挖掘、验证和获取数据的步骤和流程。

    据预测,行业内对技术娴熟的数据工程师的需求量将快速增长。在现代世界,企业、组织需要稳固的数据架构以获取和存储数据。当一个企业壮大到需要运用数据科学时,就需要数据工程师了。其结果便是当下对数据工程师的急切需求。

    一些企业以为所需的数据工程的技巧和经验可以在项目中得到学习和积累。而Umbel的资深主管Kevin Safford认为,这样想通常都是错的。他补充道:“如果没有具体地认真学习,实实在在地去构建数据管道、数据管理系统、数据分析以及编写所有的中间代码,使数据可用、可访问并确保其正确,并确保分析的正确性——如果你没有这些经验,你可能就会以为这些东西慢慢就能学会。我见过很多人都这样想。他们多数都是错的,错的还都一样。”

    数据工程师vs数据科学家

    数据工程师和数据科学家的技能和责任常常重合,然而这两种职位的差异却在逐步加大。

     

    数据科学家侧重将大数据转化为商业智能,而数据工程师更多地在为数据生成建设数据架构和基础设施。数据科学家的工作环境和基础设施需要数据工程师来创造。

     

    数据科学家更注重与基础设施的互动,而不是对其进行建设和管理,其责任还包括把原始数据转化为有用、可理解、可执行的信息。数据科学家研究大数据,而数据工程师研究数据基础设施和数据基础。

    数据基础

     

    数据基础支撑所有形式的报告和分析。数据工程师的目标便是提供可信、完整且最新的数据以支持报告和分析。稳固的数据基础将使企业受益巨大,使其更高效地行动和决策。其益处包括:

    增加组织的交流与合作

    数据的一站式购买

    保存记录的单一版本

    支持企业内信息理解共识的达成

     

    没有高效的数据基础,企业组织的安全风险会增高,组织内部也会变得低效。不牢固的数据基础对一个问题会产生多个答案,也不足以支撑智能商业决策。

    大数据工程技能

     

    数据工程师需要对数据库管理有很好理解,包括深入了解结构化查询语言(SQL)。它们需要建设基础设施、工具、框架和服务。一些人认为数据工程更加偏向软件工程和应用程序研发而不是数据科学。其他有用技能包括:

    Apache Hadoop, Hive, MapReduce和Hbase的使用经验。

    机器学习(ML)是数据科学家的研究重点,但对其的一些了解对数据工程也很重要。ML和大数据联系紧密。(ML简化了大数据的处理流程,提供处理大数据的技术并使其合理化。)

    代码知识绝对是加分项。熟悉 C/C++, Java, Python, Perl, Golang或其他语言会很有用。掌握Linux, UNIX和Solaris 也很有帮助,因为这些是操作系统功能与硬件的根源。

    对数据工程师来说,ETL(数据抽取、转换和加载)经验是必须的。ETL是从源系统提取数据并将其存储在数据仓库的数据仓库建设过程。熟悉Segment或Oracle Warehouse Builder等ETL工具和Panoply或Redshift等数据存储解决方案是很有用的。 

    ETL(数据抽取、转换和加载)

     

    计算机领域中,ETL被用于数据库和仓库构建。数据抽取、转换和加载在二十世纪七十年代开始盛行。数据抽取指的是从同构和异构数据源中提取数据。数据转换是说数据为便于存储(之后被研究和分析),被转化成合适的结构或形式。数据装载是指把数据下载并转移到数据集市、数据存储区或数据仓库的过程。

     

    设计完善的ETL系统可以从源系统提取数据并保证数据一致性与质量标准。还能以预备演示的形式传输数据,允许开发人员开发应用程序,而终端用户则决定其价值。

     

    传统上,ETL系统集成来自应用程序、不同供应商和计算机硬件的数据。含有原始数据的独立系统常被不同的人操作和控制。比如,工资记账系统的管理者可能会把销售和采购的数据结合起来。

    数据仓库

     

    数据仓库被用来存储、汇报和分析数据。对于现代商业智能,它的发展很重要。数据仓库集中存储一个或多个来源的集成数据,它们同时存储当前数据和历史数据,可用于开发分析报表。

     

    没有数据仓库的话(或其更新的结构副本数据湖),大数据及任何数据科学相关的加工处理会变得非常贵或难以规模化。没有精心设计的数据仓库,分析者研究相同问题很容易得到不同结果。或在研究成品数据库(没有数据仓库的情况下)无意间导致延迟或运行中断。

    成为数据工程师

    大致上来说,成为数据工程师要取得信息技术或计算机科学学位证书并有其他相关培训。由于每种工作环境的要求越来越个人化,数据工程教学也更加灵活。

     

    你的学位和专业训练很重要,但还不够。额外证书也很有价值,有用的包括:

     

    CCP数据工程师认证考试(Cloudera认证数据工程师证书)——提供了ETL工具和分析学的经验证明。

    谷歌的证书——证明熟悉基础数据工程技能。

    IBM认证数据工程师(大数据)——传达的是具备大数据应用的工作经验。

     

    辅助认证同样可行。比如MCSE(微软认证解决方案专家)包含了很多主题,对特定主题还有附加认证,包括MCSE:数据管理和分析学;MCSA(微软认证系统管理员):商业智能报表;和MCSA:微软云平台。此外,一些数据行业活动也能够提供很棒的培训和教学资源(同时提供进入互联网的良好机会)。还有很多网络课程,能根据具体的情况提供有效培训。

    在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

    展开全文
  • 第6章 Julia数据工程

    2020-03-18 15:43:47
    第6章 Julia数据工程 正如我们在前面的章节中讨论过的,数据工程包含了数据科学流程的前几个阶段,它的主要任务是对数据进行预处理(数据准备)和生成特征。数据工程提取出数据中最具有信息量的部分,并将它们准备...
  • 机器学习算法之数据预处理与特征工程

    万次阅读 多人点赞 2018-08-13 12:13:16
    1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与正则化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾 3 特征选择(feature_...
  • ETL工程师和数据挖掘工程师的区别?

    万次阅读 2018-01-22 21:10:16
    ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 ETL是数据仓库中的非常重要的一环...
  • 这几年来大数据非常的热门,到处都有大数据分析的演讲。 演讲内容通常是宣传各种大数据分析成功的案例。 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop/spark)后...
  • 2 序言 数据工程和编程语言

    千次阅读 2018-08-18 15:48:54
    数据工程 采集、存储、清洗、分析、可视化   编程语言 C++和Java python大法 R web:php、html、css、javascript   结合 采集:python 存储:python+数据库 清洗:python 分析:python+R 可视化:...
  • 软件工程 -- 数据流图的画法

    万次阅读 多人点赞 2021-11-13 20:24:29
    1. 数据流图的画法 1.1 数据流图的概念 数据流图(DFD)是一种图形化技术,它描绘信息流和数据从输入移动到输出的过程中所经受的变换。 说明: 在数据流图中没有任何具体的物理部件, 它只是描绘数据在软件中流动和...
  • 软件工程数据字典)

    千次阅读 2021-03-23 18:32:31
    数据流图和数据字典共同构成系统的逻辑模型,没有数据字典,数据流图就不严格,然而没有数据流图,数据字典也难于发挥作用。只有数据流图和对数据流图中每个元素的精确定义放在一起,才能共同构成系统的规格说明。 ...
  • 软件工程~数据字典例子解释

    万次阅读 多人点赞 2021-01-08 01:39:54
    软件工程~数据字典(个人理解) 数据字典:关于数据的信息的集合,也就是对数据流图中包含的所有元素的定义的集合。 如果开发小型软件系统时暂时没有数据字典的处理程序,建议使用卡片形式书写数据字典,这里先看...
  • 软件工程数据流图和结构图怎么画?

    万次阅读 多人点赞 2020-09-01 18:43:03
    文章目录Step 1:根据软件的功能描述,绘制数据流图:Step 2:根据数据流图,分级绘制结构图:•边界划分:•第一级分解:•第二级分解:•精化减少耦合: Step 1:根据软件的功能描述,绘制数据流图: 问题表述: ...
  • 特征工程之处理时间序列数据

    千次阅读 2020-09-05 09:40:25
    维基百科对于特征工程的定义是:利用相关领域知识,通过数据挖掘技术从原始数据中提取特征的过程。这些特征可以用来提高机器学习算法的性能。 不过,特征工程不一定非得很花哨。特征工程的一个简单但普遍的处理对象...
  • 结构化系统分析——数据流图和数据字典案例分析一、数据流图案例分析1、案例1:商店业务管理系统2、案例2:学籍管理系统3、案例3:大型企业数据中心二、数据字典案例分析1、案例1:学籍管理系统 接上一篇文章的内容...
  • 所谓特征工程即模型搭建之前进行的数据预处理和特征提取。有时人们常常好高骛远,数据都没处理好就开始折腾各种算法,从第一开始就有问题,那岂不是还没开始就已经结束了。所以说啊,不积跬步无以至千里,生活中的每...
  • 机器学习——特征工程数据相关性前言图表相关性协方差和协方差矩阵代码实现相关系数1、皮尔逊相关系数( Pearson correlation coefficient)2、斯皮尔曼相关性系数、秩相关系数(spearman correlation coefficient...
  • 软件工程——数据字典

    千次阅读 2020-11-04 15:55:18
    数据字典(Data Dictionary,DD)是对数据流图中包含的所有元素的定义的集合。它是数据流条目、数据存储条目、数据项条目和基本加工条目的汇集。用来定义数据流图中各个成分的具体含义。 在数据流图中只描述了系统的...
  • 数据挖掘技术与工程实践

    热门讨论 2014-10-28 16:40:01
    由资深数据挖掘技术专家撰写,深入学习数据挖掘技术并进行工程实践的必读之作。 从基本概念到数据挖掘应用系统的开发,包含数据挖掘实践的全过程与经验总结。
  • 一、数据流图 ( DFD ) 简介 、 二、数据流图 ( DFD ) 概念符号 、 1、数据流 、 2、加工 ( 核心 ) 、 3、数据存储 4、外部实体 、 三、数据流图 ( DFD ) 分层 、 1、分层说明 、 2、顶层数据流图 、 3、中层数据流图...
  • 数据挖掘:特征工程——特征处理与特征生成

    千次阅读 多人点赞 2020-02-24 16:23:22
    数据挖掘:特征工程——特征处理与特征构建 这里贴一张网上特征工程的流程,供大家学习。 一、什么是特征工程 特征工程:其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。。就是...
  • 软件工程中的数据流图

    万次阅读 多人点赞 2018-03-28 15:23:23
    数据流图(DFD)是结构化系统分析方法的主要表达工具,数据流图,主要是为了说明在一个项目中,数据的处理与流动情况。 一:数据流图的基本成分: (1)数据加工: 表示对数据进行的操作, 如“处理选课单” 、...
  • #数据挖掘--第2章:特征工程

    千次阅读 2020-04-11 11:37:48
    #机器学习--第2章:特征工程一、特征工程的...  特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等...
  • 软件工程数据流图例题详解)

    万次阅读 多人点赞 2021-03-23 12:55:26
    对于每个需要再次订货的零件应该列出下述的数据:零件编号,零件名称,订货数量,目前价格,主要供应者,次要供应者。零件入库或出库称为事务,通过放在仓库中的CRT终端把事务报告给订货系统。当某种零件的库存数量...
  • 最近想拿月球影像来做点好玩的东西,问的宿舍的博士生,从我国的嫦娥探月工程官网上可以下载我国嫦娥1-4号卫星拍摄的数据,网址如下: http://moon.bao.ac.cn/index.jsp 在里面的PDS数据集下载中碰到了下载文件不...
  • 软件工程--数据流图和数据字典

    千次阅读 2018-11-25 11:39:23
    数据流图 数据流图(Data Flow Diagram):简称DFD,它从数据传递和加工角度,以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程,是结构化系统分析方法的主要表达工具及用于表示软件模型的...
  • 中间层流图数据流图设计原则:分层的数据流图(五)实践(六)数据词典数据流词条描述:数据元素词条描述:数据文件词条描述:加工逻辑词条描述:源点及汇(终)点词条描述(七)变换分析方法总结: (一)数据流图的...
  • 1.软件工程数据流图

    万次阅读 多人点赞 2020-03-17 08:23:11
    1.某高校学生选课系统有如下功能:学生根据开课情况和培养方案填写选课单,选课系统对每个学生的选课单进行处理。选课系统根据教学计划检查学生学分情况,计算上课...请分层画出该系统的顶层和1层的数据流图。 ...
  • 特征工程系列:数据清洗1.什么是特征工程2. 数据预处理3. 数据清洗拓扑图4. 格式内容清洗5. 逻辑错误清洗6. 异常值清洗6.1 异常值检查方法(3σ原则、箱线图分析)6.1.1 基于统计分析6.1.2 3σ原则6.1.3 箱线图分析6.2...
  • [软件工程] 数据字典

    千次阅读 多人点赞 2019-04-12 21:06:41
    =======================================================================    学习过程中很容易忘记绘图的符号、图的定义,为避免重新翻书...软件工程 (张海藩、吕云翔) ===================================...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,557,164
精华内容 622,865
关键字:

数据工程

友情链接: MPEG2Lib.zip