精华内容
下载资源
问答
  • 大数据存储综述
    万次阅读
    2018-04-01 14:57:08

    本文内容源自网络整理,更多详细内容请阅读参考文献的原文。

    1 存储方式

    1.1 块存储

    块存储就好比硬盘一样,直接挂载到主机,一般用于主机的直接存储空间和数据库应用的存储。它分两种形式:

    • DAS:一台服务器一个存储,多机无法直接共享,需要借助操作系统的功能,如共享文件夹。
    • SAN:金融电信级别,高成本的存储方式,涉及到光纤和各类高端设备,可靠性和性能都很高,除了贵和运维成本高,基本都是好处。

    云存储的块存储:具备SAN的优势,而且成本低,不用自己运维,且提供弹性扩容,随意搭配不同等级的存储等功能,存储介质可选普通硬盘和SSD。

    1.2 文件存储

    文件存储与较底层的块存储不同,上升到了应用层,一般指的就是NAS ,一套网络储存设备,通过TCP/IP进行访问,协议为NFSv3/v4。由于通过网络,且采用上层协议,因此开销大,延时肯定比块存储高。一般用于多个云服务器共享数据,如服务器日志集中管理、办公文件共享。

    1.3 对象存储

    对象存储具备块存储的高速以及文件存储的共享等特性,较为智能,有自己的CPU、内存、网络和磁盘,比块存储和文件存储更上层,云服务商一般提供用户文件上传下载读取的Rest API,方便应用集成此类服务。

    1.4 总结

    • 块存储:是和主机打交道的,如插一块硬盘。
    • 文件存储:NAS,网络存储,用于多主机共享数据。
    • 对象存储:跟自己开发的应用程序打交道,如网盘。

    它们的层级是越来越高。

    2 大数据的存储方式

    2.1 分布式系统

    分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据分析问题。主要包含以下两类:

    • 分布式文件系统:存储管理需要多种技术的协同工作,其中文件系统为其提供最底层存储能力的支持。分布式文件系统 HDFS 是一个高度容错性系统,被设计成适用于批量处理,能够提供高吞吐量的的数据访问。
    • 分布式键值系统:分布式键值系统用于存储关系简单的半结构化数据。典型的分布式键值系统有Amazon Dynamo,以及获得广泛应用和关注的对象存储技术(Object Storage)也可以视为键值系统,其存储和管理的是对象而不是数据块。

    2.2 NoSQL数据库

    关系型数据库已经无法满足Web 2.0的需求。主要表现为:无法满足海量数据的管理需求、无法满足数据高并发的需求、高可扩展性和高可用性的功能太低。

    NoSQL数据库的优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web 2.0应用,具有强大的横向扩展能力等,典型的NoSQL数据库包含以下几种:键值数据库、列族数据库、文档数据库和图形数据库。

    2.3 云数据库

    云数据库是基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库。云数据库并非一种全新的数据库技术,而只是以服务的方式提供数据库功能。云数据库所采用的数据模型可以是关系数据库所使用的关系模型(微软的SQLAzure云数据库都采用了关系模型)。同一个公司也可能提供采用不同数据模型的多种云数据库服务。

    3 大数据存储技术路线

    3.1 MPP架构的新型数据库集群

    采用MPP(Massive Parallel Processing)架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。

    这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。

    3.2 基于Hadoop的技术扩展

    基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。对于非结构、半结构化数据处理、复杂的ETL(Extract-Transform-Load)流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。

    3.3 大数据一体机

    大数据一体机是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

    4 分布式文件系统

    下面列举了常用的分布式文件系统:

    • GFS也就是Google File System,Google公司为了存储海量搜索数据而设计的专用文件系统。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。
    • HDFS(Hadoop Distributed File System)源于Google在2003年10月份发表的GFS(Google File System) 论文,它其实就是 GFS 的一个克隆版本。
      开源 http://hadoop.apache.org/
    • Ceph是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。由于ceph使用btrfs文件系统,而btrfs文件系统需要Linux 2.6.34以上的内核才支持。
      开源 https://ceph.com/
    • Lustre是源自Linux和Cluster的混成词。最早在1999年,由皮特·布拉姆创建的集群文件系统公司开始研发,于2003年发布Lustre 1.0。采用GNU GPLv2开源码授权。 开源 http://lustre.org/
    • 适合存储小文件、图片的分布文件系统有:
      MogileFS(https://github.com/mogilefs/)
      mooseFS(https://moosefs.com/)
      FastFS(https://github.com/happyfish100/fastdfs)
      TFS(http://tfs.taobao.org/)
      GridFS(https://www.mongodb.com

    参考文献:

    1. chen yue . https://www.zhihu.com/question/21536660/answer/33279921
    2. 大数据的存储方式 . http://www.sohu.com/a/117867612_421062
    3. 三种最典型的大数据存储技术路线 . https://www.cnblogs.com/liangxiaofeng/p/5166795.html
    4. 各种分布式文件系统简介及适用场景 . https://blog.csdn.net/rickiyeat/article/details/53895987

    更多相关内容
  • 在系统分析国内外大数据研究与应用现状的基础上,梳理了涉及大数据的10个重要概念,总结分析了企业大数据的策略和商业应用案例、美英等国政府数据开放政策及做法,以及大数据应用的技术和业务特点。 在分析大数据...
  • 6/17/2020 信息资源管理文献综述 信息资源管理文献综述 题目大数据背景下的信息资源管理 题目大数据背景下的信息资源管理 系别信息与工程学院 系别信息与工程学院 班级2015 级信本 1 班 班级2015 级信本 1 班 姓名 ...
  • 参考资料-大数据文献综述.zip
  • 大数据文献综述.doc

    2021-10-03 14:55:37
    大数据文献综述.doc
  • The development and tendency of Big Data Tang Xia (Guilin University of electronic technology, electronic engineering?and?automation, Guilin) Abstract: "Big Data?is the most popular IT word after the
  • 信息资源管理文献综述 题目大数据背景下的信息资源管理 系别信息与工程学院 班级 2015级信本 1 班 姓名 学号 1506101015 任课教师 2017年6月 大数据背景下的信息资源管理 摘要随着网络信息化时代的日益普遍我们正...
  • 大数据研究综述

    2014-11-08 22:18:41
    2010 年,全球数据量跨入了 ZB 时代,据 IDC 预测,至 2020 年全球将拥有 35ZB 的数据量,大量数据实时地影响我们工作、生活,甚至国家经济、社会发展,大数据...通过综述,对大数据有一个全面的认识,为下一步研究打下基础。
  • 大数据技术在电商精准营销中的文献综述研究.pdf
  • 本文对大数据分析平台进行了尽可能详尽的文献调研,首先介绍了大数据的基本定义和大数据面临的一些挑战;然后提出了大数据系统框架,将大数据系统分解为数据生成、数据获取、数据存储和数据分析等4个模块,这4个模块也...
  • 信息资源管理文献综述 题目大数据背景下的信息资源管理 系别信息与工程学院 班级 2015 级信本 1 班 姓名 学号 1506101015 任课教师 2017 年 6 月 精选文库 大数据背景下的信息资源管理 摘要随着网络信息化时代的日益...
  • 大数据系统综述.pdf

    2019-08-14 13:40:22
    能详尽的文献调研, 首先介绍了大数据的基本定义和大数据面临的一些挑战; 然后提出了大数据系 统框架, 将大数据系统分解为数据生成、数据获取、数据存储和数据分析等 4 个模块, 这 4 个模块也 构成了大数据价值链; ...
  • 大数据基础文献综述

    千次阅读 2019-09-25 14:46:20
    前言: 这篇文章主要对两篇论文进行综述,一篇是美国一些知名的数据管理领域的专家学者从专业的研究角度出发联合发布的《大数据白皮书》,另一篇是孟晓峰和慈祥的《大数据管理:概念、技术与挑战》[1]。前者介绍了...

        前言: 这篇文章主要对两篇论文进行综述,一篇是美国一些知名的数据管理领域的专家学者从专业的研究角度出发联合发布的《大数据白皮书》,另一篇是孟晓峰和慈祥的《大数据管理:概念、技术与挑战》[1]。前者介绍了大数据的产生、分析了大数据的处理流程,并提出了大数据所面临的若干挑战,而后者介绍了大数据的基本概念,阐述其同传统数据库的区别,对大数据处理框架进行了详细解析,并展开介绍了大数据时代不可或缺的云计算技术和工具。同样,在论文的最后给出了大数据时代面临的新挑战。由于后者是在前者的基础上完成的,与前者有很多重复的内容,同时又对云计算等方面做出了更进一步的阐述,因此,本篇文章以《大数据白皮书》的结构为主线,将孟的论文中涉及到的其他内容(如大数据的基本概念、云计算等内容)穿插在合适的位置,进行统一综述。

     

        摘要:数据驱动型决策的前景正在获得越来越多人的认可,人们对“大数据”这个概念的热情也越来越高。大数据的发展前景是毋庸置疑的。然而,目前其发展潜力与实现之间仍然存在着巨大的差距。本文介绍了大数据处理的不同流程、处理框架、关键技术和处理工具,最终引出了大数据分析过程中将面临的挑战并给出解决相应问题的部分思路。

        Abstract:  The prospect of data-driven decision-making is gaining more and more recognition and the passion for the concept of big data is growing rapidly. Big data development prospects are beyond doubt. However, recently there is still a huge gap between its development potential and its realization. This article introduces the different processes of big data pipelines, processing frameworks, key technologies and processing tools, and finally introduces the challenges that big data analysis will face and gives some ideas to solve the corresponding problems.

        关键词:大数据;数据分析;云计算;处理流程

        key words: big data; data analysis; cloud computing; processing pipelines

    1.1    背景

    现如今,我们正生活在数据的汹涌浪涛之中,数据正在以前所未有的规模增长着。 在以前,决策的产生或基于猜测,或精心构建的现实模型,但现在人们完全可以依靠数据本身做出合理的决策。这样的大数据分析推动了我们现代社会的几乎所有方面,包括移动服务,零售,制造业,金融服务,生命科学和物理科学。

    1.2 大数据的4V定义

    虽然大数据的潜在价值巨大且真实,而且已经取得了一些初步的成功,但若要充分发挥这种潜力,仍然有许多技术挑战需要解决。数据的庞大规模是最明显,最主要的挑战。但是,这并不是唯一的挑战。行业分析公司指出,大数据面临的挑战不仅体现在数量(Volume)方面,还在于多样性(Variety)和速度(Velocity)[2],因此我们不应该只关注其中的第一个(Volume)。其中,多样性(Variety)通常意味着数据类型、表示方法和语义解释的异构性。速度(Velocity)是指数据到达的和它必须被处理速度。虽然这三个要素很重要,但却没有包含隐私和可用性等其他要求。

    除此3V定义之外,孟[1]的论文中还添加了另外一个V,组成为4V定义。但人们对第4个V说法不一,国际数据公司认为大数据应该有价值性(Value),而IBM[3]公司认为 数据必然具有真实性(Veracity)。不必过度地拘于具体的定义,在把握3V定义的基础上,适当地考虑4V即可。

    1.3 传统数据库与大数据的区别

    a. 数据规模:传统数据库处理对象通常以MB为基本单位,而大数据常常以GB甚至TB,PB为基本处理单位

    b. 数据类型:传统数据库仅有一种或几种,且以结构化数据为主。大数据中的数据类型种类繁多,数以千计,不仅包含结构化,还包括半结构化和非结构化数据

    c. 模式和数据的关系:传统数据库先有模式再有数据。大数据的模式随着数据量的增长而不断演变。

    d. 处理对象:传统数据库的数据仅作为处理对象而存在,而大数据的数据作为资源来辅助解决其他领域的问题。

    e. 处理工具:大数据的数据不仅仅只是工程处理的对象,传统的3种范式(实验、理论和计算)无法很好的发挥作用,需要探索第4种范式。4中范式的比较如表1所示:

     

    表1 典型大数据应用的比较

    1.4 大数据的产生

                人类社会的数据产生方式大致经历3个阶段,其中第三个阶段(感知式系统阶段)导致了大数据的产生。这3个阶段分别是:

    运营式系统阶段:数据库出现在这个阶段,数据伴随着一定的运营活动产生并记录在数据库中。

    用户原创内容阶段:Web 2.0时代,数据呈爆炸式增长。

    感知式系统阶段:感知式系统被广泛使用。传感器被大量使用,数据的产生方式是自动的。

                总体而言,数据的产生经历了被动、主动到自动的3个阶段。

    2.  大数据的处理流程

     

    图1 大数据处理流程

    大数据分析涉及多个不同的阶段,如图1所示,每个阶段都会带来挑战。不幸的是,许多人只关注分析/建模阶段(虽然这个阶段至关重要,但是如果没有数据分析管道的其他阶段,这个阶段便无用武之地。即使是在分析阶段,我们对在多个用户程序并发运行的多租户集群的情况下的复杂性的了解也很少。许多重大挑战超出了分析阶段。例如,大数据必须在一定情境下进行管理,这可能是嘈杂的,异构的,且不包括前期模型。这样做会增加追踪出处和处理不确定性和错误的需要。这些对于成功至关重要,却很少像大数据一样提及。同样,数据分析阶段的问题通常也不会全部提前摆出来。我们可能需要根据数据找出好的问题。这样做需要更智能的系统,并且更好地支持用户与数据分析处理流程的交互。事实上,我们现在的一个主要的瓶颈就是能够对这些问题提问并分析的人的数量。通过支持对数据的许多层次的参与(并不都需要深入的数据库专业知识),我们可以通过大幅增加这个数字。解决这类问题的方案不是像往常那样逐渐改进业务,这个工业可以自己做。相反,他们要求我们从根本上重新思考我们如何处理数据分析。

    2.1    数据获取与记录

    大数据不是从天而降的,它产生于一些数据生成源。我们周围的世界,从老年人的心率,我们呼吸的空气中的毒素,到规划的SKA望远镜,这些每天会产生高达100万TB的原始数据。 同样,科学实验和模拟可以很容易地产生PB级的数据。

    这些数据大部分是没有意义的,数量级可以被过滤和压缩。 一方面的挑战是如何定义这些过滤器,以避免丢弃有用的信息。另一方面挑战是自动生成正确的元数据来描述哪些数据被记录以及这些数据是如何被记录和测量的。

    2.2    信息提取和清洁

    通常情况下,不能直接对收集好的信息进行分析。相反,我们需要一个信息提取过程,从底层资源中提取所需信息,并通过一种适合分析的结构化形式来表示。正确而完全地做到这点是一个持续的技术挑战,而这样的提取通常是高度依赖于应用的。

    2.3    数据整合,聚合和表示

    鉴于数据洪流的异构性,仅记录它并将其放入存储库是不够的。例如,加入我们有一系列科学实验的数据。如果我们在一个数据库中只有一堆数据集,那么任何人都不可能找到任何这些数据,更不用说重复使用这些数据了。如果有足够的元数据,仍然有一些希望,但即便如此,由于实验细节和数据记录结构的差异,挑战依然存在。

    2.4    查询处理,数据建模和分析

    对大数据进行查询和挖掘的方法与传统的小样本统计分析有着根本的区别。 大数据往往是有噪声,动态,异构,相互关联且不可信的。尽管如此,即使是噪声大的大数据也可能比小样本更有价值。

    挖掘需要集成的,清理的,可信赖的,高效可访问的数据,声明式查询和挖掘接口,可扩展挖掘算法和大数据计算环境。同时,数据挖掘本身也可以用来帮助提高数据的质量和可信度,理解其语义,并提供智能查询功能。下一代的大数据还支持实时处理的交互式数据分析。

    目前的大数据分析存在的一个问题是,提供SQL查询功能的数据库系统与执行各种形式的非SQL处理的分析包(如数据挖掘和统计分析)之间的协调。如今的分析师需要从数据库中导出数据,然后执行非SQL过程,再将数据带回,这个过程是麻烦而枯燥的。声明性查询语言与这些包的功能之间的紧密耦合将有利于分析的表达性和性能。

    2.5    解释

    如果用户无法理解结果,那么具有分析大数据的能力是没有意义的。提供分析结果的决策者必须解释这些结果。仅仅提供结果是不够的。相反,必须提供补充信息,说明每个结果是基于哪些输入、如何得出的。这种补充信息被称为(结果)数据的来源。通过研究如何最好地捕获,存储和查询出处,结合捕获足够的元数据的技术,我们可以创建一个基础结构,使用户能解释获得的分析结果,并用不同的假设,参数,或数据集重复分析过程。

    3.  大数据处理框架

    大数据处理模式主要可以分为两种:流处理模式和批处理模式。

    3.1    流处理

    流处理处理模式将数据视为流,当数据到来时就立刻处理并返回所需结果。流处理的过程基本在内存中完成,其处理方式更多依赖于在内存中设计巧妙的概要数据结构,主要瓶颈是内存容量。以PCM(相变存储器)为代表的存储级内存设备的出现或许可以打破这个瓶颈。比较有代表性的开源系统有:Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。

     

    图2 基本的数据流模型

    3.2    批处理

    以Google的MapReduce为代表,完整的MapReduce过程如图3所示:

     

    图3 MapReduce基本原理

    批处理的核心设计思想在于:1. 分而治之 2. 将计算推到数据,而非相反。

                在实际场景下,常常不是简单使用某一种,二是将二者结合起来。很多互联网公司将业务划分为在线、近线和离线,可以基于这种划分应用不同的处理模式。

    4.  大数据关键技术

    大数据需要多种技术的协同。文件系统提供最底层的存储能力的支持。数据库提供数据管理服务。

    4.1    云计算

    云计算涉及到的技术很多,图4是Google云计算技术的介绍,从中可以对云计算有更清晰的认识。

     

    图4 google技术演化图

    4.1.1    文件系统

    基于“系统组件失败是一种常态而非异常”的思想,Google研发了GFS。这是一个构建在大量廉价服务器上的可扩展分布式文件系统,采用主从结构,主要针对文件较大,且读远大于写的应用场景。后来在Google对GFS级你醒了重新设计,解决了单点故障、海量小文件等问题。许多其他企业的文件系统都是借鉴了GFS。

    4.1.2    数据库系统

    由于数据的数量(大)、多样性、设计理念的冲突、数据库事务处理苛刻的ACID要求等原因,大数据不可能直接采用关系型数据库。为了应对这个挑战,产生了NoSQL数据库。NoSQL数据库具有如下特点:模式自由、支持简易备份、简单的应用程序接口、最终一致性、支持海量数据。其与关系型数据看对比如下图所示:

     

    表2 NoSQL数据库和关系数据库对比

    4.1.3    索引与查询技术

    NoSQL数据库针对逐渐的查询效率一般比较高,因此NoSQL数据库上的查询优化研究主要有两个思路:

    1. 采用MapReduce秉性技术优化多值查询
    2. 采用索引技术优化多值查询

    总体而言,在NoSQL数据库上的查询优化技术都并不成熟,有很多关键性问题亟待解决。

    4.1.4    数据分析技术

    实时数据处理是大数据分析的一个核心需求,主要有3个思路:

    1. 采用流处理模式
    2. 采用批处理模式
    3. 二者的融合:主要思路是利用MapReduce模型实现流处理。

    4.2    大数据处理工具

    Hadoop是当前最为流行的大数据处理平台,它已经成为大数据处理工具事实上的标准。它是包括文件系统(HDFS),数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块的完整生态系统。下图归纳了现今主流的处理平台和工具。

     

    表3 采用索引加速多只查询的方案对比

    5.  大数据分析的挑战

    在描述了大数据分析流程中的多个阶段之后,我们现在转向一些共同的挑战,这些挑战存在于以上阶段中的许多阶段(有时是全部阶段)。

    5.1    异构性与不完整性

    当人类消费信息时,大量的异构性是可以容忍的。事实上,自然语言的细微和丰富可以提供有价值的深度。然而,机器分析算法期望同构数据,并且不能理解细微差别。 因此,数据分析时必须在数据分析之前(或在分析的第一步)仔细地将数据结构化。即使在数据清理和纠错之后,数据中的一些不完整性和一些错误也可能保留下来。数据分析期间必须管理这些不完整性和这些错误,这对我们而言是一项挑战。

    5.2    规模

    在过去几十年里,管理巨大和迅速增长的数据量一直是一个具有挑战性的问题。 过去,这一挑战已经通过更快的处理器、遵循摩尔定律得到缓解。但现在正在发生一个根本的转变:数据量增长得比计算资源更快,而CPU速度是没有变化。

    5.3    时效性

    数据量大的另一面是速度慢。要处理的数据集越大,分析所需的时间就越长。 有效处理大数据量的系统也更可能能够更快地处理给定大小的数据集。然而,当大数据所说的速度(Velocity)不仅仅是这个速度。 相反,我们还有获得速度的挑战和时效性挑战。

    有很多情况下需要立即得到分析结果。当数据量迅速增长,并且查询响应时间有限时,设计这样的结构变得尤其具有挑战性。

    5.4    隐私

    数据的隐私是另一个巨大的问题。 公众对个人资料的不当使用,尤其是连接多个来源的资料,恐怕是非常恐惧的。管理隐私既是一个技术问题,也是一个社会问题,必须从两个方面共同解决,才能实现大数据的承诺。

    5.5    人的合作

    理想情况下,大数据分析不全部是计算,而是将人的角色放在循环当中。在当今这个复杂的世界里,常常需要来自不同领域的多位专家真正理解正在发生的事情。大数据分析系统必须支持来自多个人类专家的输入,并共享对结果的探索。这些专家可能在空间和时间上是分散,因为将整个团队集中在一个房间内太昂贵了,一种流行的新解决方法是通过众包。

    5.6    能耗问题

    服务器电量的开销是巨大的,而其中只有6%~12%是用于相应用户查询的,绝大多部分的电量用于确保服务器处于闲置状态。可以通过采用新型低功耗硬件和引入可再生能源来应对能耗问题。

    5.7    与硬件的协同

    硬件的异构性会不可避免给集群整体性能带来“木桶效应”,解决方案是将不同计算强度的任务智能地分配给计算能力不同的服务器。另外,新硬件的给大数据带来了变革。可以通过构建HDD和SSD的混合存储系统来解决大数据处理问题。然而内存的发展一直没有出现革命性的变化,随着PCM为代表的SCM的出现,未来的内存很可能会兼具内存和硬盘的双重功能,给大数据处理带来根本性的变革。

    5.8    大数据管理易用性问题

    解决这个问题,需要从以下3个方面下手:可视化原则、匹配原则和反馈原则。

    5.9    性能的测试基准

    构建大数据测试基准面临的主要挑战有:系统复杂性高、用户案例的多样性和数据规模庞大、系统的快速演变、重新构建还是复用现有的测试基准。

    6.  系统架构

    如今的公司已经在使用商业智能,并重视商业智能的价值。业务数据分析的目的有很多:公司可以执行系统日志分析和社交媒体分析,以进行风险评估,客户保留,品牌管理等等。通常情况下,即使每个系统都包含信息提取,数据清理,关系型处理(联合,分组,聚合),统计和预测建模以及适当的探索和可视化工具。

    7.  总结

    我们已经进入了一个大数据时代。通过更好地分析大量可用的数据可以提高了企业的盈利能力和成功率。本文详细分析了大数据管理的关键技术,然而,在充分实现数据价值之前,必须解决本文中描述的许多技术挑战。在从数据采集到结果解释的各个阶段中,挑战不仅包括显而易见的规模问题,而且还包括异构性,缺乏结构,错误处理,隐私,时效性,来源、与硬件的协同、能耗问题、管理易用性等等。这些挑战将需要变革性的解决方案。

     

    参考文献:

    [1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.

    [2] 大数据白皮书

    [3] What is Big Data Analytics? What is Big Data Analytics? https://www.ibm.com/analytics/hadoop/big-data-analytics

     

    转载于:https://www.cnblogs.com/DianeSoHungry/p/8084422.html

    展开全文
  • 中国健康医疗大数据研究综述——基于期刊论文的分析.pdf
  • 大数据在供应链管理的多个领域中发挥着关键作用,例如需求预测,产品开发,供应决策,分配和客户反馈。 制造业和服务业中供应链的数据交换量不断增加,证明了在供应链管理中使用大数据是合理的。 本文概述了供应链...
  • 大数据下民用机器人的运用及发展的文献综述.docx大数据下民用机器人的运用及发展的文献综述.docx大数据下民用机器人的运用及发展的文献综述.docx大数据下民用机器人的运用及发展的文献综述.docx大数据下民用机器人的...
  • 大数据下民用机器人的运用及发展的文献综述只是分享.pdf大数据下民用机器人的运用及发展的文献综述只是分享.pdf大数据下民用机器人的运用及发展的文献综述只是分享.pdf大数据下民用机器人的运用及发展的文献综述只是...
  • 大数据下民用机器人的运用及发展的文献综述演示教学.docx大数据下民用机器人的运用及发展的文献综述演示教学.docx大数据下民用机器人的运用及发展的文献综述演示教学.docx大数据下民用机器人的运用及发展的文献综述...
  • 大数据下民用机器人的运用及发展的文献综述只是分享.docx大数据下民用机器人的运用及发展的文献综述只是分享.docx大数据下民用机器人的运用及发展的文献综述只是分享.docx大数据下民用机器人的运用及发展的文献综述...
  • 大数据背景下个人信息安全文献综述.pdf
  • 本文使用系统文献综述(SLR)来发现大数据在教育领域的可用性趋势。 研究发现,教育中大数据可用性的趋势主要有两种类型,即概念趋势和研究趋势。 概念趋势影响功能领域,例如: 课程; 教育管理和学习活动。 研究...
  • 大数据下民用机器人的运用及发展的文献综述
  • 大数据可视分析综述

    2018-06-20 10:48:03
    大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘人对于可视化信息的认知能力优势,将人、机的各自强项进行有机融合,借助人机交互式分析方法和交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、...
  • 大数据背景下个人信息安全文献综述.rar
  • 大数据下医疗信息化研究文献综述.pdf
  • 大数据下医疗信息化研究文献综述.doc
  • 教育大数据研究综述

    千次阅读 2017-07-03 16:31:00
    教育大数据不仅仅是大数据在教育领域应用,而且通过教育领域反向驱动大数据技术分化为独立的分支,从而带来了对传统教育技术领域长期研究问题解决的新途径,甚至可以跨越传统个性化学习的精确逻辑推理过程而直接分析...

    教育大数据不仅仅是大数据在教育领域应用,而且通过教育领域反向驱动大数据技术分化为独立的分支,从而带来了对传统教育技术领域长期研究问题解决的新途径,甚至可以跨越传统个性化学习的精确逻辑推理过程而直接分析全样本学习者特征。这样来促进教育管理科学化变革、促进教学模式改革、促进个性化教育变革、促进教育评价体系改革、促进科学研究变革等。这些主要依托于教育大数据的两项关键技术:教育数据挖掘和学习分析。但是我国的教育大数据研究与应用尚处于起步阶段,缺乏前期的规范化和系统化顶层设计,面临许多层次的挑战,如应用挑战、安全与隐私问题、运营挑战等,因此,特别需要从教育大数据整体进行规划和由上至下的系统综合研究。

    引言

    移动互联网技术相比较PC时代的互联网有着本质的区别,伴随着数据时代带动的非线性大数据增长过程,社会生活和城市建设过程中的教育系统也在高速发展过程中,这完全不同于过去的二十年间的信息技术对教育教学的改变进程。联合国在2012 年发布的大数据白皮书《Big Data for Development:Challenges&Opportunities》中指出大数据的出现将会对社会各个领域产生深刻影响。无论国内外都开始了对大数据的研究,起步略有早晚之分,但从政策到区域再到机构的发展方式是共识。《国民经济和社会发展第十二个五年规划纲要》中提出:“重点研究……海量信息处理及知识挖掘的理论与方法……”。美国教育部于2012年10月发布的《通过教育数据挖掘和学习分析促进教与学》中指出通过对教育大数据的挖掘与分析,促进美国高等院校及K-12学校教学系统的变革。2015年8月31日国务院发布的《促进大数据发展行动纲要》中指出“数据已成为国家基础性战略资源”,并在启动的十大工程之一“公共服务大数据工程”中明确提出要建设教育大数据。目前,教育大数据的重要性已经提升到国家战略层面,教育大数据中心建设和区域数据共建共享应用成为主要的建设模式,对个体学习全过程数据分析和精准数据评测学习成为主要的应用场景,从而通过宏观和微观的两方面建设,带动教育领域的广泛关注和重视。

    相关概念

    大数据的3V定义基本是从大数据的特征出发,即:规模性(Volume)、多样性(Variety)和高速性(Velocity).目前比较认可是4V定义,如国际数据公司(IDC)认为,大数据是符合4V特征的数据集,即在3V基础上增加价值性(Value)。而IBM认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义是:“巨量资料(Big Data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。

    另一方面,教育大数据的定义最早从产生教育大数据的主体出发,将教育大数据分为广义的和狭义的两类:广义的教育大数据泛指所有来源于日常教育活动中人类的行为数据;狭义的教育大数据是指学习者行为数据。也有研究指出教育大数据指整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合。

    基于以上研究,可以认为教育大数据的定义包含三层含义:第一个含义,教育大数据是教育领域的大数据,是面向特定教育主题的多类型、多维度、多形态的数据集合;第二个含义,教育大数据是面向教育全过程的数据,通过数据挖掘和学习分析支持教育决策和个性化学习;第三个含义,教育大数据是一种分布式计算架构方式,通过数据共享的各种支持技术达到共建共享的思想。也就是说,我们把教育大数据定义为:面向教育全过程时空的多种类型的全样本的数据集合。教育大数据不仅仅是建设教育大数据中心,不仅仅是分析全过程学习数据,更多的是一种共享的生态思想。

    与用传统方法收集的教育数据相比,教育大数据有更强的实时性、连续性、综合性和自然性,并使用不同的应用程序来分析和处理不同复杂度和深度的数据。传统教育数据收集的大多是阶段性的数据,而且大多在用户知情的情况下收集,使用的分析方法也通常是简单的统计分析方法。教育大数据收集的是整个教育教学过程中静态和动态的所有数据,可以在不影响教师和学生活动的情况下,连续记录整个教学活动的所有数据,如教学资料、互动反映和学生在每个知识点上停留的时间等。

    教育大数据的业务分析

    教育大数据是一种新的架构和思维基础,可以弱化分析模型直接进入研究目标进行分析,还可以通过数据聚集对“小现象”进行规律研究,还可以对个体进行多维度数据融合研究,再可以对目标对象进行时间序列和空间维度动态分析。面对具体教育业务,教育大数据技术对教育的管理、教学、学习、科研和评价等都产生了很大的影响。教育大数据的业务分析如图1所示.  

    教育大数据研究综述

    图1 教育大数据的业务分析

    1.教育大数据对教育管理的支持

    传统的教育决策制定形式常被形象的称为“拍脑袋”决策,是指决策者常常不顾实际情况,以自己有限的理解、假想、推测依据直觉、冲动或趋势来制定政策。这种来自决策者“头脑发热”决策,经常处于朝令夕改的尴尬境地,教育大数据正可以帮助解决这种不足。

    大数据时代,教育者将更加依赖于数据和分析,而不是直觉和经验;同样,教育大数据还将改变领导力和管理的本质。服务管理、数据科学管理将取代传统的行政管理、经验管理。技术不断发展,教育数据挖掘与分析不断深入,不仅要着眼于已有的确定关系,更要探寻隐藏的因果关系。利用大数据技术可以深度挖掘教育数据中的隐藏信息,可以暴露教育过程中存在的问题,提供决策来优化教育管理。大数据不仅可以运行和维护各教育机构的人事信息、教育经费、办学条件和服务管理的数据,而且可以长期积累所有类型教育机构的数据,利用统计分析、应用模型等技术将数据转换为知识,最终为教育者和学习者提供科学的决策。

    2.教育大数据对教学模式的支持

    教育大数据推进实现智慧学习。教师在智慧教学环境下,利用大数据技术可以更深入的了解每一个学习者的学习状况,并且与学习者的沟通更加通畅,教师的整个教学过程和学习者的学习过程更加精准化和智能化。教师对教学过程的掌握从依靠经验转向以教育数据分析为支撑,学生对于自己学习状况的了解从模糊发展到心中有数,可以更好的认识自我、发展自我、规划自我。大数据技术可以帮助教师及时调整教学计划和教学方法,有利于教师自身能力提高和职业发展。

    3.教育大数据对个性化学习的支持

    除了学生学习的行为可以被记录下来外,学生在学习资源上的数据也可以被精确记录下来,如点击资源的时间、停留多久、问题回答正确率、重复次数、参考阅读、回访率和其他资源信息,通过大数据可以定制个人学习报告,分析学习过程潜在的学习规律,还可以找到学生的学习特点、兴趣爱好和行为倾向,并一目了然教育状态信息。大数据技术使教育围绕学习者展开,使传统的集体教育方式转向为个性学习方式。同时还伴随着教育者和学习者思维方式的改变,进一步朝着个性化学习的方向迈出重要的一大步,使得精准的个性化学习成为可能。

    4.教育大数据对教育评价的支持

    教育评价正在从“经验主义”走向“数据主义”,从“宏观群体”评价走向“微观个体”评价,从“单一评价”走向“综合评价”。教育大数据下教育评价的变化,不仅表现在评价思想,还包括评价方法,不仅包括对学生的评价,还包括对教学管理、评估质量等具体水平的评价。教学评估不再仅仅是由考试成绩和纪律帮助教师评价的主观传统意义上的感受,而由大量的数据感知得到,为实现教学评价的公正提供了依据,优化了教学方向。教育评价可以是多元化的,而不是仅停留在知识掌握程度这一单一维度。

    5.教育大数据对科学研究的支持

    教育大数据使得从追求单向因果性转向追求复杂的多元相关性,并用直观的图形等表达方式体、系统、清晰、简洁地展现。这种新理念、新思维的创生,是实现教育创新和发展不可缺少的手段、工具和方法论。教育大数据时代,科学研究将从随机抽样、探讨因果关系走向全部数据、寻找相关关系。大数据技术减少了研究资金的浪费,在某些问题上,数据分析为研究人员提供了个性化的服务,可以提高了研究的效率和成果的可靠性。大数据依赖于自动、连续的记录和搜集的数据比传统调查数据更加客观和中立。大数据还将改变传统学术研究的过程,信息系统依赖于自动同步,连续获得持续的行为数据,这意味着学术研究和信息技术、课题研究与实践联系在一起。

    教育大数据转换层次模型

    教育大数据具有转换层次的四个过程特征:数据、信息、知识、智慧。教育大数据技术采集的海量教育元数据,经过抽取、转换、加载,联机分析处理和统计分析等过程,转换为教育信息,又经过数据可视化将教育数据呈现出来,最后形成教育决策来指导教育者和学习的教学,这个过程数据完成了从数据到信息、知识和智慧的演变。教育大数据转换层次模型如图2所示。 

    教育大数据研究综述

    图2 教育大数据转换层次模型

    目前在教育大数据领域中有很多研究领域,比较主要的是数据挖掘和学习分析。两者既有相同之处,又存在一定差异。

    1.教育大数据和数据挖掘

    数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的实际应用数据中提取有效的、新颖的、潜在有用的知识的非平凡过程。目前认可度较高的一种处理模型是Fayyad等人设计的多处理阶段模型,在此不再赘述。在大数据时代处理数据理念上有三大转变:抽样到全体、绝对精确到效率、因果到相关[10]。大数据时代的数据挖掘继承于传统数据挖掘又不同于传统数据挖掘。首先是分析对象不同,传统数据分析的对象是在已知的数据范围中易处理的数据,而基于大数据的数据挖掘对象时包括非结构化数据的全部数据,不能保证原始数据是完整的、清洗过和没有错误的。其次是分析基础,传统分析是建立在关系数据模型之上的,是在系统内就创立的主题之间的关系基础上进行的,而在大数据分析中,绝大部分分析基于纵裂数据库之外。再其次是分析效率,传统数据处理过程中需要等待抽取、转换、加载等工作完成。而大数据分析是对数据进行实时分析。最后是硬件差别,在传统数据处理中所使用硬件比较昂贵。而大数据处理过程加入了对分析软件的使用,所以硬件成本较低。

    近几年出现了许多有关教育数据挖掘(EDM)的文献。研究者对EDM研究的主题范围集中在使用数据挖掘提高机构效率和促进学生的学习过程。但是教育数据挖掘领域内还存在更广泛的话题,例如,在课程管理系统内(CMS)学生的退出和保留、个性化推荐系统、以及学生学习评价。

    教育数据挖掘可以向教育者、学习者、教育管理者、家长及教育研究者提供决策帮助,最终提高学习者的学习水平。基于教育大数据的数据挖掘过程即将学习结果、学习内容、学习资源与教学行为等教育原始数据使用多种技术,如聚类、关系挖掘和模型构建等,最终达到预测学习者发展趋势、促进有效学习的目标。具体过程如图3所示。

    教育大数据研究综述

    图3 基于教育大数据的数据挖掘过程

    教育大数据公认的特征之一是规模性,面对海量数据,可以采取分布式文件的系统进行并行运算。对于半结构化或非结构化的数据,可以采用自然语言理解和信息抽取等方式将其转化为结构化数据。对于杂质较多的数据,可以在数据挖掘时进行数据清洗。对于实时产生的数据可以使用自动获取效率优先的方式来采集数据。

    2.教育大数据和学习分析

    新媒体联盟(New Media Consortium)将学习分析定义为:利用松散耦合的数据收集工具和分析技术,研究分析学习者学习参与、学习表现和学习过程的相关数据,进而对课程、教学和评价进行实时修正。总之,学习分析运用多种方法采集、存储和分析学习者数据,如移动终端的数据和现场智能数据等,再使用多种技术来分析处理这些数据,最终应用于教育者和学习者,产生评估、预测和干预。基于教育大数据的学习分析过程如图4所示。

    教育大数据学习的具体应用体现在评估、预测和干预。评估是指基本统计分析及其可视化、发现问题学生、学生社交网络分析与应用,预测是指学生分类、学生模型的构建、预测学生成绩,干预是指对教师的教学方法提供改进意见。教育大数据在学习分析中还有其他应用,如表1所示。除此之外,大数据在学习分析中的应用还包括学生分组与协作、社交网络分析、开发概念图、课件制作、规划和调度等。

    教育大数据的进一步挑战

    1.教育大数据的技术挑战

    教育大数据在实际应用存在很多技术瓶颈,如:在数据的采集时数据挖掘和学习分析的重要环节,在这一环节有很多技术挑战;面对海量教育数据,数据的存储、处理和分析都存在技术考验;另外由于目前没有统一的数据规范,不同系统之间的兼容也是一大问题。从全局考虑,我国的教育大数据系统应遵循顶层设计原则,由教育部对数据格式、数据存储等问题制定统一规范,下级企业、学校按照统一规范去设计自己的系统,这带来了新的技术挑战。

    2.教育大数据的安全与隐私挑战

    在伦理道德方面,教育大数据面临着数据安全与保护隐私的挑战。教育大数据不仅是一种宝贵的教育收益,而且有关学习者和教育工作者的隐私权,其潜在的安全和隐私甚至是无法用常用办法评估出来,甚至无法通过独立的方法进行评估。如果教育大数据处理不当将导致严重的安全漏洞,甚至是影响区域教育政策的制定。教育数据所有权究竟属于学习者还是运行平台或是双方共享,这是互联网教育和教育大数据发展所面临的必然问题。如何保证所有权归属、如何判定所有权归属,这些仍是需要深虑的问题。

    3.教育大数据的价值挑战

    教育大数据技术挖掘出教育数据的巨大价值,但是数据的权属问题不是传统的财产、知识产权等可以涵盖的,数据成为国家间争夺的资源,人口红利、地大物博、经济实力、文化优势等都体现为数据资源储备和数据服务影响力。教育大数据是一种无形资产,国家应当保障教育大数据不外泄并不被恶意使用,而且还要兼顾部分数据向公众开放,发挥其应用的社会价值,做到适当的综合评估来进行价值平衡,这也是前所未有的一种挑战。

    (作者:杜婧敏、方海光等,首都师范大学)

    本文转自d1net(转载)


    展开全文
  • 软件学报论文。可视分析是大数据分析的重要方法,本文介绍了大数据主流应用的信息可视化技术——面向文本、网络(图)、时空、多维的可视化技术.同时探讨了支持可视分析的人机交互技术。
  • 大数据技术在电商精准营销中的文献综述研究

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,310
精华内容 1,324
关键字:

大数据文献综述