精华内容
下载资源
问答
  • 智慧IT 大数据采集技术概述 技术创新变革未来 大数据中数据采集概念 数据采集(DAQ) 又称数据获取是指从传感器和其它待测设备等模拟和数 字被测单元中自动及被动采集信息的过程 数据分类新一代数据体系中将传统数据...
  • 大数据开启了一个规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5-1个百分点。大数据在核心领域的渗透速度...

    大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5-1个百分点。大数据在核心领域的渗透速度有目共睹,然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,那么什么是大数据采集技术呢?

     

    什么是数据采集?

     

    ▷数据采集(DAQ), 又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类。

     

    ▷线上行为数据:页面数据、交互数据、表单数据、会话数据等。

     

    ▷内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。

     

    ▷大数据的主要来源:1)商业数据 2)互联网数据 3)传感器数据

     

    ▌数据采集与大数据采集区别

     

     

    ▌传统数据采集的不足

     

    传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

    ▌大数据采集新的方法

     

    ▷系统日志采集方法

     

    很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

     

    ▷网络数据采集方法

     

    网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

     

    ▷其他数据采集方法

     

    对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

     

    ▌大数据采集平台

     

    最后,再为大家介绍几款应用广泛的大数据采集平台,供大家参考使用。

     

    Apache Flume

     

    Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。

     

    Fluentd

     

    Fluentd是另一个开源的数据收集框架。Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。

     

    Logstash

     

    Logstash是著名的开源数据栈ELK (ElasticSearch, Logstash, Kibana)中的那个L。Logstash用JRuby开发,所有运行时依赖JVM。

     

    Splunk Forwarder

     

    Splunk是一个分布式的机器数据平台,主要有三个角色:Search Head负责数据的搜索和处理,提供搜索时的信息抽取;Indexer负责数据的存储和索引;Forwarder,负责数据的收集,清洗,变形,并发送给Indexer。



     

    展开全文
  • 点击上方蓝字关注我们教育大数据采集机制与关键技术研究柴唤友1,刘三女牙1,2,康令云1,张雅娴1,李卿2,刘智21华中师范大学国家数字化学习工程技术研究中心,湖北 武汉 43...

    点击上方蓝字关注我们

    教育大数据采集机制与关键技术研究

    柴唤友1, 刘三女牙1,2, 康令云1, 张雅娴1, 李卿2, 刘智2

    1 华中师范大学国家数字化学习工程技术研究中心,湖北 武汉 430079

    2 华中师范大学教育大数据应用技术国家工程实验室,湖北 武汉 430079

     

    摘要数据采集是实现教育大数据应用价值潜能的基础,因此对于教育大数据建设与应用至关重要。阐述了教育大数据的采集内容、采集方式、采集手段及标准与规范,并结合当前教育大数据建设与应用中的实际问题,分别从平衡数据共享与隐私保护、驱动数据治理与人才创新、创新采集机制与相关技术3个方面,对教育大数据采集研究提出对策与建议。

    关键词 教育大数据 ; 数据采集 ; 数据伦理 ; 数据治理

    论文引用格式:

    柴唤友,刘三女牙,康令云, 等.教育大数据采集机制与关键技术研究[J]. 大数据, 2020, 6(6): 14-25.

    CHAI H Y, LIU S N Y, KANG L Y, et al. Research on the mechanism and key technologies for big data collection in education[J]. Big Data Research, 2020, 6(6): 14-25.


    1 引言

    中共中央、国务院印发的《中国教育现代化2035》和《加快推进教育现代化实施方案(2018—2022年)》明确指出,加快教育现代化是赶超世界先进教育水平的重要战略部署。为实现这一目标,教育工作者和研究者需要充分运用新理念、新模式、新技术激发教育创新能力,培养适应时代发展的创新型人才。作为现今新兴信息技术发展的重要构成部分,大数据已成为驱动新一轮教育变革和发展的核心力量,强力赋能我国的现代化教育事业。

    教育大数据指在所有教育活动过程中产生的以及依据教育需求采集到的,一切用于教育发展并能创造巨大潜在应用价值的数据集合。作为大数据的一个子集,教育大数据特指教育领域的大数据,具有驱动教育决策科学化、学习方式个性化、教学管理人性化和评价体系全面化的价值潜能。在教育大数据的建设与应用过程中,如何对相关数据进行采集、分析和应用是三大核心研究问题。其中,数据采集是基础,决定着教育大数据分析和应用的质量,并最终影响着教育大数据价值潜能的实现程度。然而,当前教育界学者对教育大数据的采集机制和技术尚未达成共识,存在一些有待解决的关键问题,如:教育大数据究竟包含哪些内容?如何采集?涉及哪些关键技术?需要遵守哪些标准与规范?针对上述问题的研究有助于推动大数据在教育领域中的大规模成功应用,并深化我国教育现代化的改革与发展。

    2 教育大数据采集内容

    教育大数据涉及的数据内容普遍存在场景多样、量化困难、汇聚复杂等特点。具体而言,场景多样是指教育大数据来源于众多与教育或学习相关的场景,如教学活动、科研活动、社交活动等相关场景;量化困难源于教育场景的多样性、人的不确定性以及人、机、物之间交互的复杂性等因素;汇聚复杂是因为教育大数据具有来源多样化、结构异质化和内容复杂化等特点。

    由于上述特点的存在,教育大数据的采集内容框架呈现出基于不同分类标准的多元化特点,目前较为常见的是依据数据采集场景来区分不同类别的教育大数据。根据数据采集场景的差别,教育大数据一般可被分为教育管理数据、教育教学数据、科学研究数据、室外学习数据、校园生活数据、成长经历数据6个类别。每种类别的教育大数据分别涉及不同的数据主体、数据来源和数据内容,见表1。

    教育管理数据来源于各种不同类型的教育管理活动,即管理者通过组织协调教育队伍并借助教育内部各种有利条件,高效达成教育管理目标的活动过程。该过程通常涉及学生、教师、学校和其他相关机构等主体,可产生学校管理信息(如特等教师数量、教职工学历信息等)、行政管理信息(如教育行政部门设置的大学专业门类信息)、教育统计信息(如班级规模、性别分布信息等)等。

    教育教学数据是指师生在(线上或线下)教和学的活动过程中产生的数据,通常涉及学生、教师、教育资源和教育设备等主体。通过学生、教师与教育资源、教育设备间的交互,教学场景可以产生学生和教师的行为和状态信息(如学生的学习策略、学习动机,教师的课前准备度和教学策略等)、教育资源信息(如PPT课件、微课、软件等)、教育设备运行信息(如设备损耗、故障信息等)等。

    科学研究数据是指学生(特别是研究生)在开展科学研究活动时产生的一系列数据内容,通常涉及学生、教师、论文、科研设备和科研材料等主体。相应地,科研活动中可以产生科研设备操作信息(如错误操作类型及数目等)、论文发表信息(如实际贡献、发表时间、发表期刊名称及影响因子等)、科研材料与消耗信息(如化学或生物试剂等)、导师指导信息(如论文修改意见等)等。

    室外学习数据来源于学习者在教室外参与的一系列教育活动,如在动植物园中的生物习性研究、参观各种场馆、野外探险等。该活动通常由学习者主动发起,并由学习者自身进行调控和负责,涉及学习者以及与其交互的客观环境或对象。在室外学习场景中,研究者通常可以采集学习者与客观环境或对象之间的交互信息,如感知内容、互动记录、活动体验等。

    校园生活数据是指学习者在校园非学习活动(如餐饮、上网、健身、社交等)中产生的各类数据,通常涉及学生、网络、健身设备、刷卡机、社交工具等主体。通过参与上述非学习活动,学习者可以产生餐饮消费信息(如饮食类型及价格、就餐时间等)、上机上网信息(如上网时间、网络活动类型等)、健身洗浴信息(如健身和洗浴的时间和频率等)、社会交往活动信息(如好友数量、联系频率等)等。

    成长经历数据是指伴随学生成长(从出生到现阶段)而产生的各种环境(包括家庭环境、社会环境、校园及班级环境)数据,涉及学生、家长、教师、社会环境等诸多主体。在成长过程中,学习者可以产生一系列同个人成长经历有关的环境信息,如家庭经历(如家长文化素养、职业特点)、校园经历(如学校规章制度、教师特点)和社会环境(如社会风气、社会期望)等。

    总而言之,上述6个类别的数据相辅相成、相互促进,共同构成了教育大数据全面且丰富的采集内容。

    3 教育大数据采集方式

    由于数据来源多样(如国家、区域、学校、班级和个体等不同来源)且形式不一(如结构化、半结构化以及非结构化数据共存),教育大数据的采集方式也相应具有多样化特点。总体而言,教育大数据的采集方式主要包括集中式采集、伴随式采集和周期性采集3种。其中,集中式采集侧重于数据采集的统一性,伴随式采集侧重于数据采集的实时性,而周期性采集侧重于数据采集的连续性。

    (1)集中式采集

    集中式采集是指教育管理机构借助教育管理活动而统一开展的数据获取方式。例如,对学生在家庭情况、校园生活和学习环境3方面的成长经历数据进行统一采集。在教育大数据视域下,不同机构、不同单位采集的不同层次、不同类型的信息不再相互割裂,而是可以得到整合和管理,因此有助于研究者获得针对特定分析对象的全面且丰富的理解。集中式采集的教育大数据主要以结构化和结果性数据为主,具有覆盖面广、标准化程度高、关注层面相对宏观的基本特点。其中,覆盖面广是指相关数据内容涵盖广泛,包括学生个体层次、家庭层次和学校层次等多方面的内容;标准化程度高是指相关数据内容一般具有统一的采集标准,易于分析和处理;关注层面宏观是指相关数据内容通常指向特定分析单元的教育发展整体状况,具有宏观性。

    (2)伴随式采集

    伴随式采集是指借助教育信息管理系统(如特定课程管理系统)应用在管理过程中实时产生教育基础数据而开展的数据获取方式。例如,学习(或课程)类系统会全程记录学习者的在线行为数据,如学习时长、鼠标点击次数及频率、论坛读帖和发帖的次数和时间、作业和考试次数等;管理类系统会有效记载学校的资产和人事信息,如学籍管理、教学设备、教务科研、财务人事以及校园安全与生活等数据。在教育大数据视域下,智能化数据采集除了关注学生的在线表现,还重视学生线下的学习、练习或实践等过程性数据,例如,利用可穿戴设备可自然真实地抽取学生实践练习中的生理表征和行为习惯,而无须过多的人工干预。通过全域式网络架构与学生随身携带的新型便携式智能传感器,新型数据采集系统可实现伴随式采集学生学习的全过程数据(除了学生的常规学习过程信息,还包括个人提交的作品信息、社会实践相关信息等)的目标。伴随式采集的教育大数据以过程性数据为主,普遍具有密集性、动态性、复杂性、全面性等特点。其中,密集性是指相关数据内容产生的速度和数量级别均远远高于常规总结式采集方式,动态性是指相关数据内容一直处于持续、动态的定位与追踪之中,复杂性是指相关数据内容通常类型多样、结构异质,全面性是指相关数据内容能够完整记录所有与学生学习相关的信息。

    (3)周期性采集

    周期性采集是指利用特定教育管理软件对学习环境、教学过程、教育质量等进行周期性监控和测量的数据获取方式。例如,学生在入校之初会被统一要求登记身心健康信息、家庭基本信息;学校会定期更新全体教职工基础信息、教育设备运行信息、行政管理信息、人事资产信息和学校管理信息等。在教育大数据视域下,个体、专业、学校等不同层次不同类型的数据内容皆可被纳入周期性采集的对象范围内。周期性采集的教育大数据在数据类型上同时包含过程性和结果性数据,在分析层次上以整体性层次(较少关注学生个体的教育发展水平)为主,具有连续性、规范性和充分性的基本特点。其中,连续性是指相关数据内容应多次采集,以确保客观评估;规范性是指相关数据内容的采集应符合特定情况下的技术规范,以保证后续数据的一致化分析和处理;充分性是指相关数据内容的采集可从多个路径和渠道获得,以保证数据的多样性。

    4 教育大数据采集手段

    构建多样化的数据采集手段有助于扩展教育大数据采集的广度和深度。目前,教育大数据的采集手段主要有平台采集(针对在线人机交互时产生的学习过程数据)、视频录制(针对线下教学环境中学习者交互的视频音频数据、校园安全数据等)、图像识别(针对学习过程中的图像类数据)、物联感知(针对校园环境下产生的学习者的学习生活数据及个人生理数据)等。

    (1)平台采集

    平台采集是指借助各种与教育或学习相关的移动或桌面应用平台,获取教育数据内容的方法或手段。随着教育信息技术的不断发展,越来越多的移动或桌面应用平台被应用在教育领域中,利用这些平台进行教育数据采集也随之成为可能。目前,基于平台采集的教育数据采集技术主要涵盖平台自动记录技术、日志搜索分析技术、移动App技术和网络爬虫采集技术等。

    平台自动记录技术是指基于在线学习与管理平台内的嵌入式数据采集系统,自动记录并获取学习者的在线学习行为数据(如平台登录次数、驻留时间等)的技术。由于在线学习与管理平台使用人数的迅猛增长,基于该技术开展教育数据挖掘已成为当前教育大数据研究领域的一大热点。例如,来自斯坦福大学的Bihani A等人在进行在线学习成绩预测时,从Piazza在线论坛中挖掘了学生登录总天数、查看帖子数、提出问题数、回答问题数等量化数据。

    日志搜索分析技术是指针对教育或学习应用平台中发生的所有事件(如学习者访问记录、运维工作记录等)进行记录并分析的技术。基于数据驱动或理论驱动方法,教育研究者可以利用该技术发现学习者的在线表现特点及其规律。例如,悉尼大学的McBroom J等人在考察周练习任务中学习者行为与其期末考试成绩之间的联系时,对来自该学校初级计算机科学数据结构课程的494名学生的程序评估提交和测试应用(programming assessment submission and testing application,PASTA)平台的练习日志数据进行了长期行为分析。

    移动App技术是指利用教育App采集学生学习(过程性或结果性)数据的技术。典型的相关技术工具有国外的化学实验模拟类ChemCrafter、数学教程视频类Virtual Nerd mobile Math、新闻阅读类Newsela、教育互动类eduClipper等,以及国内的小猿搜题、猿辅导、扇贝单词等不同类型的教育App。移动App可被用于辅助传统教育,因此基于该类应用采集的数据可作为教育大数据分析内容的强力补充。

    网络爬虫采集技术一般是指依据一定准则,借助特定程序或者脚本自动捕获网页信息的技术。目前应用较多的爬虫框架采集方法包括基于Hadoop平台开发的Chukwa、基于Facebook的Scribe、基于LinkedIn的Kafka以及基于Cloudera的Flume等。在教育领域中,该技术可被用于捕获并分析教育应用平台中的文本信息,如学生在异步论坛中发布的帖子、校园贴吧中的舆情信息等。

    (2)视频录制

    视频录制是指对源于计算机硬件终端和计算机视窗环境内的视频内容加以录制的方法或手段。典型的录制模式包括捕捉摄像头、摄像机、数码相机、硬盘录像机等硬件视频,以及可录制计算机视窗内容的游戏视频和电影视频等。目前,视频录制手段涉及的教育数据采集技术主要有视频监控技术和视频录播技术等。

    视频监控技术是指借助视频监控设备检测、监视特定物理区域,实时展示、记录现场图像,或支持搜索和展示历史图像的技术。在教育领域中,该技术可被用于监控校园环境,提供关于校园安全的数据信息。例如,一些企业开发的校园网格化监控系统可实现实时监控校园环境的目标。

    视频录播技术一般是指可在教师现场授课的同时,自动产生课堂教学实况录像,并完整录制教师授课全过程的技术。该技术可在无须专人操作控制的条件下录制整个教学过程,因此极大地方便了视频课程资源的制作和记录。例如,国内一些公司开发的便携录播视频工具能够实现基于无线摄像机的全场景拍摄目标。

    (3)图像识别

    图像识别是指对特定物理图像进行对象检测,以识别各种不同模式的目标和对象的技术。作为人工智能的重要研究领域之一,图像识别在教育领域有广泛的应用,如网评网阅技术、点阵数码笔技术和拍照搜题技术等。

    网评网阅技术是指以电子扫描技术和计算机网络技术为基础,将多年来人工阅卷积累的丰富经验与现代信息技术相整合的一种先进、科学、高效的自动化评分方式。相比传统人工评阅方法,网评网阅技术能够极大地降低广大教师的工作负担,并支持更为精准科学的教育教学评价。例如美国教育考试服务中心开发的TextEvaluator以及科大讯飞开发的智能阅卷技术,后者已于2017年在襄阳中考中率先使用,目前已被广泛应用于上海、青岛等城市的中考阅卷。

    点阵数码笔技术是指一种通过数码笔前端的高速摄像头实时捕捉笔尖在印刷了一层隐形点阵图案的纸张上的运动轨迹,同时压力传感器将压力数据传回数据处理器,然后将相关信息通过蓝牙或者USB向外传输的新型书写技术。不同于传统纸笔书写,该技术能够记录纸张类型、笔尖坐标、笔尖压力等信息,并支持本地存储及远程传播功能。根据应用类型的不同,点阵数码笔技术可被划分为:支持个人笔记作业管理的DoTnore数码笔,其书写内容可被同步保存到电脑、平板和手机上;支持教学课堂交互的Symphony数码笔,其特点是可以多人同时使用,而且结果可被同步到教师电脑上;支持远程教学会议的Tnote数码笔,该技术能够突破基于视频、语音、键盘的传统交互方法,打破时间空间限制,从而提供纸面书写的交流方式。

    拍照搜题技术是指通过拍照、语音等方式帮助用户快速找到疑难问题的答案的技术。该技术融合了扫描、识别、检索等技术手段和海量题库大数据,有助于学生提升学习效率,并实时采集学生作业练习数据。目前国内作业帮、小猿搜题、学霸君、网易有道词典等教育产品均可实现该功能,其中作业帮还根据学生、家长、老师三大群体进行了拍照搜题功能的细化区分。

    (4)物联感知

    物联感知是指基于现有和正在发展中的可互操作的信息通信技术,通过互连(物理和虚拟)事物来实现测评特定对象的一种全球性基础设施或技术增强型解决方案。由于物联网具有无处不在的特性,学校和学术机构正在寻求将物联感知纳入教育活动,以解决教育部门的各种模式、目标、主题和观念问题,最终使学生、教师和整个教育系统受益。现有教育领域内的物联感知采集手段主要包括物联网感知技术、可穿戴技术、非接触式感知技术、校园一卡通技术和多模态融合技术等。

    物联网感知技术一般是指被用于物联网底层(即物理世界中发生的具体物理事件)感知信息的技术,在教育领域主要指多媒体信息采集技术。通过多媒体信息采集技术,多媒体计算机系统中的主机能够随时采集各种多媒体外接设备的状态(视频或音频)信息,从而为相关(教学)设备的精确调整提供信息支撑。例如,Cook C等人通过使用自动语音识别设备对来自两个州7所学校14名教师的132堂课进行音频录制,能够实现课堂效果评估和学生成绩预测的目标。前谷歌工程师Ventilla M创办的Altschool中的Alt Video系统通过各种传感器、摄像头和麦克风综合采集学生课堂行为数据,有助于改进教学过程和教学系统。

    可穿戴技术是指利用可直接穿戴在用户身上或嵌入用户衣饰或配件内的设备(如智能手环、谷歌眼镜)开展数据采集的技术。通过可穿戴设备,学习者个体的生理状态及学习行为数据能够得到实时的记录和存储。例如,在学生的语音指令下,集成了麦克风、耳机以及微型摄像头的谷歌眼镜可以开展拍照摄像,从而实现及时保存教师板书内容的功能。

    非接触式感知技术是以光电、电磁等技术为依托,在不接触被测对象的情形下,获取其基本信息的科学技术或手段。在教育领域中,该技术强调在不产生干扰的情况下采集学习者的生理与行为数据,有助于实现针对学习者信息(认知、行为及情感)的自动化和非侵扰式采集。例如,为了分析学生的注意力,Millsa C等人、Stewart A等人借助Logitech C270摄像头和Tobii TX 300眼动仪,对观看《红气球》电影的60名参与者进行了生理和行为数据采集。

    校园一卡通技术是指基于将智能卡物联网技术、计算机网络的数字化理念融合于校园日常管理而开展的统一管理身份认证、人事、学工等信息的应用解决方案。该技术能够统一记录并采集学习者的金融消费、图书借阅和考勤等校园生活信息,是构建“数字化校园”和“智慧校园”的重要组成部分。例如,华东师范大学率先利用学生的一卡通餐饮消费数据,对经济困难的学生提供情感抚慰和助学金支持,这体现了基于物联感知数据的人性化关怀。

    多模态融合技术一般是指联合图像、文本、语音等多模态信息进行目标检测或识别的技术。在教育领域中,该技术可被用于分析与学习者相关的多维度数据,以识别和解释内在学习过程、特征和变化,最终助力学习者学习体验和学习绩效的提升。其中,情感识别技术被认为是多模态融合技术在教育领域中的典型应用。如何基于教学视频中的视频、音频和文本等多样化信息判断学习者学习过程中的情感状态,是教育领域内相关学者正在关注且亟须解决的关键问题。例如,Wampfler R等人使用触控笔、数位板、生物传感器(Empatica E4、Shimmer GSR、GoPro HERO3)等产生的多模态数据,分析88位参与者在解决数学任务时的情感状态;Vail A等人在分析学生参与Java编程课程时的情感反应时,综合采集了学生的手势、姿势、面部表情变化和皮肤电活动等信息。

    5 教育大数据采集标准与规范

    出于教育科学研究和大数据研究的学术目标和伦理要求,许多研究机构或组织针对教育大数据的不同方面制定了一系列基本标准与规范,如描述学习者信息的朋友的朋友(friend of a friend, FOAF)规范、面向教学内容的学习目标元数据(learning object metadata,LOM)标准、全国信息技术标准化技术委员会教育技术分技术委员会(China E-Learning Technology Standardization Committee, CELTSC)构建的教学评价标准等。但总体而言,这些标准与规范大多针对教育大数据的不同主体、不同层次和不同教育过程,缺少针对教育大数据采集方面的标准与规范。

    依据教学活动的不同构成部分,可将教育大数据采集标准划分为下述5类:教学主体类、教学评测类、教学资源类、教学管理类和教学过程类。教学主体类标准是指针对学生、家长、教师、教研员和教学管理者等制定的采集标准,包括伦理(即针对学生隐私保护的规范)和权益(如学生的知情同意权、自由参与权)方面的规范等。教学评测类标准是指针对教学目标、知识能力、信息素养、教学能力等的评测而制定的采集标准,如术语方面的规范(如对评测指标的命名方式及其特点的定义方式等)。教育资源类标准是指为统一描述、封装与重组不同形式、不同粒度、不同格式的教学资源而制定的采集标准,如格式(如资源数据的记录方式)方面的规范。教学管理类标准是指针对指向管理需求的一系列基本信息和管理数据(如学生教师数据、学校数据和基础设施数据等)而制定的采集标准,如过程(即依据管理活动类型而确定的数据采集流程)方面的规范。教学过程类标准是指为描述教学过程中教学主体与教学内容(如课程、资源等)、教学环境(如传统教室、户外学习环境)及其他教学活动参与者之间的交互经历而制定的采集标准,如支撑技术(如采集工具类型及其使用方式)方面的规范。5种类别的采集标准通过有机结合,共同构成了教育大数据采集标准与规范的复杂内涵。

    6 挑战与展望

    数据采集是教育大数据建设与应用的基础和关键,针对其机制与技术的研究不仅关系着教育大数据采集的数量与质量,还影响着后续的分析及应用过程,因此对教育大数据发挥其教育潜能至关重要。然而目前,教育大数据采集机制与技术研究仍存在许多问题,在教育数据伦理、教育数据治理和教育数据采集规范等方面面临诸多挑战,因此需要研究者加以关注并解决。

    (1)数据共享与隐私保护的平衡挑战

    作为一种特殊的大数据资源,教育大数据需要适度向社会和公民开放,但由此会产生隐私泄露、数据滥用等潜在风险,因此教育大数据的隐私保护和安全问题必须得到重视和解决[28]。首先,应明确采集用户或研究目的。其次,有必要采取特定措施,以确保数据主体对数据采集享有知情同意权,防止侵犯个人隐私。应开发更先进、安全系数更高的技术手段来保障教育数据安全,以避免教育隐私数据泄露和数据滥用等问题。同时,应规范数据开放与共享的流程,以防止操作不当带来的数据泄露问题。最后,应加快制定“教育大数据安全管理办法”,从制度层面保障数据主体的隐私安全。

    (2)数据治理与人才创新的驱动挑战

    在教育信息化2.0时代,各种教育场景无时无刻不在产生海量的、多来源的、多种结构类型的数据,如何协同教育相关部门开展高效的数据治理,是教育大数据建设与应用过程中必须面临和解决的一大核心问题。首先,应充分发挥各类教育相关主体(包括政府、学校、企业等)在建设与应用教育大数据上的独特优势,驱动教育大数据采集的来源多样性和内容全面性;其次,应尽快确立教育大数据治理的相关方法和机制,推动教育大数据治理的规范化、制度化和常态化;最后,应大力培养教育大数据治理人才,鼓励支持技术创新,助力教育大数据治理的有效性和高效性。

    (3)采集机制与相关技术的创新挑战

    借鉴(广义)大数据领域的相关研究成果,教育大数据已在数据采集方面积累了一定的知识与经验。但和其他领域的相关研究类似,教育大数据采集研究也存在一些机制与技术上的“通病”,有待未来研究者加以关注和解决。首先,针对教育领域内的密集型数据,如何保证数据采集的可靠性、如何确保采集的数据质量、如何避免出现重复数据等,都需要通过更新现有的采集机制和相关技术加以解决。其次,现有的教育大数据采集技术虽然在一定程度上能够解决传统数据采集方式的一些缺陷,但也会带来一些新的问题,如测量精度不高、受环境影响较大等。因此,未来有必要探索更为稳定且精准的新型采集技术。再次,考虑到教育场景的多样性和复杂性,在针对特定教育场景开展数据采集时,有必要选择合适的采集机制与技术,“因地制宜”,以确保数据采集的有效性和可靠性。最后,为了使教育大数据能够发挥最大效力,未来还可考虑采集并融合学习者的“个体性数据”,以支持和推动个性化学习服务,达成“因材施教”的核心教育目标。

    7 结束语

    随着现代信息技术的迅猛发展,教育大数据正以全新方式驱动教育决策、学习方式、教学管理和评价体系的智能化和信息化。其中,数据采集作为教育大数据建设与应用中的基础性过程,是实现教育大数据价值潜能的关键。本文概述了教育大数据的采集内容、采集方式、采集手段及采集基本规范。在此基础上,进一步探讨了教育大数据采集研究面临的问题和挑战,并指出了未来的潜在研究方向。未来要继续深入探讨教育大数据建设与应用中的数据采集问题,强力推动大数据赋能教育事业,从而确保实现教育现代化的最终目标。

    作者简介

    柴唤友(1990-),男,华中师范大学国家数字化学习工程技术研究中心博士生,主要研究方向为教育数据挖掘、学习分析、教学心理与行为分析 。

    刘三女牙(1973-),男,博士,华中师范大学教授、人工智能教育学部副部长,国家数字化学习工程技术研究中心、教育大数据应用技术国家工程实验室常务副主任。教育部新世纪优秀人才支持计划和湖北省新世纪高层次人才工程入选者,湖北省政府专项津贴专家,主要研究方向为教育大数据、智能教育及教育技术,目前担任教育部高等学校教学信息化与教学方法创新指导委员会教育技术专业教学指导分委员会委员、中国教育发展战略学会教育大数据专业委员会副理事长、全国信息技术标准化技术委员会教育技术分技术委员会委员、《大数据》期刊编委等。先后主持国家重点研发计划、国家科技支撑计划、国家自然科学基金、国家社会科学基金等项目20余项,荣获高等学校科学研究优秀成果奖(科学技术)科学技术进步奖一等奖1项,湖北省科技进步奖一等奖2项、二等奖1项,高等教育国家教学成果奖二等奖1项,湖北省高等学校教学成果奖一等奖1项 。

    康令云(1995-),女,华中师范大学国家数字化学习工程技术研究中心博士生,主要研究方向为学习分析、在线协作学习 。

    张雅娴(1996-),女,华中师范大学国家数字化学习工程技术研究中心硕士生,主要研究方向为大数据分析、图像识别 。

    李卿(1982-),女,博士,华中师范大学教育大数据应用技术国家工程实验室副教授,主要研究方向为教育科学战略、教育大数据与感知计算。

    刘智(1986-),男,博士,华中师范大学教育大数据应用技术国家工程实验室副教授,主要研究方向为教育数据挖掘、情感计算与学习行为分析 。

    联系我们:

    Tel:010-81055448

           010-81055490

           010-81055534

    E-mail:bdr@bjxintong.com.cn 

    http://www.infocomm-journal.com/bdr

    http://www.j-bigdataresearch.com.cn/

    转载、合作:010-81055537

    大数据期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

    关注《大数据》期刊微信公众号,获取更多内容

    展开全文
  • 大数据采集

    千次阅读 多人点赞 2018-04-03 14:52:12
    二、大数据采集设备 1.科研数据 (1)大型强子对撞机 (2)射电望远镜 (3)电子显微镜 2.网络数据 我们可以利用数据中心采集网络中的数据。 三、大数据采集方法 1.科研数据 2.网络数据 爬虫(慎用) 3....

    一、大数据的来源
    1.人类活动
    2.计算机
    3.物理世界
    二、大数据采集设备
    1.科研数据
    (1)大型强子对撞机
    (2)射电望远镜
    (3)电子显微镜
    2.网络数据
    我们可以利用数据中心采集网络中的数据。
    三、大数据采集方法
    1.科研数据
    2.网络数据
    爬虫(慎用)
    3.系统日志
    (1)Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量应用。Scribe架构如下图所示:
    这里写图片描述
    (2)Chukwa
    Chukwa提供了一种对大数据量日志类数据采集、存储、分析和展示的全套解决方案和框架。Chukwa结构如下图所示:
    这里写图片描述
    四、大数据预处理技术
    1.目前存在四种主流的数据预处理技术:数据清理、数据集成、数据规约和数据变换。
    2.数据处理的主要任务
    (1)数据处理的主要步骤:数据清理、数据集成、数据规约和数据变换。
    (2)数据清理例程通过填写缺失值、光滑噪声数据、识别或者删除离群点并且解决不一致性来“清理数据”。
    (3)数据集成过程将来自多个数据源的数据集成到一起。
    (4)数据规约的目的是得到数据集的简化表示。数据规约包括维规约和数值规约。
    (5)数据变换使用规范化、数据离散化和概念分层等方法使得数据的挖掘可以在多个抽象层上进行。数据变换操作是引导数据挖掘过程成功的附加预处理过程。
    3.数据清理
    (1)缺失值
    对于缺失值的处理一般是想法设法把它补上,或者干脆弃之不用。一般处理方法有:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组属同一类的所有样本的属性均值或中位数、使用最可能的值填充缺失值
    (2)噪声数据
    噪声是被测量变量的随机误差或方差。去除噪声、使数据“光滑”的技术:分箱、回归、离群点分析
    (3)数据清理的过程
    数据清理过程主要包括数据预处理、确定清理方法、校验清理方法、执行清理工具和数据归档。
    数据清理的原理是通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法去清理“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。
    数据分析主要有两种方法:数据派生和数据挖掘。
    五、数据集成
    1.实体识别
    2.冗余和相关分析
    冗余是数据集成的另一个重要问题。有些冗余是可以被相关分析检测到的,例如,数值属性,可以使用相关系数和协方差来评估一个属性随着另一个属性的变化。
    3.数据冲突的检测与处理
    六、数据变换与数据离散化(重点)
    1.数据变换的常用方法
    (1)中心化变换。中心化变换是一种坐标轴平移处理方法。
    (2)极差规格化变换。规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,且二者的差称为极差。
    (3)标准化变换。标准化变换是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。
    (4)对数变换。对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。对数变换的用途:使服从对数正态分布的资料正态化;将方差进行标准化;使曲线直线化,常用于曲线拟合。
    2.数据离散化
    数据离散化的目的:
    (1)算法需要。例如,决策树和朴素贝叶斯本身不能直接使用连续型变量
    (2)离散化可以有效克服数据中隐藏的缺陷,使模型结果更加稳定。
    (3)有利于对非线性关系进行诊断和描述。
    数据离散化的原则:
    (1)等距
    等距可以保持数据原有的分布,段落越多对数据原貌保持得越好。
    (2)等频
    等频处理则把数据变换成均匀分布,但其各段内观察值相同这一点是等距分割做不到的。
    (3)优化离散
    需要把自变量和目标变量联系起来考察。切分点是导致目标变量出现明显变化的折点。常用的检验指标有信息增益、基尼指数或WOE(要求目标变量是两元变量)。
    数据离散化方法:
    聚类
    决策树
    相关分析(ChiMerge)

    展开全文
  • 大数据采集技术综述

    万次阅读 2018-06-05 17:31:09
    近年来,以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球。随着网络和信息技术的不断普及,人类产生的数据量正在呈... 面对如此巨大的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题...

            近年来,以大数据、物联网、人工智能、5G为核心特征的数字化浪潮正席卷全球。随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。世界上每时每刻都在产生的大量的数据,包括物联网传 感器数据、社交网络数据、商品交易数据等等。 面对如此巨大的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题。如何收集这些数据并且进行转换分析存储以及有效率的分析成为巨大的挑战。需要有这样一个系统用来收集这样的数据,并且对数据进提取、转换、加载。

            本节就介绍这样一个大数据采集技术。什么是大数据采集技术?大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。ETL,是英文 Extract-Transform-Load 的缩写,数据从数据来源端经过抽取(extract)、转换(transform)、加载(load)到目的端,然后进行处理分析的过程。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中去,最后对数据仓库中的数据进行数据分析和处理。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于采集的数据种类错综复杂,对于这种不同种类的数据。我们进行数据分析,必须通过提取技术。将复杂格式的数据,进行数据提取,从数据原始格式中提取(extract)出我们需要的数据,这里可以丢弃一些不重要的字段。对于数据提取后的数据,由于数据源头的采集可能存在不准确。所以我们必须进行数据清洗,对于那些不正确的数据进行过滤、剔除。针对不同的应用场景,对数据进行分析的工具或者系统不同,我们还需要对数据进行数据转换(transform)操作,将数据转换成不同的数据格式,最终按照预先定义好的数据仓库模型,将数据加载(load)到数据仓库中去。

    在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同。对于大数据采集系统,主要分为以下三类系统:

            一、系统日志采集系统许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。目前常用的开源日志收集系统有Flume、Scribe等。 Apache Flume是一个分布式、可靠、可用的服务,用于高效地收集、聚合和移动 大量的日志数据,它具有基于流式数据流的简单灵活的架构。其可靠性机制和许多故障转移和恢复机制,使Flume具有强大的容错能力。Scribe是Facebook开源的日志采集系统。Scribe实际上是一个分布式共享队列,它可以从各种数据源上收集日志数据,然后放入它上面的共享队列中。Scribe可以接受thrift client发送过来的数据,将其放入它上面的消息队列中。然后通过消息队列将数据Push到分布式存储系统中,并且由分布式存储系统提供可靠的容错性能。如果最后的分布式存储系统crash时,Scribe中的消息队列还可以提供容错能力,它会还日志数据写到本地磁盘中。Scribe支持持久化的消息队列,来提供日志收集系统的容错能力。

            二、网络数据采集系统。通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博API)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。并将其提取、清洗、转换成结构化的数据,将其存储为统一的本地文件数据。目前常用的网页爬虫系统有Apache Nutch、Crawler4j、Scrapy等框架。Apache Nutch是一个高度可扩展和可伸缩性的分布式爬虫框架。Apache通过分布式抓取网页数据,并且由Hadoop支持,通过提交MapReduce任务来抓取网页数据,并可以将网页数据存储在HDFS分布式文件系统中。Nutch可以进行分布式多任务进行爬取数据,存储和索引。由于多个机器并行做爬取任务,Nutch利用多个机器充分利用机器的计算资源和存储能力,大大提高系统爬取数据能力。Crawler4j、Scrapy都是一个爬虫框架,提供给开发人员便利的爬虫API接口。开发人员只需要关心爬虫API接口的实现,不需要关心具体框架怎么爬取数据。Crawler4j、Scrapy框架大大降低了开发人员开发速率,开发人员可以很快的完成一个爬虫系统的开发。

            三、数据库采集系统。一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。企业每时每刻产生的业务数据,以数据库一行记录形式被直接写入到数据库中。通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中,最后由特定的处理分许系统进行系统分析。

            针对大数据采集技术,目前主要流行以下大数据采集分析技术。Hive是Facebook团队开发的一个可以支持PB级别的可伸缩性的数据仓库。这是一个建立在Hadoop之上的开源数据仓库解决方案。 Hive支持使用类似SQL的声明性语言(HiveQL)表示的查询,这些语言被编译为使用Hadoop执行的MapReduce作业。另外,HiveQL使用户可以将自定义的map-reduce脚本插入到查询中。该语言支持基本数据类型,类似数组和Map的集合以及嵌套组合。 HiveQL语句被提交执行。首先Driver将查询传递给编译器compiler,通过典型的解析,类型检查和语义分析阶段,使用存储在Metastore中的元数据。编译器生成一个逻辑任务,然后通过一个简单的基于规则的优化器进行优化。最后生成一组MapReduce任务和HDFS Task的DAG优化后的Task。 然后执行引擎使用Hadoop按照它们的依赖性顺序执行这些Task。Hive简化了对于那些不熟悉Hadoop MapReduce接口的用户学习门槛,Hive提供了一些列简单的HiveQL语句,对数据仓库中的数据进行简要分析与计算。

            在大数据采技术中,其中有一个关键的环节就是transform操作。它将清洗后的数据转换成不同的数据形式,由不同的数据分析系统和计算系统进行处理和分析。将批量数据从生产数据库加载到Hadoop HDFS分布式文件系统中或者从Hadoop HDFS文件系统将数据转换为生产数据库中,这是一项艰巨的任务。 用户必须考虑确保数据一致性,生产系统资源消耗等细节。使用脚本传输数据效率低下且耗时。Apache Sqoop就是用来解决这个问题,Sqoop允许从结构化数据存储(如关系数据库,企业数据仓库和NoSQL系统)轻松导入和导出数据。使用Sqoop,您可以将来自外部系统的数据配置到HDFS上,并将表填入Hive和HBase中。运行Sqoop时,被传输的数据集被分割成不同的分区,一个只有mapper Task的Job被启动,mapperTask负责传输这个数据集的一个分区。Sqoop使用数据库元数据来推断数据类型,因此每个数据记录都以类型安全的方式进行处理。

    展开全文
  • 探码科技自主研发的Dyson智能采集系统实现数据采集,处理到应用的全生命周期管理。Web爬虫,另类数据,网页解析及采集自动化。 业务覆盖多个行业,致力于大数据产业生态链的构建,我们采用先进的技术,实现数据从...
  • 大数据采集技术概述

    万次阅读 2019-06-25 21:59:57
    大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。 数据包括 RFID 数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、...
  • 1、爬虫技术的应用可以分为两类:采集型爬虫、监测型爬虫。 2、根据 Web 页面组成结构中的信息内容的生成方式不同,可以将 Web 页面分为静态页面、动态页面、以及伪静态页面三类。 3、Robots 协议为了给 Web...
  • 大数据采集方法

    千次阅读 2020-07-18 16:59:51
    大数据采集 是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。 数据 数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构...
  • 大数据采集与预处理技术

    千次阅读 2020-05-30 11:12:47
    数据采集 (系统日志采集,互联网数据采集,ETL) 在网上采集各种信息 数据预处理(数据清理,数据集成,数据变换,数据规约) 采集到信息杂乱,需要处理 数据存储 ( HDFS,NoSQL,云存储) 处理完数据我们要把它...
  • 通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。 为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。 系统日志采集系统做的事情就是收集日志数据提供...
  • Hadoop&大数据采集

    千次阅读 2019-05-15 09:58:16
    Hadoop HDFS 1.基于HDFS的云盘系统设计与实现: ...HDFS能提供高吞吐量的数据访问, 采用“一次写入、多次读取”模式 http://kns.cnki.net/KXReader/Detail?TIMESTAMP=636879294442728750&DBC...
  • 公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群「上图是我在 2019年去青天河拍的照片」大家好,我是一哥,今天给大家讲解一下...
  • 转载请注明来自: 乐投网-大数据采集主流平台架构对比分析汇总 随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:   Apache Flume Fluentd Logstash...
  • 大数据采集的技术

    千次阅读 2019-05-21 20:53:09
    通过对这些日志信息进行日志采集、收集,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线...
  • 智慧IT大数据采集技术概述技术创新变革未来大数据中数据采集概念数据采集(DAQ) 又称数据获取是指从传感器和其它待测设备等模拟和数字被测单元中自动及被动采集信息的过程数据分类新一代数据体系中将传统数据体系中...
  • 最全的大数据采集方法分类

    万次阅读 2019-10-18 17:10:19
    数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了。一、大数据环境下的数据处理需求大数据环境下数据来源非常丰富且数据类型多...
  • 租房大数据采集以及数据分析

    千次阅读 2019-09-11 11:58:16
    一、数据采集 采集网站:链家深圳租房 采集字段:房源名称、房源出租价格、房源优势、房源户型、房源面积、房源朝向、百度地图经度、百度地图纬度、发布时间、入住要求、租期、看房要求、楼层、电梯、车位、用水、...
  • 随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般...
  • 六款大数据采集平台的架构分析

    千次阅读 2017-09-29 18:06:06
    本文转自:《六款大数据采集平台的架构分析》 文中介绍了目前业界存在的六款数据采集平台,数据采集平台可以作为数据平台的日志采集系统,个人尝试过Flume+ES+Kibana这样的开源组合,为什么这么选,因为...
  • 大数据采集 01 — 概览 02 — 相关延展 系统日志数据的采集  Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它够从各种日志源上收集日志,存储到一个中央存储系统上,以便于...
  • 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路...
  • 大数据采集工具

    千次阅读 2018-11-18 09:55:33
    大数据是当下最火热的话题,对于一个公司来讲,如果要搭建自己的大数据平台,至少需要了解这个平台包含哪些过程: ...其中,数据采集又是必不可少的,因为当下数据源量,复杂,所以如何保证数据采集的可靠性,...
  • 肖乐 丛天伟 严卫摘要:该设计使用python语言作为开发语言,主要采用了两个框架:Scrapy和Django,用Scrapy来实现数据的采集技术,让数据采集效率更高,错误率低等;用Django来实现web网页展示数据可视化功能,使...
  • 一篇文章让你了解大数据采集技术

    千次阅读 2018-11-01 11:29:10
    大数据开启了一个规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5-1个百分点。大数据在核心领域的渗透速度...
  • 大数据采集及预处理

    千次阅读 2019-03-11 17:00:12
    1、简述什么是大数据的数据采集? 大数据的数据采集是在确定用户目标的基础上,针对该范围内所有的结构化,半结构化和非结构化的数据的采集,采集后对这些数据进行处理,从中分析和挖掘出有价值的信息。在大数据的...
  • 大数据采集技术和预处理技术

    千次阅读 2019-09-26 19:11:00
    在这篇文章中我们将会为大家介绍两种大数据技术,分别是大数据采集技术和大数据预处理技术,有兴趣的小伙伴快快学起来吧。 首先我们给大家介绍一下大数据的采集技术,一般来说,数据是指通过RFID射频数据、传感器...
  • 随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般...
  • 六大主流大数据采集平台架构分析

    万次阅读 2018-03-07 17:21:38
    日志收集的场景 DT时代,数以亿万计的服务器、移动终端、网络设备...随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache FlumeFluentdLogstashChukwaScribeSplunk Forwar

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 264,778
精华内容 105,911
关键字:

大数据采集