精华内容
下载资源
问答
  • 《中国电力大数据发展白皮书》是我国首个行业大数据白皮书,首次提出了电力大数据的定义和特征。电力信息化专委会作为我国唯一的电力行业信息化专业协会,充分听取了行业内外专家意见,完善了白皮书编制思路,...
  • 《促进大数据发展行动纲要》(国发[2015]50号)
  • 中国基础教育大数据发展蓝皮书.pdf
  • 国家政策不断发布,推动了政府和企业大数据发展;建设模式不断成熟,奠定了企业大数据基础;行业应用不断深入,提升了大数据价值显现。中国信息通信研究院作为国家级行业智库,伴随行业发展,汇集行业领军企业,连续...
  • 华为公司王东在2018年大数据及人工智能技术应用交流演讲做的报告“大数据发展趋势与华为实践”,主要涉及大数据发展趋势与挑战、华为FusionInsight大数据解决方案和华为FusionInsight大数据成功案例三方面的内容。
  • 中国电力大数据发展白皮书 中国电力大数据发展白皮书
  • 中国大数据发展调查报告(2017年)中国大数据发展调查报告(2017年)
  • 《促进大数据发展行动纲要》(国发[2015]50号)政策文件信息
  • 2018全球大数据发展分析报告-天府大数据研究院-201905.pdf
  • 智慧方案
  • 重点城市大数据发展指数报告
  • 2021重点城市大数据发展指数报告
  • 大数据发展现状与未来趋势.pdf
  • 本报告以调查数据为基础,结合行业专家的访谈,力争详实客 观的反映中国大数据发展现状,为政府和企业了解中国大数据发展状况和制定相关决策提供参考,也为广大关注大数据的从业人员、专家学者和研究机构提供真实...
  • 中国电信大数据发展专题报告65页,全。竞争对手大数据业务发展情况研究 1 大数据背景介绍 2 中国电信大数据战略及优势 3 中国电信大数据产品介绍 4 中国电信大数据商业模式 5 中国电信大数据职责分工 。
  • 大数据发展简史

    2018-10-24 14:22:28
    翻译Gil Press 在其博客中所撰写的关于大数据发展简史。
  • 探究我国为实现促进大数据发展的政策目标而构建的政策工具选择体系结构, 揭示大数据政策工具选择中存在的问题, 为优化我国促进大数据发展政策工具选择提供建议。 [ 方法 /过程] 构建由63 项聚焦大数据发展的政策...
  • 中国大数据技术大会对2020年大数据发展10大趋势预测,包括与人工智能等多学科的交叉、大数据安全、机器学习、知识图谱、数据治理、边缘计算等
  • 为推动大数据发展应用,运用大数据促进经济发展、完善社会治理、提升政府服务管理能力、服务改善民生,培育壮大战略性新兴产 业,根据有关法律、法规的规定,结合本省实际,制定本条例。
  •   大家好,我是不温卜火,昵称来源于成语—不温不火,本意是希望自己性情温和。...目录前言一、大数据时代到来的动因1.1 第三次信息化浪潮1.2 信息科技为大数据时代提供技术支撑1.2.1 存储设备容量不断增加1.2.

      大家好,我是不温卜火,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!博客主页:https://buwenbuhuo.blog.csdn.net/


    前言

    此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~
    2
    本文主要介绍了大数据发展历程及大数据的简单介绍,包括促进大数据时代到来的动因、大数据简介、大数据开发的一般过程、大数据的应用场景以及未来展望。

    一、大数据时代到来的动因

    1.1 第三次信息化浪潮

    根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。
    3

    1.2 信息科技为大数据时代提供技术支撑

    1.2.1 存储设备容量不断增加

    4
    根据上图我们可以清晰的看出存储价格随着时间的变化而变化。

    1.2.2 CPU处理能力大幅提升

    5
    根据上图我们可以清晰的看到CPU晶体管数目随着时间的变化而变化。

    1.3.1 网络带宽不断增加

    6
    根据上图我们可以清晰的看到网络带宽随着时间的变化而变化。

    在信息化基础设施方面,据工业和信息化部官网消息,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%;光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。同时,近五年来固定宽带和移动宽带资费平均下降90%,速率提升6倍。目前,我国已基本实现“城市光纤到楼入户,农村宽带进乡入村”。

    据中国信息通信研究院(简称中国信通院)数据,截至2020年2月底,全国建设开通5G基站达16.4万个,5G网络建设基础不断夯实。2020年中国将建设60万~80万个5G基站。

    1.3 数据生产方式的变革促成大数据时代的来临

    7

    二、大数据的简单介绍

    2.1 大数据的定义

    大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    2.2 大数据的特点(5V)

    9

    • 1、大量
      采集、存储和计算的数据量都非常大。
          
      随着科学技术的发展和互联网的普及,全球的数据量已经大到爆了,而传统的关系型数据库根本处理不了如此海量的数据。
          
      截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
    • 2、高速
      根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
      在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
    • 3、多样
      数据形式和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。其数据类型按照分类可划分为:
          
      ①结构化数据:
      Excel文件、csv文件等。
      结构化数据为表格形式的数据:每列数据类型相同,切不可再细分。
      ②半结构化数据:
      邮件、网页、JSON文件、日志文件等。
      这些数据的结构和内容混在一起,没有明显的区分。
      ③非结构化数据:
      图片、视频等
    • 4、真实
      确保数据的真实性,才能保证数据分析的正确性。
    • 5、低价值
      数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵 。
          
      互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。

    2.3 大数据的发展历程

    8

    2.4 大数据的关键技术

    下图为大数据技术的不同层面及其功能的解释:
    8
    大数据的两大关键技术分别为:分布式存储分布式处理
    8

    2.5 大数据计算模式

    8

    2.6 大数据产业

    大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
    9

    2.7 大数据与云计算、物联网的关系

    云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,在此就不过多赘述云计算和物联网。如有兴趣可自行查阅相关资料。
    9

    2.8 大数据开发的一般过程

    如果说公司有需求,比如说双十一实时大屏功能的实现:

    下图为实现过程分析:
    17
    如果我们想要完整实现的话,一般需要经过以下几个步骤:
    8
    下面分别介绍下这几个过程所用到的工具及其简单介绍。

    关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。

    2.8.1 数据采集

    数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。

    下面为一些常见的数据采集工具:

    1️⃣ 普通
    1、python网络爬虫

    Urllib:HTTP请求库,用于请求、下载网页

    Requests:基于Urllib,但更加快捷方便

    Scrapy:爬虫框架,用于从网页中提取数据

    2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。

    3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一

    2️⃣分布式采集工具

    1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。

    2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。

    3、Flume:分布式的海量日志采集、集合和传输系统。

    2.8.2 数据存储

    🔍数据存储:数据以某种格式记录在计算机内部或外部存储介质上。

    🔍数据存储不一定是以文件的形式存储,它可以是以数据库的形式进行存储,由数据库决定,怎样写入到文件中或者怎样保存在内存中。

    下列为常见的数据库系统:
    1️⃣ 关系型数据库(SQL)
    1、MySQL(小型数据库):最流行的关系型数据库管理系统之一,将数据保存于不同表中。

    2、Oracle(大型数据库):甲骨文公司数据库管理系统,高效率、可靠性高、适应高吞吐量。

    3、SQL Server:Microsoft公司的数据库管理系统,使用方便、可伸缩性好、与相关软件集成程度高。

    2️⃣ 非关系型数据库(NOSQL)
    1、Hbase:高可靠性、高性能、可伸缩的分布式存储系统,可在PC Server上搭建大规模结构化存储集群。

    2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。

    3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。

    2.8.3 数据清洗

    数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换、缺失值处理和异常值处理等操作。

    🔍数据清洗的方法

    1、缺失值处理:对存在缺失的数据进行插补

    2、异常值处理:对数据集中存在的不合理值进行处理

    3、数据转换:将数据从一种表现形式转换成另一种表现形式

    🔍数据清洗的工具

    1、Mapreduce(Hadoop):基于集群的高性能并行计算框架;并行计算与运行软件框架;并行程序设计模型与方法。

    2、Pandas(Python):解决数据分析任务的Python库,提供了诸多数据清洗的函数和方法。

    3、OpenRefine:数据清洗工具,能够对数据进行可视化操作,类似Excel,但其工作方式更像数据库。

    2.8.4 数据分析

    🔍利用机器学习等技术从数据中构建模型,从而挖掘出有价值的信息。
    8
    1️⃣数据分析的方法:机器学习
    9
    2️⃣数据分析的工具

    1、Scikit-learn(Python):机器学习库,包含众多机器学习算法,使用方便。

    2、Tensorflow:Google开源的深度学习技术,追随者众多,目前最火热的深度学习框架。

    3、torch:Facebook力推的深度学习框架,具有较好的灵活性和速度,拥有Python版本Pytorch。

    4、Spark:Apache开源的为大规模数据处理而设计的快速通过的计算引擎,拥有机器学习库Mllib。

    2.8.5 数据可视化

    数据可视化是将数据分析的过程与结果用图表等形式进行展示。

    10
    🔍数据可视化工具:

    1、Matplotlib(Python):一个2D绘图库,可以绘制许多高质量的图形

    2、Seaborn(Python):Matplotlib基础上的高级绘图库,运用简单的操作就能够画出较为复杂的图形

    3、Tableau:一个强大的数据可视化工具,可实时进行可视化数据分析和数据探索

    4、Echarts:由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表

    2.9 大数据的应用场景

    随着大数据的发展,大数据技术已经广泛应用在众多行业,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹:
    11

    1️⃣ 抖音精准推荐:推荐的都是你喜欢的视频
    10
    2️⃣ 电商站内推荐:给用户推荐可能喜欢的商品
    11

    3️⃣ 电商零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。

    1. 零售业“啤酒+纸尿裤”案例
      12
    2. 个性推荐
      13
    3. “双11购物节”实时销售额大屏
      14

    4️⃣ 物流仓储:京东物流,上午下单下午送达、下午下单次日达
    15
    5️⃣ 保险
    海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。

    6️⃣ 金融
    多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。

    7️⃣ 房产
    大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。

    8️⃣汽车
    利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

    9️⃣生物医学
    大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标。

    🔟 人工智能+5G+物联网+虚拟现实
    人工智能的基础上就是大数据,在大量数据训练的基础上得到“经验”。
    典型的例子是AlphaGo战胜人类棋手,因为AlphaGo已经经过了大量的下棋训练,训练得到了“下棋经验”。
    16
    除此之外还有电信以及只会城市的建设等等,大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

    三、大数据的影响以及未来前景展望

    3.1 大数据的影响

    图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
    10
    在思维方式方面,大数据完全颠覆了传统的思维方式:
    👋全样而非抽样
    👋效率而非精确
    👋相关而非因果

    💫在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现

    💫在就业市场方面,大数据的兴起使得数据科学家成为热门职业

    💫在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制
    大数据行业发展趋势的两个层面:国家层面和高校教育和就业层面。

    3.2 大数据行业发展趋势的两个层面

    3.2.1 国家层面

    1. 2015年党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。

    2. 2017年十九大报告明确 “推动互联网、大数据、人工智能和实体经济深度融合”。

    3. 2020年全国政协十三届三次会议新闻发布会上,更进一步强调:大数据、人工智能、5G是引领未来发展的战略性技术。除此之外中央还推出34万亿“新基建”投资计划,如下表所示:

    项目2020年投资规模(亿元)
    5G3000
    特高压600
    轨道交通5000
    充电桩100
    数据中心1000
    人工智能350
    工业互联网100
    合计10150

    显然,发展大数据是我国的战略性决策,前景自然不言而喻。

    3.2.2 高校教育和就业层面

    2017年北京大学、中国人民大学等25所高校成功申请开设第一批大数据课程

    大数据属于高新技术,大牛少,升职竞争小

    2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右。

    在北京大数据开发工程师的平均薪水已经超越 1.5w 直逼2w,而且目前还保持强劲的发展势头,当然取得这个薪水的前提是要能力达标。

    3.3 未来展望

    现在大数据正处于下一个风口

    💖2020年是5G的元年,国家在大力铺设5G设备,2021年就是5G手机应用的开始,也是大数据要爆发的1年。5G带来的是每秒钟10g的数据,会给每家公司都带来海量的数据。那么传统的Java工具根本解决不了海量数据的存储。就更不用说海量数据的计算了。如果你对5G的感触不够深,可以回忆一下3G和4G的区别。3G时只能打电话、发短信,当时还觉得很好,觉得3G不错。但是4G来了后,大家很少打电话和发短信了,都改为语音、视频、直播、网上购物等生活方式,带火了淘宝、京东、美团、字节跳动等企业。没有跟上节奏的百度,有点摇摇欲坠。当然百度ai还是很牛逼的。

    3.4 大数据职业发展路线

    目前大数据高、中、低三个档次的人才都很缺。 现在我们谈大数据,就像当年谈电商一样,未来前景已经很明确,接下来就是优胜劣汰,竞争上岗。不想当架构师的程序员不是好程序员!

    大数据发展到现阶段,涉及大数据相关的职业岗位也越来越精细。从职业发展来看,由大数据开发、挖掘、算法、到架构。从级别来看,从工程师、高级工程师,再到架构师,甚至到科学家。而且,契合不同的行业领域,又有专属于这些行业的岗位衍生,如涉及金融领域的数据分析师等。

    大数据的相关工作岗位有很多,有数据分析师、数据挖掘工程师、大数据开发工程师、大数据产品经理、可视化工程师、爬虫工程师、大数据运营经理、大数据架构师、数据科学家等等。

    为了能够让各位能够对工作岗位有更加清晰的认知,特制作大数据组织部门结构图,如下图所示:
    18
    根据上图中的组织结构我们可以知道从事大数据岗位包括:

    • ETL工程师—数据清洗
    • 数据仓库工程师—数据仓库搭建
    • 实时流处理工程师
    • 用户画像工程师
    • 数据挖掘
    • 算法工程师

    部分相关素材来源:

    1. 林子雨 大数据技术原理与应用(第3版)
    2. 尚硅谷 大海哥大数据Hadoop 3.X

    本片文章到这里就结束了,如有不足请指出~


    5

    展开全文
  • 大数据发展趋势

    2016-12-15 18:49:00
    大数据发展趋势
  • 大数据发展趋势报告.pdf CCF大数据专家委员会官方发布
  • 大数据发展报告,共70多份。包括白皮书、证券报告及行业分析等,资料较旧但可做参考用。 关注“工业软件+云平台+大数据” 贸易合作大数据报告 【联讯医药三季报总结】医药大数据:成长依旧,估值近前低,正是战略...
  • 大数据发展历程

    2020-12-17 21:57:12
    所以大数据最早的应用场景就是搜索引擎,但因为此时的技术发展不成熟,最早还只是大数据的存储,和一点简单的大数据应用,比如检索,主要是21世纪初。 不像现在,经过20年的发展大数据在各行各业都有了应用,

    任何技术的出现,在前期都是理论先行,但此时没有应用场景,不会大规模的推开,那技术都得不到深度的发展。

    任何技术深度的发展,都是在有了应用场景,降低了门槛,才会真正的发展起来。

    大数据技术的发展也是这样的历程:

    最开始是由于像谷歌,雅虎这样的搜索引擎,因为存储的网页数量巨大,才有了这样的大数据的概念。

    所以大数据最早的应用场景就是搜索引擎,但因为此时的技术发展不成熟,最早还只是大数据的存储,和一点简单的大数据应用,比如检索,主要是21世纪初。

    不像现在,经过20年的发展,大数据在各行各业都有了应用,不仅仅是存储,还包含计算和应用。

    应用场景也从搜索引擎扩展到医疗,社交,电商,物流,交通,旅游等各行各业。

    而大数据的发展,也从最早的大数据存储,发展出大数据的计算,以及大数据处理的资源管理。

    首先是需要解决大数据的存储,之后是对存储的这么多数据进行计算处理,利用这些数据计算的结果,在处理大数据的过程中,单个机器的垂直扩展始终是有瓶颈,而水平扩展则是没有边界,水平扩展的这么多机器就需要发展出资源管理器统一管理这些机器。这样大数据的必须的三驾马车就齐备了。

    大数据未来如何发展?

    现在大数据也被提了很多年了,也有很多从业者了,有了大数据的发展生态,不管是Hadoop,spark 这些开源的框架让从业者能够快速搭建一个大数据系统,构建大数据系统的应用。

    那展望未来,未来我们的生产生活只会创造越来越多的数据,对这些数据进行收集,清洗,分析,应用将会成为常态;我们需要更为强大的存储介质,计算能力,和管理系统;也许不仅仅是这三个方面,在更大数据的形态需要更高的要求。

    将大数据基建化,大数据产业化,将会是未来的一个趋势。

    展开全文
  • 2017年 中国大数据发展报告 国家信息中心
  • CCF大专委2020年大数据发展趋势预测周涛,程学旗,陈宝权论文引用格式:周涛, 程学旗, 陈宝权.CCF大专委2020年大数据发展趋势预测.大...

    CCF大专委2020年大数据发展趋势预测

    周涛, 程学旗, 陈宝权

    论文引用格式:

    周涛, 程学旗, 陈宝权. CCF大专委2020年大数据发展趋势预测. 大数据[J], 2020, 6(1): 119-123

    . Developing tendency prediction of big data in 2020 from CCF TFBD. Big Data Research[J], 2020, 6(1): 119-123

    1 引言

    自2012年起,中国计算机学会(CCF)大数据专家委员会(以下简称大专委)面向全体委员,发起了一年一度的大数据趋势预测活动。站在年底展望来年大数据领域的发展趋势,已经成为大专委的一项品牌活动。2019年12月5日,在中国大数据技术大会(BDTC)开幕式上,CCF大专委正式发布了2020年大数据十大发展趋势预测。本次预测汇集了160余名大专委委员的投票结果,参与投票的委员来自高校、科研院所、相关部委、大型央企、民营企业等不同团体,具有广泛的代表性。本文将介绍本次趋势预测结果,分析历年预测结果的变化趋势,并对本次趋势预测体现出的新变化进行解读。

    2 2020年大数据十大发展趋势预测解读

    按照得票数排序,大专委对2020年大数据十大发展趋势的预测结果见表1。

    同往年相比,本次的趋势预测结果体现出以下共性。

    ● 大数据与人工智能的共生关系受到持续认可。反映在预测结果上,2020年与人工智能相关的预测项(表1中的第1条、第4条)已经连续4年出现在十大趋势中。

    ● 对学科突破的期待心态依然存在。这体现在第2条预测项上,专家们认可数据科学对多学科融合的推动作用,也重视基础理论研究,但仍然不认为短期内能取得突破性进展。

    ● 既要挖掘数据价值,又要在此过程中兼顾数据安全和隐私保护。与数据安全相关的预测项(表1中的第3条)是十大趋势中的常青树,历年都会有与之相关的预测项。伴随着2018年欧盟《通用数据保护条例(GDPR)》落地引发的关注、2019年我国网络安全和信息化委员会办公室《数据安全管理办法(征求意见稿)》的出台, 2020年与数据安全相关的选项再度进入前三名。

    ● 从数据到知识的途径依然是关注热点。从大数据中获得知识和价值是人们利用大数据的一个基本需求,因此基于知识图谱的大数据应用以及与知识自动发现和挖掘相关的候选项(表1中的第5条、第9条)得到了较多关注。

    ● 大数据与区块链的结合稳中有升。区块链是一项出现已有10年的技术,在2019年下半年再度成为关注热点。体现在本次预测结果上,与区块链相关的预测项(表1中的第7条)排名较2019年上升一位。

    对于上述在往届趋势预测结果中曾经出现过的预测项,本文不再对其进行详细解读,如需了解可参阅2019年的趋势预测分析,本文重点关注2020年趋势预测结果中的新面孔(表1中的第6条、第8条、第10条)。

    2.1 趋势六:数据融合治理和数据质量管理工具成为应用瓶颈

    数据融合技术是多源信息协调处理技术的总称,数据治理是运用不同的技术工具对大数据进行管理、整合、分析并挖掘其价值的行为。数据融合治理是大数据应用的基石,如果数据在融合中存在属性偏差或信息损失,或者融合后的数据质量低下,上层应用的价值将无从保障。在行业大数据应用实践中解决了数据有无问题后,对数据质量的管理将会成为最迫切的挑战。目前业界还缺乏通用、有效的数据融合治理与数据质量管理工具,这将成为大数据应用向深层次发展的瓶颈。

    2.2 趋势八:对基于大数据进行因果分析的研究得到越来越多的重视

    大数据时代“一切皆数据”,被数字化的事物和流程越来越多。利用统计方法对数据进行相关性分析,成为科学决策和预测的重要手段。然而相关性不等于因果性,许多在统计上具有强相关性的事物,在逻辑上并不存在直接或间接的因果性。如果无法分析出相关性背后的因果关系,不考虑结论的可解释性,必然会影响决策的质量和应用范围。例如,利用医疗大数据和人工智能算法,深度神经网络对病理图像处理的准确性已经达到甚至超过普通医师,但受限于深度学习的黑箱特性,目前仍然无法用深度神经网络取代医师的诊断结论。专家预测:对数据中的因果性、对结果可解释性的研究,将会受到更多的重视。

    2.3 趋势十:边缘计算和云计算将在大数据处理中成为互补模型

    边缘计算是指靠近数据源的处理模式,是一种分散式处理框架。过去大数据的概念往往和云计算绑定在一起,但在实际应用中,将数据放在终端上进行部分处理的方法具有实时性高、对网络带宽占用少、更有利于隐私保护等优点。随着终端处理能力的增强,将部分计算任务部署在终端上,与云端任务进行合理的分层解耦,成为一种可靠性更高、计算成本更低、实时性更强的计算框架。预期在未来的大数据处理模式中,边缘计算和云计算将成为互补模型,共同发展。

    3 历次趋势预测演变分析

    自大专委2012年开展活动以来,已经连续8年对大数据领域的发展趋势进行了预测。如果以3年为一个周期,对每年的趋势预测结果进行归类和对比分析,可以清晰地感受到8年来大数据趋势预测结果的变化情况,这也体现了大数据发展阶段的变化。

    ● 2013—2015年:在该阶段的趋势预测项中,大数据概念刚刚产生,专家们关注大数据如何落地、如何从“概念”走向价值以及大数据与传统行业的跨界融合。这期间的典型预测项包括“数据的资源化”(2013年,第1项)、“大数据从概念走向价值”(2014年,第1项)、“大数据分析成为数据价值化的热点”(2015年,第1项)、“与各行业的结合,跨领域应用”(2015年,第3项)等。

    ● 2016—2018年:在该阶段的趋势预测中,大数据概念已经被各行业所接受,专家们关注大数据产业发展的推动力,从希冀政策法规过渡到依赖学科进展,最终聚焦在人工智能上。这期间的典型预测项包括“《促进大数据发展行动纲要》驱动产业生态”(2016年,第6项)、“人工智能与脑科学相结合,成为大数据领域热点”(2017年,第2项)、“多学科融合与数据学科兴起”(2017年,第4项)、“机器学习继续成为大数据智能分析的核心技术”(2016年、2017年均为第1项)等。

    ● 2019—2020年:在该阶段的趋势预测中,基于大数据的行业应用已经广泛兴起,专家们开始关注数据科学的基础作用、大数据在具体领域中发挥实效以及大数据应用落地中的具体技术障碍。这期间的典型预测项包括“数据科学与人工智能的结合越来越紧密”“数据的语义化和知识化是数据价值的基础问题”以及本次趋势中新出现的3条候选项。

    4 大数据发展专项调研分析

    在十大趋势预测之外,2020年的趋势调研仍然包括9个专项调研项目。对于每个调研项目,保留得票数远高于其余候选项的条目作为调研结果,具体见表2。

    在“最令人瞩目的应用领域”投票中, 2020年预测的投票结果延续了2019年预测的态势,健康医疗排在了首位,而人们习以为常的互联网、电子商务退居到第4位,这表明互联网领域的大数据应用相对成熟,大家已经习以为常,其他领域的新应用更容易受到关注。与之相对应的是,在“将取得重大应用和技术突破的数据类型”投票中,视频数据首次排在了首位,这与健康医疗、智慧城市领域的主流数据类型是一致的。

    在“最令人瞩目的学科和技术”投票中,人工智能、自然语言处理/知识工程、图计算位列前三名,在“将取得突破性进展的技术环节”投票上,数据分析、数据语义理解、脱敏和隐私保护排在前三名,这与前面的“十大趋势调研”的结果是吻合的。

    在“大数据市场处于哪个阶段”判断上,2020年的调研结果与2019年相比有一个有趣的变化。认为大数据的发展处于前两个阶段(初级、即将快速扩张)的得票率总计下降7%,认为处于中间3个阶段(爆发增长中、上升乏力、下降和幻灭)中每一项的得票率与2019年恰好相同,3项的得票率在最近两年均为21%、9%和1%,而认为处于最后一个阶段(稳步成长)的得票率上升7%。可以看到,专家们对于大数据的发展趋势更加乐观了,3个增长阶段的得票率综合达到了83%。从投票结果看,给读者的感觉是大数据已经度过了下降和幻灭期,进入了相对稳定的增长阶段。

    在“我国大数据发展的最主要推动者”投票中,投票结果已经维持多年不变,仍然是只有大型互联网公司和政府机构。互联网公司在自身业务发展中拥有了大数据,而政府机构在社会治理中也积累了大数据,其他领域的推动力量显得单薄。反映在“数据资源流转上的举措”上,投票结果跟往年相比有了细微的变化,大家还是更倾向于自己收集数据,或者为已经收集的数据提供服务,同时购买数据的意愿得到了提升,首次进入前三名;但销售数据的意愿并没有提升,由此看来,距离交易双方的意愿达成还有一定差距。

    在“大数据的最佳拍档概念”投票中,排名靠前的选项是数据科学、机器人和人工智能、智能计算和认知计算、5G。其中,前3个选项之间本身就具有较强的关联性,且在最近的趋势调研中已经连续出现。值得强调的是2020年的新面孔“5G”。2019年被称为我国的5G元年,国内电信运营商开启了对5G通信协议的支持,大家预期未来会产生一些基于5G的新应用形态,从而产生新的大数据应用领域。笔者也期待着未来大数据与5G融合产生的化学反应。

    5 结束语

    虽然这是一项已经连续开展了8年的趋势预测活动,人们仍然能够从每年的预测结果中感受到大数据领域的一些新变化。本次趋势预测中出现的3个新预测项中,“数据融合治理和数据质量管理工具”是在解决了数据的存储规模、访问速度、计算能力后,大数据应用深入发展面临的难题;“大数据因果分析”相对于直接的、表层的相关性分析,需要挖掘更深层次的逻辑关系;“边缘计算和云计算成为互补模型”则是大数据应用向低成本、低时延、保护隐私方向发展的更契合实际的落地方案。总体来看,这3个新预测项针对的问题都是大数据应用发展到较深入的阶段才会遇到的新问题。笔者认为,一项事物发展到一定阶段,总会产生与这个阶段相适应的特定问题;本次趋势预测中新问题的出现,也标志着大数据应用发展到了一个新阶段。

    大数据从概念兴起到应用落地,已有约10年的历史。在当前所处的数字经济时代,数据已经成为各行各业发展的基石。笔者期待着数据科学能取得理论突破,也希望基于大数据的应用能够更深层次、更加充分地体现大数据的价值。在本次趋势预测中,无论是在数据科学层面,还是在应用工具层面,都有一些需要攻克的难关。笔者期待着这些困难能够被逐渐攻破,从而让大数据的发展上升到一个新高度。

    作者简介

    周涛(1979-),男,博士,阿里巴巴集团安全部教授级高级工程师、资深算法专家,主要研究方向为大数据安全分析、事件关联分析、入侵检测等 。

    程学旗(1971-),男,中国科学院计算技术研究所研究员、副所长,中国科学院大学讲座教授,中国科学院网络数据科学与技术重点实验室主任,大数据分析系统国家工程实验室副主任。国家杰出青年科学基金获得者,中共中央组织部“万人计划”科技领军人才,曾获得中国青年科技奖、中国科学院青年科学家奖和中国计算机学会青年科学家奖。主要研究方向为网络数据科学、大数据分析系统、互联网搜索与挖掘、网络空间信息内容安全等。其科研成果在全国大范围应用,并发挥实际效果,带领团队3次获得国家科技进步奖二等奖。发表学术论文200余篇,GoogleScholar引用14000余次,3次获得国际顶级学术会议最佳学术论文奖。兼任中国计算机学会大数据专家委员会秘书长、中国中文信息学会信息检索专业委员会主任等 。

    陈宝权(1969-),男,北京大学博雅特聘教授,前沿计算研究中心执行主任,IEEEFellow。中国计算机学会常务理事,第七届教育部科学技术委员会信息学部委员。主要研究方向为计算机图形学与可视化,国家“973”项目“城市大数据计算理论与方法”首席科学家 。

    《大数据》期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

    关注《大数据》期刊微信公众号,获取更多内容

    往期文章回顾

    人工智能时代的数据隐私、垄断与公平

    人工智能风险分析技术研究进展

    监督学习中的损失函数及应用研究

    云环境下大规模分布式计算数据感知的调度系统

    大数据技术在乡村画像中的应用研究


    展开全文
  • 大数据发展历史简介

    千次阅读 2020-05-28 14:16:19
    今天的大数据业余培训班分享,我们就从入门的角度,来分享一下大数据发展历史。 大数据从首次提出概念,到今天,可以说已经有了近30年的历史了,但是真正落地发展,也就在最近的这几年当中,进入了一个爆发期,国内...

    大数据飞速发展的大背景下,各行各业都开始融入大数据的趋势之中,越来越多的岗位要求数据相关的能力,尤其是数据分析能力,成为更多行业岗位所需要的基本技能之一。今天的大数据业余培训班分享,我们就从入门的角度,来分享一下大数据发展历史。

    大数据从首次提出概念,到今天,可以说已经有了近30年的历史了,但是真正落地发展,也就在最近的这几年当中,进入了一个爆发期,国内国外,大大小小的企业,都在被大数据影响着,也都主动被动地被卷入大数据浪潮当中。
    在这里插入图片描述

    大数据发展历史,可以大致分为以下几个阶段——

    启蒙阶段:数据仓库的出现

    20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞生,它将企业已有的业务数据转化成为知识,帮助老板们进行经营决策。比如零售场景中:需要分析商品的销售数据和库存信息,以便制定合理的采购计划。

    显然,商业智能离不开数据分析,它需要聚合多个业务系统的数据(比如交易系统、仓储系统),再进行大数据量的范围查询。而传统数据库都是面向单一业务的增删改查,无法满足此需求,这样就促使了数据仓库概念的出现。

    传统的数据仓库,第一次明确了数据分析的应用场景,并采用单独的解决方案去实现,不依赖业务数据库。

    技术变革:Hadoop诞生

    2000年左右,PC互联网时代来临,同时带来了海量信息,很典型的两个特征:数据规模变大、数据类型多样化。

    很显然,传统数据仓库无法支撑起互联网时代的商业智能。2003年,Google公布了3篇鼻祖型论文,包括:分布式处理技术MapReduce,列式存储BigTable,分布式文件系统GFS。这3篇论文奠定了现代大数据技术的理论基础。

    苦于Google并没有开源这3个产品的源代码,而只是发布了详细设计论文。2005年,Yahoo资助Hadoop按照这3篇论文进行了开源实现,这一技术变革正式拉开了大数据时代的序幕。

    数据工厂时代:大数据平台兴起

    商用Hadoop包含上十种技术,整个数据研发流程非常复杂。为了完成一个数据需求开发,涉及到数据抽取、数据存储、数据处理、构建数据仓库、多维分析、数据可视化等一整套流程。这种高技术门槛显然会制约大数据技术的普及。

    此时,大数据平台(平台即服务的思想,PaaS)应运而生,它是面向研发场景的全链路解决方案,能够大大提高数据的研发效率,让数据像在流水线上一样快速完成加工,原始数据变成指标,出现在各个报表或者数据产品中。

    数据价值时代:阿里提出数据中台

    2016年左右,已经属于移动互联网时代了,随着大数据平台的普及,也催生了很多大数据的应用场景。

    此时开始暴露出一些新问题:为了快速实现业务需求,烟囱式开发模式导致了不同业务线的数据是完全割裂的,这样造成了大量数据指标的重复开发,不仅研发效率低、同时还浪费了存储和计算资源,使得大数据的应用成本越来越高。

    极富远见的马云爸爸此时喊出了「数据中台」的概念,「One Data,One Service」的口号开始响彻大数据界。数据中台的核心思想是:避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能业务。

    关于大数据发展历史,以上为大家做了一个简单的介绍。大数据有今天的繁荣发展,非一日之功,而是一直在不断更新迭代,想做大数据,跟上最新技术趋势很重要。

    展开全文
  • ( 中国大数据发展调查报告(2017)( 中国大数据发展调查报告(2017)( 中国大数据发展调查报告(2017)( 中国大数据发展调查报告(2017)( 中国大数据发展调查报告(2017)
  • 落实国家大数据战略,推进大数据发展与应用,正成为我国地方政府的工作重点,迫切需要有针对性和可操作性的具体指导。在诠释开展区域大数据发展水平评价方法研究的意义和作用的基础上,分析了评价体系设计的基本要求...
  • 为进一步掌握中国大数据发展和应用情况,中国信息通信研究院开展了2017—2018 年度中国 大数据发展状况的调查。本次活动采用现场访问、电话访谈和在线调查相结合的方式,对中国大数据产业 规模、应用现状、数据资源...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 260,415
精华内容 104,166
关键字:

大数据发展