精华内容
下载资源
问答
  • 围绕能力提升的云计算与大数据综合实践短学期教学探讨.pdf
  • 云计算与大数据技术应用

    千次阅读 2020-12-13 14:18:13
    云计算概论什么是云计算云计算概述云计算的主要部署模式云技术产业现状 什么是云计算 如今越来越多的应用正在迁移到“云”上,如我们生活中接触的各种“云盘”存储。实际上,“云”并不新潮,已经持续了超过10年,并...

    什么是云计算

    如今越来越多的应用正在迁移到“云”上,如我们生活中接触的各种“云盘”存储。实际上,“云”并不新潮,已经持续了超过10年,并还在不断扩大到所有领域。可预见的事:下一个10年中,几乎所有的应用都会部署到云端,而它们中的大部分都将直接通过你手中的移动设备,为我们提供各种各样的服务。为什么会需要“云”?传统的应用正在变得越来越复杂:需要支持更多的用户,需要更强的计算能力,需要更加稳定安全等等,而为了支撑这些不断增长的需求,企业不得不去购买各类硬件设备(服务器,存储,带宽等等)和软件(数据库,中间件等等),另外还需要组建一个完整的运维团队来支持这些设备或软件的正常运作,这些维护工作就包括安装、配置、测试、运行、升级以及保证系统的安全等。便会发现支持这些应用的开销变得非常巨大,而且它们的费用会随着你应用的数量或规模的增加而不断提高。这也是为什么即使是在那些拥有很出色IT部门的大企业中,那些用户仍在不断抱怨他们所使用的系统难以满足他们的需求。而对于那些中小规模的企业,甚至个人创业者来说,创造软件产品的运维成本就更加难以承受了。所以,云计算,应运而生——更大、更快、更强针对上述问题解决方案便是“云计算”!将应用部署到云端后,可以不必再关注那些令人头疼的硬件和软件问题,它们会由云服务提供商的专业团队去解决。使用的是共享的硬件,这意味着像使用一个工具一样去利用云服务(就像插上插座,你就能使用电一样简单)。只需要按照你的需要来支付相应的费用,而关于软件的更新,资源的按需扩展都能自动完成。二、形象点来说说“云计算”
    【1】 水龙头观点论:当需要的时候,扭开水龙头,水就来了,我只需要操心交水费就是了!当你需要用一个软件时,你不用跑去电脑城,打开应用商店,它就下载下来了,你只需要交钱就是了;当你想看报纸的时候,你不用跑去报刊亭,只要打开头条新闻,新闻唾手可得;当你想看书的时候,你不用跑去书城,只需要打开阅读软件,找到这样的一本书,在手机上阅读;当你想听音乐的时候,你不用再跑去音像店苦苦找寻CD光碟,打开音乐软件,就能聆听音乐;云计算,像在每个不同地区开设不同的自来水公司,没有地域限制,优秀的云软件服务商,向世界每个角落提供软件服务——就像天空上的云一样,不论你身处何方,只要你抬头,就能看见!
    【2】荤段子观点论:网上很流行的一种比喻:男人找个女友或老婆是自建私有云,单身约炮或者到娱乐场所消费是公有云服务,按需使用并可弹性扩容,已婚男人找二奶小蜜则属于混合云。这种解释方式对男人比较适用,通常稍微一解释就心领神会!
    【3】共享单车-滴滴出行需要用车,云计算或者云服务好比乘坐出租车或专车快车共享单车,随时需要随时用,按用量(路程)付费即可。自己买车开车是混合云,车是自己的,出去付费停车或加油相当于部分使用公有云,而亚马逊或微软云在国内跟黑车差不多被政策限制
    【4】一日三餐吃货论:饿了要吃饭,在家里自己做饭属于自建私有云,需要建造厨房购买锅碗瓢盆柴米油盐等,吃完饭还需要自己刷锅洗碗等运维工作,费时费力;外面餐馆提供的就相当于公有云服务,按需胡吃海塞吃完结账抹嘴走人,餐馆后厨如何安排做菜顺序并加快出菜速度就是负载均衡和虚拟化概念;请厨师到家里上门做饭则属于典型的混合云,在资产安全的情况下有限使用公有云。三、“云计算”的五大特点大规模、分布式“云”一般具有相当的规模,一些知名的云供应商如Google云计算、Amazon、IBM、微软、阿里等也都拥能拥有上百万级的服务器规模。而依靠这些分布式的服务器所构建起来的“云”能够为使用者提供前所未有的计算能力。虚拟化云计算都会采用虚拟化技术,用户并不需要关注具体的硬件实体,只需要选择一家云服务提供商,注册一个账号,登陆到它们的云控制台,去购买和配置你需要的服务(比如 云服务器,云存储,CDN等等),再为你的应用做一些简单的配置之后,你就可以让你的应用对外服务了,这比传统的在企业的数据中心去部署一套应用要简单方便得多。而且你可以随时随地通过你的PC或移动设备来控制你的资源,这就好像是云服务商为每一个用户都提供了一个IDC(Internet Data Center)一样。高可用性和扩展性那些知名的云计算供应商一般都会采用数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性。基于云服务的应用可以持续对外提供服务(7*24小时),另外“云”的规模可以动态伸缩,来满足应用和用户规模增长的需要。按需服务,更加经济用户可以根据自己的需要来购买服务,甚至可以按使用量来进行精确计费。这能大大节省IT成本,而资源的整体利用率也将得到明显的改善。安全网络安全已经成为所有企业或个人创业者必须面对的问题,企业的IT团队或个人很难应对那些来自网络的恶意攻击,而使用云服务则可以借助更专业的安全团队来有效降低安全风险。

    云计算概述

    一、云计算定义
      美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

    PS:云计算过去用来表示电信网,后来也用来表示互联网和底层基础设施的抽象。它是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、 网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。

    二、云算机分类

    (1)按网络结构分类

      张三、李四、王五住一栋楼,楼下一个大规模的饭店。张三一直在家做饭,这是私有云,厨房是自建机房。李四一直在饭店吃,这是公有云,饭店是云数据中心。王五牛叉,在饭店有个固定包间,包间不对外人开放,这是托管型私有云(有的厂商将其定义为专有云),包间是云数据中心中的托管服务器。张三家有天来了十多个客人,这是业务突增。家里装不开,要去饭店,这是私有云转公有云。张三妈妈省吃俭用,对张三说,你们去吧,我和你爸在家吃,对张三家来说这是混合云。如果饭店仅对某个特定人群比如学生开放,这就相当于社区云。当然,举例不十分恰当,毕竟饭还是买的,而云是租的,此点切记 。
    

    私有云

      私有云是为某个特定用户/机构建立的,只能实现小范围内的资源优化,因此并不完全符合云的本质--社会分工,所以 Openstack 等开源软件带来的私有云繁荣可能只是暂时的,会有越来越多的客户发现廉价的硬件和免费的软件并不是打造私有云的充分条件,精细的管理、7×24运维所耗去的总成本(TOC)不比公有云低,而且随着公有云厂商运营能力的进步,这种趋势会越来越明显。托管型私有云在一定程度上实现了社会分工,但是仍无法解决大规模范围内物理资源利用效率的问题。
    

    公有云

      公有云是为大众建的,所有入驻用户都称租户,不仅同时有很多租户,而且一个租户离开,其资源可以马上释放给下一个租户,一如饭店里一桌顾客走了马上迎来下一桌顾客。公有云是最彻底的社会分工,能够在大范围内实现资源优化,因此,不管道路如何曲折,前途总是光明的。当然公有云尤其是底层公有云构建,不是一般人能玩的了的,就像开个三五桌的饭店谁都能行,开个三五万桌的饭店就要看资金和本事了。很多客户担心公有云的安全问题,敏感行业、大型客户可以考虑,但一般的中小型客户,不管是数据泄露的风险,还是停止服务的风险,公有云都远远小于自己架设机房。
    

    社区云

      社区云是介于公有、私有之间的一个形式,每个客户自身都不大,但自身又处于敏感行业,上公有云在政策和管理上都有限制和风险,所以就多家联合做一个云平台。
    

    混合云

      混合云是以上几种的任意混合,这种混合可以是计算的、存储的,也可以两者兼而有之。在公有云尚不完全成熟、而私有云存在运维难、部署实践长、动态扩展难的现阶段,混合云是一种较为理想的平滑过渡方式,短时间内的市场占比将会大幅上升。并且,不混合是相对的,混合是绝对的。在未来,即使不是自家的私有云和公有云做混合,也需要内部的数据与服务与外部的数据与服务进行不断的调用(PaaS 级混合)。并且还有可能,一个大型客户把业务放在不同的公有云上,相当于把鸡蛋放在不同篮子里,不同篮子里的鸡蛋自然需要统一管理,这也算广义的混合。
    

    专有云

      专有云相当于是将企业的私有云建立在云服务企业的数据中心,以类似于云托管的方式,在公有云架构上开辟出符合自身业务架构与安全性要求的云平台系统。
    

    (2)按服务类型分类

    服务类型:Iaas、Paas、Saas

    在这里插入图片描述

    IaaS:基础设施服务,Infrastructure-as-a-service

    PaaS:平台服务,Platform-as-a-service

    SaaS:软件服务,Software-as-a-service

    它们有什么区别呢?

    IBM 的软件架构师 Albert Barron 曾经使用披萨作为比喻,解释这个问题。David Ng 进一步引申,让它变得更准确易懂。

    请设想你是一个餐饮业者,打算做披萨生意。
    你可以从头到尾,自己生产披萨,但是这样比较麻烦,需要准备的东西多,因此你决定外包一部分工作,采用他人的服务。你有三个方案:

    方案一:IaaS

    他人提供厨房、炉子、煤气,你使用这些基础设施,来烤你的披萨。

    方案二:PaaS

    除了基础设施,他人还提供披萨饼皮。

    你只要把自己的配料洒在饼皮上,让他帮你烤出来就行了。也就是说,你要做的就是设计披萨的味道(海鲜披萨或者鸡肉披萨),他人提供平台服务,让你把自己的设计实现。

    方案三:SaaS

    他人直接做好了披萨,不用你的介入,到手的就是一个成品。你要做的就是把它卖出去,最多再包装一下,印上你自己的 Logo。

    上面的三种方案,可以总结成下面这张图:

    在这里插入图片描述

    从左到右,自己承担的工作量(上图蓝色部分)越来越少,IaaS > PaaS > SaaS。

    对应软件开发,则是下面这张图:

    ————————————————

    在这里插入图片描述
    在这里插入图片描述

    三、云计算特点

    (1) 超大规模:“云”具有相当的规模,Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

    (2) 虚拟化:云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。

    (3) 高可靠性:“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

    (4) 通用性:云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。

    (5) 高可扩展性:“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

    (6) 按需服务:“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。

    (7) 极其廉价:由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。

    云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。

    (8) 潜在的危险性:云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。

    云计算的主要部署模式

    云计算、大数据、物联网、人工智能,可谓是最近几年大热之词,热度一浪高过一浪,今天主要介绍的是云计算,私有云、公有云、混合云、社区云,大家都耳熟能详,却不知道属于什么,这篇文章以云计算部署模型和服务模式为主题,为大家介绍。

    云计算的4种部署模型:

    1.私有云,云端资源只给一个单位组织内的用户使用,这是私有云的核心特征。而云端的所有权、日常管理和操作的主体到底属于谁并没有严格的规定,可能是本单位,也可能是第三方机构,还有可能是二者的联合。云端位于本单位内部,也可能托管在其他地方。

    2.社区云,云端资源专门给固定的几个单位内的用户使用,而这些单位对云端具有相同诉求(如安全要求、云端使命、规章制度、合规性要求等)。云端的所有权、日常管理和操作的主体可能是本社区内的一个或多个单位,也可能是社区外的第三方机构,还可能是二者的联合。云端可能部署在本地,也可能部署于他处。

    3.公共云,云端资源开放给社会公众使用。云端的所有权、日常管理和操作的主体可以是一个商业组织、学术结构、政府部门或者它们其中的几个联合。云端可能部署在本地,也可能部署于其他地方,比如郑州市民公共云的云端可能就建在郑州,也可能建在洛阳。

    4.混合云,混合云由两个或两个以上不同类型的云(私有云、社区云、公共云)组成,它们各自独立,但用标准的或专有的技术将它们组合起来,而这些技术能实现云之间的数据和应用程序的平滑流转。由多个相同类型的云组合在一起属于多云的范畴,比如两个私有云组合在一起,混合云属于多云的一种。由私有云和公共云构成的混合云是目前最流行的——当私有云资源短暂性需求过大时,自动租赁公共云资源来平抑私有云资源的需求峰值。例如,网站在节假日期间点击量巨大,这时就会临时使用公共云资源来应急。

    云计算的3种服务模式:

    1.软件即服务,云服务提供商把IT系统中的应用软件层作为服务出租出去,消费者不用自己安装应用软件,直接使用即可,这进一步降低了云服务消费者的技术门槛。

    2.平台即服务,云服务提供商把IT系统中的平台软件层作为服务出租出去,消费者自己开发或者安装程序,并运行程序。

    3.基础设施即服务,云服务提供商把IT系统的基础设施层作为服务出租出云,由消费者自己安装操作系统、中间件、数据库和应用程序

    云技术产业现状

    全球云计算的发展现状

    2018年全球云计算(Iaas/Paas/Saas)市场规模达到2720亿美元,预计到2023年增加至6233亿美元,19-23年CAGR18%;市场份额方面,18Q4亚马逊AWS占比35%,超出了第2-5名市场参与者的总和。
    

    2018年全球云计算市场规模达到2720亿美元
    在这里插入图片描述

    数据来源:公开资料整理

    18Q4亚马逊AWS全球市场份额35%

    在这里插入图片描述

    数据来源:公开资料整理

    与美国等发达国家相比,我国云计算发展仍有较大空间。由于我国行业起步较晚,总体上企业机构对于云计算的投资占比不高。2017年我国企业云计算相关支出占IT总支出的比例14.4%,该指标在美国则高达29.1%。其中,我国企业对于公有云的投入仅占6.5%,虽然较2015年接近翻倍,但距离美国的23.9%仍有不小差距。
    

    3、我国云计算的发展现状

    2017年我国云计算整体市场规模达691.6亿元,同比增长34.32%。其中,公有云市场规模达到264.8亿元,同比增长55.7%,预计2018—2021年仍将保持快速增长态势,到2021年市场规模将达到902.6亿元;私有云市场规模达到426.8亿元,同比增长23.8%,预计未来几年将保持稳定增长,到2021年市场规模将达到955.7亿元。
    

    中国公有云市场规模及增速

    在这里插入图片描述

    数据来源:公开资料整理

    中国私有云市场规模及增速
    在这里插入图片描述

    数据来源:公开资料整理

    从市场结构来看,我国云计算市场以私有云为主,2017年其占比达到61.71%,而在全球云计算市场中,公有云市场份额达到88.35%。国内外云计算市场的结构差异主要来源于国内客户对云计算的了解不足、云计算标准缺失、与原信息系统的兼容性问题等因素,目前大中型企业是我国云计算服务的主要用户,而出于对安全性和可控性的追求,该部分客户通常选择私有云作为其IT部署架构,造成了我国云计算市场中公有云的市场份额较少。
    

    中国公有云和私有云市场份额
    在这里插入图片描述

    数据来源:公开资料整理

    全球公有云和私有云市场份额

    在这里插入图片描述

    数据来源:公开资料整理

    同时,从服务模式来看,我国公有云市场内部也存在着企业级SaaS服务市场占比偏低的问题:2017年,国内IaaS市场成为游戏、视频、移动互联网等领域中小企业IT资源建设的首选,占据了云计算市场56.16%的份额;而由于我国SaaS服务的开放程度不够、易用性不足以及市场环境欠佳,尽管SaaS服务亦在公有云市场规模中占据了一定比例,但是其市场份额主要来自于以云存储等基础服务为主的消费级SaaS市场,企业级SaaS市场仅占SaaS服务市场规模的10%。我国企业级SaaS市场的发展缓慢也是导致了SaaS市场与其上游PaaS市场的规模仅占我国公有云市场的4成,与它们在全球公有云市场中约6成的市场规模形成了对比。
    
    总的来说,我国云计算市场规模增长迅速,但是其体量仍与我国的经济总量并不相称:2017年,我国云计算市场的全球份额占比仅为约9%,而美国云计算四巨头亚马逊、微软、谷歌以及IBM的云计算营收达到全球市场份额的约40%,其中,仅亚马逊一家就占据全球云计算市场份额的31.50%。
    
    这主要是由于,目前我国云计算市场用户仍以互联网原生行业,如游戏、电商、视频为主。该领域用户对云计算的接受与熟悉程度较高,且其自身特点亦适合云计算的部署方式,因此最早完成云计算架构的部署,而金融、政府、工业等对私密性、稳定性、实时性要求较高、系统迁移难度较大的行业其整体迁移时间较晚。未来,随着国家对于云计算发展的大力支持、对物联网所产生的海量大数据的存储与分析需求不断增长,以及相关云计算技术的继续更新与优化,我国云计算产业链的下游应用市场将得到持续拓展,云计算市场亦将随之不断壮大,为相关公司带来显著成长红利。
    
    4、我国对云计算的政策支持
    
    与传统IT部署结构相比,云计算实现了资源的按需供给以及数据的充分利用,为物联网、大数据等新兴领域的发展提供了基础支撑,未来将成为我国信息化建设主要形态和建设网络强国、制造强国的重要支撑,推动经济社会各领域信息化水平大幅提高。近年来,政府出台了一系列政策以促进云计算产业的发展。
    

    我国对云计算的相关政策支持

    在这里插入图片描述

    数据来源:公开资料整理

    2017年前,我国云计算政策旨在为云计算产业提供战略规划及发展环境,虽然部分文件要求促进云计算在电子政务、协同制造、普惠金融与高效物流等领域的应用,但是其措施主要以鼓励应用及试点示范为主。而2017年4月发布的《云计算发展三年行动计划》则明确提出要开展以应用促进云计算发展的行动,通过推进政务云应用及发展工业云服务来带动云计算产业快速发展、推动云计算的普及推广与深入应用。
    
    其中,在政务云领域,《云计算发展三年行动计划》鼓励地方主管部门加大利用云计算服务的力度,应用云计算整合改造现有电子政务信息系统,提高政府运行效率;随后,2017年5月印发的《政务信息系统整合共享实施方案》强调,要鼓励推广云计算、大数据等新技术新模式的应用与服务,提升集约化建设水平,并要求于2017年12月底前,完善政府购买信息系统、数据中心、数据资源等信息化服务的相关政策。
    
    在工业云领域,《云计算发展三年行动计划》支持骨干制造业企业、云计算企业联合牵头搭建面向制造业特色领域的工业云平台,推动制造业转型升级和提质增效,并支持钢铁、汽车、轻工等制造业重点领域行业协会与专业机构、骨干云计算企业合作建设行业云平台,提高行业发展水平和管理水平;此外,2018年8月,工信部印发《推动企业上云实施指南(2018-2020年)》,提出到2020年,力争实现企业上云比例和应用深度显著提升,云计算在企业生产、经营、管理中的应用广泛普及,全国新增上云企业100万家,形成典型标杆应用案例100个以上,形成一批有影响力、带动力的云平台和企业上云体验中心。
    

    《云计算发展三年行动计划》具体内容
    在这里插入图片描述

    数据来源:公开资料整理

    阻碍企业用户引入云计算的原因主要是其对云计算的了解不足,暂时无法做出相应规划,而企业用户在首次规划部署云产品时则面临缺乏成功案例进行参考以及云计算的标准缺失等问题。对此,《云计算发展三年行动计划》表示,将大力发展面向云计算的信息系统规划咨询、方案设计、系统集成和测试评估等服务,并指导标准化机构加快制定云计算资源监控、服务计量计费、应用和数据迁移、工业云服务能力总体要求、云计算服务器技术要求等关键急需技术、服务和应用标准。
    

    阻碍企业用户引入云计算的原因p-0

    在这里插入图片描述

    数据来源:公开资料整理

    首次规划部署云产品时遇到的问题

    在这里插入图片描述

    数据来源:公开资料整理

    我们认为,《云计算发展三年行动计划》及随后各项政策中以应用促进云计算发展的行动充分表明,我国云计算产业已经度过市场培育以及政府规划时期,迈入了由政府拉动市场需求,促进企业通过市场活动来支持政府宏观规划的政企互动时代。《云计算发展三年行动计划》以政务云、工业云为切入点、开展应用促进行动,将增加用户对于云计算的认知、加速相关标准的建立,为云计算发展创造良好的市场环境。此外,《云计算发展三年行动计划》提出,我国云计算产业规模要从“十二五”末期的1500亿元增长至2019年的4300亿元,复合增长率达30%,彰显了政府对于政务云及工业云的产业带动作用的信心。我们认为,政务云与工业云的潜在需求将被充分释放,未来我国云计算产业高速发展可期。
    
    二、我国云计算的发展趋势
    
    1、云计算将与物联网、大数据协同发展
    
    物联网是在互联网的基础上,将其用户端延伸和拓展到任何物品和物品之间,进行信息交换和通信的一种网络。物联网已经成为我国全面构筑经济社会数字化转型的关键基础设施:在工业物联网领域,其发展模式已经初步成型,形成了智能化生产、网络化协同、个性化定制以及服务化转型四大应用模式,其中农业物联网应用示范已经初显成效,推动农业环境监测、精准农业生产、农产品溯源、设备诊断、农产品电商等应用加快成熟在消费物联网领域;在消费物联网领域,物联网不再仅限于对家庭和个人提供消费升级的一些新产品,共享单车、共享充电宝、共享按摩椅等共享经济已经开始对人们的衣食住行等各方面产生作用,从一定程度上体现出物联网带来的生活方式的改变;在智慧城市物联网领域,物联网可以实施全面地表述城市的运行状态,支撑监测、预测和假设分析等各类应用,实现智能管理和调控,其中智能安防、智慧环保、智能交通已经成为我国智慧城市建设的刚性需求。
    

    物联网的十大应用场景

    在这里插入图片描述

    数据来源:公开资料整理

    因为物联网拥有比互联网和移动互联网更多的连接点,物联网的快速发展将使全球数据呈现指数增长的趋势。2018年,全球物联网连接数70亿台,到2022年将有超过500亿的终端与设备联网,而物理设备在借助物联网接入网络的同时,每分每秒都将产生海量的数据:到2025年,全球数据圈将从2018年的33ZB增至2025年的175ZB,并且中国数据圈将以48.6ZB成为世界最大的数据圈(1ZB=1,048,576PB,1PB=1,048,576GB)。大数据作为一种重要的战略资产,未来,其深度应用将不同程度地渗透到每个行业领域和部门:在行业商业类应用方面,大数据可以帮助企业挖掘客户的潜在需求、提高其决策的准确性、推动传统行业转型升级、提高城市居民的生活品质;在政府服务类应用方面,大数据能够为政府管理在城市规划、交通管理、舆情监控和安防领域提供强大的决策支持,并提高社会整体层面的业务协同效率。
    
    物联网、大数据的发展离不开云计算的支持。由于以物联网数据为代表的大数据具有大量化、多样化、快速化及价值化的四大特征,大数据应用属于数据密集型计算,传统的存储及处理技术无法胜任大数据的“变现”
    

    大数据的4V特征

    在这里插入图片描述

    数据来源:公开资料整理

    为满足大规模、持续的数据在服务器、网络交换机以及存储器之间进行快速、频繁的移动,数据密集型计算的工作原理是将数据切分成多个片段,对每个片段同时执行相同的操作:以100MB/s的磁盘读取带宽速度从1个1TB磁盘上读取数据需要花费10,000秒,而如果将1TB数据均匀地分布到100个磁盘上并同时进行数据读取,则只需要花费100秒,其效率提高了100倍。由此可见,数据并行计算是大数据的核心支撑技术,而云计算作为一种把成千上万台服务器整合起来,为用户提供灵活的资源分配和任务调度能力的系统架构技术,天然地成为大数据的最佳承载平台。
    
    2017年以来,我国物联网市场进入实质性发展阶段,全年市场规模突破1万亿元,年复合增长率超过25%。我国物联网加速进入“跨界融合、集成创新和规模化发展”的新阶段,提出强化产业生态布局、完善技术创新体系、完善标准体系、推进规模应用、完善公共服务体系、提升安全保障能力等六大重点任务,预计到2020超过65%的企业和组织将应用物联网产品和方案。在大数据方面,中国信息通信研究院测算,2017年我国大数据产业规模为4700亿元,同比增长30%,其中大数据软硬件产品的产值约为234亿元,同比增长39%。在应用层面,为金融、政务、电商三个行业提供大数据产品和解决方案的企业最多,其占比分别为63%、57%以及47%。未来,随着大数据在各行业的市场潜力不断显现、融合深度不断增强、应用程度不断深化,我国大数据产业将继续保持高速增长的发展态势。
    

    我国物联网市场规模及预测

    在这里插入图片描述

    数据来源:公开资料整理

    我国大数据市场规模及预测

    在这里插入图片描述

    数据来源:公开资料整理

    未来,互联网的功能和结构将与人类大脑高度相似,将同时具备互联网虚拟感觉、虚拟运动与虚拟中枢神经。其中,物联网将充当互联网的感觉和运动神经系统,大数据将代表互联网的信息层,是互联网智慧和意识产生的基础,而云计算将是互联网的核心硬件层和软件层的集合,也是互联网的中枢神经系统。云计算作为新一代的IT基础架构部署方案,随着物联网及大数据产业的发展,将享受到相应的叠加红利。我们认为,云计算将与物联网、大数据实现协同发展,共同促进我国新一代信息基础设施的建设。
    

    互联网虚拟大脑结构图

    在这里插入图片描述

    数据来源:公开资料整理

    2、容器技术深化云计算应用
    
    尽管我国云计算产业的市场前景广阔,目前,我国云计算市场的下游应用还有待深化。2017年,在我国公有云市场中,企业级SaaS(软件即服务)市场仅占SaaS服务市场规模的10%,且采用SaaS服务的企业中,有将近70%使用云邮箱、统一通信平台等大多是免费的基础通讯软件服务,采用ERP、CRM等企业管理软件服务和专业的行业应用软件服务的用户均低于50%。而在全球云计算市场,CRM、ERP与供应链管理三大企业级SaaS服务占据了全球SaaS服务市场63%的份额。
    

    全球SaaS服务细分市场

    在这里插入图片描述

    数据来源:公开资料整理

    同时,中国信息通信研究院指出,在我国私有云市场中,2017年硬件市场规模为303.4亿元,占比71.1%,而软件市场规模仅为66.6亿元,占比为15.6%。私有云行业中软硬件细分市场规模差距悬殊的原因主要是,仅有约四分之一的企业选择把核心业务系统运行在专有云上,70%以上企业的私有云上承载的主要是其企业管理系统。我们认为,随着以容器技术为代表的新兴技术的发展,我国公有云与私有云市场中核心应用未能上云的问题有望得到解决,云计算产业将迎来更为广阔的发展空间。
    
    容器指的是以镜像形式存储的、虚拟的、被隔离的运行时环境。其与目前使用较多的服务器虚拟化技术的不同之处在于:服务器虚拟化技术虽然通过在硬件和操作系统之间引入虚拟化层,解除了操作系统与物理主机之间的紧耦合,实现了根据应用系统的需要自动生成、拓展所需的硬件资源,但是,有时其面临着必须虚拟出一整台计算机来运行一个简单应用的窘境,造成了相当的系统资源浪费;而容器技术通过跨容器共享操作系统架构,只需构建几十MB大小的二进制文件与代码库用以运行应用,而非像服务器虚拟化技术一样需要构建数十GB大小的操作系统,在具备出色的轻量化特性的同时,还能提供与虚拟机相同的资源隔离与分配功能。与服务器虚拟化相比,容器虚拟化实现了对资源在更细粒度的分配与控制,具有在拓展性、易用性及可迁移性上的优势。
    

    服务器虚拟化架构

    在这里插入图片描述

    数据来源:公开资料整理

    容器虚拟化架构
    在这里插入图片描述

    数据来源:公开资料整理

    容器虚拟化技术的优点

    在这里插入图片描述

    数据来源:公开资料整理

    容器虚拟化的这些优点将为PaaS(平台即服务)带来变革。PaaS是构建在云计算基础设施之上的软件研发平台,在云架构中处于中间层,对在其上层的云计算应用软件开发起到促进作用。PaaS在公有云和私有云的核心应用上云过程中都扮演着重要的角色:PaaS可以分为应用部署和运行平台APaaS(ApplicationPlatformasaService)与集成平台(IPaaS)两类;其中,人们经常说的PaaS平台基本上指的是APaaS,如GoogleAppEngine,主要被用于解决独立软件开发商的单个应用如何被集成至公有云平台中;而IPaaS则主要被应用于私有云中以解决多个企业内部应用间如何集成和交互的问题。目前,我国云计算行业的应用市场未能完全打开,很大程度是由于PaaS市场发展缓慢所导致的。
    

    我国PaaS市场发展缓慢的原因

    在这里插入图片描述

    数据来源:公开资料整理

    容器虚拟化技术的应用有望解决我国PaaS市场发展缓慢的问题。由于容器虚拟化技术以位于操作系统之上的轻量级虚拟化方案和类似于软件版本管理的镜像管理模式等技术为核心,基于容器的PaaS平台可以把用户的每个应用部署到一个单独的容器之中,用户既不需要学习新的存储系统和数据库系统的使用,也不需要重新开发应用。同时,通过使用容器虚拟化技术,开发者可以将整个应用解耦为较小的功能组件,并将组件更进一步从底层的硬件中分离出来,独立运行在一个容器中,再根据消费者和用户的个性化需求,快速组装通用软件形成个性化的解决方案,大大提高了应用程序的创建及维护效率。此外,对于使用公有云PaaS平台的开发者来说,容器虚拟化技术可以帮助他们轻易地实现应用在不同云平台间的平滑迁移,消除了其恐被公有云PaaS平台绑定,进而影响其利润空间的顾虑。
    
    目前,云计算容器技术的重要性已经得到业内的广泛认可。2017年,在被调查的783家企业中,30.1%的企业已经投入生产,36.3%的企业表示正在测试环境,另外,还有24.5%的企业则正在评估,尚未应用容器技术的企业仅有9.1%。同时,已经应用容器技术的企业中(包括正在测试的企业),出于部署速度快而使用容器技术的企业最多,占比为62.9%,其次,55.6%的企业认为支持快速弹性扩容是应用容器技术的主要原因。另外,有助于微服务架构的实现(36.2%)以及有助于降低成本(34%)也是部分企业应用容器技术的驱动力。我们认为,加大云计算容器这一新兴技术的应用有望实现我国在云服务领域的弯道超越,促进国内云计算产业应用的深化。
    

    企业应用云计算容器技术的原因
    在这里插入图片描述

    数据来源:公开资料整理

    3、云计算将推动自主可控产业的发展
    
    信息化代表新的生产力和新的发展方向,已经成为引领创新和驱动转型的先导力量。云计算、物联网、大数据、人工智能等新技术驱动网络空间从人人互联向万物互联演进,数字化、网络化、智能化将无处不在。现实世界和数字世界日益交汇融合,全球治理体系面临深刻变革。网络空间已成为国家继陆、海、空、天四个疆域之后的第五疆域,与其他疆域一样,网络空间也须体现国家主权,保障网络空间安全就是保障国家主权。
    
    2018年4月16日,美国商务部工业与安全局以中兴通讯对涉及历史出口管制违规行为的某些员工未及时扣减奖金和发出惩戒信,并在2016年11月30日和2017年7月20日提交给美国政府的两份函件中对此做了虚假陈述为由,禁止美国公司向中兴通讯出口电讯零部件产品。期限为7年。2018年7月12日,在与美国供应商的商业往来中断近三个月后,中兴通讯以14亿美元的罚款及保证金为代价,与美国商务部签署了取消制裁协议。中兴通讯并不是美国对我国在信息领域进行技术封锁的个案:2018年8月1日,美国商务部以国家安全和外交利益为由,将44家中国企业列入出口管制清单,涉及导航、半导体、通讯技术等多个子领域;2019年5月15日,美国总统特朗普签署行政命令,宣布进入国家紧急状态,允许美国禁止被“外国对手”拥有或掌控的公司提供电信设备和服务;5月16日,美国商务部产业与安全局(BIS)将华为及其非美国附属68家公司纳入“实体清单”。
    
    我国与美国在贸易摩擦中一系列事件反映出,我国在信息技术领域仍然面临核心技术受制于人的巨大隐患。信息技术产品生态体系由硬件、基础软件和应用三部分构成:硬件包括芯片、存储器和输入输出设备;基础软件包括操作系统以及数据库、中间件、办公套件等支撑软件。我国在芯片和操作系统等计算机关键软硬件领域主要依赖于跨国公司的产品。
    

    信息技术产品生态体系框架

    在这里插入图片描述

    数据来源:公开资料整理

    芯片是整个信息系统的运算和控制中心,承担着处理指令、执行操作、控制时间、处理数据等功能;操作系统是应用软件与硬件之间的桥梁,用来对整个信息系统的硬件和软件资源进行配置和管理,控制所有应用程序运行;由于软件在硬件平台上运行需要进行复杂的编译过程,不同芯片难以实现运行于其上的操作系统的互相兼容,因此,作为整个信息系统的心脏,芯片对于信息技术产品产业链的整合以及生态系统的建设具有引导作用:一个在市场上处于弱势地位的芯片,将无法驱使软件企业针对其进行适配,从而无法构建一个软件企业以其为核心、协同发展的良性生态。
    
    在国际市场上,Intel便凭借其与Windows的生态联盟成为了PC领域的统治者:一方面,由于摩尔定律的存在,在成本不变的情况下,集成电路上可容纳的元器件的数目每隔约18-24个月便会增加一倍,性能也会随之提升一倍,Intel即可凭借其先发优势轻松抵御后进者的挑战;另一方面,随着Intel硬件性能的提高,Windows也在不断地推出功能更加丰富的新一代操作系统,由于Windows操作系统以及相关软件产品均是基于Intel芯片所开发的,Intel与Window便形成了联盟式发展,集聚了硬件生产商、软件开发商、整机商等企业,共同产生了强大的竞争优势。目前,全球有80%的PC使用Intel的处理器,超过90%的PC使用微软的Windows操作系统。
    

    以Intel与Windows为核心的产业生态体系

    在这里插入图片描述

    数据来源:公开资料整理

    由于我国芯片产业的核心技术相对落后,未能在其基础上形成完整、强大的信息产业生态体系,我国虽然已经是一个网络大国,但还不是网络强国。2017年中国进口集成电路3770亿块,同比增长10.1%,进口金额2601.4亿美元,同比增长14.6%;2017年中国出口集成电路2043.5亿块,同比增长13.1%,出口金额668.8亿美元,同比增长9.8%。我国集成电路进出口金额差距悬殊,其进口额从2015年起已连续三年超过原油,从侧面反映了我国芯片产业与国外相比仍有较大差距。
    
    目前,在CPU核心技术的可控性上,我国主要采取自主研发与引进消化吸收两条路线。其中,自主研发路线上有龙芯、申威处理器等产品:龙芯的主要研发团队为中国科学院计算所,其购买了MIPS32/64位架构的永久授权,自主设计了相应的指令集与微结构,拥有完全的知识产权;申威处理器由国家高性能通用集成电路(上海)设计中心自主研发,采用Alpha指令集,由于Alpha相关技术专利大多已过期,因此申威处理器是一款具有完全自主知识产权的处理器。引进消化吸收路线上有飞腾处理器以及天津海光的禅定处理器等产品:飞腾处理器的核心研究团队为国防科技大学计算机学院,其购买了ARM自主化程度最高的架构授权,可进行自主CPU基础架构的研发;天津海光的禅定处理器是天津海光与AMD成立的合资公司所生产的面向中国市场的X86处理器。
    
    在CPU方面,我国技术路线基本涵盖了国际所有芯片技术方向,呈现主攻路线不统一的状态,造成了科技资源配置的分散。目前,硬件和整机厂商对国产CPU还存在质疑,大量的通用软件也没有针对国产CPU架构开发单独的适配版本,进一步恶化了国产CPU在大众消费市场上的困境。此外,目前国内CPU在制造工艺上落后国外两代,如高端光刻机、CPU设计EDA工具等高度依赖国外,只有对性能要求不是很高的CPU才会采用境内工艺生产。因此,国产CPU产业呈现上下游各环节协同不够、自主生态不完备的状态。
    
    我们认为,云计算的出现将成为我国在自主可控领域实现突破的契机。一方面,在云计算时代,数据中心由大量低端X86服务器堆积而成,已不再盲目追求单个CPU的计算速度,此外,摩尔定律的逐渐失效也为国产CPU厂商的奋起直追提供了条件;另一方面,云计算时代算力的高度集中使得我国信息技术产业的核心芯片与基础软件不再由单个终端用户决定,凭借国家意志,国产芯片可以在少数云计算龙头供应商上推广应用、迅速普及,从而搭建起相应的产业生态圈,并实现其内部的良性循环。
    
    展开全文
  • 云计算与大数据技术应用 第四章

    千次阅读 2020-12-22 19:28:42
    云计算大数据时代 全球知名咨询公司麦肯锡最早提出“大数据”时代的到来,麦肯锡称:“数据,已经深入到当今各行各业的职能领域,是重要的生产因素。人们不断对海量数据的挖掘和运用,意味着生产率增长和消费者盈余...

    数据中心

    数据中心的概念

    数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为Data Center。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。尽管数据中心听起来神秘高大上,但按照最简单直接的理解,数据中心实际上就是我们个人电脑的扩大版,你的家用电脑就是你个人的数据中心。一般来讲,数据中心主要有几大部分构成:机房(建筑物本身)、供配电系统、制冷系统、网络设备、服务器设备、存储设备等。那数据中心的这些构成模块相当于你家个人电脑的哪些东西呢?做个简单的类比,机房相当于你家的书房,供配电系统相当于你家的插座、电脑电源再加个笔记本的电池,制冷系统相当于你家的空调以及风扇,网络设备相当于你家的路由器以及运营商在你家安装的光猫等,服务器设备相当于你家的电脑主机,存储设备相当于你家的电脑里面的硬盘或者现在的外置存储。

    数据中心的定义,作用,及分类

    数据中心的定义
    数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由低直流电源驱动运行的。 [1]
    数据中心的产生致使人们的认识从定量、结构的世界进入到不确定和非结构的世界中,它将和交通、网络通讯一样逐渐成为现代社会基础设施的一部分,进而对很多产业都产生了积极影响。不过数据中心的发展不能仅凭经验,还要真正的结合实践,促使数据中心发挥真正的价值作用,促使社会的快速变革。
    数据中心的作用
    随着数据中心行业在全球的蓬勃发展,随着社会经济的快速增长,数据中心的发展建设将处于高速时期,再加上各地政府部门给予新兴产业的大力扶持,都为数据中心行业的发展带来了很大的优势。随着数据中心行业的大力发展,将来在很多城市中都会有很大的发展空间,一些大型的数据中心也会越来越多。2017年全球经历了前所未有的自然灾害之后,很多数据中心管理人员都在积极制定灾难恢复计划。例如就可以通过云计算工具对电力使用的功率进行限制,在遭遇停电时间时将允许以降低的功率继续运行,可以为电力企业的正常运行提供有效的保障。还可以利用数据中心指定备份计划,对服务器的操作进行拓展,就不需要通过关闭和重启服务器操作。
    数据中心是与人力资源、自然资源一样重要的战略资源,在信息时代下的数据中心行业中,只有对数据进行大规模和灵活性的运用,才能更好的去理解数据,运用数据,才能促使我国数据中心行业快速高效发展,体现出国家发展的大智慧。海量数据的产生,也促使信息数据的收集与处理发生了重要的转变,企业也从实体服务走向了数据服务。产业界需求与关注点也发生了转变,企业关注的重点转向了数据,计算机行业从追求的计算能力转变为数据处理能力,软件业也将从编程为主向数据为主转变,云计算的主导权也将从分析向服务转变。
    在信息时代下,数据中心的产生,更多的网络内容也将不再由专业网站或者特定人群所产生,而是由全体网民共同参与。随着数据中心行业的兴起,网民参与互联网、贡献内容也更加便捷,呈现出多元化。巨量网络数据都能够存储在数据中心,数据价值也会越来越高,可靠性能也在进一步加强。
    数据中心的分类
    数据中心的发展历程
    巨型机时代
    具有很强的计算和处理数据的能力,主要特点表现为高速度和大容量,配有多种外部和外围设备及丰富的、bai高功能的软件系统。 在一定时期内速度最快、性能最高、体积最大、耗资最多的计算机系统。巨型计算机是一个相对的概念,一个时期内的巨型机到下一时期可能成为一般的计算机;一个时期内的巨型机技术到下一时期可能成为一般的计算机技术。现代的巨型计算机用于核物理研究、核武器设计、航天航空飞行器设计、国民经济的预测和决策、能源开发、中长期天气预报、卫星图像处理、情报分析和各种科学研究方面,是强有力的模拟和计算工具,对国民经济和国防建设具有特别重要的价值。
    PC时代
    PC时代说的bai是电脑、平板、手机甚至智能电视等duIT设备都zhi同时使用一个统一的操作系统的时代。dao

    微软首席运营官凯文zhuan·特纳解释说,PC+时代就是所有的设备使用一个统一的操作系统,就像微软新的Surface平板电脑将使用完整版本的Windows 8平台一样。

    扩展资料

    有这样一种讲法,如果以公元2000年作为科技史的一个分水岭,那么公元2000年之前可以称之为“PC”(Personal Computer)时代;而公元2000年之后则被称为“后PC”(Post-Personal Computer)时代。

    微软首席运营官凯文·特纳(Kevin Turner)在微软全球伙伴会议上发表讲话时驳斥了苹果关于当前的计算机行业环境是“后PC时代”观点,指出2012年是“PC+”时代。
    互联网时代
    1: 互联网时代是指在电子计算机和现代通信技术相互结合基础上构建的宽带、高速、综合、广域型数字化电信网络的时代。

    2: 在信息高科技的强有力的支持下,Internet将人类的文化传播带进了一个崭新的时代,即人们所称为的互联网时代。人们几乎每天都要与互联网打交道,它已经成为日常生活中不可或缺的一部分,可以说互联网等大众传媒已经大大地改变了人们的生活 。

    3: 所谓互联网时代是指信息的采集从互联网上取得信息的发布也可以拿到互联网上去发布。互联网时代已经是一个现实它对传统的信息采集、信息加工和信息分析及信息公布的方式形成很强的冲击对我国来说这也不是遥遥无期的事 。

    4: 近来美国著名的因特网杂志“wIRED”将信息时代指称为互联网时代。高校网络框架为了更好地管理信息,二十世纪九十年代高校图书馆引入了图书馆管理集成系统,从而较早就与互联网接触,而且几乎所有的高校图书馆已具备了图B馆内部局域网。

    5: 若将互联网作为社会交往和生活的主要和重要的手段的社会历史阶段称为互联网时代,我们可以说,当前我们正处在向互联网时代过渡的时期。
    在这里插入图片描述
    云计算大数据时代
    全球知名咨询公司麦肯锡最早提出“大数据”时代的到来,麦肯锡称:“数据,已经深入到当今各行各业的职能领域,是重要的生产因素。人们不断对海量数据的挖掘和运用,意味着生产率增长和消费者盈余会成为新一波的浪潮。” 其在生物学、物理学、环境生态学等领域及军事、金融、通讯等行业也存在很久了,在近年来互联网和信息行业的发展才开始受人们关注。

    1、大数据时代是指利用相关算法对海量数据的处理与分析、存储,从海量的数据中发现价值,服务于生活与生产。大数据是这个高科技时代的产物,如今的社会是一个高速发展的社会,科技发达,信息流通,人与人交流越密切,生活也更加方便,

    2、随着云时代的来临,大数据也倍受关注。《著云台》的分析师团队认为,大数据一般用来形容一个公司创造的大量非结构化和半结构化数据,它在下载到关系型数据库来分析时,要花大量的时间和金钱。大数据分析主要是和云计算联系到一起,大型数据集的实时分析要像MapReduce的框架一样,给数十、数百或甚至数千的电脑分配工作。

    3、简单来说,大数据技术也就是在各种各样类型的数据中,快速获得有价值信息的能力。这也是促使该技术具备走向众多企业的潜力。
    云计算(cloud computing)是基于互bai联网的du相关服务的增加、使用和zhi交付模dao式,通常涉及通过互联网来提供zhuan动态易扩展且shu经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。
    数据中心的组成
      数据中心是全bai球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
      它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。
      IDC(Internet Data Center) - Internet数据中心,bai它是传统的数据中心与Internet的结合,它除了具有传统的数据中心所具有的特点外,如数据集中、主机运行可靠等,还应具有访问方式的变化、要做到7x24服务、反应速度快等。IDC是一个提供资源外包服务的基地,它应具有非常好的机房环境、安全保证、网络带宽、主机的数量和主机的性能、大的存储数据空间、软件环境以及优秀的服务性能。
    IDC作为提供资源外包服务的基地,它可以为企业和各类网站提供专业化的服务器托管、空间租用、网络批发带宽甚至ASP、EC等业务。简单地理解,IDC是对入驻(Hosting)企业、商户或网站服务器群托管的场所;是各种模式电子商务赖以安全运作的基础设施,也是支持企业及其商业联盟(其分销商、供应商、客户等)实施价值链管理的平台。形象地说,IDC是个高品质机房,在其建设方面,对各个方面都有很高的要求
    网络建设
    IDC主要是靠其有一个高性能的网络为其客户提供服务,这个高性能的网络包括其- AN、WAN和与Internet接入等方面要求。
    IDC的网络建设主要有: - IDC的- AN的建设,包括其- AN的基础结构,- AN的层次,- AN的性能。 - IDC的WAN的建设,即IDC的各分支机构之间相互连接的广域网的建设等。 - IDC的用户接入系统建设,即如何保证IDC的用户以安全、可靠的方式把数据传到IDC的数据中心,或对存放在IDC的用户自己的设备进行维护,这需要IDC为用户提供相应的接入方式,如拨号接入、专线接入及VPN等。 - IDC与Internet互联的建设。

    • IDC的网络管理建设,由于IDC的网络结构相当庞大而且复杂,要保证其网络不间断对外服务,而且高性能,必须有一高性能的网络管理系统。
      机房场地建设
      机房场地的建设是IDC前期建设投入最大的部分。由于IDC的用户可能把其重要的数据和应用都存放在IDC的机房中,所以对IDC机房场地环境的要求是非常高的。IDC的机房场地建设主要在如下几个方面: - 机房装修:机房装修主要考虑吊顶、隔断墙、门窗、墙壁和活动地板等。- 供电系统:供电系统是IDC的场地建设重点之一,由于IDC的大量设备需要极大的电力功率,所以供电系统的可靠性建设、扩展性是极其重要的。供电系统建设主要有:供电功率、UPS建设(n+1)、配电柜、电线、插座、照明系统、接地系统、防雷和自发电系统等。- 空调系统:机房的温度、通风方式和机房空气环境等。- 安全系统:门禁系统、消防系统和监控系统。- 布线系统:机房应有完整的综合布线系统,布线系统包括数据布线、语音布线、终端布线。- 通信系统:包括数据线带宽、语音线路数目等。
      数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、bai加速、展示、计算、存储数据信息。
      它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。
      世界数据中心
      (World Data Center)是国际科学联合会下设的科学数据组织,有40多个学科数据中心,分属四个数据中心群:WDC-A 美国、WDC-B 前苏联、WDC-C 欧洲和日本、WDC-D 中国。
      1988年,中国加入WDC,并建立世界数据中心中国中心(World Data Center D)。WDC-D组织机构包括:中国国家协调委员会、科学委员会、中国中心协调办公室、科学委员会秘书处及九个学科数据中心。

    数据中心的建设原则

    1、数据中心将建在哪里  分析新建的数据中心所在地的气候条件是十分重要。这将有助于确定最合适的冷却措施,其中包括水冷机组,机械制冷空调,自然空气冷却、间接空气冷却,绝热冷却等,这些都是为了数据中心设施实现其更低的PUE目标。  
    2、需要多少个机架,它们的尺寸是多少  机架的数量决定数据中心的空间需求。传统的IT机架的尺寸为600x1000mm(宽x深),而一个空间为100平方米的机房可以容纳大约50个机架。当然机架也有其他的尺寸,而知道机架的尺寸和机架的数量,就很容易估测你的数据中心所需的空间。  
    3、需要什么等级的数据中心  数据中心的Tier等级确定了数据中心的冗余要求和电源分配路径。对于一个Tier2级数据中心来说,部署“N+1”架构的电源和冷却设备的冗余是足够的。然而,对于一个Tier3级的数据中心设施,通常都会包括“N+1”冷却设备冗余,具有双供电2N电源冗余,以及独立的双路配电机架。因此,了解数据中心的等级可以决定需要的冗余设计。  
    4、每个机架平均功率密度是多少  要注意的是,当设计数据中心的电源容量时,应该根据平均功率密度,而不是在最大额定电源,这是很重要的。机架的平均功率密度乘以机架的数量才是数据中心的最大IT负载量。然后,再加上数据中心的电源系统,冷却系统和交换机和存储设备等设施的功率。  为了避免产生昂贵的成本,并充分利用电力系统,使数据中心具有大小合适的电源和空间,采用模块化策略是明智的,可以降低成本,而不必牺牲未来扩展的灵活性。  
    5、运维人员应参加规划设计工作  a.运维参与前期规划设计,可弥补设计人员对系统运行管理知识的不足,提高设计质量,避免或消除设计缺欠;  b.运维参与前期规划设计,可将运维阶段的需求在规划设计中得到充分考虑;  c.运维参与前期规划设计,可充分了解和掌握所维护系统的结构、可靠性薄弱环节、遗留问题、潜在风险,有助于提高运维质量、有根据地制定运维计划和切实可行的改造计划。  
    6、避免受内外部因素影响,不能正确对待倾向、喜好、限制、约束的区别,不遵守科学设计原则  a.应避免受审批、决策等环节个别决策者影响,对一些关键功能按照个别人的意见进行删减调整,导致最终交付的数据中心功能不能满足运营和维护需求;  b.应避免出于倾向、喜好或利益驱动。在规划设计阶段部分设备厂商可能会通过夸大设备性能、混淆概念等手段影响规划设计人员的方案制定和设备选型。  
    7、交流机架或直流机架需要什么级别的备份电池  服务器机架可能需要部署百分之百的直流电源,或百分之百的交流电源,或者是二者的组合。  例如,如果正在为托管目的建设数据中心,可能有配备交流(UPS)供电系统的需求,而如果是要成为一个电信设施,这可能需要部署直流电源系统。知道这些,就会知道所需要的直流电源或UPS电源系统的大小和规模。  在部署备份电池时,最好根据15分钟备用放电时间进行配置。这样部署备用电池,不会显著增加资本支出,虽然这将很难自圆其说,但这更符合成本效益。企业需要提高备用发电机组的冗余度,而不是在增加电池数量浪费更多的资金。  
    8、避免轻规划设计,重施工建设  业内存在轻规划设计,重施工建设的现状,主要表现在:  a.先建楼体结构,后规划数据中心,为数据中心规划设计带来难以克服的困难;  b.机房建设和设备安装完毕即开始改造的现象普遍存在;  c.先确定设备,再确定方案,由于所购设备功能不满足方案要求,或场地不满足安装条件要求,因而设备尚未运行就要更换;  d.建设结构很难满足数据中心场地布局要求,使机房分区规划不合理;空调室外机无法安装或距离太远;动力室与主机房距离太远,增加传输和管理困难,增加成本,降低可靠性。  
    9、避免忽视对系统可维护性和可修复性设计  系统三分建设、七分维护,任何设备都可能发生故障,可快速修复已经成为提高可用性的关键指标。  忽视可维护性和可修复性的现象表现在:  a.规划设计阶段未考虑后期维护通道、维护空间,例如设备距离墙壁太近,电池靠墙摆放,线缆布局不合理、线缆管路或走线架挡住上方弱电线槽导致后期无法维修、维护工具难以施展等;  b.故障发生时,应急物资和备件无法快速搬运,故障设备和器件更换无维修操作空间等问题,延误了故障处置时限甚至引发重大事故;  c.未考虑后期发生故障进行设备维护时系统的冗余保障能力;  d.未尽可能采用自动化手段,最大程度减少维护人员手动操作环节,降低因手动操作存在的不确定性和不可控性。  
    10、避免可用性设计缺乏科学依据  系统可用性是数据中心规划设计的最重要的指标,但规划设计时缺乏科学依据,主要表现是:  a.数据中心在规划设计时都会进行各系统可靠性的推算,但目前各设计院、不同的设计人员对可靠性的推算依据和数据来源尚未统一,造成对同一数据中心的设计等级和可靠性存在不同定义和不同的结果;  b.对可用性存在着先进行规划设计、施工,建设完成后再反推设计等级的案例,并以反推的等级标准向数据中心用户进行推介。此为本末倒置的设计,往往因为设计中的某些关键缺陷导致虽然绝大部分设计满足等级要求,但因为关键缺陷的存在造成等级下降;  c.只注意设备或环节(子系统)的可用性,而忽略在整个系统中各子系统之间的相关性对可用性的影响。  
    11、避免在脱离实际需要和可行性情况下,确定高指标  在规划设计初期,主观臆断确定数据中心的功能指标,不切实际地一味追求规模大、高可用性等级、高机架功率密度、低能耗指标PUE。  而具体规划设计时,又没有严格按照规划原则和程序做详细的论证,具体方案和实际措施与总体规划部匹配,其结果是:  a.由于实际需求不明确,缺乏可行性的必要条件,反复设计、修改,不仅造成成本的浪费,还大大延长了建设周期;  b.已建成并投入使用的机房得不到充分利用,究其原因或因无预想的业务需求量,或因机房条件不满足用户需求而必须进行再优化改造才能使用;  c.规划设想的功能不能实现,如系统可用性达不到规划等级、制冷方案不支持规划的机架高功率密度、发电机不支持系统连续运行条件、过度规划使系统能耗指标PUE居高不下等。  
    12、避免重设备轻系统的认识误区  业内特别是规划设计人员普遍存在着重设备轻系统和重局部忽视大局的现象,主要表现在:  a.先确定设备规格型号甚至生产厂家,然后根据设备选择或修改设计方案;  b.供电系统按最高可用等级2N冗余设计,但所设计的结果是仅仅UPS系统有2N功能,而整个供电系统却存在单路径故障点;  c.整个系统按最高等级冗余容错系统设计,但是空调制冷设备却是单路径供电;  d.为系统配置了交流备用能源柴油发电机,但发电机没有自动启动功能,因为规划设计者缺乏连续制冷也是系统连续运行的重要条件的认识。  
    13、注重统筹设计  提高系统统筹设计能力对优质地完成规划设计任务是非常重要的。  a.在数据中心建设过程中存在着大量因规划设计对分阶段、分专业实施阶段工程,以及不同专业施工间衔接问题考虑不足造成交付的数据中心不满足业务及维护需求,有些问题甚至需要大笔投资进行改造方可完成;  b.不同设计人员只关注自身所负责内容,对于其他专业的是否完美衔接,是否与其他专业设计之间存在矛盾和冲突缺乏全局考虑;  c.规划设计人员对未来业务发展缺乏准确把握,对后期容量管理、扩容等方面考虑不足;  d.规划设计人员对周围资源环境和物理环境不熟悉,所设计的方案会出现实施可行性差或者为后来运维工作带来难以克服的困难。
    云计算。
    大数据时代的数据中心发展趋势

    数据中心的基本单元----服务器

    塔式服务器
    塔式服务器一般是大家见得最多的,它的外形及结构都与普通的PC机差不多,只是个头稍大一些,其外形尺寸并无统一标准。由于塔式服务器的机箱比较大,服务器的配置也可以很高,冗余扩展更可以很齐备,所以它的应用范围非常广,应该说目前使用率最高的一种服务器就是塔式服务器。我们平时常说的通用服务器一般都是塔式服务器,它可以集多种常见的服务应用于一身,不管是速度应用还是存储应用都可以使用塔式服务器来解决。
    就使用对象或者使用级别来说,目前常见的入门级和工作组级服务器基本上都采用这一服务器结构类型,一些部门级应用也会采用,不过由于只有一台主机,即使进行升级扩张也有个限度,所以在一些应用需求较高的企业中,单机服务器就无法满足要求了,需要多机协同工作,而塔式服务器个头太大,独立性太强,协同工作在空间占用和系统管理上都不方便,这也是塔式服务器的局限性。不过,总的来说,这类服务器的功能、性能基本上能满足大部分企业用户的要求,其成本通常也比较低,因此这类服务器还是拥有非常广泛的应用支持。
    塔式服务器的主板扩展性较强,插槽也很多,而且塔式服务器的机箱内部往往会预留很多空间,以便进行硬盘,电源等的冗余扩展。这种服务器无需额外设备,对放置空间没多少要求,并且具有良好的可扩展性,配置也能够很高,因而应用范围非常广泛,可以满足一般常见的服务器应用需求。
    这种类型服务器尤其适合常见的入门级和工作组级服务器应用,而且成本比较低,性能能满足大部分中小企业用户的要求,市场需求空间还是很大的。
    但这种类型服务器也有不少局限性,在需要采用多台服务器同时工作以满足较高的服务器应用需求时,由于其个体比较大,占用空间多,也不方便管理,便显得很不适合。
    机架式服务器
    对于信息服务企业(如ISP/ICP/ISV/IDC)而言,选择服务器时首先要考虑服务器的体积、功耗、发热量等物理参数,因为信息服务企业通常使用大型专用机房统一部署和管理大量的服务器资源,机房通常设有严密的保安措施、良好的冷却系统、多重备份的供电系统,其机房的造价相当昂贵。如何在有限的空间内部署更多的服务器直接关系到企业的服务成本,通常选用机械尺寸符合19英寸工业标准的机架式服务器。机架式服务器也有多种规格,例如1U(4.445cm高)、2U、4U、6U、8U等。通常1U的机架式服务器最节省空间,但性能和可扩展性较差,适合一些业务相对固定的使用领域。4U以上的产品性能较高,可扩展性好,一般支持4个以上的高性能处理器和大量的标准热插拔部件。管理也十分方便,厂商通常提供人相应的管理和监控工具,适合大访问量的关键应用,但体积较大,空间利用率不高。
    机架式服务器的优点,和其他两种样式服务器对比。机架式服务器相对于塔式服务器要节约空间,但是散热稍微差一点,因为空间紧凑。
    按结点密度分类
    网络节点服务器(NNS)是SNA网络节点(NN) ,一种服务器装置,节点服务器是针对服务器集群来说的。主要应用在WEB、FTP。VPN等等的服务上。所以节点服务器并不是单指某一种服务器。它由多个节点和管理装置整体的管理单元构成,其特征在于: 各节点具备切换该节点的动作模式的模块管理部,该模块管理部根据从所述管理单元传递的构成信息,切换各节点单独动作或与其它节点协调动作.提供一种服务器装置,除以前的刀锋服务器系统的向外扩展型的扩展性外,还具备基于SMP结合多个节点间的向上扩展型的扩展性。各节点具备与其它节点SMP 结合用的单元,各节点的模块管理部根据系统构成信息,切换该节点作为刀锋服务器单独动作或作为SMP服务器的构成模块来动作。在背板上对各节点间链路进行等长布线,通过在各节点内也进行与背板上的各节点间链路等长的环路布线,取得节点间的同步。在背板上搭载向各节点分配基准时钟的基准时钟分配单元,利用各节点内部的时钟分配器来切换基准时钟,由此进行SMP结合的节点的基准时钟的同步。
    高质量可靠的UDT通讯协议;
    多层级联服务器结构体系;
    采用了数据挖掘技术,能够迅速找到资源宿主;
    支持用户信息、频道信息的统计分析;
    提供内容监管策略;
    提供安全管理权限策略;
    提供用户手工配置策略;

    CISC是英文“Complex Instruction Set Computing”的缩写,bai中文意思是“复杂指令集”,它是指英特尔生产的x86(intel CPU的一种命名规范)系列CPU及其兼容CPU(其他厂商如AMD,VIA等生产的CPU),它基于PC机(个人电脑)体系结构。这种CPU一般都是32位的结构,所以我们也把它称为IA-32 CPU。(IA: Intel Architecture,Intel架构)。CISC型CPU目前主要有intel的服务器CPU和AMD的服务器CPU两类。
    (1)intel的服务器CPU
    (2)AMD的服务器CPU RISC是英文“Reduced Instruction Set Computing ” 的缩写,中文意思是“精简指令集”。它是在CISC(Complex Instruction Set Computer)指令系统基础上发展起来的,有人对CISC机进行测试表明,各种指令的使用频度相当悬殊,最常使用的是一些比较简单的指令,它们仅占指令总数的20%,但在程序中出现的频度却占80%。复杂的指令系统必然增加微处理器的复杂性,使处理器的研制时间长,成本高。并且复杂指令需要复杂的操作,必然会降低计算机的速度。基于上述原因,20世纪80年代RISC型CPU诞生了,相对于CISC型CPU ,RISC型CPU不仅精简了指令系统,还采用了一种叫做“超标量和超流水线结构”,大大增加了并行处理能力(并行处理是指一台服务器有多个CPU同时处理。并行处理能够大大提升服务器的数据处理能力。部门级、企业级的服务器应支持CPU并行处理技术)。也就是说,架构在同等频率下,采用RISC架构的CPU比CISC架构的CPU性能高很多,这是由CPU的技术特征决定的。目前在中高档服务器中普遍采用这一指令系统的CPU,特别是高档服务器全都采用RISC指令系统的CPU。RISC指令系统更加适合高档服务器的操作系统UNIX,现在Linux也属于类似UNIX的操作系统。RISC型CPU与Intel和AMD的CPU在软件和硬件上都不兼容。
    目前,在中高档服务器中采用RISC指令的CPU主要有以下几类:
    (1)PowerPC处理器
    (2)SPARC处理器
    (3)PA-RISC处理器
    (4)MIPS处理器
    (5)Alpha处理器 VLIW是英文“Very Long Instruction Word”的缩写,中文意思是“超长指令集架构”,VLIW架构采用了先进的EPIC(清晰并行指令)设计,我们也把这种构架叫做“IA-64架构”。EPIC处理器主要是Intel的IA-64(包括Intel研发的安腾处理器)和AMD的x86-64两种。
    按功能分类
    服务器的功能分类
    为了让服务器提供各种不同的服务,实现各种不同的用途,通常需要在服务器上安装各种软件。因此服务器按照功能可以划分为文件服务器、数据库服务器、邮件服务器、Web服务器、DNS服务器…
    1.文件服务器
    文件服务器是以文件数据共享为目标。它的特点是将供多台计算机共享的文件存放于一台计算机中,这台计算机被称为文件服务器,如Windows Server 2003文件服务器。
    2.数据库服务器
    安装了不同的数据库软件,提供不同的数据库服务的服务器被称为数据库服务器,如Oracle数据库服务器、MySQL数据库服务器、Microsoft SQL Server数据库服务器等。
    3.邮件服务器
    邮件服务器是用户所需要的重要的网络服务之一。没有邮件服务器的网络是不完整的网络。提供邮件功能的服务器被称为邮件服务器。它们通常安装的软件包括WebEasyMail、Sendmail、Postfix、Qmail、Microsoft Exchange等。
    4.Web服务器
    web服务器也是网络服务器,如Apache、IIS等搭建的服务器,其目的是提供Web网页服务。
    5.DNS服务器
    提供域名服务的服务器称之为DNS服务器。通过DNS服务器,可以实现域名服务的查询、应答。
    6.代理服务器
    代理服务器的功能好比网络的中转站,主要功能如下。
    .突破自身IP访问限制,访问受限游戏服务器。可以通过代理IP,将自己的IP变成国外IP,从而可以访问游戏服务器。
    .访问一些组织内部资源,如使用教育网IP地址段内的免费代理服务器,可以登录教育网内部的各类FTP下载学习资料。
    .突破IP封锁:出于安全或其他原因考虑,很多网站对某些IP段限制访问,这种限制是认为的,所以不能访问时可以换一个代理服务器试试。
    .隐藏真实IP:可以通过代理的方法隐藏自己的真实IP,免受攻击。
    7.FTP服务器
    FTP服务器是提供FTP服务的服务器,掌握了FTP账户和密码登录FTP服务器后,可以对服务器的文件进行上传、下载、删除、修改等操作。Windows下最广泛使用的FTP服务器软件是Serv-U;Linux下最广泛使用的FTP服务器软件是VsFTP。
    8.应用服务器
    这类服务器是提供各种不同应用服务器的统称,如网络游戏服务器。例如,传奇游戏服务器通过8000端口提供游戏过程中服务器与游戏玩家的客户端之间的数据传输以及处理;QQ聊天软件通过QQ服务器来传输文字、视频、音频数据等。
    所以应用服务器指的是通过制定的网络端口与客户端计算机进行特定的数据交互的服务器。

    数据中心选址

    DT时代互联网的发展,直接把人类带入一个信息爆炸的时代。海量的数据改变了传统商业、科学研究以及日常生活的方方面面。而随着互联网特别是移动互联网的兴起,数据中心也成为了一个非常热门的概念。不管是通信行业、金融行业、IT行业、政府部门,数据中心这四个字都随处可见。马云一直说我们的世界很快从IT时代走入DT时代,这个DT时代实际上就是指数据的世界。DT就是数据处理技术,而要进入DT时代,就离不开现在最热门的数据中心。人类的活动无时无刻不在产生数据,你的活动轨迹是数据,你身体的变化是数据,你的言语是数据。。。在这个DT时代,你的一举一动都可以用数据量化。在以往,与你相关的这些数据都是过去式,但是进入DT时代,你的这些数据就可以实时保存到数据中心。比如你每天使用手机付款消费产生的交易信息,可以实时储存到数据中心去。一整年下来,这些交易信息就形成了庞大的数据,通过对这些数据进行统计,就可以分析出你的消费习惯、消费时间、消费类别,精准的刻画出你的人物画像。而实现这一统计分析的前提,就是要建立储存你这些个人数据的数据中心。不过对于很多普通人来说,数据中心都还是一个略显抽象、有点神秘的存在。出于安全性的考虑,大部分的数据中心并没有对公众开放,大部分并没有实地见过数据中心。再加上现在见诸媒体的数据中心选址都比较特别,更是给数据中心增加一层神秘感。比如著名的腾讯公司就将其重要的数据中心建在贵州的某个山洞里,该山洞也被广大网友戏称为“山洞鹅厂”。不仅如此,国际巨头华为也在贵州几乎挖空了一座小山,用于自己数据中心的建设。另外在内蒙古的大草原上,各大运营商、知名IT产商也兴建了大量的数据中心。而在国外,像微软则直接把数据中心建在海底下,脸书将数据中心建在了北极圈。冰岛这个人口不到40万、极度寒冷的国家,更是被评为建立数据中心的最佳选择。那么到底什么是数据中心,为什么他们有的在山洞里,有的坐落在大草原上,有的建在北极圈呢?数据中心的选址从地理位置的选址上来看,近二十年数据中心的选址经过了三个阶段。第一阶段,选址在市中心。早些年还没有数据中心这一名词,当时各大单位承担数据中心这一职能的一般叫计算中心或信息中心,机房的规模不大,几乎都在500平方米以下。这时候的机房一般都位于市中心的各大办公楼中,比如银行、保险、电力、政府机关等单位,其机房与办公楼都融为一体。即使到今天,在大街小巷的办公大楼中仍然有大量微型的数据中心在运行。第二阶段,选址在郊区。随着互联网的发展,数据量开始井喷,传统的机房已经不能满足需要,这个时候的机房选址就开始呈现郊区化,几千平方米的数据中心开始出现,但由于中心城市土地资源极度稀缺,这些几千平方米的数据中心就只能在郊区安家。许多大型机构像银行、保险等开始呈现全国数据集中化的趋势。运营商是这类数据中心的建设鼻祖,早期各大运营商的通信枢纽机房慢慢演变为全业务机房,不仅承担着语音通信数据流转的核心作用,还承担着辖区内用户数据、计费数据、业务数据以及互联网数据处理的作用,该类机房的面积一般在5000平方-10000平方米。后来随着互联网业务的发展,托管业务需求大量出现。所谓托管,就是指一些互联网公司租用运营商的机房,将自己的设备存放在运营商的机房中,由运营商提供相应的机房基础设施及网络的接入,各类IDC机房开始涌现。随着互联网公司的不断壮大,托管的设备呈现井喷之势。从成本及数据安全性考虑,一些大的互联网运营商开始筹建自己的数据中心,比如腾讯第一代数据中心在2006年前后起步。该类数据中心的特点是直接租用运营商的传输链路,在数据中心内部划分部分区域作为运营商传输机房,直接接入到运营商的网络中。比如笔者工作过的某行数据中心,就位于上海外围。该地区集中了各大银行总行级的数据中心,每个银行的占地规模都超过100亩,如此大的用地在市中心几乎不现实。第三阶段,选址异地远程化。数据中心开始大量的异地远程化建设,从地理位置上看,逐步远离一二线城市。上万甚至数万平方米的数据中心开始大量出现,数据中心的耗电量越来越大。而数据中心的制冷系统是数据中心的耗电大户,为了节约能源、节省成本开支,各大互联网巨头开始在温度低、散热条件好、电费低的区域大规模建设数据中心。在第三阶段有两个数据中心建设的热门区域,一个是内蒙古,一个是贵州。实际上在贵州之前,内蒙古就成为了各大互联网企业的香饽饽。内蒙古的呼和浩特、鄂尔多斯、乌兰察布等地方都密集开始了IDC的建设。随着第三阶段数据中心的建设发展,也进一步促进了国家级互联网骨干直联点的建设。国家级互联网骨干直连点作为国家重要通信枢纽,主要用于汇聚和疏通区域乃至全国网间通信流量,是我国互联网网间互联架构的顶层关键环节。早期,全国只有北京、上海、广州三个国家级骨干直连点。2013年12月30日,工业和信息化部在北京、上海、广州三个骨干直联点外,宣布增设成都、武汉、西安、沈阳、南京、重庆和郑州七个新的骨干直联点,使国家级直联点增加至10个。 截止2014年9月,全国10个骨干直联点已经全部投入使用。2016年11月,工业和信息化部组织召开专家评审会,对浙江、福建、贵州增设国家级互联网骨干直联点的申请进行了评审。 会后陆续批复同意增设杭州国家级互联网骨干直联点、贵阳贵安国家级互联网骨干直联点、福州国家级互联网骨干直联点。 这使得国家级直连点增加到13个。如果数据中心所处的区域没有国家级网络直连节点,那么该数据中心的对外服务实际上是需要经过北京、西安等地的上级节点跳转。那么国家级网络直连点有什么好处呢?福州国家级互联网骨干节点开通时是这么介绍的:2017年度,福州国家级互联网骨干直联点在全国率先采用100G板卡互联,具备双向800G网间互联能力,建设带宽位居10个新增直联点首位。根据福建省公布的数据显示,福州骨干节点建设完成后,福建省内互联网网间平均时延由原来的50毫秒左右降低至10毫秒左右,降幅达80%,丢包率下降到接近于0%;出省互联网网间平均时延由原来的100毫秒左右下降至40毫秒左右,降幅超60%;丢包率由原来的1%左右下降至0.3%左右,降幅达70%。国家级互联网骨干节点意味着更快、更稳定的访问服务,而这些对大型的数据中心都是必不可少的。在骨干节点城市,往往都聚集大量的数据中心,具有发展数据产业的先天优势。

    数据中心的能耗

    从发电的角度说,2年前三峡的电已经不够数据中心用;从用电角度说,数据耗电超过了农业全行业。以能耗作为标准,未来的数据行业是当之无愧的”重“工业。这么大一盆水,已经撑不起国内数据中心了以往我也以为计算机、手机这些数据终端,以及为其提供网络服务的大部分设备和服务器都属于传统的“弱电”领域,不是节能的主要领域。我的同事也大多数这么想。换过几个单位,所有办公室下班后必定会关灯关空调,但对是否关电脑不甚在意。半夜的办公室里往往是黑暗中闪烁着几十个蓝莹莹的光点。但从全国的角度来看,为“计算”而付出的电量增长相当惊人,这部分用电量从无足挂齿到明显影响全国电力消耗,仅仅用了几年时间。按工信部数据, 2014年中国数据中心年耗电量占全国总用电量的1.5%。中国数据中心节能技术委员会称,2016年中国数据中心总耗电1200亿千瓦时,超过了三峡全年发电量(约1000亿千瓦时),占全国量的2%左右。和农业的总耗电量相当。红线是数据中心耗电,蓝线是三峡发电量众所周知,中国目前每年发电的大部分仍然来自燃煤:换算一下,2016年数据中心的用电需求,等于烧掉了4000万吨标准煤。据ICT Research咨询公司研究统计,截至目前,中国数据中心保有量约有近6万个,机房总面积约1650多万平米,即每平方米机房面积消耗2-3吨多煤。考虑到煤炭堆积的松散度,这意味着把所有机房都用来存煤,从地板堆到吊顶,才差不多能满足自身的耗能。早在2001年互联网泡沫破灭之前,已经有人注意到:IT业能源消耗年增长幅度约为8%-10%,远远快于全球平均能耗2%的年增幅。2007年,美国环境保护署就根据当时的美国数据中心耗电量增长趋势预言, 2005-2010年,全球服务器和数据中心能源使用量将翻2倍,最终超过1000亿度。从实际发展来看,美国2010年IT业总耗电近800亿度,占全美用电量2%,超过了传统上被认为是高耗能、高污染的造纸业。在这种背景下,AMD、惠普、IBM、Sun Microsystems等IT业巨头于2006年联合创建了绿色网格组织(The Green Grid,TGG),协助企业降低数据处理的能耗。Stanford大学的土木与环境工程教授Jonathan Koomey就在这个组织下工作是其中之一。正是因为IT行业的未雨绸缪和大规模跨领域的产学研结合,美国数据中心耗电规模自08年后明显趋缓(也有金融危机的影响),占全美总用电量的比例基本稳定在2%以下,尽管这期间数据中心的规模和数量不断增加。环境保护署耸人听闻的预言却并未实现,而是出现了以Koomey教授名字命名的Koomey定律:每隔18个月,相同计算量所需要消耗的能量会减少一半。United States Data Center Energy Usage Report,2016IT业巨头们创建TGG,当然有构筑行业技术壁垒的用意。但不可否认,TGG的努力的确大大降低了美国计算能耗。电用到哪里了?数据中心的能耗,分IT设备能耗,空调能耗和供电能耗三部分,其中IT设备能耗又可分为处理器能耗和存储能耗两部分。根据TGG在07年所做的测算,当时的数据中心,耗费在空调设备和供电设备上的电能普遍超过了IT设备本身的耗电。对于处理器能耗,相应的节能技术和方案有:采用节能指标更好的处理器用以构架服务器,,优化调度算法,合理调节处理器工作组之间和服务器之间的业务负荷等。对于存储能耗,相应的节能方案有固态硬盘替代机械硬盘,通过缓存预取技术减少硬盘的I/O操作,推动小型数据中心的云化等。对于空调能耗:相应的节能方案有优化机房布局及送风路线,采用如热管空调,双冷源型空调等新型高效冷源,在机房内应用智能调节制冷系统等。但最有效的方案是将数据中心规划建设在地下水下等易于利用自然冷源的地方。TGG最具影响力的产品之一,就是制作了一张数据中心选址地图,发掘了各种适合数据中心的风高水寒地区。供电能耗:相应的节能方案有采用智能配电模块,提升计算资源使用率,采用LED照明等。评价这些努力最重要的指标是PUE(Power Usage Effectiveness)= 该数据中心总设备能耗/该数据中心IT设备能耗。显然PUE越接近1,数据中心的能耗效率越好。近年来TGG又提出了DCP(Data Center Productivity)、DCeP(Data Centerenergy Productivity)和PPW(Performance per Watt)等指标模型,用来描述数据中心IT设备本身的能耗效率,寻找进一步挖掘节能潜力的空间,但PUE仍然是反应数据中心技术与节能水平的核心指标之一。2015年工信部的《国家绿色数据中心试点工作方案》披露,中国数据中心PUE普遍大于2.2,而美国的数据中心平均PUE已降到1.7以下。早在2013年底,作为当时国内数据中心最集中的地区,北京市十部委就已经联合发文,禁止PUE>1.5的数据中心建设投产,2014年3月,工信部发布《关于进一步加强通信行业节能减排工作指导意见》,规定从2016年开始,新建大型数据中心的PUE值必须小于1.5。但这个要求根本未能落实。为什么中国PUE降不下来?数据中心投资收益 = 数据中心累计运营收入 - 数据中心建设成本 - 数据中心累计运营成本根据行业经验,在数据中心的运营成本中,75%以上都是能源成本。数据中心通常规划用15~20年收回全部成本,而在收回成本时,累计的运营成本通常会比建设成本多出4倍以上。在建设新的数据中心时,采用低PUE的设计方案,有利于降低数据中心的运营成本。但是另一方面我们看到,和PUE指标关系很大的电力、空调和土建的建设成本占到了数据中心建设成本的80%以上,规划建设一个低PUE的数据中心,将会不可避免地带来数据中心建设成本的上升。基于行业经验数据做一个简单的估算,计划收回数据中心成本的时间取20年,累计运营成本达到建设成本的4倍,能源成本占运营成本比例取75%,那么只要在数据中心建设中每提升1%的PUE,导致的相关的建设成本上升不超过3%,就能够使得提前收回投资成本,从而对投资者更加有利。然而数据中心的节能问题,涉及到建筑工程,电气电子技术,制冷与空调技术等诸多内容,是一个典型的跨学科跨领域课题。迄今为止,仍然没有一套有效的模型或开发系统能够在设计阶段准确地量化出数据中心的PUE。很多投资者,特别是第三方资本,他们的投资收益往往只来自出租运营数据中心的计算资源,数据本身对这些投资者并没有什么额外的价值,这使得投资者对投资回报周期N尤其敏感,一个需要在节能方面砸大量的真金白银,却难以确定效果的建设方案,对投资者没有吸引力,他们往往宁可在数据中心运作起来之后,根据实测得的PUE及机房的具体情况再搞一些修修补补的调度和优化。这也反过来说明了,国外的谷歌、脸书,国内的阿里这些拥有大量自有数据的IT业巨头,为什么会热衷于极地机房、水底机房这样激进的大手笔投资建设方案。阿里千岛湖云数据中心,号称平均PUE达到了1.3以下,极低时可达到1.17。根据JonathanKoomey的不完全统计,目前谷歌拥有全球3%的服务器,但是只使用了全球数据中耗费总电能的1%。这意味着谷歌数据中心的运作效率远高于行业水平。这些用先进技术打造的庞然巨物般的IDC,看似吞噬电能的无底洞,其实比分散数据中心节约了海量电能。美国数据中心能耗飙升势头被遏制后,有些专家乐观的宣布,人们过分夸大了云计算的能耗,节能降耗技术已经取得重大突破,数据中心和云计算的能耗不会失控。但Koomey教授仍然在其2016年的United States Data Center Energy Usage Report的结语中写道:“本报告(United States Data Center Energy Usage Report 2016)肯定了数据中心行业近几年来在稳定自身电力需求规模上所获得的成功。尽管如此,我们仍有必要对整个ICT(Information Communication Technology)领域相关设备进行更深入的研究,而该领域节能技术也需要取得进一步的突破。只有这样,我们才能保证当前的行业电力需求规模,并不是仅仅因为处在一个即将到来的,电力需求随数据业务一同增长的时期前的短暂平静期,才得以保持了目前的稳定。”中国人口是美国四倍多,电力供应形势和环境压力更严峻,电商发展更超前,核电比例低得多,但由于资本投机性太强,导致数据中心耗费了更多宝贵的电能。美欧数据中心暂时通过技术研发+行业自律避开了电能瓶颈(只是暂时),爆炸性发展的中国数据中心产业能否避得开呢?在数据中心耗电超过三峡工程和农业用电的时候,这个问题已经不可忽视了。

    数据中心能耗评估

    PUE = 数据中心总能耗/IT设备能耗,其中数据中心总能耗包括IT设备能耗和制冷、配电等系统的能耗,其值大于1,越接近1表明非IT设备耗能越少,即能效水平越好。
    DCIE

    数据中心的主要节能措施

    数据中心属于能耗密集型产业,从网站到网上银行,现代数据中心几乎运行着一切信息应用,因而其对电力的消耗增长显著,大规模数据中心更是能耗巨大,数据中心能耗成本往往占据数据中心总体运营成本的50%以上,让数据中心的运营单位不堪负重。现在的数据中心已经开始意识到能耗的问题,但如何解决却颇为头痛,毕竟诸多绿色厂商提供的节能方法都要花费大量的金钱,这样的投入往往让数据中心的管理者望而却步,同时这些节能的方法所能带来的节能效果也总不能让数据中心满意。一方面是数据中心急切需要降低运营能耗;另一方面是绿色厂商带来的节能方法花费太高,两个方面供需存在矛盾。作为数据中心的管理者其实还可以找寻一些省钱的节能方法,本文就来说一说那些零成本投入的数据中心节能方法。
    调高数据中心温度
    为保证数据中心里设备的良好运行,数据中心内全年保持恒温恒湿,温度维持在20℃24℃。国际标准要求平均温度是,冬季在18℃22℃,夏季在21℃~25℃,温度的变化率下于5℃/h.温度对于数据中心非常重要,按照通用的评估方法,温度每提高10℃,可靠性要下降25%.数据中心这样常年保持在较低的温度虽然可以最大程度保障无局部热点,但是却造成了能源的极大浪费。现在的数据中心设备都会做高低温实验,工作温度上限可达45℃,所以适当地提升数据中心的运行温度,不仅可以节约能源,而且并不会给增加设备的故障率。目前,在数据中心行业提升数据中心的运行温度已经成为了普遍共识,有些数据中心专门采购耐温的设备,降低数据中心的能源消耗。综合来看,适当提升数据中心运行温度不用多花一分钱,而且利大于弊。
    评估数据中心设备运行情况
    数据中心里的设备多种多样,其中不乏有老旧设备,过老的服务器其工作效率只有新服务器的1/3,但是能耗却能达到新服务器的3倍,所以要及时淘汰掉这些老旧设备,将业务搬移到其它服务器上,虽然增加了其它服务器的一些负担,但整体能耗却降低了。还有不少的数据中心,存在有大量的闲置服务器,可能周期性的运行一些应用,但长时间处于闲置,这就要将其关闭或者重新分配工作任务,要周期性的对数据中心设备的运行负载情况进行评估,有不合理的、偷闲的设备就要及时调整。评估的标准是这些设备的CPU是否运行在正常的水平,有的设备长期CPU利用率只有20%,利用率过低,应该及时调整,一般服务器的CPU维持在50%左右就可以,可以保证正常业务的运行。
    虚拟化技术的应用
    在数据中心通过部署虚拟化可以提升设备的使用效率,一般一个服务器只能跑一个业务或者几个业务,通过虚拟化技术,将服务器虚拟成多台设备,这些设备都独立运行,提升了服务器的使用率,这样就可以减少数据中心同时运行的服务器数量,当需要增加新的业务时再开启一些服务器。一般的服务器运行功率都在400瓦左右,这样的服务器连续运行一天就会用掉十几度的电,虚拟化能在计划范围内针对低利用率或者高能耗对症下药。
    及时关闭不必要的用电设备
    大多数的数据中心都是通过远程进行管理,进入到数据中心设备区的情况比较少,而我们进入数据中心机房时经常会发现,灯火通明,而这些机房几天也可能不会进来一个人。大量的照明灯不仅造成能源的浪费,而且会增加机房的温度。所以出进入机房时应该及时将照明灯关闭,这样也可能为数据中心节省不少的费用。现在有些声控系统可以在人进入到机房中时,自动开启照明设备,在人离开的时候自动关闭照明设备,这种方式更加智能化。除了照明设备,数据中心里的设备外接显示器,用电跳线架,如果没有承载业务都应该及时关闭。有的数据中心新购设备往往在机房里空载运行数月,这大大造成了浪费,应该减少测试时间,及时更新,带新业务运行。
    充分利用自然散热
    北方的冬天零下20~30℃,而数据中心里却要保持在22℃,巨大的温差让空调系统长期高负荷运行,可以适当地开启门窗,扩大通风,通过自然冷却数据中心温度,通过对出入气流的隔离引导,可以充分利用外界的冷空气将数据中心内部产生的热量带走。数据中心的空调耗电是非常大的,其每停转一分钟都可以节省几度电能。已经有不少国外企业将数据中心建在了天气寒冷的冰岛,或是离海水近的地方,都是希望通过自然将温。有的数据中心甚至声称可以做到零能耗散热,这的确是一个降耗的办法。将正在运行的数据中心都搬到温度适宜的地方不太可能,但可以通过周期性地开启门窗,将外界的冷空气引入,通过自然降温。
    人为因素
    数据中心运维的人员应该有这样节能的意识,在工作的点点滴滴中就可以节能。以上介绍的方法都是一些宏观的方法,其实节能需要渗透到工作的方方面面。离开工作位随手关闭电脑,减少进入机房的次数(这样会产生多余的热量),业务更新要及时调整,尽量让现有运行的设备高负荷工作,每一次业务调整都需要对整体的能耗进行评估,让节能的思想深入人心。一旦人有了这种节能的意识,他会关注到自己工作的诸多细节,而改善这些细节往往会给数据中心带来意想不到的效果。每个数据中心都有自己的特点,只有这些掌握工作细节运维的人员主动去关注节能,才能真正为数据中心带来节能。 Bingdata优网助帮汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。

    展开全文
  • 云计算与大数据技术应用 第二章

    千次阅读 2020-12-17 14:21:12
    大数据技术概述 大数据技术的产生 大数据的基本概念 1、什么是大数据大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、...

    大数据技术概述

    大数据技术的产生

    大数据的基本概念

    1、什么是大数据?大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、管理、处理、并整理成为人类所能解读的形式的信息。大数据新手学习交流群,如果有想学习大数据或者交流经验的都可以加入,一起互相学习交流:→→→点击我即可加入圈子2、大数据特点①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。②Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。③Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。④Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。⑤Veracity:数据的准确性和可信赖度,即数据的质量。二、数据仓库1、什么是数据仓库?在计算中,数据仓库(DW或DWH)也称为企业数据仓库(EDW),是用于报告和数据分析的系统,被视为商业智能的核心组件。DWs从一个或多个不同源的综合数据的中央储存库。他们将当前和历史数据存储在一个地方,用于为整个企业的工作人员创建分析报告。2、数据仓库两种操作方式的特点①在线分析处理(OLAP)的特点是交易量相对较低。查询往往非常复杂,涉及到聚合。对于OLAP系统,响应时间是一种有效性度量。数据挖掘技术广泛使用OLAP应用程序。OLAP数据库以多维模式(通常为星型模式)存储汇总的历史数据。与数据集市相比,OLAP系统通常具有数小时的数据延迟,而数据集市预计延迟将接近一天。OLAP方法用于分析来自多个来源和视角的多维数据。OLAP中的三个基本操作是:总结(合并),钻取和切片和切块。②联机事务处理(OLTP)的特点是大量短暂的在线事务(INSERT,UPDATE,DELETE)。OLTP系统强调非常快速的查询处理并保持多访问环境中的数据完整性。对于OLTP系统,有效性以每秒交易次数来衡量。OLTP数据库包含详细和当前的数据。用于存储事务数据库的模式是实体模型(通常是3NF)。规范化是对在该系统中数据建模技术的规范。三、ETL与DM的区别ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存,它将DB中的某一个时间点的状态,“抽取”出来,根据DW的存储模型要求,“转换”一下数据格式,然后再“加载”到DW的一个过程,这里需要强调的是,DB的模型是ER模型,遵从范式化设计原则,而DW的数据模型是雪花型结构或者星型结构,用的是面向主题,面向问题的设计思路,所以DB和DW的模型结构不同,需要进行转换。DM/Data Mining/数据挖掘——这个挖掘,不是简单的统计了,他是根据概率论的或者其他的统计学原理,将DW中的大数据量进行分析,找出我们不能直观发现的规律。四、Hadoop1、什么是Hadoop?维基百科上面,Hadoop的定义是:一个用java语言编写的便于大型数据集合的分布式储存和计算的软件框架。简单来说,这是计算机领域的一个开源软件,任何程序开发者都可以看到它的源代码,并且进行编译。它的出现让大数据的储存和处理一下子变的快了很多,也便宜了很多。2、Hadoop特点是什么?①高效率(Efficient):分布式云计算,采用标准x86架构服务器大规模集群实现,每个模块都是一个离散的处理单元,使用并行计算技术,及群内各计算节点负载均衡,当某节点负荷过高时,可智能的将负荷转移到其他节点,并支持节点线性平滑扩展;分布式云存储,采用x86服务器的本地硬盘实现,使用分布式文件系统,每份数据至少保存在3个节点,保证存储设计的性能和可靠性目标。②可靠性(Reliable):能搞自身的维护数据的多个成本,并且在任务失败是自动的重新部署计算任务③可扩容性(Scalable):能可靠的储存和处理PB级的数据④成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

                      大数据产生的原因
    

    进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
    产生大数据的的一个很重要的因素是芯片技术的提升,信息处理能力按照摩尔定理逐年加快,同时成本相对下降。芯片技术的提升导致数据存储成本的下降、信息传输速率的不断提升、计算能力的提升,缺了任何一项,大数据就很难生存。在这个过程中,互联网、移动互联网的普及的快速发展让大数据向我们快速走来。有了这些作为基础,各种传感器的出现,物联网的应用不断涌现,大数据将会越来越大。

    大数据这个术语的出现大概可追溯到Apache的开源项目Nutch。当时,大数据——Big Data——是用来描述为更新网络搜索索引需同时进行批量处理或分析的大量数据集。随着MapReduce和Google File System(GFS)的发布,从2009年开始,大数据才开始成为互联网行业的流行词汇,也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平板电脑、PC以及遍布各个角落的各种各样的传感器,无一不是大数据的来源或承载方。可以说,大数据就在我们的身边——从阿里巴巴、1号店、京东商城等电子商务数据,到QQ、MSN等即时聊天内容,再到Google、Bing、百度,又到社会网络与微博数据等,都在生产、承载着大数据。随着大量的数据的产生也给数据处理和挖掘带来许多困难,信息处理量的增大(注:据统计,Facebook对某一主题进行搜索时,需在超过50TB的数据中迅速找出相关内容;在eBay存储了超过2PB的数据以备查询需要),很多传统方法(如RDBMS、SQL查询等)都不能直接应用在对海量数据的处理上,否则时间开销将会变得非常大。对大数据的挖掘与分析变得愈发重要。而通过对Google、百度、Bing、Facebook、网页文本、微博消息等的挖掘与分析,使人们的行为和情绪的细化测量成为可能。挖掘用户的行为习惯和喜好,从凌乱纷繁的大数据背后找到符合用户兴趣和习惯的产品和服务并对产品和服务进行有针对性地调整和优化,本身就蕴含着巨大的商机。北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

                      大数据概念的提出
    

    2014 年,马云提出,“人类正在从 IT 时代走向 DT 时代”。如果说在 IT 时代是以自我控制、自我管理为主,那么到了 DT(Data Technology) 时代,则是以服务大众、激发生产力为主。 在 DT 时代,人们比以往任何时候更能收集到更丰富的数据。数据正在变革我们的生活,催生了大数据行业的发展。百度百科中这样定义大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这个新处理模式,就是大数据技术了。下图是我整理的主要大数据技术发展历程。在大数据时代,传统的软件已经无法处理和挖掘大量数据中的信息。最重要的变革着就是谷歌的“三架马车”。谷歌在 2004 年左右相继发布谷歌分布式文件系统 GFS、大数据分布式计算框架 Mapreduce、大数据 Nosql 数据库 BigTable ,这三篇论文奠定了大数据技术的基石。变革总是像谷歌那样的大公司主导的,在当时大部分公司还在致力于提高单机性能时,谷歌已经开始设想把数据存储、计算分给大量的廉价计算机去执行。受 Google 的论文启发,2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中实现了类似 GFS 的功能,即后来 HDFS 的前身。后来 2005 年 2 月,Mike Cafarella在 Nutch 中实现了 MapReduce 的最初版本。到 2006 年 Hadoop 从 Nutch 中分离出来并启动独立项目。Hadoop 的开源推动了后来大数据产业的蓬勃发展,带了了一场深刻的技术革命。接下来,大数据相关技术不断发展,开源的做法让大数据生态逐渐形成。由于 Mapredece 编程繁琐,Facebook 贡献 Hive,sql 语法为数据分析、数据挖掘提供巨大帮助。第一个运营 Hadoop 的商业化公司 Cloudera 也在 2008 年成立。由于内存硬件已经突破成本限制,2014 年 Spark 逐渐替代 Mapreduce 的地位,受到业界追捧。Spark 在内存内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快 100 倍,并且其运行方式适合机器学习任务。Spark 在 2009 年诞生于 UC Berkeley AMPLab, 2010 年开源,2013 年贡献到 Apache 基金会。Spark 和 Mapreduce 都专注于离线计算,通常时间是几十分钟甚至更长时间,为批处理程序。由于实时计算的需求,流式计算引擎开始出现,包括 Storm、Flink、Spark Streaming。大数据存储和处理技术的发展同时也带动了数据分析、机器学习的蓬勃发展,也促使了新兴产业的不断涌现。大数据技术是基石,人工智能的落地是下一个的风口。身处在互联网行业中,感觉到技术进步很快,要略去浮躁,把握住变革的到来。摘录一个总结: 1.论文奠定技术发展基石; 2.业务催生技术不断突破; 3.效率倒逼技术迭代更新
    在这里插入图片描述
    大数据这一术语产生于全球数据爆炸增长的背景下,用来形容庞大的数据集合。而大数据时代的到来标志着一场深刻的革命,这似乎才是信息化发展的“第三次浪潮”。其来势之迅猛,对经济社会及人们的生产生活影响之巨大、之深刻,是难以估量的。信息正以生产资料要素的身份参与到生产之中,其表现形式就是信息数据的资源化和人们行为的数据化,大到数字政府、数字经济、数字社会,小到数字城市、数字交通、数字环保等都应运而生。数据资源这种取之不尽、用之不竭并在无限循环中的交互作用,使其价值难以估量。虽然,我国大数据发展起步较晚,但发展速度却非常快。国家对大数据十分重视,明确提出要“实施国家大数据战略,推进数据资源开放共享”。大数据已成为时代的潮流,历史的必然。在新中国成立70周年之际,我们回顾过去,聚焦大数据这一新兴技术的发展。为大家呈现大数据在我国发展的一些脉络;同时展望未来,迎接新一轮科技革命的机遇与挑战。

    作者:数据
    链接:https://zhuanlan.zhihu.com/p/254907113
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    大数据战略作为‘十三五’期间的十四大国家战略之一,是中国经济发展新的驱动力。大数据通过提供全样本分析手段,使得很多不可能变成可能,在各个行业领域都已经产生了重要影响,大数据的魅力无处不在。今天的文章,我就从大数据的发展历史、特点、现状和典型案例等角度,对大数据技术进行一下综合介绍。(1)大数据的发展历程随着计算机和网络的发展,信息不断“爆炸”:1970s: 超大规模数据库 (VLDB)【GB=10^9字节】21世纪初:海量数据(massive data)【TB=10^12字节】2008年:Big data 【PB=1015字节】现在实际的数据量已经达到:ZB=103EB=106PB=1021字节一个新单位:1YB=103ZB=1024字节2008年9月4日,《自然》(Nature)刊登了一个名为“Big Data”的专辑。2011年5月,美国著名咨询公司麦肯锡(McKinsey)发布《大数据:创新、竞争和生产力的下一个前沿》的报告,首次提出了“大数据”概念,认为数据已经成为经济社会发展的重要推动力。大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。2013年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”(Big Data Research and Development Initiative),有人将其比之为克林顿政府当年提出的“信息高速公路”计划 。该计划涉及美国国家科学基金会、卫生研究院、能源部、国防部等6个联邦政府部门,投资超两亿美元,研发收集、组织和分析大数据的工具及技术。2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大地震一度搁置的政府ICT战略研究。英国政府也宣称投资6亿英镑科学资金,并计划在未来两年内在大数据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。2012年3月,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位。中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。2015年8月31日,国务院正式印发《促进大数据发展行动纲要》。国内外传统IT巨头(IBM、微软、惠普、Oracle,联想、浪潮等),通过“硬件+软件+数据”整合平台,向用户提供大数据完备的基础设施和服务,实现“处理-存储-网络设备-软件-应用”,即所谓“大数据一体机”。在大数据时代,这些厂商在原有结构化数据处理的同时,开始加大在可扩展计算、内存计算、库内分析、实时流处理和非结构化数据处理等方面的投入,通过并购大数据分析企业,迅速增强大数据分析实力和扩展市场份额。国内外互联网巨头(亚马逊、Google、Facebook、阿里巴巴、百度、腾讯等),这些互联网公司基于开源大数据框架(在大数据时代,催生了开源的大数据分布式处理软件框架Hadoop:包括分布式文件系统HDFS,并行编程框架Map-Reduce,数据仓库工具Hive和大数据分析平台Pig等)进行了自身应用平台的定制和开发,基于自身应用平台、庞大的用户群、海量用户信息以及互联网处理平台,提供精确营销、个性化推介等商务活动,并开始对外提供大数据平台服务。(3)大数据的特点:四个VVolume(Amount of Data):大容量(主要体现数据存储量大和计算量大)。Velocity(Speed of Data in & out ):快速率(主要指数据更新、增长速度快,数据存储、传输、处理速度快)。Variety(Range of Data Types & Sources):多样性(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)。Value(Usefulness of Data):高价值(大海捞针,“在大数据困难面前,不被利用就是成本”)。(4)大数据存储、检索与挖掘分析的关键技术大数据的存储、检索与挖掘分析,目前已经形成了完整和成熟的开源和商业生态链。包括关系型数据库, 非关系型数据库,NoSQL, 流计算,SQL on Hadoop, OLAP on Hadoop, OLTP on Hadoop,Cache 缓存,In-Memory DB, In-Memory Data Grid等等 。利用自然语言处理、信息检索、数据挖掘、机器学习等技术,可以从大数据中获得有价值的信息和知识。(5)大数据的典型案例互联网大数据交通大数据社交大数据生物大数据(6)云计算和大数据时代的来临云计算在中国已经开始普及式、爆发式增长大数据时代,云计算及大数据已进行了全面融合。云计算侧重资源管理,而大数据侧重业务应用。云计算资源池化的管理模式是大数据应用的前提。云计算提供的存储和计算资源池可动态支撑大数据分析业务不断变化的需求。

              第四范式     大数据对科学研究产生的影响
    

    第四范式成立于 2014 年,是一家人工智能技术与服务提供商,数据科技驱动行业应用的创新者,业务是利用机器学习技术和经验,通过对数据进行精准预测与挖掘,揭示出数据背后的规律,帮助企业提升效率、降低风险,获得更大的商业价值。其研发的先知平台为企业级 AI 平台[1]。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业 AI 创新变革。

    吉姆·格雷是一个传奇人物。他是1998年图灵奖得主,著名的计算机科学家。2007年1月28日,他在自己酷爱的航海运动中驾驶帆船失踪于茫茫大海之上。短短17天之前,1月11日,他在加州山景城召开的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)上,发表了他的著名演讲:科学方法的一次革命。在这篇演讲中,吉姆·格雷将科学研究的范式分为四类——除了之前的实验范式、理论范式、仿真范式之外,新的信息技术已经促使新的范式出现——数据密集型科学发现(Data-Intensive Scientific Discovery)。这个第四范式,所谓的“数据密集型”,也就是现在我们所称的“大数据”。吉姆·格雷(左)一、何谓“第四范式”“范式”一词,英文名Paradigm,一般指已经形成模式的,可直接套用的某种特定方案或路线。在计算机科学界,编程有编程范式,数据库有数据库架构的范式,不一而足。总之,你将其认为是某种必须遵循的规范或大家都在用的套路即可。在科学发现领域,第一范式,是指以实验为基础的科学研究模式。简单说来,就是以伽利略为代表的文艺复兴时期的科学发展初级阶段。在这一阶段,伽利略老师爬上比萨斜塔扔俩铁球,掐着脉搏为摆动计时等等我们耳熟能详的故事,为现代科学开辟了崭新的领域,开启了现代科学之门。当实验条件不具备的时候,为了研究更为精确的自然现象,第二范式,即理论研究为基础的科学研究模式随之而来。在这个阶段,科学家们会将无法用实验模拟的科学原理用模型简化,去掉一些复杂的因素,只留下关键因素,然后通过演算得到结论。比如我们熟知的牛顿第一定律:任何物体都要保持匀速直线运动或静止状态,直到外力迫使它改变运动状态为止。这个结论就是在假设没有摩擦力的情况下得出的。令人欣喜的是,当时的理论科学与实验科学结合得如此完美,任何一个理论都很容易被实验所证实。因此第二范式很快成为了重要的科研范式。第二范式发展到极致是19世纪末,当时牛顿三大定律解释了经典力学,麦克斯韦理论解释了电磁学。经典物理学的大厦构建得宏伟壮观,而且似乎毫无瑕疵。结果在20世纪初,天边的两朵乌云无情地破坏了它的完美。量子力学和相对论两座暂新的高山拔地而起,那是科学的另一个黄金时代。然而,不论是量子力学还是相对论,不约而同地以理论研究为主,超凡的头脑和计算超越了实验。尽管在一段时间之后,经过复杂设计的实验终究还是证实了计算的理论。因此每一位中学物理老师都会把牛顿和爱因斯坦相提并论,并称人类历史上最伟大的两位物理学家。随着验证理论的难度和经济投入越来越高,正在科学研究逐渐力不从心之际,另一位顶尖科学家站了出来。冯·诺依曼老师,在上世纪中期提出了现代电子计算机的架构,并一直持续到今天。冯·诺依曼于是,随着电子计算机的高速发展,第三范式,即利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及。不论在基础科学研究还是工程实验中,计算机仿真越来越多地取代实验,成为科研的常用方法。半个世纪之后的2013年,诺贝尔化学奖甚至授予了用计算机模拟开发多尺度复杂化学系统模型的科学家卡普拉斯、莱维特和瓦谢勒。诺贝尔化学奖评选委员会在当天发表的声明中说:现在,对化学家来说,计算机是同试管一样重要的工具,计算机对真实生命的模拟已为化学领域大部分研究成果的取得立下了“汗马功劳”。那么,当时间进入互联网时代,吉姆·格雷认为,鉴于数据的爆炸性增长,数据密集范式理应并且已经从第三范式即计算范式中分离出来,成为一个独特的科学研究范式,即“第四范式”。二、“第四范式”的特点同样是计算,第四范式与第三范式有什么区别呢?最显著的区别就是:计算范式是先提出可能的理论,再搜集数据,然后通过计算仿真进行理论验证。而数据密集型范式,是先有了大量的已知数据,然后通过计算得出之前未知的可信的理论。简单举个例子说明吧。以前我们对一个问题(比如雾霾)进行研究是这样的:首先,发现问题,比如出现雾霾了,想知道雾霾是什么,怎么预防。其次,发现这个事儿好像不那么简单,雾霾的形成机理除了源头、成分等东西之外,还包括气象因素,包括地形、风向、湿度等等,参数之多超出了我们的控制范围。那么我们要怎么办呢?去除一些看起来不怎么重要的参数,保留一些简单的参数,提出一个理论。然后搜集数据,用计算机进行模拟,并不断对理论进行修正。最后得出可信度比较高的结果,以此来对可能形成雾霾天气的预测。这条途径大家都熟悉,这就是第三范式。但是,这条途径中有一个看起来很小的问题:你如何确定哪些参数是重要的,哪些是不重要的?那些看起来不重要的参数,会不会在某些特定条件下,起到至关重要的作用?毕竟南美洲的一只蝴蝶扇扇翅膀都可能引起印度洋的风暴啊不是么?从这一点来看,能够获取最全面的数据,也许才能真正探寻到雾霾的成因,以及做出更科学的预测。那么第四范式就是这样一个研究方法。首先,布置海量的监测点,收集海量的数据。海量的意思就是比传统意义上多得多。传统意义上我们在北京市布置几十个上百个监测点,海量的意思……嗯,我们假设每款手机都自带PM2.5测量功能,这样全北京市就有2000万的监测点,而且这些监测点还有空间的移动信息。这样相对于固定监测点所产生的数据,就是海量数据。其次,利用这些数据,分析得出雾霾的形成原因和预测。最后,验证预测,从中总结出理论。大家已经看到了,第二和第三步我都只用了一句话。不是因为它很简单,恰恰相反,而是因为它太复杂,我无法在这篇小文章中详细阐述。事实上,在当今,许多研究人员所面临的最大问题,已经不是缺少数据,而是面对太多的数据,不知道怎么来使用它们。因为这种体量的数据,基本上可以认为,已经超出了普通人的理解和认知能力。幸运的是我们有了超级计算机,有了计算集群,有了超大的分布式数据库,还有了基于互联网的云计算。这就使得运用第四范式的科学研究成为了可能。三、“第四范式”的挑战第四范式科研已经在气象和环境、生物和医学方面取得了很大进展,但很明显,随着移动互联网的发展,各行各业产生的数据呈现爆炸式的增长,科研人员所面对的各个领域的数据只会越来越多。那么问题来了,实现第四范式的科研,从中发现更多更新的成果,所面临的挑战有哪些呢?第一,不同结构数据的整合。作为一个研究雾霾的人员,我需要气象数据,还需要工厂排放的数据、汽车尾气的数据,这些不同来源的数据势必有不同的形态。简单点说,一个excel表跟一个word文档,怎么把它们结合起来使用(当然实际情况比这个复杂得多)。这是一开始我们要使用第四范式时就会面对的最大问题。第二,海量数据的处理。你使用的excel表可以处理多少条数据?很多人可能不知道,一个工作表是65535行(2的16次方=65536)和255列(2的8次方=256)。桌面使用的Access数据表呢?我实际使用中,基本上超过十万条速度就会很慢了。SQL Server或者Oracle这类商用数据库?百万到千万级数据记录问题不大,过亿甚至到千亿的量级,凭借分布式处理也还可以支撑。但更多呢?千万亿量级呢?不要以为千万亿量级是一个很遥远的概念。简单起见,不按1024按1000算,一MB就是一百万Byte,一GB就是十亿,一TB就是万亿,一PB就是千万亿……PB后面是EB、ZB、YB。嗯,阿里巴巴2014年3月宣布其数据量已经超过100PB。所以说,当你想剁手的时候,想像一下你给这么多数据里所做的贡献也不过是沧海一粟,估计负罪感会减轻很多吧。为了解决这么多数据的问题,常见的数据库肯定是只能摊手了。好在做搜索引擎的那些人早就要面对这个问题,然后他们也比较好地解决了这个问题。谷歌的MapReduce架构,阿帕奇在此基础上弄出的Hadoop,几年的功夫就席卷了计算机界,成为目前分析大数据的领先平台。所以现在这个问题暂时算是解决了,当然了,永远只能是“暂时”解决。第三,算法的发展。其实针对大数据的算法没多少好说的,基本上还是最开始那些算法。最基本的,贝叶斯、决策树、k-关联算法、聚类分析。值得一提的是人工智能,从70年代发展以后,近几年人工智能倒是借着大数据的东风发展了一把。因为人工智能主要依靠大量数据的训练,所以数据越多,对人工智能的训练就越靠谱。因此类似于人工智能、遗传算法之类的分层次不太可控的算法,应该是发展方向。第四,研究结论的展现。这是值得一提的方面。对于大数据的分析,展现出的结论一般人未必能直观地了解。本来嘛,过亿数量级的数据,已经超出了人类统计学的理解能力。如何将其展现给人类(甲方/用户/普通群众),则是一个如何将神化的东西接地气的问题。大数据分析结果的可视化,在近几年确实是一个热点。另一方面,移动互联时代,读图比读文字要直观得多(本文只有文字而没有图是一大缺陷,希望我罗里吧嗦的文字能够让看的人看得懂)。大家在微博上看到的大部分大数据分析结论,都是图片更直观。因此,如何将研究结果展现出来,让人脑能够接受,这也是一个很重要的问题。数据的可视化展示四、高校利用“第四范式”开展科研本来作为科普文,到第三部分也就可以结束了。但身为高校的一份子,有些事情还是想继续说说,遂有此部分文字。作为科研的主力军,我国高校承担了国家70%以上的科研项目,并取得了大量的科研成果。同时,自上世纪八十年代以来,我国高校迅速经过第一和第二范式的科研训练,很快接受了第三范式。计算机仿真成为科研中快速追赶世界领先水平的重要手段。然而,面对大数据海啸(这个词已经取代了“浪潮”成为更形象的比喻了)的第四范式,我国高校却面临一定的困局。首先,收集并管理海量数据,需要巨量的投入。没有一所高校或研究机构能够负担上千万台服务器这样的投入。另一方面,在互联网和云计算技术已经发展成熟的时代,重复投入建设也是一种巨大的浪费。其次,大部分高校尚未能理解大数据对于科研意味着什么。提出理论、进行模拟和仿真、得到结论这一传统步骤仍然是主要的研究方式,更遑论大数据的基本原理和分析方法,很多科研人员更是所知寥寥。这一困局无法突破,科研的未来只能继续跟在别人身后亦步亦趋,难以在工程学科、社会学科等方面得出重大的成果。而如果能够突破这一困局,或许将成为我国整个科技工作实现弯道超车的关键。事实上,非洲一些贫困国家的科研,已经通过互联网实现与欧洲或北美的共同研究,并取得了相当快的进展。利用欧洲和北美积累的科研大数据,非洲一些国家比如肯尼亚、南非、阿尔及利亚的科研水平得到了大幅的提高。传统大数据研究的步骤个人认为,要积极拥抱科研的“第四范式”,国内高校需要在以下几个方面取得突破:1、尽快搭建自身的虚拟云平台,为科研人员提供虚拟计算空间。目前浙江大学已经计划与阿里巴巴合作建设私有云,将来为每位教师提供个人的计算空间服务。2、将云计算、大数据分析技术作为基础课程设置,使其作为科研的基本工具和必要科研素质。3、与大型互联网企业进行合作,作为科研平台建设的一部分,力争以低廉价格获取各类海量数据和计算资源。在这方面,斯坦福大学与亚马逊云服务的合作可作借鉴。亚马逊为美国大学提供廉价的云计算资源及可供分析的数据资源,解脱了大学对于这方面巨量投入的负担,同时也使得亚马逊积累的海量数据能够得到更好的利用。4、以交叉学科平台建设、协同创新中心建设等多样化的科研模式创新,促进不同类型不同来源数据的整合,形成新知识新发现的不断涌现。综上,数据密集型科技发现范式,超越了时间和空间的限制,也超越了学科藩篱,是科技发展史上难得的契机。抓住其发展方向,扩大其应用范围,实现我国科研的跨越式发展并非天方夜谭。

                   云计算与大数据的关系
    

    一、云计算最初的目标我们首先来说云计算。云计算最初的目标是对资源的管理,管理的主要是计算资源、网络资源、存储资源三个方面。1管数据中心就像配电脑什么叫计算、网络、存储资源?比如你要买台笔记本电脑,是不是要关心这台电脑是什么样的CPU?多大的内存?这两个就被我们称为计算资源。这台电脑要上网,就需要有个可以插网线的网口,或者有可以连接我们家路由器的无线网卡。您家也需要到运营商比如联通、移动或者电信开通一个网络,比如100M的带宽。然后会有师傅弄一根网线到您家来,师傅可能会帮您将您的路由器和他们公司的网络连接配置好。这样您家的所有的电脑、手机、平板就都可以通过您的路由器上网了。这就是网络资源。您可能还会问硬盘多大?过去的硬盘都很小,大小如10G之类的;后来即使500G、1T、2T的硬盘也不新鲜了。(1T是1000G),这就是存储资源。对于一台电脑是这个样子的,对于一个数据中心也是同样的。想象你有一个非常非常大的机房,里面堆了很多的服务器,这些服务器也是有CPU、内存、硬盘的,也是通过类似路由器的设备上网的。这时的问题就是:运营数据中心的人是怎么把这些设备统一的管理起来的呢?2灵活就是想啥时要都有,想要多少都行管理的目标就是要达到两个方面的灵活性。具体哪两个方面呢?举个例子来理解:比如有个人需要一台很小的电脑,只有一个CPU、1G内存、10G的硬盘、一兆的带宽,你能给他吗?像这种这么小规格的电脑,现在随便一个笔记本电脑都比这个配置强了,家里随便拉一个宽带都要100M。然而如果去一个云计算的平台上,他要想要这个资源时,只要一点就有了。这种情况下它就能达到两个方面灵活性:时间灵活性:想什么时候要就什么时候要,需要的时候一点就出来了;空间灵活性:想要多少就有多少。需要一个太很小的电脑,可以满足;需要一个特别大的空间例如云盘,云盘给每个人分配的空间动不动就很大很大,随时上传随时有空间,永远用不完,也是可以满足的。空间灵活性和时间灵活性,即我们常说的云计算的弹性。而解决这个弹性的问题,经历了漫长时间的发展。3物理设备不灵活第一个阶段是物理设备时期。这个时期客户需要一台电脑,我们就买一台放在数据中心里。物理设备当然是越来越牛,例如服务器,内存动不动就是百G内存;例如网络设备,一个端口的带宽就能有几十G甚至上百G;例如存储,在数据中心至少是PB级别的(一个P是1000个T,一个T是1000个G)。然而物理设备不能做到很好的灵活性:首先是它缺乏时间灵活性。不能够达到想什么时候要就什么时候要。比如买台服务器、买个电脑,都要有采购的时间。如果突然用户告诉某个云厂商,说想要开台电脑,使用物理服务器,当时去采购就很难。与供应商关系好的可能需要一个星期,与供应商关系一般的就可能需要采购一个月。用户等了很久电脑才到位,这时用户还要登录上去慢慢开始部署自己的应用。时间灵活性非常差。其次是它的空间灵活性也不行。例如上述的用户需要一个很小很小的电脑,但现在哪还有这么小型号的电脑?不能为了满足用户只要一个G的内存是80G硬盘的,就去买一个这么小的机器。但是如果买一个大的,又会因为电脑大,需要向用户多收钱,可用户需要用的只有那么小一点,所以多付钱就很冤。4虚拟化灵活多了有人就想办法了。第一个办法就是虚拟化。用户不是只要一个很小的电脑么?数据中心的物理设备都很强大,我可以从物理的CPU、内存、硬盘中虚拟出一小块来给客户,同时也可以虚拟出一小块来给其他客户。每个客户只能看到自己的那一小块,但其实每个客户用的是整个大的设备上的一小块。虚拟化的技术使得不同客户的电脑看起来是隔离的。也就是我看着好像这块盘就是我的,你看着这块盘就是你的,但实际情况可能我的这个10G和你的这个10G是落在同样一个很大很大的存储上。而且如果事先物理设备都准备好,虚拟化软件虚拟出一个电脑是非常快的,基本上几分钟就能解决。所以在任何一个云上要创建一台电脑,一点几分钟就出来了,就是这个道理。这样空间灵活性和时间灵活性就基本解决了。5虚拟世界的赚钱与情怀在虚拟化阶段,最牛的公司是VMware。它是实现虚拟化技术比较早的一家公司,可以实现计算、网络、存储的虚拟化。这家公司很牛,性能做得非常好,虚拟化软件卖得也非常好,赚了好多的钱,后来让EMC(世界五百强,存储厂商第一品牌)给收购了。但这个世界上还是有很多有情怀的人的,尤其是程序员里面。有情怀的人喜欢做什么事情?开源。这个世界上很多软件都是有闭源就有开源,源就是源代码。也就是说,某个软件做的好,所有人都爱用,但这个软件的代码被我封闭起来,只有我公司知道,其他人不知道。如果其他人想用这个软件,就要向我付钱,这就叫闭源。但世界上总有一些大牛看不惯钱都让一家赚了去的情况。大牛们觉得,这个技术你会我也会;你能开发出来,我也能。我开发出来就是不收钱,把代码拿出来分享给大家,全世界谁用都可以,所有的人都可以享受到好处,这个叫做开源。比如最近的蒂姆·伯纳斯·李就是个非常有情怀的人。2017年,他因“发明万维网、第一个浏览器和使万维网得以扩展的基本协议和算法”而获得2016年度的图灵奖。图灵奖就是计算机界的诺贝尔奖。然而他最令人敬佩的是,他将万维网,也就是我们常见的WWW技术无偿贡献给全世界免费使用。我们现在在网上的所有行为都应该感谢他的功劳,如果他将这个技术拿来收钱,应该和比尔盖茨差不多有钱。开源和闭源的例子有很多:例如在闭源的世界里有Windows,大家用Windows都得给微软付钱;开源的世界里面就出现了Linux。比尔盖茨靠Windows、Office这些闭源的软件赚了很多钱,称为世界首富,就有大牛开发了另外一种操作系统Linux。很多人可能没有听说过Linux,很多后台的服务器上跑的程序都是Linux上的,比如大家享受双十一,无论是淘宝、京东、考拉……支撑双十一抢购的系统都是跑在Linux上的。再如有Apple就有安卓。Apple市值很高,但是苹果系统的代码我们是看不到的。于是就有大牛写了安卓手机操作系统。所以大家可以看到几乎所有的其他手机厂商,里面都装安卓系统。原因就是苹果系统不开源,而安卓系统大家都可以用。在虚拟化软件也一样,有了VMware,这个软件非常贵。那就有大牛写了两个开源的虚拟化软件,一个叫做Xen,一个叫做KVM,如果不做技术的,可以不用管这两个名字,但是后面还是会提到。6虚拟化的半自动和云计算的全自动要说虚拟化软件解决了灵活性问题,其实并不全对。因为虚拟化软件一般创建一台虚拟的电脑,是需要人工指定这台虚拟电脑放在哪台物理机上的。这一过程可能还需要比较复杂的人工配置。所以使用VMware的虚拟化软件,需要考一个很牛的证书,而能拿到这个证书的人,薪资是相当高,也可见复杂程度。所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别大,一般在十几台、几十台、最多百台这么一个规模。这一方面会影响时间灵活性:虽然虚拟出一台电脑的时间很短,但是随着集群规模的扩大,人工配置的过程越来越复杂,越来越耗时。另一方面也影响空间灵活性:当用户数量多时,这点集群规模,还远达不到想要多少要多少的程度,很可能这点资源很快就用完了,还得去采购。所以随着集群的规模越来越大,基本都是千台起步,动辄上万台、甚至几十上百万台。如果去查一下BAT,包括网易、谷歌、亚马逊,服务器数目都大的吓人。这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置,几乎是不可能的事情,还是需要机器去做这个事情。人们发明了各种各样的算法来做这个事情,算法的名字叫做调度(Scheduler)。通俗一点说,就是有一个调度中心,几千台机器都在一个池子里面,无论用户需要多少CPU、内存、硬盘的虚拟电脑,调度中心会自动在大池子里面找一个能够满足用户需求的地方,把虚拟电脑启动起来做好配置,用户就直接能用了。这个阶段我们称为池化或者云化。到了这个阶段,才可以称为云计算,在这之前都只能叫虚拟化。7云计算的私有与公有云计算大致分两种:一个是私有云,一个是公有云,还有人把私有云和公有云连接起来称为混合云,这里暂且不说这个。私有云:把虚拟化和云化的这套软件部署在别人的数据中心里面。使用私有云的用户往往很有钱,自己买地建机房、自己买服务器,然后让云厂商部署在自己这里。VMware后来除了虚拟化,也推出了云计算的产品,并且在私有云市场赚的盆满钵满。公有云:把虚拟化和云化软件部署在云厂商自己数据中心里面的,用户不需要很大的投入,只要注册一个账号,就能在一个网页上点一下创建一台虚拟电脑。例如AWS即亚马逊的公有云;例如国内的阿里云、腾讯云、网易云等。亚马逊为什么要做公有云呢?我们知道亚马逊原来是国外比较大的一个电商,它做电商时也肯定会遇到类似双十一的场景:在某一个时刻大家都冲上来买东西。当大家都冲上买东西时,就特别需要云的时间灵活性和空间灵活性。因为它不能时刻准备好所有的资源,那样太浪费了。但也不能什么都不准备,看着双十一这么多用户想买东西登不上去。所以需要双十一时,就创建一大批虚拟电脑来支撑电商应用,过了双十一再把这些资源都释放掉去干别的。因此亚马逊是需要一个云平台的。然而商用的虚拟化软件实在是太贵了,亚马逊总不能把自己在电商赚的钱全部给了虚拟化厂商。于是亚马逊基于开源的虚拟化技术,如上所述的Xen或者KVM,开发了一套自己的云化软件。没想到亚马逊后来电商越做越牛,云平台也越做越牛。由于它的云平台需要支撑自己的电商应用;而传统的云计算厂商多为IT厂商出身,几乎没有自己的应用,所以亚马逊的云平台对应用更加友好,迅速发展成为云计算的第一品牌,赚了很多钱。在亚马逊公布其云计算平台财报之前,人们都猜测,亚马逊电商赚钱,云也赚钱吗?后来一公布财报,发现不是一般的赚钱。仅仅去年,亚马逊AWS年营收达122亿美元,运营利润31亿美元。8云计算的赚钱与情怀公有云的第一名亚马逊过得很爽,第二名Rackspace过得就一般了。没办法,这就是互联网行业的残酷性,多是赢者通吃的模式。所以第二名如果不是云计算行业的,很多人可能都没听过了。第二名就想,我干不过老大怎么办呢?开源吧。如上所述,亚马逊虽然使用了开源的虚拟化技术,但云化的代码是闭源的。很多想做又做不了云化平台的公司,只能眼巴巴的看着亚马逊挣大钱。Rackspace把源代码一公开,整个行业就可以一起把这个平台越做越好,兄弟们大家一起上,和老大拼了。于是Rackspace和美国航空航天局合作创办了开源软件OpenStack,如上图所示OpenStack的架构图,不是云计算行业的不用弄懂这个图,但能够看到三个关键字:Compute计算、Networking网络、Storage存储。还是一个计算、网络、存储的云化管理平台。当然第二名的技术也是非常棒的,有了OpenStack之后,果真像Rackspace想的一样,所有想做云的大企业都疯了,你能想象到的所有如雷贯耳的大型IT企业:IBM、惠普、戴尔、华为、联想等都疯了。原来云平台大家都想做,看着亚马逊和VMware赚了这么多钱,眼巴巴看着没办法,想自己做一个好像难度还挺大。现在好了,有了这样一个开源的云平台OpenStack,所有的IT厂商都加入到这个社区中来,对这个云平台进行贡献,包装成自己的产品,连同自己的硬件设备一起卖。有的做了私有云,有的做了公有云,OpenStack已经成为开源云平台的事实标准。9 IaaS, 资源层面的灵活性随着OpenStack的技术越来越成熟,可以管理的规模也越来越大,并且可以有多个OpenStack集群部署多套。比如北京部署一套、杭州部署两套、广州部署一套,然后进行统一的管理。这样整个规模就更大了。在这个规模下,对于普通用户的感知来讲,基本能够做到想什么时候要就什么什么要,想要多少就要多少。还是拿云盘举例子,每个用户云盘都分配了5T甚至更大的空间,如果有1亿人,那加起来空间多大啊。其实背后的机制是这样的:分配你的空间,你可能只用了其中很少一点,比如说它分配给你了5个T,这么大的空间仅仅是你看到的,而不是真的就给你了,你其实只用了50个G,则真实给你的就是50个G,随着你文件的不断上传,分给你的空间会越来越多。当大家都上传,云平台发现快满了的时候(例如用了70%),会采购更多的服务器,扩充背后的资源,这个对用户是透明的、看不到的。从感觉上来讲,就实现了云计算的弹性。其实有点像银行,给储户的感觉是什么时候取钱都有,只要不同时挤兑,银行就不会垮。10总结到了这个阶段,云计算基本上实现了时间灵活性和空间灵活性;实现了计算、网络、存储资源的弹性。计算、网络、存储我们常称为基础设施Infranstracture, 因而这个阶段的弹性称为资源层面的弹性。管理资源的云平台,我们称为基础设施服务,也就是我们常听到的IaaS(Infranstracture As A Service)。二、云计算不光管资源,也要管应用有了IaaS,实现了资源层面的弹性就够了吗?显然不是,还有应用层面的弹性。这里举个例子:比如说实现一个电商的应用,平时十台机器就够了,双十一需要一百台。你可能觉得很好办啊,有了IaaS,新创建九十台机器就可以了啊。但90台机器创建出来是空的,电商应用并没有放上去,只能让公司的运维人员一台一台的弄,需要很长时间才能安装好的。虽然资源层面实现了弹性,但没有应用层的弹性,依然灵活性是不够的。有没有方法解决这个问题呢?人们在IaaS平台之上又加了一层,用于管理资源以上的应用弹性的问题,这一层通常称为PaaS(Platform As A Service)。这一层往往比较难理解,大致分两部分:一部分笔者称为“你自己的应用自动安装”,一部分笔者称为“通用的应用不用安装”。自己的应用自动安装:比如电商应用是你自己开发的,除了你自己,其他人是不知道怎么安装的。像电商应用,安装时需要配置支付宝或者微信的账号,才能使别人在你的电商上买东西时,付的钱是打到你的账户里面的,除了你,谁也不知道。所以安装的过程平台帮不了忙,但能够帮你做得自动化,你需要做一些工作,将自己的配置信息融入到自动化的安装过程中方可。比如上面的例子,双十一新创建出来的90台机器是空的,如果能够提供一个工具,能够自动在这新的90台机器上将电商应用安装好,就能够实现应用层面的真正弹性。例如Puppet、Chef、Ansible、Cloud Foundary都可以干这件事情,最新的容器技术Docker能更好的干这件事情。通用的应用不用安装:所谓通用的应用,一般指一些复杂性比较高,但大家都在用的,例如数据库。几乎所有的应用都会用数据库,但数据库软件是标准的,虽然安装和维护比较复杂,但无论谁安装都是一样。这样的应用可以变成标准的PaaS层的应用放在云平台的界面上。当用户需要一个数据库时,一点就出来了,用户就可以直接用了。有人问,既然谁安装都一个样,那我自己来好了,不需要花钱在云平台上买。当然不是,数据库是一个非常难的东西,光Oracle这家公司,靠数据库就能赚这么多钱。买Oracle也是要花很多钱的。然而大多数云平台会提供MySQL这样的开源数据库,又是开源,钱不需要花这么多了。但维护这个数据库,却需要专门招一个很大的团队,如果这个数据库能够优化到能够支撑双十一,也不是一年两年能够搞定的。比如您是一个做单车的,当然没必要招一个非常大的数据库团队来干这件事情,成本太高了,应该交给云平台来做这件事情,专业的事情专业的人来做,云平台专门养了几百人维护这套系统,您只要专注于您的单车应用就可以了。要么是自动部署,要么是不用部署,总的来说就是应用层你也要少操心,这就是PaaS层的重要作用。虽说脚本的方式能够解决自己的应用的部署问题,然而不同的环境千差万别,一个脚本往往在一个环境上运行正确,到另一个环境就不正确了。而容器是能更好地解决这个问题。容器是 Container,Container另一个意思是集装箱,其实容器的思想就是要变成软件交付的集装箱。集装箱的特点:一是封装,二是标准。在没有集装箱的时代,假设将货物从 A运到 B,中间要经过三个码头、换三次船。每次都要将货物卸下船来,摆得七零八落,然后搬上船重新整齐摆好。因此在没有集装箱时,每次换船,船员们都要在岸上待几天才能走。有了集装箱以后,所有的货物都打包在一起了,并且集装箱的尺寸全部一致,所以每次换船时,一个箱子整体搬过去就行了,小时级别就能完成,船员再也不用上岸长时间耽搁了。这是集装箱“封装”、“标准”两大特点在生活中的应用。那么容器如何对应用打包呢?还是要学习集装箱。首先要有个封闭的环境,将货物封装起来,让货物之间互不干扰、互相隔离,这样装货卸货才方便。好在 Ubuntu中的LXC技术早就能做到这一点。封闭的环境主要使用了两种技术,一种是看起来是隔离的技术,称为 Namespace,也即每个 Namespace中的应用看到的是不同的 IP地址、用户空间、程号等。另一种是用起来是隔离的技术,称为 Cgroups,也即明明整台机器有很多的 CPU、内存,而一个应用只能用其中的一部分。所谓的镜像,就是将你焊好集装箱的那一刻,将集装箱的状态保存下来,就像孙悟空说:“定”,集装箱里面就定在了那一刻,然后将这一刻的状态保存成一系列文件。这些文件的格式是标准的,谁看到这些文件都能还原当时定住的那个时刻。将镜像还原成运行时的过程(就是读取镜像文件,还原那个时刻的过程)就是容器运行的过程。有了容器,使得 PaaS层对于用户自身应用的自动部署变得快速而优雅。三、大数据拥抱云计算在PaaS层中一个复杂的通用应用就是大数据平台。大数据是如何一步一步融入云计算的呢?1数据不大也包含智慧一开始这个大数据并不大。原来才有多少数据?现在大家都去看电子书,上网看新闻了,在我们80后小时候,信息量没有那么大,也就看看书、看看报,一个星期的报纸加起来才有多少字?如果你不在一个大城市,一个普通的学校的图书馆加起来也没几个书架,是后来随着信息化的到来,信息才会越来越多。首先我们来看一下大数据里面的数据,就分三种类型,一种叫结构化的数据,一种叫非结构化的数据,还有一种叫半结构化的数据。结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页,有时候非常长,有时候几句话就没了;例如语音,视频都是非结构化的数据。半结构化数据:是一些XML或者HTML的格式的,不从事技术的可能不了解,但也没有关系。其实数据本身不是有用的,必须要经过一定的处理。例如你每天跑步带个手环收集的也是数据,网上这么多网页也是数据,我们称为Data。数据本身没有什么用处,但数据里面包含一个很重要的东西,叫做信息(Information)。数据十分杂乱,经过梳理和清洗,才能够称为信息。信息会包含很多规律,我们需要从信息中将规律总结出来,称为知识(Knowledge),而知识改变命运。信息是很多的,但有人看到了信息相当于白看,但有人就从信息中看到了电商的未来,有人看到了直播的未来,所以人家就牛了。如果你没有从信息中提取出知识,天天看朋友圈也只能在互联网滚滚大潮中做个看客。有了知识,然后利用这些知识去应用于实战,有的人会做得非常好,这个东西叫做智慧(Intelligence)。有知识并不一定有智慧,例如好多学者很有知识,已经发生的事情可以从各个角度分析得头头是道,但一到实干就歇菜,并不能转化成为智慧。而很多的创业家之所以伟大,就是通过获得的知识应用于实践,最后做了很大的生意。所以数据的应用分这四个步骤:数据、信息、知识、智慧。最终的阶段是很多商家都想要的。你看我收集了这么多的数据,能不能基于这些数据来帮我做下一步的决策,改善我的产品。例如让用户看视频的时候旁边弹出广告,正好是他想买的东西;再如让用户听音乐时,另外推荐一些他非常想听的其他音乐。用户在我的应用或者网站上随便点点鼠标,输入文字对我来说都是数据,我就是要将其中某些东西提取出来、指导实践、形成智慧,让用户陷入到我的应用里面不可自拔,上了我的网就不想离开,手不停地点、不停地买。很多人说双十一我都想断网了,我老婆在上面不断地买买买,买了A又推荐B,老婆大人说,“哎呀,B也是我喜欢的啊,老公我要买”。你说这个程序怎么这么牛,这么有智慧,比我还了解我老婆,这件事情是怎么做到的呢?2数据如何升华为智慧数据的处理分几个步骤,完成了才最后会有智慧。第一个步骤叫数据的收集。首先得有数据,数据的收集有两个方式:第一个方式是拿,专业点的说法叫抓取或者爬取。例如搜索引擎就是这么做的:它把网上的所有的信息都下载到它的数据中心,然后你一搜才能搜出来。比如你去搜索的时候,结果会是一个列表,这个列表为什么会在搜索引擎的公司里面?就是因为他把数据都拿下来了,但是你一点链接,点出来这个网站就不在搜索引擎它们公司了。比如说新浪有个新闻,你拿百度搜出来,你不点的时候,那一页在百度数据中心,一点出来的网页就是在新浪的数据中心了。第二个方式是推送,有很多终端可以帮我收集数据。比如说小米手环,可以将你每天跑步的数据,心跳的数据,睡眠的数据都上传到数据中心里面。第二个步骤是数据的传输。一般会通过队列方式进行,因为数据量实在是太大了,数据必须经过处理才会有用。可系统处理不过来,只好排好队,慢慢处理。第三个步骤是数据的存储。现在数据就是金钱,掌握了数据就相当于掌握了钱。要不然网站怎么知道你想买什么?就是因为它有你历史的交易的数据,这个信息可不能给别人,十分宝贵,所以需要存储下来。第四个步骤是数据的处理和分析。上面存储的数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。比如盛传的沃尔玛超市的啤酒和尿布的故事,就是通过对人们的购买数据进行分析,发现了男人一般买尿布的时候,会同时购买啤酒,这样就发现了啤酒和尿布之间的相互关系,获得知识,然后应用到实践中,将啤酒和尿布的柜台弄的很近,就获得了智慧。第五个步骤是对于数据的检索和挖掘。检索就是搜索,所谓外事不决问Google,内事不决问百度。内外两大搜索引擎都是将分析后的数据放入搜索引擎,因此人们想寻找信息的时候,一搜就有了。另外就是挖掘,仅仅搜索出来已经不能满足人们的要求了,还需要从信息中挖掘出相互的关系。比如财经搜索,当搜索某个公司股票的时候,该公司的高管是不是也应该被挖掘出来呢?如果仅仅搜索出这个公司的股票发现涨的特别好,于是你就去买了,其实其高管发了一个声明,对股票十分不利,第二天就跌了,这不坑害广大股民么?所以通过各种算法挖掘数据中的关系,形成知识库,十分重要。3大数据时代,众人拾柴火焰高当数据量很小时,很少的几台机器就能解决。慢慢的,当数据量越来越大,最牛的服务器都解决不了问题时,怎么办呢?这时就要聚合多台机器的力量,大家齐心协力一起把这个事搞定,众人拾柴火焰高。对于数据的收集:就IoT来讲,外面部署这成千上万的检测设备,将大量的温度、湿度、监控、电力等数据统统收集上来;就互联网网页的搜索引擎来讲,需要将整个互联网所有的网页都下载下来。这显然一台机器做不到,需要多台机器组成网络爬虫系统,每台机器下载一部分,同时工作,才能在有限的时间内,将海量的网页下载完毕。对于数据的传输:一个内存里面的队列肯定会被大量的数据挤爆掉,于是就产生了基于硬盘的分布式队列,这样队列可以多台机器同时传输,随你数据量多大,只要我的队列足够多,管道足够粗,就能够撑得住。对于数据的存储:一台机器的文件系统肯定是放不下的,所以需要一个很大的分布式文件系统来做这件事情,把多台机器的硬盘打成一块大的文件系统。对于数据的分析:可能需要对大量的数据做分解、统计、汇总,一台机器肯定搞不定,处理到猴年马月也分析不完。于是就有分布式计算的方法,将大量的数据分成小份,每台机器处理一小份,多台机器并行处理,很快就能算完。例如著名的Terasort对1个TB的数据排序,相当于1000G,如果单机处理,怎么也要几个小时,但并行处理209秒就完成了。所以说什么叫做大数据?说白了就是一台机器干不完,大家一起干。可是随着数据量越来越大,很多不大的公司都需要处理相当多的数据,这些小公司没有这么多机器可怎么办呢?4大数据需要云计算,云计算需要大数据说到这里,大家想起云计算了吧。当想要干这些活时,需要很多的机器一块做,真的是想什么时候要就什么时候要,想要多少就要多少。例如大数据分析公司的财务情况,可能一周分析一次,如果要把这一百台机器或者一千台机器都在那放着,一周用一次非常浪费。那能不能需要计算的时候,把这一千台机器拿出来;不算的时候,让这一千台机器去干别的事情?谁能做这个事儿呢?只有云计算,可以为大数据的运算提供资源层的灵活性。而云计算也会部署大数据放到它的PaaS平台上,作为一个非常非常重要的通用应用。因为大数据平台能够使得多台机器一起干一个事儿,这个东西不是一般人能开发出来的,也不是一般人玩得转的,怎么也得雇个几十上百号人才能把这个玩起来。所以说就像数据库一样,其实还是需要有一帮专业的人来玩这个东西。现在公有云上基本上都会有大数据的解决方案了,一个小公司需要大数据平台的时候,不需要采购一千台机器,只要到公有云上一点,这一千台机器都出来了,并且上面已经部署好了的大数据平台,只要把数据放进去算就可以了。云计算需要大数据,大数据需要云计算,二者就这样结合了。

    大数据的四V特征

    所谓4V,具体指如下4点:

    1.大量。大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

    2.多样。广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。

    大数据
    3.高速。大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。

    4.价值。这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

    大数据的主要应用及行业推动力量

                     大数据的主要应用
    

    一、购物营销当我们打开淘宝,京东等购物APP时,总是会发现,这些APP比我们自己还懂自己,能够未卜先知的知道我们最近需要什么。篮球迷在湖人赢了比赛的时候打开淘宝,会发现詹姆斯的球衣就在首页;一个怀孕的妈妈,打开京东,发现进口的奶粉已经在召唤她购买;一个经常听神曲的大妈,广场舞音响的推荐总在眼前。这就是商家通过手机浏览的数据分析,知道我们近期的需求,之后精准的向我们进行推销。如今人们网络购物的行为越来越频繁,网络购物的体验也越来越好。而影响网络购物体验的一个最重要的方面就是物流的速度。双11十多年前就火爆中国,但人们记忆犹新的就是双11买的物品很长时间才能拿到,少则一周,多则半个月,严重影响购物者的体验。而如今双十一的成交量增加了上百倍,但送货的速度却提升了不少。很多物品能保证晚上下单,第二天就送达,即使购买的是新疆的葡萄干,也能在24小时到货。速度提升的背后,离不开大数据的赋能。物流仓储与购物平台合作,通过分析用户的浏览数据,购物车,下定金情况,预知某一地区的购买量,进行提前备货。当用户付款之后,货物是从离用户100公里内的仓储中心发货,而不是千里之外的新疆发货。通过大数据中心的调控,物流分拣系统能最科学合理的进行装车。在智慧系统的指引下,快递员也能按照最优的线路进行高效的配送。二、交通出行如今百度地图、高德地图已经成了我们出行必不可少的工具。没了地图,很多时候我们将寸步难行。有了地图,即使在九曲回肠的复杂道路中,也可以顺利的抵达我们想去的一个网红美食店。手机地图能够做到精准的导航和实时的路况预测得益于大数据的分析。一是地图公司有自己数据采集车,前期采集了海量的数据存储在数据库中。二是每一个使用地图的用户,都共享了自己的位置,贡献了自己的数据。通过对同一时间段同一路段用户的使用情况进行分享,地图很容易就能得知哪里堵车,哪里畅通,提前告知使用者。三、政务处理大数据在助力政府的政务处理方面同样发挥着重要的作用。近年来精准扶贫是各级政府的首要工程,扶贫如何做到精准,考验着政府的执政能力。精准扶贫首先要做到的就是精准,贫困户是不是真正的贫困户,这在过往是一件很难解决的难题。上级政府只有依靠下级政府的统计上报进行拨款,于是关系户成了贫困户,真正贫困的人缺难以得到实质性的帮助。现如今有了大数据的加持,政府通过建档立卡,通过网络数据分析,对每一个贫困户进行核实。家里老人的就医记录,子女的工资水平,养殖等副业的收入等等都将进行评估,以确保精准扶贫落实到位。电信诈骗无孔不入,但当电信诈骗遇上大数据,诈骗份子也将插翅难逃。如今利用大数据分析,诈骗短信,诈骗网站很容易被识别拦截。通过分析诈骗份子的“伪基站”地址,登录网址等信息也能很快锁定诈骗份子的藏身之处。四、信用体系俗话说民无信不立,国无信不强。可见信用对于个人,对于国家都有非常重要的意义。但如何识别一个人是否有信用,却不是一件容易的事。在熟人社会里,我们可以通过一个人过往的表现,言行来判断他的信用。但在陌生人社会里,想要判定一个人是否有信用就很难了。这也影响了整个社会的运行,例如信用系统不完善,个人去银行贷款很难,网络购物也难以发展。但如今有了大数据,这些难题都迎刃而解了。例如支付宝的芝麻积分,就是通过分析用户的学历、存款、购物行为、交友特征、履约历史等等数据来赋予用户对应的分数,表示用户的信用等级,同时将特定的特权开放给对应等级的用户。现在支付宝、微信等信用数据都已并入央行主导的国民信用体系里,成为国家队。中国也正式建立了自己的信用体系,真正实现了有信用走遍天下都不怕,无信用则寸步难行。20世纪最重要的资源是石油,谁掌握了石油,谁就统治了世界。21世纪最重要的资产则是数据,谁能在数据这座金矿中挖出黄金,谁就能掌握话语权,造福社会,创造财富。

                  企业推动大数据行业发展
    

    大数据利用其独特的大数据分析能力,帮助工业企业变得更有效率并提高生产率。公司可以获得大量数据,帮助制造企业减少浪费并提高生产流程的产量。通过高级分析,工业组织可以将信息可视化,识别模式并对其进行优化,以提高生产质量。大数据可以通过以下方式由制造商使用:实时监控 制造过程可以在生产过程的各个部分提供可用于优化生产质量的实时信息。预测 大数据分析可用于预测需求和生产,帮助企业提高绩效。更好的决策 通过大数据揭示的洞察力可以帮助制造商通过确定趋势并应对挑战来做出更好的决策。预防性维护 通过系统分析,制造公司可以更准确地预测系统故障,并采用预防性维护。这可以大大减少损失和昂贵维修工作的开支。质量保证 可以使用数据来检测制造过程中的错误并检测过程缺陷。分析可以提供实时警告信号,提供质量保证。定价策略 通过内部和外部来源的数据,可以开发可以增加利润的定价模型。还可以以不同的价格对产品进行需求预测。然后使用这些见解来生成准确的定价策略。 通过整合数据和应用先进的分析技术提高生产力,制造商可以提高效率,提高产品质量。在新兴市场,制造商可以通过抓住市场份额,提高利润率,开始建立竞争优势。在发达市场,化学公司可以使用大数据来降低成本,并在产品和服务方面提供更大的创新。

                      大数据的关键技术
    

    我们之前了解了大数据现在已经达到什么地步,以及它现在主要做了哪些事情,也稍微了解一下,现在大多数的大数据公司都是怎么做的,接下来了解大数据的四个关键技术。数据采集、预处理与存储技术。数据采集,与之相关的有数据采集师这个岗位,大多数情况下是用python语言来做的。预处理我们管它叫ETL,就是信息提取,会把一些噪音去掉,然后提取一些关键信息。大多数也都是基于python+spark技术来做。存储就是HDFS技术。数据分析以及数据挖掘。这部分主要是基于sparkSQL,以及一些算法方面相关的技术。spark推荐Python或者Scala数据安全和隐私保护。这块涉及比较少,主要是基于Cobol来做的。数据的中心体系机构,下图很好的做了解释,最底下是源数据,主要通过日志、探针等方式来采取一些结构化、非结构化的数据。往上一层把数据进行提取、整合,之后加一些算法和规则,算出来特征属性,之后做清洗,然后把数据存起来。最后就是一些计算和挖掘出的一些现成的数据做数据可视化。

                       典型的大数据计算架构
    

    数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:可以看到在BI系统里面,核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来:BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈:分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:传统大数据架构之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。优点:简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。缺点:对于大数据来说,没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够,所以对于存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。流式架构在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。优点:没有臃肿的ETL过程,数据的实效性非常高。缺点:对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。适用场景:预警,监控,对数据有有效期要求的情况。Lambda架构Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。缺点:离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量荣誉和重复的模块存在。适用场景:同时存在实时和离线需求的情况。Kappa架构 Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。优点:Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。缺点:虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。适用场景:和Lambda类似,改架构是针对Lambda的优化。Unifield架构 以上的种种架构都围绕海量数据处理为主,Unifield架构则更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。优点:Unifield架构提供了一套数据分析和机器学习结合的架构方案,非常好的解决了机器学习如何与数据平台进行结合的问题。缺点:Unifield架构实施复杂度更高,对于机器学习架构来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。总结以上几种架构为目前数据处理领域使用比较多的几种架构,当然还有非常多其他架构,不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展,以上几种思想或许终究也会变得过时。

    展开全文
  • 云计算大数据报告

    2019-02-19 22:38:46
    20191013文章不断更新中..... 白皮书丨大数据产业发展呈现八大趋势 《2019中国大数据产业发展白皮书》深度解读之一 《2019中国大数据产业发展白皮书》深度...2019年云计算报告 独家 | 尚文利:《边缘计算安全白...

    20191013文章不断更新中.....

    白皮书丨大数据产业发展呈现八大趋势

    《2019中国大数据产业发展白皮书》深度解读之一

    《2019中国大数据产业发展白皮书》深度解读之二

    《2019中国大数据产业发展白皮书》深度解读之三

    《2019中国大数据产业发展白皮书》深度解读之四

    《2019中国大数据产业发展白皮书》深度解读之五

    2019年云计算报告

    独家 | 尚文利:《边缘计算安全白皮书》及相关技术研究(附PPT全文)

    知识图谱标准化白皮书(2019)

    中国科学院发布地球大数据报告

    2019年中国云生态市场综合报告

    数据中心能耗与可再生能源使用潜力研究

    大数据下的密码技术挑战

    2019年云数据管理报告

    2019年中国人工智能基础数据服务白皮书

    英国ICO《数据共享行为守则》中译文(DPO社群出品)

    PPT:人工智能、大数据与产业创新

    工业互联网大数据平台建设方案【PPT】

    PPT:智能终端的数据安全保护实践

    BAT数据洞察报告

    《混合云白皮书(2019年)》(附PPT解读及下载)

    《电信云白皮书(2019年)》发布(附PPT解读)

    《云计算与边缘计算协同九大应用场景(2019年)》发布(附PPT解读)

    中国信通院发布《云计算发展白皮书(2019年)》(附PPT解读)

    Synopsys:2019年云安全报告

    2019中国工业大数据发展及投资价值研究

    安全牛发布 数据防泄密应用指南

    安全牛发布《数字品牌保护 (DBP) 业务应用指南》

    十二大主流云安全威胁

    欧洲数据保护委员会首份GDPR年度报告

    威瑞森发布2019年《数据泄露调查报告》

    PPT:泛在电力物联网数据AI化:从数据中台到AI中台

    PPT:工业大数据平台技术规划方案

    中国联通:大数据解决方案【PPT】

    2018全球大数据发展分析报告【PPT】

    PPT:数据安全治理的探索与实践

    PPT:下一代数据资产保护架构分享

    PPT:云迁移安全实践

    PPT :云安全技术趋势探讨

    PPT:企业数据安全实践

    人工智能数据安全白皮书

    IAPP新加坡会议上关于27701的Panel和PPT

    PPT:车路协同中的数据隐私影响评估

    2019年云安全报告

    2019年数据泄露调查报告

    南京录信数软徐国信:大数据助力人车互联

    2019年云计算发展白皮书-信通院

    关系型云数据库应用白皮书

    PPT:人工智能与数据治理国际态势

    医疗行业数据安全的主要风险和应对分析

    等保2.0中对于数据备份和恢复的要求

    大数据产业政策动态报告(2019年版)

    十二大主流云安全威胁

    TEEX构建可信数据生态白皮书

    数据资产管理实践白皮书

    2019大数据产业峰会四本白皮书!

    GDPR一周年:欧洲数据保护委员会首份GDPR年度报告

    《数据资产管理实践白皮书(4.0版)》发布

    《内存数据库白皮书》发布

    《关系型云数据库应用白皮书》发布

    《城市大数据平台白皮书(1.0版)》发布

    《数据本地化政策的全球博弈分析》

    《数据资产管理实践白皮书(4.0版)》解读 | PPT

    《内存数据库白皮书》解读 | PPT

    《关系型云数据库应用白皮书》解读 | PPT

    《城市大数据平台白皮书(1.0版)》解读 | PPT

    《欧盟GDPR合规指引》正式发布(附PPT解读)

    中国版GDPR《数据安全管理办法(征求意见稿)》

    《全球人工智能产业数据报告(2019Q1)》

    《工业大数据白皮书》2019版

    2019年中国大数据与实体经济融合发展白皮书

    等保2.0标准-大数据应用场景

    数据隐私基准研究

    PPT:大数据分析在企业信息安全中的最佳实践

    PPT:企业数据安全合规之路

    《工业大数据白皮书》2019版正式发布

    PPT :数据驱动安全思考

    院士PPT:时空大数据的社会化应用及智能处理

    2019版工业大数据白皮书

    【PPT】大数据大趋势

    德勤报告:大数据时代下,数字化生活的崛起(附PPT全文)

    院士PPT:时空大数据的社会化应用及智能处理

    华为数据治理经验PPT分享

    2019数据隐私和安全调查报告

    Mobdata:2019大数据行业研究报告

    安全视角下的大数据治理与合规应对

    《中小企业“上云上平台”应用场景及实施路径白皮书(2019)》

    《工业大数据分析指南》发布(附PPT解读)

    阿里云:2019数字化趋势报告

    清华大学:AI数据挖掘深度报告

    Ushr:量产高精度地图的挑战和实现

    埃森哲如何系统化做好数据分析PPT

    数据安全未来前景展望

    2018年度IDC中国数据安全市场创新者

    《数据资产管理实践白皮书3.0》解读

    “风险管理 大数据审计”现代内部审计的新要求与新发展

    2018工业企业数据资产管理现状调查报告

    【PPT】中国大数据产业地图

    数据泄露背后的故事

    65 页 PPT,看懂埃森哲如何系统化做好数据分析

    AI、IoT、bigdata、cloud资料整理

    【PPT】大数据视角下帝都魔都的爱恨情仇

    2018云计算安全白皮书

    2018 年数据泄露调查报告 (DBIR)

    PPT | 中国信通院:电信大数据应用发展趋势

    数字货币钱包安全白皮书—-360

    数据安全治理白皮书

    工信部:工业大数据白皮书

    《2018中国大数据发展指数报告》全文发布

    《大数据在金融领域的典型应用研究》白皮书

    美国CLOUD法案概述

    首届数字中国建设峰会4月下旬在福州举行

    科学数据管理办法

    展开全文
  • 云计算与大数据概论(1) 云计算,大数据是什么云计算的应用场景云计算概念云计算简史云计算定义云计算基本特征大数据应用场景大数据概念大数据简史大数据定义大数据基础特征两者之间的关系 本文同步发在印象笔记:...
  • 云计算与大数据

    2020-12-26 17:40:34
    数据仓库系统是以数据仓库为核心将各种应用系统的集成在一起,为统一的历史数据分析提供了坚实的平台,通过数据分析报表模块的查询和分析工具OLAP(联机分析处理),决策分析,数据挖掘完成对信息的提取,以满足...
  • 今天跟大家讲讲云计算大数据和人工智能。为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提...
  • 信息管理信息系统专业云计算与大数据技术方向介绍 一 培养目标 本专业培养能够服务区域经济和社会发展需要理想信念坚定德智体 美全面发展具有良好的科学素养和人文素质基础知识扎实实践能力突出 综合素质较强掌握...
  • 第一章 分布式计算 定义: 分布式计算是研究把一个需要非常巨大的计算能力解决的问题...第六章 P2P原理与实践 P2P概念:peer-to-peer,含义“点对点”或者“端对端”,而学术界称它为“对等计算”。P2P网络是一...
  • 实验三 分布式文件系统HDFS第1关:HDFS的基本操作任务描述相关知识HDFS的设计分布式文件系统NameNodeDataNodeHDFS的常用命令编程要求测试说明代码实现第2关:HDFS-JAVA接口之读取文件任务描述相关知识FileSystem...
  • 通过本次实训,建立起对Hadoop云计算的初步了解,后续大家可以通过进阶学习来深入学习Hadoop内部实现机制进行高级的应用开发。 第1关:WordCount词频统计 本关任务 词频统计是最能体现MapReduce思想的...
  • 项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐系统,包含了离线推荐实时推荐体系,综合利用了协同过滤算法...
  • 《第一章》云计算概述 1.1什么是云计算? 1.1.1云计算的定义 云计算是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小...
  • 为落实《国家中长期科学和技术发展规划纲要(2006-2020年)》,以及国务院《关于促进云计算创新发展,培育信息产业新业态的意见》和《关于印发促进大数据发展行动纲要的通知》等提出的任务,国家重点...在云计算与大...
  • 云计算的概念: 云计算(Cloud Computing)是基于互联网的相关服务的增加,使用和交付模式,通常涉及互联网来提供动态易扩展且常为虚拟化的资源,是并行计算(Parallel Computing),分布式计算
  • 云计算与大数据 金融行业

    千次阅读 2017-11-16 10:53:14
    操作系统安全与实践 2天(12学时) 3 网络安全实践课程 1天(6学时) 4 恶意代码防护课程 1天(6学时) 5 数据库安全实践课程 1天(6学时) 6 开发技能提高 3天(18学时) 7 ...
  • 应用型本科高校《大数据与云计算》教学改革实践.pdf
  • 在《促进大数据发展行动纲要》等政策的指引下,我国已形成了以8个国家大数据综合试验区为引领,京津冀、长三角、珠三角和中西部四个聚集区域协同发展的格局;贵州、河北、内蒙古、河南等省正式印发了大数据相关行动...
  • AR、VR、云计算大数据、区块链、AI……开发者很容易会有新技术焦虑,不追怕失去提升收入的机会,追又怕投入了时间和精力没结果。我们就来和大家一起分享一下: 到底该怎样做,才能从容面对技术热点? 分享的内容,...
  • 本文讲的是落地开花 群雄纵论云计算与大数据发展,近日消息,由IT商业新闻网主办,《IT时代周刊》协办的以主题为“智在应用”第二届云计算大会暨大数据高峰论坛(以下简称论坛)在京召开。论坛吸引了来自来自官、产、学...
  • Ghostcloud致力于做最专业的容器云PaaS管理平台和提供最佳行业解决方案,而这次大会围绕“大数据、大智能、大健康”的主题内容也引发了我们对大数据和智能制造相关行业的思考,在此各位同仁分享,不吝赐教。...
  • 阿里云大学作为阿里云泛云生态人才培养的平台,精选100余门囊括云计算大数据、编程语言和物联网(IoT)的行业热点技术课程,打造此套入门学习指南,免费放送给广大技术爱好者。 全套课程入口及指南下载一键直达&...
  • 阿里云大学作为阿里云泛云生态人才培养的平台,精选100余门囊括云计算大数据、编程语言和物联网(IoT)的行业热点技术课程,打造此套入门学习指南,免费放送给广大技术爱好者。 PART1:云计算技术集锦指南 对于...
  • 2020年)》,以及国务院《关于促进云计算创新发展,培育信息产业新业态的意见》和《关于印发促进大数据发展行动纲要的通知》等提出的任务,国家重点研发计划启动实施“云计算大数据”重点专项。根据本重点专项实施...
  • 阿里云大学作为阿里云泛云生态人才培养的平台,精选100余门囊括云计算大数据、编程语言和物联网(IoT)的行业热点技术课程,打造此套入门学习指南,免费放送给广大技术爱好者。 全套课程入口及指南下载一键直达&...
  • 大数据云计算和物联网的关系 云计算 云计算实现了通过网络提供的可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源 起源:1996年康柏电脑公司使用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,333
精华内容 3,333
关键字:

云计算与大数据综合实践