理解大数据

2019-02-02 17:15:37 qq_40402685 阅读数 14985

大数据(big data):

指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

4V特征:

容量(Volume):数据体量大,数据的大小决定所考虑的数据的价值的和潜在的信息;
种类(Variety):数据类型的多样性,包括传统数据库、图像、文件和其他复杂的记录,如果只有单一的数据,那么这些数据就没有了价值,比如只有单一的个人数据,或者单一的用户提交数据,这些数据还不能称为大数据,所以说大数据还需要是多样性的,比如当前的上网用户中,年龄,学历,爱好,性格等等每个人的特征都不一样,这个也就是大数据的多样性,当然了如果扩展到全国,那么数据的多样性会更强,每个地区,每个时间段,都会存在各种各样的数据多样性。;
速度(Velocity):指获得数据的速度,就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。;
价值(Value):指价值密度低,,你如果有1PB以上的全国所有20-35年轻人的上网数据的时候,那么它自然就有了商业价值,比如通过分析这些数据,我们就知道这些人的爱好,进而指导产品的发展方向等等。如果有了全国几百万病人的数据,根据这些数据进行分析就能预测疾病的发生,这些都是大数据的价值;

原理价值:

某比萨店的电话铃响了,客服人员拿起电话。
客服:XXX比萨店。您好,请问有什么需要我为您服务 ?
顾客:你好,我想要一份……
客服:先生,烦请先把您的会员卡号告诉我。
顾客:16846146***。 客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?
顾客:你为什么知道我所有的电话号码?
客服:陈先生,因为我们联机到CRM系统。
顾客:我想要一个海鲜比萨……
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,你的血压和胆固醇都偏高。
顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种的?
客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。
顾客:那可以刷卡吗?
客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款。
客服:陈先生,根据您的记录,您已经超过今日提款限额。
顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

大数据VS小数据

小数据跟大数据的根本区别在于:小数据以单个人(个体)为唯一对象,重点在于深度,即像一位忠诚细致的“个人管家”那样对个人数据进行全方位、全天候地深入精确分析,同时还可主动灵活地设置各种外界访问权限以保护个人隐私;而大数据则侧重在某个领域(群体),大范围、大规模地进行数据的全面收集处理分析,侧重点在于广度。
在这里插入图片描述

使用场景

一般来讲,大数据的推动力是一种被动刺激。各个公司和一些专业行政机构,无论他们是否愿意,都不得不存储和检索大量收集到的数据
在这里插入图片描述
大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。
制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。

金融行业:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

汽车行业:利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。

互联网行业:借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

电信行业:利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业:随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业:利用大数据优化物流网络,提高物流效率,降低物流成本。

城市管理:可以利用大数据实现智能交通、环保监测、城市规划和智能安防。

生物医学:大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。

体育娱乐:大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。

安全领域:政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活: 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

案例讲解

假设你正在使用智能手机搜索意大利餐厅,只需几步,你的手机就会列出在你当前位置10个街道范围之内的意大利餐厅。在此过程中,被查询的数据库庞大且复杂:一个映射数据库收集了世界上的所有餐厅,餐厅的经纬度、地址和由顾客给出的评分会持续更新,但是数据库的输出是小数据,例如,在街景地图上标出来5个餐厅,以及这些餐厅的准确地址、电话号码和评分。你要做的只是从这5家餐厅中选择一家,并享受佳肴。

在此案例中,你的数据选择源自一个大型的数据集,但你最终的分析仅利用了一个小数据集(即满足搜索条件的5家餐厅)。大数据资源是为了提供小数据集。分析工作并非基于大数据资源―大数据资源仅仅用于搜索和检索,因此,大数据资源的真正工作是收集和组织复杂数据,以便资源能够为你的检索做好准备。在此过程中,数据创造者需要做很多决定,例如,酒吧是否应该列入餐厅范围之内?外卖是如何点餐的?应当收集什么数据?缺失数据应当如何处理?数据如何存储?

上述是大数据如何起作用的一个典型案例―通过创建小数据集可以有效地进行分析。也就是说大数据经过ETL的复杂转换过程,最终所要达到的目的是为了给小数据提供服务的,也就是给具体行为或者个体等服务的。

2014-09-30 16:34:39 u010554735 阅读数 5394

一、请谈谈你对大数据的理解

        物联网、移动互联网、云计算和大数据是新一代信息技术发展中的华彩乐章。

        物联网中的网络传感器采集了各种各样的数据,移动终端产生的各种日志记录,这些构成了海量数据;云计算为产生的海量数据提供了分布式存储和分布式并行计算的平台,而大数据则让海量数据产生了价值。

2018-02-09 15:28:16 duozhishidai 阅读数 8818

         大数据本质上是人类社会数据积累从量变到质变的必然产物,是在信息高速公路基础上的进一步升级和深化,提升人工系统智能水平的重要途径,对人类社会的发展具有极其重大的影响和意义。


         大数据是一个体量特别大、数据类别特别多的数据集,并且这样的数据集无法用传统软件工具对其内容进行抓取、管理和处理。大数据首先是数据体量(Volumes)大,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了 PB 级的数据量。其次是数据类别(Variety)多,数据来自多种数据源,数据种类和格式日渐丰富,包括半结构化和非结构化数据。再次是数据处理速度(Velocity)快,在数据量非常 庞大的情况下,也能够做到数据的实时处理。最后一个特点是数据真实性(Veracity)高, 企业越发需要有效的信息之力以确保其真实性及安全性。

  大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

         随着云计算、云存储和物联网等技术广泛应用,人们通过搜索引擎等获取信息,寻找知识,构建知识图;人类的各种社会互动、沟通,社交网络和传感器也正在生成海量数据;商业自动化导致海量数据存储,但用于决策的有效信息又隐藏在数据中,如何从数据中发现知识,大数据挖掘技术应运而生! 

         大数据、数据挖掘、数据分析、人工智能与大数据和云计算的关系,总而言之,还希望大家多看下这方面的科谱专文,不过瘾的话,可以搜索多智时代,今天主要为大家脑补几篇,请大家认真阅读:

  1. 大数据时代,数据主要来自于哪里?
  2. 如何才能合理利用大数据,摆脱大数据困境?
  3. 数据分析师职业未来成长空间是什么,需要做哪些准备呢?
  4. 数据统计、数据挖掘、大数据、OLAP,你真正的了解吗,区别是什么?
  5. 什么是人工智能、数据挖掘、机器学习和深度学习,它们之间有什么关系?

     聚焦多智时代,引领智能变革,多智时代为人工智能科谱呐喊!

2018-05-20 15:18:17 qq_25948717 阅读数 1152

大数据内涵:

大数据是未来的钻石矿和新石油一个国家拥有数据的规模和运用数据的能力成为综合国力的重要 组成部分,

对数据的占有和控制也成为国家间和企业间新的争夺点。

大数据并不是指大规模数据,而是海量数据和大数据处理技术的结合。

大数据是融合物理世界、信息空间和人类社会三元 世界的 纽带。

大数据的出现依赖集成电路技术和网络技术的发展,前者为大数据的产生和处理提供计算能力,

 后者为大数据的网络传输提供可能。

特点:规模性(Volume:体量大,TB以上)、高速性(Velocity:分析和处理速度块)、

           多样性(Variety:数据类型多样)、价值性(Value:高价值低密度)、

           真实性(Veracity:客观反映事实)、易变性(Variability:多层结构)

简单概括4V:

          

要解决的问题:挖掘有价值的信息

             

数据的计量:信息的最小单位是bit(比特),一个0或者一个1就是一个比特,

                               8比特就是一个字节(Byte),例如:00010100就是 一个字节,

                              用一个B表示一个Byte,信息的计量一般以2的10次方为一个进制,如1024Byte=1KB

                   

数据存储单位之间的换算
                                                单位名称                                                    换算关系
                                            Byte(字节)                                                 1Byte=8bit

                                             KB(千字节)

                                                1KB=1024 Byte

                             MB(兆字节)                                                      1MB=2014 KB                                            

                             GB(吉字节)                                                       1GB=2014 MB                                           

                             TB(太子字节)                                                         1TB=2014 GB                                           

                             PB(拍字节)                                                        1PB=2014 TB                                          

                             EB(艾字节)                                                        1EB=2014 PB                                           

                             ZB(泽字节)                                                             1ZB=2014 EB                                            

                             YB(尧字节)                                                             1YB=2014 ZB                                            

                             BB(珀字节)                                                        1BB=2014 YB                                          

                             NB(诺字节)                                                             1NB=2014 BB                                            

                             DB(刀字节)                                                             1DB=2014 NB

科学研究的四种范式:

       1.观测与实验科学:人类的认识由感性经验上升到理性理论

       2.理论科学:用理论科学分析、预测师姐

       3.计算与仿真科学:通过计算和仿真发现新的规律

       4.数据密集型科学:利用大规模数据发现新的规律

常见的大数据的计算模式:分析计算、批处理计算、流计算(具有很强的实时性)、迭代计算、图计算、内存计算。

大数据涉及的技术:数据采集,数据存储,数据处理分析挖掘,数据可视化

大数据技术的挑战:现有数据库管理技术的挑战

                                经典数据库没有考虑多类别的数据存储

                                实时数据的处理

                                网络架构,存储

                                数据隐私安全

大数据与机器学习的关系:

看到吴恩达教授的一句话很好,下图概括的非常生动。大数据是人工智能的基础

大数据是当今各种前沿科学的基石。

大数据的生态圈:

Hadoop生态圈,Spark生态圈......