大数据_大数据学习路线 - CSDN
大数据 订阅
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2] 展开全文
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]  中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]
信息
外文名
big data,mega data
提出时间
2008年8月中旬
提出者
维克托·迈尔-舍恩伯格及肯尼斯·库克耶
应用学科
计算机,信息科学,统计学
中文名
大数据
适用领域范围
人工智能
5V特点
大量、高速、多样、价值、真实性
大数据定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB全称:1 Bit(比特) =Binary Digit8 Bits = 1 Byte(字节)1,000 Bytes = 1 Kilobyte1,000 Kilobytes = 1 Megabyte1,000 Megabytes = 1 Gigabyte1,000 Gigabytes = 1Terabyte1,000 Terabytes = 1 Petabyte1,000 Petabytes = 1 Exabyte1,000Exabytes = 1 Zettabyte1,000 Zettabytes = 1 Yottabyte1,000 Yottabytes = 1Brontobyte1,000 Brontobytes = 1 Geopbyte
收起全文
精华内容
参与话题
  • 大数据专题(一)- 简介

    万次阅读 多人点赞 2020-02-28 11:22:44
    一、什么是大数据 在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量...

    一、什么是大数据
    在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。

    梳理海量数据的核心技术:

    • 海量数据的储存(分布式)
    • 海量数据的运算(分布式)

    这些核心技术的实现是不需要用户从零开始造轮子的储存和运算的都已经有大量的承受的框架来用。

    储存框架:

    • HDFS–分布式文件储存系统
    • HBase–分布式数据库系统
    • Kafka – 分布式消息缓存系统(实时流式数据处理场景中应用广泛)

    运算框架:(要解决的核心问题就是帮用户将处理逻辑在许多机器上并行执行)

    • Hive – 数据仓库工具:可以接收SQL,翻译成mapreduce或者spark程序运行
    • Flume – 数据采集
    • Sqoop – 数据迁移
    • Elisticsearch – 分布式的搜索引擎

      换个角度说,大数据是:
    1. 有海量的数据
    2. 有海量的数据进行挖掘的需求,有对海量数据进行挖掘的工具(Hadoop、spark等)

    大数据在现实生活中的具体应用

    数据处理测最典型应用:公司的产品运营情况分析
    电商推荐系统:基于海量的浏览行为,购物行为数据,进行大量的模型的运算,得出各种推荐结论,一共电商网站页面来为用户进行商品推荐,(猜你喜欢)

    精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的进准的广告投放。

    展开全文
  • 什么叫大数据 大数据的概念

    万次阅读 多人点赞 2017-05-31 20:24:10
    1、大数据定义  对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力 的海量、高增长率和多样化的信息资产。 大数据...

    1、大数据定义

     对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力

    的海量、高增长率和多样化的信息资产。

    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

    从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算分布式处理分布式数据库云存储虚拟化技术

    随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

    大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库云计算平台、互联网和可扩展的存储系统。

    最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算:

    8bit= 1Byte

    1KB= 1,024 Bytes

    1MB= 1,024 KB = 1,048,576 Bytes

    1GB= 1,024 MB = 1,048,576 KB

    1TB= 1,024 GB = 1,048,576 MB

    1PB= 1,024 TB = 1,048,576 GB

    1EB= 1,024 PB = 1,048,576 TB

    1ZB= 1,024 EB = 1,048,576 PB

    1YB= 1,024 ZB = 1,048,576 EB

    1BB= 1,024 YB = 1,048,576 ZB

    1NB= 1,024 BB = 1,048,576 YB

    1 DB = 1,024 NB = 1,048,576 BB

    1887–1890年

    赫尔曼·霍尔瑞斯美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。

    1935–1937年

    美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说,“要整理如此繁多的职工档案,还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”

    1943年

    一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后,帮助盟军成功登陆了诺曼底。

    1997年

    美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

    2002年

    在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

    2004年

    9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

    2007–2008年

    随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”

    2009年1月

    印度政府建立印度唯一的身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用,但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

    2009年5月

    大数据或成反恐分析利器美国总统巴拉克·奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

    2009年7月

    应对全球金融危机,联合国秘书长潘基文承诺创建警报系统,抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

    2011年2月

    扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”

    2012年3月

    美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时,不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。

    2012年7月

    美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。

    HadoopMapReduce

    思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。根据权威报告显示,许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。

    大数据NoSQL数据库

    我们生活的时代,相对稳定的数据库市场中还在出现一些新的技术,而且在未来几年,它们会发挥作用。事实上,NoSQL数据库在一个广义上派系基础上,其本身就包含了几种技术。总体而言,他们关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。

    内存分析

    在Gartner公司评选的2012年十大战略技术中,内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中,如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力,也许内存分析就是答案。大数据背景下,用户以及IT提供商应该将其视为长远发展的技术趋势。

    集成设备

    随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来,许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起,提升查询性能、扩充存储空间并获得更多的分析功能,并能够提供同传统数据仓库系统一样的优势。在大数据时代,集成设备将成为企业应对数据挑战的一个重要利器。

    结构

    大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

    其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

    第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

    第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

    第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

    特点

    大数据大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。

    大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。

    从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

    大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

    当前用于分析大数据的工具主要有开源与商用两个生态圈

    开源大数据生态圈:

    1、Hadoop HDFS、HadoopMapReduce, HbaseHive 渐次诞生,早期Hadoop生态圈逐步形成。

    2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

    3、NoSQL,membase、MongoDB

    商用大数据生态圈:

    1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

    2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

    3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。

    数据采集

    定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

    特点和挑战:并发系数高。

    使用的产品:MySQLOracleHbaseRedis和 MongoDB等,并且这些产品的特点各不相同。

    统计分析

    大数据定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据 进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。

    特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多。

    使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做离线分析为主之外,其他产品可做实时分析。

    挖掘数据

    定义:基于前面的查询数据进行数据挖掘,来满足高级别 的数据分析需求。

    特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大。

    使用的产品:R,Hadoop Mahout

    SOA模型

    我们需要的是以数据为中心的SOA还是以SOA为中心的数据?答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中,将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。本文详细介绍了每个SOA模型管理数据的优点、选择和选项。

    SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。

    SOA和数据企业的例子

    也许以极限情况为开始是理解SOA数据问题的最好方式:一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件(查询即服务,或QaaS)上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上;而是通过一个单一的架构——RDBMS(关系型数据库管理系统)。数据去重和完整性便于管理单一的架构。

    通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事,由于数据有多个来源和形式因此很少按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时,关键是要定义三种模型中的最后一种模型,SOA数据关系中的架构模型。有两种选择:水平方向和垂直方向。

    大数据:“人工特征工程+线性模型”的尽头SOA和各类数据模型

    在水平集成数据模型中,数据收集隐蔽于一套抽象的数据服务器,该服务器有一个或多个接口连接到应用程序上,也提供所有的完整性和数据管理功能。组件虽不能直接访问数据,但作为一种即服务形式,就像他们在简单情况下的企业,其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型,但是它至少复制了我们上面提到的简单的RDBMS模型。

    垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上,该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离,这种分离直接涉及到数据基础设施。在某些情况下,这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理,管理服务器可以作为SOA组件来操作各种数据库系统,以数据库特定的方式执行常见的任务,如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则,也可能产生数据管理的一致性问题。

    SOA和水平数据模型

    毫无疑问水平模型更符合SOA原则,因为它更彻底地从SOA组件中抽象出了数据服务。不过,为了使其有效,有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程——SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

    水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce,可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据,然后集中查询这一分布式信息的相关结果。实际上,SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

    效率问题

    效率问题较为复杂。因为水平数据库模型可能是通过类似大多数SOA流程的信息服务总线来完成的,一个重要的步骤是要确保与该编排相关的开销额度保持在最低程度。这可以帮助减少与SOA相关的数据访问开销,但它不能克服存储系统本身的问题。因为这些存储系统已经通过水平模型脱离了SOA组件,很容易被忽略与延迟和数据传输量相关的问题,特别地,如果数据库是云分布的,那么使用他们就会产生可变的网络延迟

    上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘,而是一组相互连接的高速缓存点,其存储于本地内存中,也可能转向固态硬盘,然后到本地磁盘,最后到云存储。缓存算法处理这些缓存点之间的活动,从而来平衡存储成本(同时也是平衡同步地更新成本)和性能。

    大数据应用领域对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这种方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。

    SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此,SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。

    Hadoop

    Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。

    Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外,您还能够以其他语言编写map和reduce函数,并使用称为Hadoop Streaming(简写为Streaming)的API调用它们。

    流定义

    从技术角度而言,流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”,均能够在某种程度上处理流内的数据。节点可以不包含输入和输出,也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起,表示在运算符之间移动的数据流。

    右图一个简单的流图,它可以从文件中读取数据,将数据发送到名为Functor的运算符(此运算符能够以某种编程方式转换所传入的数据),然后将这些数据传入另一个运算符。在此图片中,流数据被传送至Split运算符,而后又将数据传入文件接收器或数据库(具体情况视Split运算符的内部状况而定)。

    利用Apache Hadoop等开源项目,通过传感器、RFID、社交媒体、呼叫中心记录和其他来源提供的新型数据创造价值。

    Streams

    大数据应用领域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(简称Streams)中,数据将会流过有能力操控数据流(每秒钟可能包含数百万个事件)的运算符,然后对这些数据执行动态分析。这项分析可触发大量事件,使企业利用即时的智能实时采取行动,最终改善业务成果。

    当数据流过这些分析组件后,Streams将提供运算符将数据存储至各个位置,或者如果经过动态分析某些数据被视为毫无价值,则会丢弃这些数据。你可能会认为Streams与复杂事件处理(CEP) 系统非相似,不过Streams的设计可扩展性更高,并且支持的数据流量也比其他系统多得多。此外,Streams还具备更高的企业级特性,包括高可用性、丰富的应用程序开发工具包和高级调度。

    出于这样的目的,许多组织开始启动自己的大数据治理计划。所谓大数据治理,指的是制定策略来协调多个职能部门的目标,从而优化、保护和利用大数据,将其作为一项企业资产。

    容量问题

    这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在解决容量问题上,不得不提LSI公司的全新Nytro™智能化闪存解决方案,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超过每秒4.0GB的持续吞吐能力,非常适用于大数据分析

    延迟问题

    “大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

    安全问题

    某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,大数据应用催生出一些新的、需要考虑的安全性问题,这就充分体现出利用基于DuraClass™ 技术的LSI SandForce®闪存处理器的优势了,实现了企业级闪存性能和可靠性,实现简单、透明的应用加速,既安全又方便。

    大数据应用领域成本问题

    对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场,而且还可以处理更多的数据类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,这种锱铢必较的服务器也只有LSI推出的Syncro™ MX-B机架服务器启动盘设备都能够获得明显的投资回报,当今,数据中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

    数据的积累

    许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

    灵活性

    大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。

    应用感知

    最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施,比如针对政府项目开发的系统,还有大型互联网服务商创造的专用服务器等。在主流存储系统领域,应用感知技术的使用越来越普遍,它也是改善系统效率和性能的重要手段,所以,应用感知技术也应该用在大数据存储环境里。

    针对小用户

    依赖大数据的不仅仅是那些特殊的大型用户群体,作为一种商业需求,小型企业未来也一定会应用到大数据。我们看到,有些存储厂商已经在开发一些小型的“大数据”存储系统,主要吸引那些对成本比较敏感的用户。

    大数据大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题:

    ■元数据

    大数据治理需要创建可靠的元数据,避免出现窘境,例如,一家企业重复购买了相同的数据集两次,而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。

    ■隐私

    企业需要严格关注遵守隐私方面的问题,例如利用社交媒体进行数据分析。

    ■数据质量

    考虑到大数据的庞大数量和超快速度,组织需要确定哪种级别的数据质量属于“足够好”的质量。

    信息生命周期管理。大数据治理计划需要制定存档策略,确保存储成本不会超出控制。除此之外,组织需要设定保留计划,以便按照法规要求合理处置数据。

    ■管理人员

    最终,企业需要招募大数据管理员。例如,石油与天然气公司内的勘探开采部门的管理员负责管理地震数据,包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外,社交媒体管理员需要与法律顾问和高级管理人员配合工作,制定有关可接受的信息使用方法的策略。

    数据价值

    众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

    显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。

    但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。

    毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。

    大数据应用所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。

    企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。

    但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。

    有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。

    数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。

    数据机遇

    自从有了IT部门,董事会就一直在要求信息管理专家提供洞察力。实际上,早在1951年,对预测小吃店蛋糕需求的诉求就催生了计算机的首次商业应用。自那以后,我们利用技术来识别趋势和制定战略战术的能力不断呈指数级日臻完善。

    今天,商业智能 (使用数据模式看清曲线周围的一切) 稳居 CXO 们的重中之重。在理想的世界中,IT 是巨大的杠杆,改变了公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

    大数据分析是商业智能的演进。当今,传感器、GPS 系统、QR 码、社交网络等正在创建新的数据流。所有这些都可以得到发掘,正是这种真正广度和深度的信息在创造不胜枚举的机会。要使大数据言之有物,以便让大中小企业都能通过更加贴近客户的方式取得竞争优势,数据集成和数据管理是核心所在。

    面临从全球化到衰退威胁的风暴, IT部门领导需要在掘金大数据中打头阵,新经济环境中的赢家将会是最好地理解哪些指标影响其大步前进的人。

    大数据应用当然,企业仍将需要聪明的人员做出睿智的决策,了解他们面临着什么,在充分利用的情况下,大数据可以赋予人们近乎超感官知觉的能力。Charles Duigg是《习惯的力量》一书的作者,他找出的一个黄金案例分析的例子是美国零售商 Target,其发现妇女在怀孕的中间三个月会经常购买没有气味的护肤液和某些维生素。通过锁定这些购物者,商店可提供将这些妇女变成忠诚客户的优惠券。实际上,Target 知道一位妇女怀孕时,那位妇女甚至还没有告诉最亲近的亲朋好友 -- 更不要说商店自己了。

    很明显,在可以预见的将来,隐私将仍是重要的考量,但是归根结底,用于了解行为的技术会为方方面面带来双赢,让卖家了解买家,让买家喜欢买到的东西。

    再看一下作家兼科学家 Stephen Wolfram的例子,他收集有关自身习惯的数据,以分析他的个人行为,预测事件在未来的可能性。

    大数据将会放大我们的能力,了解看起来难以理解和随机的事物。对其前途的了解提供了获取崭新知识和能力的机会,将改变您的企业运作的方式。

    发展前景

    大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据 。

    2013年5月10日,阿里巴巴集团董事局主席马云淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。

    大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正在改变着我们习以为常的经营之道,一场关系到企业生死存亡的技术革命已经到来。

    借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

    随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机智能电表等设备产生的数据爆增,使数字宇宙的规模在2012到2013两年间翻了一番,达到惊人的2.8ZB。 IDC预计,到2020年,数字宇宙规模将超出预期,达到40ZB。

    大数据应用40ZB究竟是个什么样的概念呢?地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年,数字宇宙将每两年翻一番;到2020年,人均数据量将达5,247GB。

    该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨胀,但仅有0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的处女地。

    价值

    谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

    大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,已进入大数据时代,但硬件明显已跟不上数据发展的脚步。

    以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而提及“大数据”,通常是指解决问题的一种方法,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

    虽然大数据在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

    未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

    存储

    随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

    针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce 、 云创存储、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等。

    “大数据”的商业价值简而言之,企业可以通过思考数据战略的总体回报,来应对大数据的挑战,抓住大数据的机会。Informatica所指的‘数据回报率’,是为帮助高级IT和业务部门领导者进行大数据基本的战术和战略含义的讨论而设计的一个简单概念。等式非常简单:如果您提高数据对于业务部门的价值,同时降低管理数据的成本,从数据得到的回报就会增加 -- 无论是用金钱衡量,还是更好的决策

    数据回报率=数据价值/数据成本

    在技术层面,数据回报率为数据集成、数据管理、商业智能和分析方面的投入提供了业务背景和案例。它还与解决业务的基础有关:挣钱、省钱、创造机会和管理风险。它涉及对效率的考虑,同时推动了改变游戏规则的洞察力。

    实现回报

    Informatica深知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点,同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力,为企业提供全程帮助。

    在大数据的世界中,最灵活和成功的企业将会是那些善用大机遇的公司。

    意义

    1.变革价值的力量

    未来十年,决定中国是不是有大智慧的核心意义标准(那个”思想者”),就是国民幸福。一体现到民生上,通过大数据让事情变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

    2.变革经济的力量

    生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

    3.变革组织的力量

    随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化WEB2.0应用,如RSS、维基、博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

    用途

    大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

    大数据与云计算的关系物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

    有些例子包括网络日志,RFID,传感器网络社会网络,社会数据(由于数据革命的社会),互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;和大规模的电子商务。

    弊端

    虽然大数据的拥护者看到了使用大数据的巨大潜力,但也有隐私倡导者担心,因为越来越多的人开始收集相关数据,无论是他们是否会故意透露这些数据或通过社交媒体张贴,甚至他们在不知不觉中通过分享自己的生活而公布了一些具体的数字细节。

    分析这些巨大的数据集会使我们的预测能力产生虚假的信息,将导致作出许多重大和有害的错误决定。此外,数据被强大的人或机构滥用,自私的操纵议程达到他们想要的结果。

    洛杉矶警察局加利福尼亚大学合作利用大数据预测犯罪的发生。

    google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

    统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

    麻省理工学院利用手机定位数据和交通数据建立城市规划。

    梅西百货的实时定价机制,根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。

    Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。

    PredPol Inc. 公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪暴力犯罪分布下降了33%和21%。

    American Express(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。

    大数据实践 基础架构先行Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此,他们开发了一个新产品:会响铃的药品盖和自动的电话呼叫,以此提醒患者按时服药。

    Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是,那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。在特定情况下,这些数据可以用作其他用途。该公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。

    利用起互联网大数据,对消费者的喜好进行判定。商户可以为消费者定制相应的独特的个性服务,甚至可以在一些商品或者服务上匹配用户心情等等。商家还可以根据大数据为消费者提供其可能会喜好的特色产品,活动,小而美的小众商品等等 。

    地产业的升级改造,具有令人兴奋的商业前景。一个Shopping Mall的投资往往高达数十亿元,设想一下,如果智能化升级能够让一个Shopping Mall的顾客数量和人均消费提升30%-50%,为此投入几百万元甚至上千万元对于投资方来说非常划算,那么仅仅针对国内Shopping Mall的智能化升级就是一个千亿元级别的市场。

    经典大数据案例-沃尔玛经典营销:啤酒与尿布

    “啤酒与尿布”的故事产生于20世纪90年代美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

    在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

    当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

    IBM战略

    IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”,指的是在“掌握信息”(Align)的基础上“获取洞察”(Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地“学习”(Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现“转型”(Transform)。

    大数据基于“3A5步”动态路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。

    在大数据处理领域,IBM于2012年10月推出了IBMPureSystems专家集成系统的新成员——IBM PureData系统。这是IBM在数据处理领域发布的首个集成系统产品系列。PureData系统具体包含三款产品,分别为PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。与此前发布的IBMPureSystems系列产品一样,IBM PureData系统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。

    斯隆数字巡天收集在其最初的几个星期,就比在天文学的历史上之前的2000年的收集了更多的数据。自那时以来,它已经积累了140兆兆 字节的信息。这个望远镜的继任者,大天气巡天望远镜,将于2016年在网上将获得数据公布,沃尔玛每隔一小时处理超过100万客户的交易,录入量数据库估计超过2.5 PB相当于美国国会图书馆的书籍的167倍 。FACEBOOK从它的用户群获得并处理400亿张照片。解码最原始的人类基因组花费10年时间处理,如今可以在一个星期内实现。

    “大数据”的影响,增加了对信息管理专家的需求,甲骨文,IBM,微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。

    大数据已经出现,因为我们生活在一个有更多信息的社会中。有46亿全球移动电话用户有20亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。 1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人收益的这笔钱将反过来导致更多的信息增长。思科公司预计,到2013年,在互联网上流动的交通量将达到每年667艾字节。

    大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。

    大数据实践国内网络广告投放正从传统的面向群体的营销转向个性化营销,从流量购买转向人群购买。虽然市场大环境不好,但是具备数据挖掘能力的公司却倍受资本青睐。

    163大数据是一个很好的视角和工具。从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。

    移动互联网与社交网络兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用“大数据”告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切中了广告商的需求。

    社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。

    实际上,将用户群精准细分,直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易,正是张文浩为自己的社交数据挖掘公司设计的盈利模式。这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心,主动迎合用户需求,前提就是要找到这部分人群。

    在移动互联网领域,公司从开发者角度找到数据挖掘的方向,通过提供免费的技术服务,帮助开发者了解应用状况。

    国内的企业跟美国比较,有一个很重要的特性就是人口基数的区别,中国消费群体所产生的这种数据量,与国外相比不可同日而语。

    伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。数据大爆炸下,怎样挖掘这些数据,也面临着技术与商业的双重挑战。

    首先,如何将数据信息与产品和人相结合,达到产品或服务优化是大数据商业模式延展上的挑战之一。

    其次,巧妇难为无米之炊,大数据的关键还是在于谁先拥有数据。

    从市场角度来看,大数据还面临其他因素的挑战。

    产业界对于大数据的热情持续升温的同时,资本也敏锐地发现了这一趋势,并开始关注数据挖掘和服务类公司。

    最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

    大数据时代:如何节省存储成本“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”

    事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。

    “大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2011年12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术信息安全技术,也都与“大数据”密切相关。

    大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

    大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落不是管理能扭转的。

    大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测,到2020年全球将总共拥有35ZB的数据量,而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。

    当前还处在大数据时代的前夜,预计今明两年将是大数据市场的培育期,2014年以后大数据产品将会形成业绩。

    大数据给城市带来的重大变革宋清辉:大数据正改变我们的未来

    大数据时代,与其让对你感兴趣的人去搜寻你的隐私,就不如自曝隐私。当我在全球不同城市演讲结束交换名片的时候,基本从来不发载有自己名字、电话、地址等基本信息的名片,因为那根本用不着,也不符合大数据时代的精髓。所以我的名片简单到只有一个名字和几个二维码,只要百度一下或者扫一扫二维码,关于个人的信息别人就会一览无余,包括在写什么文章、在哪里演讲等信息……

    不想说一个人若拒绝大数据就去失去生命这样沉重的话题,但大数据确实在深刻改变着你和我的未来。

    2015年5月26日,中共贵州省委副书记、省政府省长陈敏尔在峰会上透露,国家在制定大数据国家战略及行动计划。贵州省将抓住和用好战略机遇,深入挖掘大数据的商业价值、管理价值和社会价值。[2]

    工信部信息服务处处长李琰在论坛期间则表示,工信部将抓紧研究制定大数据发展的指导性文件。下一步,工信部将和有关部门加强协同,积极营造良好的环境,推动应用和产业相互促进、良性发展,为我国大数据产业和大数据创新发展探索积累经验。

    大数据时代来了!不得不承认如今数据量的激增越来越明显,各种各样的数据铺天盖地的砸下来,企业选择相应工具来存储、分析与处理它们。从Excel、BI工具,到现在最新的可视化数据分析工具大数据魔镜,数据分析软件进步越来越快,免费的大数据魔镜已经可以达到500多种可视化效果和实现数据共享。那么在大数据时代中,都新出现了哪些数据类型呢?

    1)过于一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。举个例子,Facebook每天有18亿张照片上传或被传播,形成了海量的数据。[3]

    2)移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,已知IPHONE有3个传感器,三星有6个传感器。它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。

    3)电子地图如高德、百度、Google地图出现后,其产生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值。基于地图产生的数据流是一种新型的数据类型,在过去是不存在的。

    4)进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的。其揭示了人们行为特点和生活习惯。

    5)电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,其是信息流和资金流数据。

    6)传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能。

    上面我们所指的大数据不同与过去传统的数据,其产生方式、存储载体、访问方式、表现形式、来源特点等都同传统数据不同。大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。这些新类型数据相信大家都很熟悉,它们已经比传统数据类型更深入地走进了我们生活。

    展开全文
  • Hadoop入门和大数据应用

    万人学习 2019-07-01 10:39:42
    Hadoop入门和大数据应用视频教程,该课程主要分享Hadoop基础及大数据方面的基础知识。 讲师介绍:翟周伟,就职于百度,Hadoop技术讲师,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用...
  • 几分钟看懂什么是大数据

    万次阅读 多人点赞 2018-12-21 10:41:51
    在2012年互联网络数据中心(IDC)发布的《数字宇宙2020》中写到,2011年全球数据总量已达到1.87ZB(1ZB=十万亿亿字节),并且...在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据...

    在2012年互联网络数据中心(IDC)发布的《数字宇宙2020》中写到,2011年全球数据总量已达到1.87ZB(1ZB=十万亿亿字节),并且以每两年翻一番的速度飞快增长。预计到2020年,全球数据总量将达到35-40ZB,10年间将增长20倍以上。

    大数据,它将改变人类的生活以及理解世界的方式。

    在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴
     

    那么,究竟什么是大数据呢?

    随着科技的进步,人们逐渐告别了日出而作、日落而息的单调生活,在信息化的社会里,每时每刻都在创造着大量的数据。

    数据可能包括财务电子表格、新产品的设计蓝图、客户信息、产品目录和商业机密等,更有甚者,我们日常每行走的一步都有手机软件自动记录行程,网络上的交流通过QQ、微信跨越了时空的界限,这些都是数据,但还不是大数据。

    大数据,是数据的集合。

    “ 

    大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。

    大量化,IDC预计到2020年,全球将总共拥有35ZB的数据量。

    多样化,不再是单一的文本形式,订单、日志、音频,多种多样。

    快速化,在海量的数据面前,处理数据的效率有着本质的区别。

    价值密度低,需要通过强大的算法迅速完成数据的价值提纯。

     

     

    关于大数据的思考

     

    大数据究竟有多大

    掌握更多的数据对于人类科学来说是一种进步, 那有助于我们认识客观世界。研究人员只是从收集到的数据中提取了1%的数据进行分析。这1%被分析的数据支配了目前的大数据创新,被称为“大数据”。“大数据”其实并不大,与反映客观事物的真实数据还有很大的差距。“人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。

     

    大数据能让企业盈利吗

    来源于互联网、传感器、流数据库、社会网络等方面的数据具有多样性和差异性,非常复杂,许多数据形式、结构都不同,有些数据甚至互相矛盾。数据从采集、存储到分析都是要花钱的,收集、存储数据的成本很高,分析数据的成本更高。数据挖掘项目不是一劳永逸的。模型出现偏差就不能再按原来的方案使用这个模型了,必须对模型进行调整。企业必须了解业务人员的需要,再请数据分析师帮助解决问题。

     

    大数据的分析真的很准吗

    科学研究实际需要的数据有可能被人们收集的海量数据所淹没。人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西,大数据无法解决大问题。在日常生活中,有很多收集不到的数据,但它们非常重要,起着决定性的作用。

     

    大数据能绕过“隐私权”吗

    在大数据时代,你透明的程度已经不取决于你了,你已经被大数据监控和记录了。在大数据时代,无处不在的数据采集系统使每个人都是赤裸裸的,没有隐私,无处可藏,甚至掌握大量数据的分析系统比你更了解你自己。75%的人不希望企业储存他们的个人信息,几乎90%的人反对企业跟踪他们的网络浏览记录。

     

     

    大数据应用案例

    01

    奥巴马成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在得相同数额捐款的情况下,这一比例仅为31%。奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!

    02

    亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

    03

    谷歌在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。

    通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。 

     

    关于大数据的思考

    在这里我还是要推荐下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

    大数据究竟有多大

    掌握更多的数据对于人类科学来说是一种进步, 那有助于我们认识客观世界。研究人员只是从收集到的数据中提取了1%的数据进行分析。这1%被分析的数据支配了目前的大数据创新,被称为“大数据”。“大数据”其实并不大,与反映客观事物的真实数据还有很大的差距。“人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。

     

    大数据的分析真的很准吗

    科学研究实际需要的数据有可能被人们收集的海量数据所淹没。人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西,大数据无法解决大问题。在日常生活中,有很多收集不到的数据,但它们非常重要,起着决定性的作用。

     

    大数据能绕过“隐私权”吗

    在大数据时代,你透明的程度已经不取决于你了,你已经被大数据监控和记录了。在大数据时代,无处不在的数据采集系统使每个人都是赤裸裸的,没有隐私,无处可藏,甚至掌握大量数据的分析系统比你更了解你自己。75%的人不希望企业储存他们的个人信息,几乎90%的人反对企业跟踪他们的网络浏览记录。

     

    在国内政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。

     

    如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

     

     

    “ 

     

    ◆ 城市规划通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。

     

    ◆ 交通管理通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。

     

     舆情监控通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。

     

    ◆ 安防与防灾通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

    展开全文
  • Hadoop大数据实战开发

    万人学习 2019-05-27 10:51:32
    介绍大数据技术生态圈主流技术框架的应用与发展,介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS 、大数据分布式并行计算框架MapReduce。 本课程介绍大数据的学习基础。 本课程介绍...
  • 大数据&算法工程师知识点大全

    千次阅读 2020-06-17 21:21:31
    下面内容为自己找工作的过程中,自己整理的知识点以及从别人面经中整理的知识点大全,对其中的大部分问题,我都会给出我认为最优答案的csdn链接(ps:本篇博客正在整理过程中,会不定期更新一些新的知识点的答案,希望...

    下面内容为自己找工作的过程中,自己整理的知识点以及从别人面经中整理的知识点大全,对其中的大部分问题,我都会给出我认为最优答案的csdn链接(ps:本篇博客正在整理过程中,会不定期更新一些新的知识点的答案,希望可以帮到更多的同学! 最新更新于2019-9-25)

    【1】在github上找到了一个2018/2019/校招/春招/秋招/自然语言处理(NLP)/深度学习(Deep Learning)/机器学习(Machine Learning)/C/C++/Python/面试笔记链接,内容涉及机器学习,深度学习,算法,编程语言,面经,数学等,感觉灰常不错,特来分享:https://github.com/worksking/Interview_Notes-Chinese  ,希望对你有帮助!           

    【2】今天又在github上发现了一个2019年秋招计算机类面经的项目,

    https://github.com/zslomo/2019-Autumn-recruitment-experience  ,截图如下:

    【3】此外我再两外分享一个关于计算机基础知识的github主页:https://github.com/CyC2018/CS-Notes

     

                                大数据相关

    • 100亿数字,怎么统计前100大的?
    • 10亿个url,每个url大小小于56B,要求去重,内存4G。
    • 1KW句子算相似度(还是那套分块+hash/建索引,但是因为本人不是做这个的,文本处理根本说一片空白,所以就不误导大家了),之后就是一直围绕大数据的题目不断深化。
    • Q1:给定一个1T的单词文件,文件中每一行为一个单词,单词无序且有重复,当前有5台计算机。请问如何统计词频?
    • Q2:每台计算机需要计算200G左右的文件,内存无法存放200G内容,那么如何统计这些文件的词频?
    • Q3:如何将1T的文件均匀地分机器统计配给5台机器,且每台完词频生成的文件只需要拼接起来即可(即每台机器统计的单词不出现在其他机器中)
    • 一个大文件A和一个小文件B,里面存出在的是单词,要求文件B中但不在文件A中的单词。然后大文件A是无法直接存到内存中的。
    • 一道题目是如果有一个人注册一个qq,如何保证这个qq号码和之前已存在的qq号码不重复呢?
    • 扔硬币,连续出现两次正面即结束,问扔的次数期望
    • 有100W个集合,每个集合中的word是同义词,同义词具有传递性, 比如集合1中有word a, 集合2中也有word a, 则集合1,2中所有词都是同义词,对这100W个集合进行归并,同义词都在一个集合当中。
    • 有几个 G 的文本,每行记录了访问 ip 的 log ,如何快速统计 ip 出现次数最高的 10 个 ip,如果只用 linux 指令又该怎么解决;
    • 海量数据的topk问题
    • hadoop+spark+yarn大数据处理【具体内容很多,若要详细了解需要花费很长时间】
    • spark中RDD的概念,以及RDD的特性有哪些?
    • spark源码中DAG图怎么划分的?具体方法?
    • spark中RDD的容错是怎么样的?
    • spark中job是什么含义?
    • spark中shuffle的过程,有哪些缺点?
    • 对kafka的理解?
    • spark中的宽依赖和窄依赖是什么意思?举例?

     

                               机器学习

    • Boost算法
    • CART(回归树用平方误差最小化准则,分类树用基尼指数最小化准则)
    • GBDT与随机森林比较。
    • GBDT(利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,拟合一个回归树)
    • KKT条件用哪些,完整描述
    • KNN(分类与回归)
    • L1 与 L2 的区别以及如何解决 L1 求导困难。
    • L1和L2函数。
    • L1和L2正则相关问题。
    • L1和L2正则项,它们间的比较
    • L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节
    • LR为什么用sigmoid函数。这个函数有什么优点和缺点?为什么不用其他函数?
    • LR和SVM有什么区别,libsvm和liblinear有什么区别。
    • Logistics与随机森林比较
    • Logistics(推导)
    • Logistic回归的推导,怎么得到objective function。
    • SVM与随机森林比较
    • SVM为什么要引入拉格朗日的优化方法。
    • SVM原问题和对偶问题关系?
    • SVM在哪个地方引入的核函数, 如果用高斯核可以升到多少维。
    • SVM怎么防止过拟合
    • SVM的目标函数。常用的核函数。
    • SVM的过程,讲了推导过程,可能表达不清晰,都是泪
    • bagging、adaboost、boosting
    • em 与 kmeans 的关系;
    • k-means的k怎么取等等
    • k-means算法初始点怎么选择?你的项目里面推荐算法是怎么实现的?
    • kmeans的原理,优缺点以及改进。
    • k折交叉验证中k取值多少有什么关系
    • l2惩罚项是怎么减小Overfitting的?l1,l2等范数的通式是什么?他们之间的区别是什么?在什么场景下用什么范数?l1在0处不可导,怎么处理?
    • randomforest,GBDT
    • rf, gbdt, xgboost的区别。
    • softmax公式
    • 为什么要做数据归一化?
    • 主要问最优化方面的知识,梯度下降法的原理以及各个变种(批量梯度下降,随机梯度下降法,mini 梯度下降法),以及这几个方法会不会有局部最优问题,牛顿法原理和适用场景,有什么缺点,如何改进(拟牛顿法)
    • 什么情况下一定会发生过拟合?
    • 什么是贝叶斯估计
    • 介绍LR、RF、GBDT ,分析它们的优缺点,是否写过它们的分布式代码
    • 介绍SVD、SVD++ ?
    • 会哪些机器学习算法?
    • 信息熵公式 ?
    • 假设面试官什么都不懂,详细解释 CNN 的原理;
    • 决策树原理
    • 决策树处理连续值的方法?
    • 决策树如何防止过拟合 ?
    • 决策树的损失函数?
    • 决策树过拟合哪些方法,前后剪枝
    • 分类模型可以做回归分析吗?反过来可以吗?
    • 分类模型和回归模型的区别
    • 判别模型,生成模型
    • 各个模型的Loss function,牛顿学习法、SGD如何训练。
    • 因为面我的总监是做nlp的,所以讲了很多rnn、lstm、还有HMM的东西。不算很熟,但是接触过,以前稍微看过一些相关论文,所以还是勉强能聊的。
    • 在平面内有坐标已知的若干个点P0...Pn,再给出一个点P,找到离P点最近的点。
    • 在模型的训练迭代中,怎么评估效果。
    • 如何减少参数(权值共享、VGG的感受野、GoogLeNet的inception)
    • 如何防止过拟合(增加数据,减少模型复杂度->正则化)
    • 对于同分布的弱分类器,求分类器均值化之后的分布的均值跟方差。
    • 对于机器学习你都学了哪些?讲一个印象深的。
    • 常见分类模型( svm,决策树,贝叶斯等)的优缺点,适用场景以及如何选型
    • 归一化方式
    • 手写k-means的伪代码。
    • 手写k-means的伪代码和代码。(Code)
    • 手撕svm硬软间隔对偶的推导
    • 手撕逻辑回归(损失函数及更新方式推导)
    • 接着写一下信息增益的公式。
    • 推一下bp算法等等
    • 改变随机森林的训练样本数据量,是否会影响到随机森林学习到的模型的复杂度。
    • 数据挖掘各种算法,以及各种场景下的解决方案
    • 是否了解mutual infomation、chi-square、LR前后向、树模型等特征选择方式。
    • 是否了解线性加权、bagging、boosting、cascade等模型融合方式
    • 有哪些常见的分类器,简单介绍下原理
    • 机器学习与深度学习的区别
    • 机器学习基础(线性回归与逻辑回归区别等)
    • 机器学习:几种树模型的原理和对比,朴素贝叶斯分类器原理以及公式,出现估计概率值为 0 怎么处理(拉普拉斯平滑),缺点; k-means 聚类的原理以及缺点及对应的改进;
    • 梯度下降牛顿拟牛顿原理
    • 梯度下降的优缺点。
    • 深度学习和普通机器学习有什么不同?
    • 深度学习有很大部分是CNN,给他用通俗的语言解释下卷积的概念,解释下CNN中的优势及原因
    • 激活函数的选择(sigmoid->ReLu->LReLU->PReLU)
    • 然后20分钟内手写k-means
    • 牛顿法、随机梯度下降算法和直接梯度下降算法的区别?
    • 牛顿法推导
    • 特征选择的方法
    • 由数据引申到数据不平衡怎么处理(10W正例,1W负例,牛客上有原题)
    • 聊聊SVM,这段说了好久,从基本的线性可分到不可分,相关升维,各种核函数,每个是如何实现升。以及出现了XX问题,分析是样本的原因还是其他原因。针对不同情况,采取什么解决方案较好。
    • 自己实现过什么机器学习算法
    • 解决过拟合的方法有哪些?
    • 解释 word2vec 的原理以及哈夫曼树的改进。
    • 解释一下过拟合和欠拟合,有哪些方法防止过拟合。
    • 让我一步一步地构造决策树,怎么计算信息熵、信息增益、然后C4.5 ID3 CART的区别,还说了一下优缺点
    • 详细讨论了样本采样和bagging的问题
    • 说一下Adaboost,权值更新公式。当弱分类器是LR时,每个样本的的权重是w1,w2...,写出最终的决策公式。
    • 说了一下bagging跟boosting。
    • 说明L1L2正则的效果与为什么形成这种情况(L1正则稀疏,L2正则平滑,之后说明就是画图说明正则化)
    • 过拟合的解决方法;
    • 选个你熟悉的机器学习方法 ,着重介绍一下产生原因,推导公式,背后统计意义什么等等
    • 逻辑回归估计参数时的目标函数,如果加上一个先验的服从高斯分布的假设,会是什么样。
    • 逻辑回归估计参数时的目标函数
    • 逻辑回归的值表示概率吗?
    • 问了会不会RNN,LSTM。
    • 问了很多数据挖掘的基础知识,包括SVM,逻辑回归、EM、K-means等,然后给我很多场景问我遇到这些情况我要怎么来处理数据,怎么进行建模等等,问得很细
    • 随机梯度下降,标准梯度
    • 随机森林和GBDT的区别?LR的参数怎么求解?有没有最优解?
    • 随机森林(Bagging+CART)
    • 拟牛顿法 
    • 随机森林和GDBT的区别?

    GBDT和随机森林的相同点:

     1、都是由多棵树组成

    2、最终的结果都是由多棵树一起决定

     GBDT和随机森林的不同点:

    1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成

    2、组成随机森林的树可以并行生成;而GBDT只能是串行生成

    3、对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来

    4、随机森林对异常值不敏感,GBDT对异常值非常敏感

     5、随机森林对训练集一视同仁,GBDT是基于权值的弱分类器的集成

     6、随机森林是通过减少模型方差提高性能,GBDT是通过减少模型偏差提高性能  

     5.随机森林怎么取最后的结果?

    6.随机森林是怎样避免ID3算法信息增益的缺点的?

             答:首先说下信息增益的过程,决策树算法本质上就是要找出每一列的最佳划分以及不同列划分的先后顺序及排布。信息增益的缺点是比较偏向选择取值多的属性。而gini系数每次都是二分,所以跟属性多少没有关系。

     7.为什么deeplearning 能抑制梯度消失或者爆炸的问题?

    答:几个方面:一是激活函数不光是只用sigmoid函数,还有 ReLU函数二是在参数并不是初始化的时候并不是随机选择的,而是在前面有自编码器做了特征特征器,这样避免了梯度下降法求解陷入局部最优解;三,深度学习一些手段,权值共享,卷积核,pooling等都能抑制梯度消失问题;四,二次代价函数换成交叉熵损失函数或者选用softmax+对数似然代价函数的组合。

    8.介绍下GBDT?

           GBDT采用的是boosting的思想,先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器,最后将所有基学习器加权结合。GDBT在传统的boosting的基础上,将以决策树为基函数的提升树拟合残差,利用损失函数的负梯度在当前模型的值作为残差的估计。  (注:GBDT是boost模型的一种,但不是adaboost,adaboost也只是boost模型的一种,adaboost和GBDT模型和参数更新方法都不一样)

    9.决策树和adaboost 的区别

    10.卷积层为什么能抽取特征? 激活函数的种类和特点?sigmoid 反正切都有梯度消失问题 relu 快,

    11. pooling层的作用? :http://blog.csdn.net/jiejinquanil/article/details/50042791

    12:什么是数据标准化,以及为什么要进行数据标准化?

    答:一般来说,数据标准化是减去均值再除以标准差,如果我们不进行数据标准化,那些数值范围大的特征将在成本函数中加权更多(如果大的特征变化1%,则该变化相当大,但对于较小的特征,这是非常不明显的),数据标准化使所有特征均等加权!

    13:在神经网络中,为什么ReLU比Sigmoid更常用?

    答:【1】第一个问题,为什么要引入非线性激活函数?

    如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了。

    正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。

    【2】第二个问题,为什么要引入Relu?

    第一,采用sigmoid等函数,算激活函数时(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相对大,而采用Relu激活函数,整个过程的计算量节省很多。

    第二,对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失,从而无法完成深层网络的训练。

    第三,Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。

    14:解释一下PCA(Principal Component Analysis)

    15:解释下降维,什么时候降维,以及使用它的好处?

    1:降维的作用?

    (1)降低时间的复杂度和空间复杂度 

    (2)节省了提取不必要特征的开销 

    (3)去掉数据集中夹杂的噪音 

    (4)较简单的模型在小数据集上有更强的鲁棒性 

    (5)当数据能有较少的特征进行解释,我们可以更好地解释数据,是的我们可以提取知识 

    (6)实现数据的可视化 

    2:降维的目的?

    用来进行特征选择和特征提取。 

    ①特征选择:选择重要的特征子集,删除其余特征; 

    ②特征提取:由原始特征形成的较少的新特征。 

    在特征提取中,我们要找到k个新的维度的集合,这些维度是原来k个维度的组合,这个方法可以是监督的,也可以是非监督的,如PCA是非监督的,LDA是监督的。 

    16:如何处理数据集中的缺失值?

    答:你可以直接删掉缺失值,也可以使用一些新值来填充缺失值,在pandas中可以使用isnull()和dropna()方法帮助你发现缺失值所在的行和列并删掉,如果你想填充缺失值,你可能会需要使用fillna()函数。

    17:解释下聚类算法?

    18:你如何进行数据探索(EDA)?

    19:Why do we use convolutions for images rather than just FC layers?

                               编程题

    • 1~n这n个数现在去掉两个,如何找到去掉的两个数。 假设去掉的两个数是a和b,那么通过求和,平方和可以知道a+b和a^2+b^2,然后解方程就行了。
    • char a[4] = {1, 2, 3, 4}; char *b = a; b[0] = 100; 请问输出a的结果是什么?
    • 一个 N*M 的矩阵,从左上走到右下最小需要(N+M)步走完,问一共有多少种走法。
    • 一个严格递增的数组,将前缀取一部分放在后面,在修改后的数组上找到最小的数。(剑指Offer原题)
    • 一个大写字符串如ABABB(len<1000),代表游客进游乐场的顺序及从哪个入口进入,要求每个入口(不多于26个入口)从第一个游客直到该入口的最后一个游客,检票员都不能离开,问最少检票人数K。
    • 一个字符数组中,每个字符都出现了3次,只有一个出现了2次,如果快速找出这个出现2次的?
    • 一个字符矩阵,只可能是R,G,B三种字符。判断是否满足某个条件。这个条件是每种符号连成一个长方体,三个长方体长宽一致,且横着平行
    • 一个广告,它有一个id,一个上线时间,一个下线时间,现在我有很多这样的广告,如果现在给你一个时间,告诉我有多少个广告在这个时间在线的
    • 一个数据流中,如何采样得到100个数,保证采样得到的100个数是随机的?
    • 一个数组中某个数出现次数大于一半,最快找出该数。
    • 一个数组只有一个数字是单独出现,其他出现了三次。
    • 一个数组存着1-1000连续的整数,假如我取出其中一个数,怎么能快速找到(用类二分查找)
    • 一个数组存着负数与正数,将正数放在前面,负数放在后面
    • 一个运算序列只有+、*、数字,计算运算序列的结果。(Code)
    • 一堆ip地址区间,不会重叠,来一个新的ip地址,看它在不在,在哪个区间。
    • 一维数组,swap 其中的几对数字(每个数字只属于一次 swap 操作),实现查找(与二分有关);
    • 一维有序数组,经过循环位移后,最小的数出现在数列中间,如果原数组严格递增或递减,如何找这个最小数;
    • 一维有序数组,经过循环位移后,最小的数出现在数列中间,如果原数组严格递增,如何找这个最小数。
    • 一维有序数组,经过循环位移后,最小的数出现在数列中间,如果原数组非严格递增或递减,如何找这个最小数;
    • 一维有序数组,经过循环位移后,最小的数出现在数列中间,数组可能是递增、递减、递减后递增、递增后递减四种情况,递增递减都是非严格的,如果有转折点,返回转折点的值,否则返回-1;
    • 一道题:给定一个整数数组,里面有两个数相同,其他数都是不同的,如何尽快找到这两个数(答,用hash表,O(N),有更好的方法么?)
    • 一题是多位数用链表存储( e.g. 123 用 1->2->3 存储),实现相加功能函数
    • 不创建临时产量换两个数
    • 两个同样大小有序数组求中位数,写代码
    • 两个大整数相乘。(Code)
    • 两棵树相加——对应位置两棵树都有值则相加,对应位置只有一棵树有值则取该值;
    • 中序遍历二叉树,利用O(1)空间统计遍历的每个节点的层次。(Bug Free Code)
    • 中缀表达式转逆波兰表达式,逆波兰表达式求值;
    • 为分析用户行为,系统常需存储用户的一些 query ,但因 query 非常多,故系统不能全存,设系统每天只存 m 个 query ,现设计一个算法,对用户请求的 query 进行随机选择 m 个,请给一个方案,使得每个 query 被抽中的概率相等,并分析之,注意:不到最后一刻,并不知用户的总请求量。
    • 二分查找
    • 二分查找,查找target,在区间[start,end]之间,如果有重复元素,返回最后一个下标,其他情况返回-1
    • 二叉树前序递归遍历算法(手写代码)
    • 二叉树的前中后遍历
    • 二叉树的文件存储,也就是序列化。
    • 二叉树遍历,描述下层序遍历。
    • 二维数组,每行递增,每列递增,任意交换其中的两数,发现并恢复。
    • 二维数组,每行递增,每列递增,实现查找。
    • 二维数组,每行递增,每列递增,求第k大的数。
    • 什么样的数据结构可以满足多次插入删除,取最小数,给出时间复杂度。
    • 介绍二叉树前序遍历非递归遍历算法(手写代码)
    • 介绍大顶堆和小顶堆
    • 从一组数中找出和为sum的三个数(leetcode原题,先sort再找,并且剪枝),写代码,四个数呢?说思路。
    • 假设有个M*N的方格,从最左下方开始往最右上方走,每次只能往右或者往上,问有多少种走法,假设中间有若干个格子不能走,又有多少种走法。
    • 允许两个元素交换一次的最大连续子序列和。
    • 全排列
    • 全排列。
    • 冒泡排序(手写代码)
    • 写 find 函数,在目标串中匹配模式串(要考虑中文字符的情况)
    • 写一个二叉树的非递归的后续遍历
    • 写一个简单的正则匹配表达式(将文本中的123.4匹配出来)
    • 写个动态规划,最长公共子序列
    • 判断一个字符串是否为另外一个字符串旋转之后的字符串
    • 前k大的数
    • 单链表的翻转
    • 去掉连续的重复数字,输出新数组,例如:1,2,2,2,1,3,5——> 3,5。
    • 去除字符串S1中的字符使得最终的字符串S2不包含’ab’和’c’。(Code)
    • 合法括号匹配
    • 在一个字符串中,找出最长的无重复字符的字串
    • 在二叉树结点结构中加一个指针域,使其指向层次遍历的下一个结点,特别地,每一层的最后一个结点为空。(Code)
    • 堆排序(手写代码)
    • 堆是怎么调整的。
    • 复杂链表的复制。
    • 如果给出一个二叉搜索树的后续能不能建立(可以,因为只要将遍历结果排序就可以得到中序结果)。
    • 字符串反转(手写代码)
    • 字符串移位,给出字符串abc##dfg##gh,实现将所有#移至字符串串头。输出####abcdfggh。
    • 字符串转整数
    • 字符串,给一个url,求中间的site
    • 字符串,给一个url,求中间的site。
    • 定义满足$n=x^a+y^b$($x,y,a,b$是非负整数)的n是神奇数。如$4 = 2^0 + 3^1,17 = 2^3 + 3^2$。输入l和r,请求出闭区间$[l,r]$里,最长的一段不含有神奇数的连续区间长度。$x,y,l,r<=10^{18},x>=2,y>=2$,如$3\ 5\ 10\ 22$,在$[10,22]$区间内,$x=3,y=5$的条件下,区间内[14]是神奇数,所以最长的区间是$[15,22]$长度为$8$,如$2,3,1,10$,在$[1,10]$区间内,$x=2,y=3$的条件下,$2,3,4,5,7,9$都是神奇数,所以最长的区间只有长度$1$。
    • 实现栈,使得 添加、删除、max 操作的复杂度为 O(1)。
    • 对于一个字符串,请设计一个算法,只在字符串的单词间做逆序调整,也就是说,字符串由一些由空格分隔的部分组成,你需要将这些部分逆序。给定一个原字符串A和它的长度,请返回逆序后的字符串。
    • 对于一个字符串,请设计一个算法,将字符串的长度为len的前缀平移到字符串的最后。
    • 寻找字符串中第一个只出现一次的字符;
    • 将字符串连续重复出现的字符删到只剩一个,这个可以用双指针,时间复杂度n,空间复杂度1。
    • 常用排序算法的时间和空间复杂度
    • 平衡二叉树是什么
    • 归并排序(手写代码)
    • 快速排序(手写代码)
    • 快速排序+二分查找
    • 手写快排(easy)
    • 打印数组的组合数。
    • 打印螺旋数组;
    • 把一个bst转化成一个双向链表。
    • 把一个字符串的大写字母放到字符串的后面,各个字符的相对位置不变,不能申请额外的空间。例如AbcDeFGhi ->bceiADFG
    • 排序二叉树转双向链表。(Code)
    • 描述Dijkstra最短路径算法
    • 插入排序(手写代码)
    • 数列中找第 k 大的数字(与快排或堆排序有关)
    • 数据解压缩,3(a4(ab)) -> aababababaababababaabababab;
    • 数组有只有一个数出现一次,其他数都出现三次,找出那个数。
    • 旋转数组
    • 最少时间复杂度求数组中第k大的数。(Code)
    • 最短路径代码。
    • 最长公共子串(动态规划有关);
    • 最长公共子序列
    • 有一堆无向好友列表 1-2, 3-4, 2-3 之类的,问能不能把这些用户划分两组,组内都不互为好友。
    • 有序数组寻找和为某数的一对数字;
    • 正数数组,找三个数使积最小,问有多少种选择。
    • 母鸡、公鸡和小鸡问题:公鸡五块一只,母鸡三块一只,小鸡一块三只,用100元买100只鸡的所有方法。
    • 求double类型的二进制1的个数。
    • 求二叉树最近公共祖先(leetcode原题)
    • 求连续子数组最大乘积,还让考虑边界问题(最后问了:连乘有可能导致溢出,存不下了)
    • 用一个队列,将每个二叉树的root先放入队列。
    • 用数组实现队列,各操作的复杂度分析。
    • 用速度不同的指针可以判断链表中是否有环,问两速度满足怎样的关系可以保证发现环。
    • 直接插入排序写代码
    • 看段代码,问输出是啥。(就是段求二进制中1的个数)
    • 矩阵求最长连续递增的路径长度
    • 矩阵求最长连续递增的路径长度。
    • 第一题是链表倒数第 k 节点;第二题是二叉树打印路径,第三题是矩阵中将 0 元素所在行列全置 0 的最优空间解法
    • 第二轮是写出一个算法输出二叉树的 s 序列,何为 s 序列,比如现在有个二叉树 1-2,3-4,5 6,7 这是一颗完全二叉树, S 序列输出就是按照 1237654 这个顺序输出,用两个栈就能实现比较简单。
    • 算法题,也只记得一个了:存在一个数组,大小98,里面的元素均为在[1,100],且无重复, 不申请额外空间的情况下,在时间复杂度为O(N)情况下,找出缺失的两个元素值。
    • 给一个n*n的矩阵,矩阵中满足每行每列都是递增的,要查找矩阵是否存在某个数.(leetcode原题)
    • 给一个数组,只有一个元素出现了一次,其他都出现了两次,找出出现一次的数。
    • 给一个数组,数组种存在一种数,它的左边都比它小,右边都比它大,找出所有这些数的位置。
    • 给一个股票,n天的价格,只能两次买入卖出,而且只能只能先卖再买,问最多赚多少钱?
    • 给一个股票,n天的价格,只能进行一次买入和卖出,问最多赚多少钱?
    • 给一个股票,n天的价格,可以买入卖出k次,而且只能只能先卖再买,问最多赚多少钱?
    • 给一个股票,n天的价格,可以无限次买入卖出,问最多赚多少钱?
    • 给了一个链表,第1个结点标号为1,把链表中标号在M到N区间的部分反转。
    • 给你一个无重复的数组输出全排列。
    • 给你一颗二叉树按层输出每一层输出后都换行
    • 给出一个二维矩阵,从(0,0)出发走到右下角,只能向右或向下走,找到一条路径,是这条路径上的总和最大。
    • 给出一段代码问代码作用(二进制数据1的个数)
    • 给出一颗二叉树,两个叶节点,找到这两个叶节点互连通的一条最短路径。
    • 给定一个数组,只有一个元素出现了一次,其他都出现了3次,找出出现一次的数。
    • 给定一个数组,有两个元素出现了一次,其他都出现了两次,找出两个出现一次的数。
    • 给定一个正整数向量,判断这个向量是否存在一个片段,使得反转这个片段后能够使该向量升序排列。如:[1, 2, 4, 3],就可以通过反转[4, 3]使得向量变为[1, 2, 3, 4]。
    • 给定二叉树的先序跟后序遍历,能不能将二叉树重建(不能,因为先序:父节点-左节点-右节点,后序:左节点-右节点-父节点,两者的拓扑序列是一样的,所以无法建立)
    • 给定循环递增数组 $a=[7,8,9,1,2,3]$和一个值$k=2$,返回该值得再数组中的下标。
    • 给定数组A[]={1,4,7,...}和一个数T。求和为T的A中的数最少要几个。A中的数可复用。 我写了个递归,面试官不建议使用,因为效率不高。但没有反对。
    • 给定数组,寻找 next big(堆排序有关);
    • 给我一个数组[1,2,5,10,20,50,100],可以从里面取若干个数,要求得出和为100的不同取法有多少?(说出思路)
    • 统计数列中的逆序对(归并排序有关);
    • 编程题:实现求正整数平方根整数部分的函数(使用梯度下降)
    • 翻转二叉树(Code)
    • 若干个二叉树,如何按照层序遍历
    • 设 rand ( s , t )返回 [s,t] 之间的随机小数,利用该函数在一个半径为 R 的圆内找随机 n 个点,并给出时间复杂度分析。
    • 输入一个大长方形,长宽ab,和一堆小长方形。选择两个小长方形,它能放进大长方形,而这个小长方形面积和最大。
    • 输入两个正数数组,在两个数组分别选一个数,要求第一个数组选的数的下标小于第二个数组选的数的下标。使得两个数的乘积最大。
    • 输出字符串中的所有重复子串,例如:abcab,输出: a, b, ab
    • 连续子数组最大和
    • 迷宫的深度搜索、广度搜索;
    • 选取任意数据结构实现添加、删除、随机返回三个功能,分析复杂度。
    • 选择排序(手写代码)
    • 链表上的快速排序。
    • 长度为N的序列Sequence=abc......Z,问有多少不同的二叉树形态中序遍历是这个。(Code)
    • 问了一两个算法题,记不清了,只记得其中一个是:找数组中2个出现两次的数字,还有3个两次的数字
    • 问了一个1的平方加到100的平方结果
    • 非常经典的0-1背包问题
    • 字符串移位,给出字符串abc##dfg##gh,实现将所有#移至字符串串头。输出####abcdfggh(个人认为可以用后向移位,减少移位次数)
    • 给出一个二维矩阵,从(0,0)出发走到右下角,只能向右或向下走,找到一条路径,是这条路径上的总和最大。(个人认为使用动态规划或深度遍历)
    • 给出一颗二叉树,两个叶节点,找到这两个叶节点互连通的一条最短路径。(个人认为主要是找两个叶节点的最近公共祖先)

                                    智商题

    100张牌,每次只能抽一张,抽过的牌会丢掉,怎么选出最大的牌。

    36匹马,6条跑道,选出最快3匹,最少赛多少场?

    5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城。他们决定:抽签决定自己的号码(1,2,3,4,5)。首先,由1号提出分配方案(你抽到1号),然后大家5人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼。如果1号死后,再由2号提出分配方案,依此类推。条件:每颗宝石都是一样的价值。海盗都想保命,尽量多得宝石,尽量多杀人。问题:你会提出怎样的分配方案才能够使自己的收益最大化?

    一个人要过一座80米的桥,每走一米需要吃一颗豆子,他最多可以装60颗豆子,问最少需要吃多少颗豆子才能走完桥?证明一下为什么你给的答案是最少的?桥长81米呢?当桥长n米,最多装m颗的时候结果用公式怎么表示?

    一个绳子烧完需要1个小时,假设所有绳子的材质都不一样,也不均匀,怎么取出1小时加 15分钟。

    把1~9这9个数填入九格宫里,使每一横、竖、斜相等。

    有100个黑球,100个白球。两个桶,桶的容量无限,每个球都可以任意放在任何一个桶中,没有限制,请设计一种分配方法,使得白黑球分配到两个桶之后, 某个人从某个桶中取出的球是白球的概率最大化。(这个人去第一个桶取球的概率是1/2,第二个桶也是1/2)

    有1亿个货物,不能单个单个检测,只能通过两两对比来找出其中的次品,请设计一个算法来找出次品。

    有25匹马,5个跑道,一次只能比5匹马,得到跑得最快的前3,至少需要比几次?

    有3盏灯,房间外有3个开关,你只有1次机会进入房间,怎么判断哪个开关对应哪盏灯?

    给一堆螺母和螺栓,它们可以一一对应,但是现在顺序乱了,只能用螺母和螺栓比较,将它们一一对应起来。

                                    计算机基础

    1:Linux下的一些指令,$$(进程id),$?(上一条命令退出时状态),怎么查看进程,按照内存大小,CPU占用排序等等。

    2:Linux的命令:pwd、ln、which

    3:Linux线程通信

    4:hash表是怎么实现的?有冲突的时候怎么处理?

    5:linux 文件词频统计

    6:介绍一下hash,怎么解决冲突。

    7:你说一下hashmap的原理

    8:内存泄露出现原因。

    9:悲观锁乐观锁

    10:把两个表按id合并怎么搞?

    11:数据库transaction

    12:浅拷贝深拷贝

    13:第二题是两题 sql ,涉及join,group by,max,min,sum,count 等操作的结合,以及同个题目多种写法。

    14:线程安全是什么意思?新线程什么情况下会影响原有线程?

    答:并发基础知识 — 线程安全性,参见https://www.cnblogs.com/tcming/p/6711506.html

    15:网络基础TCP三次握手  

    答:参见https://blog.csdn.net/qq_18425655/article/details/52163228

    16:计算机网络:描述他发一句helloworld到我这边显示,中间经历了哪些过程,我从应用层开始一层层往下分析答的,主要说http和tcp,网络层和链路层有些忘,但主要的几个协议和子网划分什么的也答了,面试官比较满意

    17:词向量的推导,混合高斯,linux硬链接,三次握手,linuxinode

    18:进程线程的区别

    答:(1)进程是具有一定功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源调度和分配的一个独立单位。

    (2)线程是进程的实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。

    (3)一个进程可以有多个线程,多个线程也可以并发执行

    19:说一下在浏览器地址栏输入url之后的一系列过程?

    答:参见https://blog.csdn.net/lamiant/article/details/54947281

             DNS解析过程,参见https://www.zhihu.com/question/23042131

             ARP解析过程,参见https://blog.csdn.net/wswit/article/details/52578878

    20:fork过程,fork,vfork以及clone的区别(从源码分析)?<腾讯面试>

    21:僵尸进程,怎么避免僵尸进程?<腾讯面试>

    参考博客:https://www.cnblogs.com/Anker/p/3271773.html

    22:从汇编层解释一下引用?<腾讯面试>

     23:中断的作用?<腾讯面试>

    24:tcp连接关闭过程,time-wait的作用,如果此时系统中有很多time-wait连接,你该怎么做?

    参考博客:https://blog.csdn.net/yusiguyuan/article/details/21445883

    以及博客:https://segmentfault.com/a/1190000003509876

    25:DDos攻击原理?<腾讯面试>

    26:数据库引擎?<腾讯面试>

    27:数据库三个重要范式?<腾讯面试>

    28:网络层,数据链路层,运输层的设备以及协议有哪些?<腾讯面试>

    29:网络层,数据链路层,传输层的寻址方式分别是什么?<腾讯面试>

    30:AVL树,B+树,红黑树?<腾讯面试>

    31:数据库索引,事务?<腾讯面试>

                                    概率题

    • 100人坐飞机,第一个乘客在座位中随便选一个坐下,第100人正确坐到自己坐位的概率是?
    • X是一个以p的概率产生1,1-p的概率产生0的随机变量,利用X产生1/2概率是0,1/2概率是1的随机变量。
    • X,Y均服存于 [0,1] 的均匀分布,求X+Y。
    • 一个国家重男轻女,只要生了女孩就继续生,直到生出男孩为止,问这个国家的男女比例?
    • 一个有7个格子的环,三种颜色染色,相邻不能颜色重复,问多少种方案
    • 一个袋子里有很多种颜色的球,其中抽红球的概率为1/4,现在有放回地抽10个球,其中7个球为红球的概率是多少?
    • 一枚硬币,扔了一亿次都是正面朝上,再扔一次反面朝上的概率是多少?
    • 一道概率题,54张牌,平均分成三堆,大小王在同一堆的概率?
    • 一道概率题,一个六位的密码,由0~9组成,问你正过来看和倒过来看密码是一样的概率。
    • 一道组合数学题。10盏灯,灭三盏,两头的必须亮着,不能灭掉相邻的两盏灯,问组合数?
    • 三个硬币,分别是正正,反反,正反。随机抛一个硬币,结果是正面,问选的是那个硬币
    • 个人玩游戏,100个球,每次挑5个,如何保证必胜。52张牌,四个人抽,黑桃A和红桃A同时在一个人手里的概率。
    • 好像是问有70%的人喜欢玩游戏,30%的人不喜欢玩游戏,现在推送的资源必须是50%游戏,50%非游戏。问怎么分配比较合理。
    • 有n个elements和1个Compare(A, B)函数,用Compare函数作为排序算法中的比较算子给elements排序。Compare函数有p的可能比较错。排序完取Top m个元素,本来就在Top m并被正确分在Top m的元素个数是x。问x的数学期望。
    • 有两个随机数产生器,R1以0.7的概率产生1,以0.3的概率产生0,而R2以0.3的概率产生1,0.7的概率产生0.问如何组合这两种产生器,使新得到的随机数产生器以0.5的概率产生1,0.5的概率产生0。随机数产生器可复用。
    • 有两枚硬币A和B,A正面的概率为0.6,B正面的概率为0.5.现在扔了一枚硬币显示为正面,问:该枚硬币是A的概率是多少?
    • 概率题:有种癌症,早期的治愈率为0.8,中期的治愈率为0.5,晚期的治愈率为0.2.若早期没治好就会转为中期,中期没治好就会变成晚期。现在有一个人被诊断为癌症早期,然后被治愈了,问他被误诊为癌症的概率是多少?
    • 给一个函数,返回0和1,概率为p和1-p,请你实现一个函数,使得返回01概率一样。
    • 给定一个分类器p,它有0.5的概率输出1,0.5的概率输出0。Q1:如何生成一个分类器使该分类器输出1的概率为0.25,输出0的概率为0.75?Q2:如何生成一个分类器使该分类器输出1的概率为0.3,输出0的概率为0.7?
    • 问了一个概率题 54张牌,分成6份,每份9张牌,大小王在一起的概率

                                    HR常问问题

    • 为什么不读博、对读博报以什么态度。
    • 为什么选择百度,谷歌百度都给你offer你选哪个。
    • 为什么选择跨专业学计算机?
    • 为什么选择阿里
    • 以后可能要学习很多新技术,你怎么看。
    • 你平时喜欢做什么?看过哪些书?最近在看什么书?
    • 你觉得最有挑战的项目是什么。
    • 你觉得最难忘的事情是什么?
    • 你认为你的优(缺)点是什么。
    • 你还有什么想问的?
    • 加班怎么看。
    • 印象最深刻的事?
    • 压力最大的情况是什么时候。
    • 在面试过程中觉得自己那些当面有进步
    • 场景分析题,有一个任务给你,要求一个月完成,但是以目前的能力一个月完成不了,现在你知道有一个同事擅长这部分工作,但是他有自己的活,帮助你就可能耽误他的进度,问你咋办。
    • 大学令你觉得最不爽的事情是什么
    • 如何学习的?
    • 如何看待加班。
    • 实习期间项目,在组内担任的角色,是否熟悉其他组员的工作。
    • 家庭教育观念?
    • 家里什么情况?独生子女?
    • 将来的职业规划?
    • 工作地点
    • 工作地点的问题
    • 平时有什么兴趣爱好。
    • 我觉得我会先去专心钻研技术,到达一定的
    • 最后问了一下我兴趣爱好
    • 有什么问题问我。
    • 有没其他offer
    • 有没有想过去创业公司
    • 现在在哪里实习?实习主要做些什么?
    • 简单介绍一下自己
    • 聊聊offer情况,有什么考虑之类的。
    • 聊聊实验室生活。
    • 能不能来北京
    • 自己有什么优点缺点?
    • 自己本科生和研究生相比有哪些进步
    • 要求用两个字评价大学生涯。
    • 讲一下你觉得你突出的地方,有亮点的地方。
    • 评价一下你自己的优点缺点?
    • 详细介绍项目。
    • 说下你的优缺点
    • 说说你的经历。
    • 说说你自己的性格。
    • 说说研究生阶段最有成就的事,遇到问题具体怎么解决的。
    • 请你说一下你对应聘该岗位的优势。
    • 遇到的最大挫折是什么。
    • 问你的职业规划,遇到挑战怎么处理,有没有之前和同事发生过较大分歧。

                                    开放题

    • 2016年每个项目有个上线和下线时间段,统计每天在线的项目数量
    • 一堆问题和答案的pair,算它们的相关性
    • 一面现场面,自我介绍加挑一个项目细讲,还有场景题,第一题是QQ添加好友按名称搜索时,怎么区别广告号,诈骗号;
    • 为什么之前没有深度网络出现(数据量不够+机器性能)
    • 为今日头条设计一个热门评论系统,支持实时更新。
    • 从项目中在哪一方面体会最深。
    • 假设一个文档,连续的K个词,认为是一个时间窗口,一个时间窗口的词有关系,如何得到所有的时间窗口。
    • 假设你拥有一切搜索数据,问怎么在不同场景下进行推荐,具体场景忘了(核心点:共线性、语义相似度、主题聚类等等)
    • 假设有100W个单词,如何存储(我答的是trie树,面试官问每个节点会有很多子节点,每个子节点是一个指针,占用8个字节,如何节省空间,我说不知道,面试官提示双数组trie树)
    • 假设要对一场nba球赛进行自动解说,会遇到哪些困难,又该怎么解决呢?
    • 做过哪些项目?项目中遇到哪些难点,你是怎样解决的?
    • 关于集群调度的一些经验 trick 掌握多少;
    • 分词时,为了提高效率,怎么存储词典?(键树)如何压缩存储?
    • 在微信的场景下,如何判断用户的职业?开放问题
    • 场景题如何鉴别淘宝上卖假货的商家,价格维度可以用什么策略等
    • 如何做一个新闻推荐
    • 如何在语料中寻找频繁出现的字串,分析复杂度。
    • 如何用尽可能少的样本训练模型同时又保证模型的性能;
    • 如何预测双十一支付宝的负载峰值。
    • 对推荐算法的未来看法。
    • 平面上有n个点,让你设计一个数据结构,能够返回这个这n个点中距离某特定点最近的一个点。一开始讲了下kd树,然而太复杂面试官不满意,就讲了一个类似GeoHash的方案。
    • 建立一个数据结构,基于此写一段程序用于存储sparse vector,同时编写一个函数实现两个sparse vector的相加运算
    • 很多单词,如何计算单词之间的相似度(或者对单词进行分类)
    • 怎么预测降雨量。
    • 我只有一大批实体词, 如何对他们进行聚类(无监督聚类), 如何找出这些词中, 哪些词之间有关系, 是强关系还是弱关系, 具体是什么关系,(如刘德华和朱丽倩 属于娱乐分类, 是强关系, 关系为夫妻)
    • 拼车软件是如何定价的以及如何优化。
    • 推荐算法(基于用户的协同过滤,基于内容的协同过滤)
    • 推荐系统的冷启动问题如何解决
    • 文本挖掘中,分词算法?如何选取特征?如何进行相似度计算,文本聚类结果如何评估?
    • 无给定条件,预测蔬菜价格。
    • 有100W个集合,每个集合中有一些词,对于每个集合,找出他是哪些集合的真子集。
    • 有一堆已经分好的词,如何去发现新的词?
    • 比赛相关问题提特征特征选择等
    • 海量的 item 算文本相似度的优化方法;
    • 特征工程经验。
    • 用两分钟介绍自己的项目,创新点在哪里。
    • 用户给三个item(query),如何给出查询网页。
    • 第三题是如何鉴别实施诈骗的QQ用户;
    • 第二题是微信朋友圈内容的安全鉴别;
    • 第四题是如何做反作弊,例如公众号的刷阅读量。
    • 系统设计题,给一个query,如何快速从10亿个query中找出和它最相似的 (面试官说可以对每个query找1000个最相似的,存起来,每天离线更新)
    • 线性代数:特征线性依赖,出现冗余,会导致什么问题?
    • 给一堆数据找找到最佳拟合的直线,数据有较多噪声
    • 给你一个系统(面试官好像是无人车部门的),后台的逻辑已经实现了,但是前端加载很慢,怎么检测。
    • 给你两个文件a和b,大小大概100M,两个文件每行一个整数,要求找到两个文件中相同的整数,存到文件c里,问我怎样尽快的完成这项工作?
    • 给出一个算法实现如何确定快递邮件上的地址,要求从国家到省市到县到乡镇的一个识别,要求效率高(有陷阱,比如有的人把县写到市的前面,有人喜欢写地域名称的省略词比如安徽省写成安徽或者皖)。
    • 给定淘宝上同类目同价格范围的两个商品A和B,如何利用淘宝已有的用户、商品数据、搜索数据、评论数据、用户行为数据等所有能拿到的数据进行建模,判断A和B统计平均性价比高低。统计平均性价比的衡量标准是大量曝光,购买者多则高。
    • 给很多单词,统计某个子串出现次数,我给的方法还是用Trie,只不过一个单词要分成多个插入到Trie数中就行了。
    • 给很多单词,要求统计出现某个前缀出现次数。
    • 统计全球会弹钢琴的人数,我用机器学习的思路答的,面试官还比较满意
    • 自己项目中有哪些可以迁移到其他领域的东西。
    • 讲了讲自己在深度学习的认识,问的问题是几个具体场景的设计,包括怎么从海量数据中提取热点问题。
    • 设计 LRU 系统
    • 设计一个合理的电梯调度策略,调度两个电梯 ,考虑满足基本的接送需求,满足能耗最小,满足用户等待时间最短
    • 设计一个系统可以实时统计任意ip在过去一个小时的访问量;
    • 设计一个结构存取稀疏矩阵(面试官最后告诉我了一个极度压缩的存法,相同行或列存偏差,我当时没听懂,还不懂装懂,最后还是没记住)
    • 设计实现一个git diff
    • 说一下最能代表你技术水平的项目吧?
    • 项目:具体问了特征怎么做的。
    • (难到我了,我想的方法不好,面试告诉我了他的想法,类似于一个进程调度问题,每一时刻只可能有一个用户按按钮,把这条指令接收,判断当前电梯能否满足,能满足就执行,不能满足则放入一个队列里,实际情况还要细化)

                               

     

     

     

     

     

     

    展开全文
  • 13个大数据应用案例,告诉你最真实的大数据故事

    万次阅读 多人点赞 2018-03-15 10:27:48
    大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的。大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际上很多人都对大数据的应用模糊不清。现在就...
  • 大数据平台的软件有哪些?

    万次阅读 2018-02-13 23:55:48
    查询引擎 一、Phoenix 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询...
  • 大数据学习路线(完整详细版)

    万次阅读 2019-01-22 11:46:07
    java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) ...Spark(scala,spark,spark ...
  • 大数据可以考哪些证书?

    万次阅读 2019-09-06 21:59:38
    随着国家政策的支持,大数据产业不断发展,落地应用于各行各业,大数据人才需求与日俱增,大数据认证的数量也在不断增加,这些资格来自供应商、教育机构、独立或行业机构。大数据领域包括:大数据系统管理、Hadoop、...
  • 大数据到底应该如何学?

    万次阅读 多人点赞 2020-09-29 00:11:25
    本文关键字:大数据专业、大数据方向、大数据开发、大数据分析、学习路线。笔者从事大数据开发和培训多年,曾为多家机构优化完整大数据课程体系,也为多所高校设计并实施大数据专业培养方案,并进行过多次大数据师资...
  • 大数据技术框架图解

    万次阅读 2018-10-31 15:18:30
    大数据技术框架见附件: 数据处理:
  • 1.大数据简历的黄金法则2.大数据简历的项目经验
  • 【155G大数据视频】2018大数据视频教程全套

    万次阅读 热门讨论 2019-08-26 13:54:34
    尚硅谷2018大数据全套(8月8更新版)–关键字【大数据大数据完整教程155G+,视频教程 01_尚硅谷大数据技术之Linux基础.rar 02_尚硅谷大数据技术之Hadoop.rar 03_尚硅谷大数据技术之Zookeeper.rar 04_尚硅谷...
  • 大数据组件图谱---比较齐全

    万次阅读 多人点赞 2020-10-06 13:17:38
    转载地址:... 大数据组件图谱 文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台 文件系统 HDFSHadoop Distributed File S
  • BDTC2015大会精彩演讲PPT集锦

    万人学习 2019-06-21 09:54:56
    中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内具影响、规模大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2007年仅60人参加的技术沙龙到当下数...
  • 中国大数据行业发展趋势

    万次阅读 2017-10-17 15:23:48
    随着大数据技术的飞速发展,大数据已经融入到各行各业。2017年中国的大数据行业发展趋势是什么?大数据行业整体市场规模如何?大数据行业前景如何?请看大讲台老师的分析。 (一)大数据行业整体市场规模及预测 ...
  • 常用的大数据技术有哪些?

    万次阅读 2018-03-13 16:45:12
    大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微软、谷歌、百度以及...
  • 大数据系列文章汇总 - 更新到15篇

    千次阅读 多人点赞 2017-03-25 11:05:50
    大数据(一) - hadoop生态系统及版本演化 大数据(二) - HDFS 大数据(三) - YARN 大数据(四) - MapReduce 大数据(五) - HBase 大数据(六) - ZooKeeper 大数据(七) - Flume 大数据(八) - Sqoop 大数据(九) - ...
  • 大数据环境下的关联规则挖掘

    万人学习 2019-07-01 10:35:23
    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。
1 2 3 4 5 ... 20
收藏数 567,338
精华内容 226,935
关键字:

大数据