精华内容
参与话题
问答
  • 大数据工具应用

    千次阅读 2020-03-28 18:10:50
    2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和( )能力的数据集。 选项: A:访问 B:分析 C:计算 D:应用 2、单选题: 用4V来概括大数据的特点的话,一般是指:...

    第一部分

    1、单选题:
    2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和( )能力的数据集。
    选项:
    A:访问
    B:分析
    C:计算
    D:应用

    2、单选题:
    用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和( )。
    选项:
    A:Valley
    B:Variety
    C:Vainly
    D:Vagary

    3、单选题:
    大数据分析四个方面的工作主要是:数据分类、( )、关联规则挖掘和时间序列预测。
    选项:
    A:数据统计
    B:数据聚类
    C:数据计算
    D:数据清洗

    4、判断题:
    新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
    选项:
    A:错
    B:对

    5、判断题:
    目前的大数据处理技术只能处理结构化数据。
    选项:
    A:对
    B:错

    第二部分

    1、单选题:
    我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是( )。
    选项:
    A:dbf
    B:mdf
    C:mdb
    D:xls

    2、单选题:
    大多数日志文件的后缀名是( )。
    选项:
    A:log
    B:xml
    C:txt
    D:csv

    3、单选题:
    本课程重点介绍的weka软件的专有文件格式是( )。
    选项:
    A:ARFF
    B:MongoDB
    C:key map
    D:value

    4、单选题:
    数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和( )。
    选项:
    A:排他性
    B:专业性
    C:共享性
    D:一致性

    5、单选题:
    八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个( )来作为采集的目标。
    选项:
    A:用户名
    B:关键词
    C:电话号码
    D:网页地址

    6、单选题:
    八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是( )。
    选项:
    A:jpg
    B:otd
    C:png
    D:gif

    7、判断题:
    Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
    选项:
    A:错
    B:对

    8、判断题:
    Excel不能导入txt或csv格式的文件。
    选项:
    A:错
    B:对

    9、判断题:
    八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
    选项:
    A:错
    B:对

    10、判断题:
    八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
    选项:
    A:错
    B:对

    展开全文
  • 全球100款大数据工具,基本涵盖了你可能需要的大数据工具,内容丰富,配有相应的说明和讲解。学习利器。
  • 大数据工具汇总

    千次阅读 2020-08-31 19:12:48
    按照字母顺序排序 ActiveMQ Apache出品,号称“最流行的,最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快,支持多种跨语言的客户端和协议,其企业集成模式和许多先进的功能易于使用,是一个完全支持JMS1.1...

    按照字母顺序排序

    ActiveMQ

    Apache出品,号称“最流行的,最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快,支持多种跨语言的客户端和协议,其企业集成模式和许多先进的功能易于使用,是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。

    Alluxio

    前身是Tachyon,是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。

    Amazon SimpleDB

    是一个用Erlang编写的高可用的NoSQL数据存储,能够减轻数据库管理工作,开发人员只需通过Web服务请求执行数据项的存储和查询,Amazon SimpleDB 将负责余下的工作。作为一项Web 服务,像Amazon的EC2和S3一样,是Amazon网络服务的一部分。

    Ambari

    作为Hadoop生态系统的一部分,提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

    Apex

    Apex是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。它可以是一个YARN的原生程序,能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性(精确一次处理、最少一次、最多一次)。以前DataTorrent公司开发的基于Apex的商业处理软件,其代码、文档及架构设计显示,Apex在支持DevOps方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。Malhar是一个相关项目,提供超过300种常用的实现共同的业务逻辑的应用程序模板。Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。

    Azkaban

    一款基于Java编写的任务调度系统任务调度,来自LinkedIn公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。

    Beam

    基于Java提供了统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学太多框架。

    BigML

    BIgML是尝试简化机器学习,它们提供了大量强劲的机器学习服务,并且该服务可以通过简单易用的界面导入数据,并且得到预测结果。你也可以使用它们的模型来今夕预测性分析。

    Cascading

    是一个基于Hadoop建立的API,用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置,使得不用考虑背后的MapReduce,就能快速开发复杂的分布式应用。

    Cassandra

    是一个混合型的非关系的数据库,类似于Google的BigTable,其主要功能比Dynamo (分布式的Key-Value存储系统)更丰富。这种NoSQL数据库最初由Facebook开发,现已被1500多家企业组织使用,包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他机构。

    CDAP

    CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。CDAP数据集是数据的逻辑展现,无论底层存储层是什么样的;CDAP提供实时数据流处理能力。应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。CDAP自带的数据摄取框架和一些预置的应用和一些通用的“包”,例如ETL和网站分析,支持测试,调试和安全等。和大多数原商业(闭源)项目开源一样,CDAP具有良好的文档,教程,和例子。

    Ceph

    新一代开源分布式文件系统,主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,提高数据的容错性并实现无缝的复制。

    Chart.js

    对于一个小项目的图表,chart.js是一个很好的选择。开源,只有11KB大小,这使得它快速且易于使用,它支持多种图表类型: 饼图,线性图和雷达图等。

    ChartBlocks

    ChartBlocks是一个易于使用在线工具,它无需编码,便能从电子表格,数据库中构建可视化图表。整个过程可以在图表向导的指导下完成。您的图表将在HTML5的框架下使用强大的Java库D3.js创建图表。你的图表是响应式的,并且可以和任何的屏幕尺寸及设备兼容。 您还可以将图表嵌入任何网页中,分享在Twitter和Facebook上。

    Chartist.js

    Chartist.js的开发社区一直致力于打败所有其他JavaScript图表库。它使用了Sass的个性化风格,它的SVG输出是响应式的。

    Chukwa

    监测大型分布式系统的一个开源数据采集系统,建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性,可以收集来自大型分布式系统的数据,用于监控。它还包括灵活而强大的显示工具用于监控、分析结果。

    CouchDB

    号称是“一款完全拥抱互联网的数据库”,它将数据存储在JSON文档中,这种文档可以通过Web浏览器来查询,并且用JavaScript来处理。它易于使用,在分布式上网络上具有高可用性和高扩展性。

    D3.js

    毋容置疑D3.js是最好的数据可视化工具库。D3.js运行在JavaScript上,并使用HTML,CSS和SVG。 D3.js是开源工具,使用数据驱动的方式创建漂亮的网页。 D3.js可实现实时交互。这个库非常强大和前沿,所以它带有没有预置图表也不支持IE9。

    DataCleaner

    Datacleaner明白数据操作是一项耗时和费力的工作。数据可视化工具只能够识别规范的干净的格式化数据集。Datacleaner可以将杂乱的半结构化的数据转化为干净可读的数据集,经过清洗后的数据就可以被任何可视化公司的工具读取。

    Datale

    由探码科技研发的一款基于Hadoop的大数据平台开发套件,RAI大数据应用平台架构。

    Datawrapper

    Datawrapper是一款专注于新闻和出版的可视化工具。华盛顿邮报,卫报,华尔街日报和Twitter等媒体都使用了这一工具。Datawrapper非常容易使用,不需要任何编程基础。你只需要上传你的数据,便能轻松地创建和发布图表,甚至是地图。Datawrapper提供了众多的自定义布局及地图模板。

    Drill

    于2012年8月份由Apache推出,让用户可以使用基于SQL的查询,查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询,支持一系列广泛的数据库,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。
    Drill是一种用于大型数据集的交互分析的分布式系统,由谷歌的Dremel催生。Drill专为嵌套数据的低延迟分析设计,它有一个明确的设计目标,灵活的扩展到10000台服务器来处理查询记录数据,并支持兆级别的数据记录。嵌套的数据可以从各种数据源获得的(如HDFS,HBase,Amazon S3,和Blobs)和多种格式(包括JSON,Avro,和buffers),你不需要在读取时指定一个模式(“读时模式”)。Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。最后,Drill提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。

    Druid

    是一个用于大数据实时查询和分析的高容错、高性能、分布式的开源系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。

    Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点,给用户一个完整的事件信息。测试表明50万事件数据能够在一秒内处理完成,并且每秒处理能力可以达到100万的峰值,Druid作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。

    Dynamo

    是一个经典的分布式Key-Value 存储系统,具备去中心化、高可用性、高扩展性的特点。Dynamo在Amazon中得到了成功的应用,能够跨数据中心部署于上万个结点上提供服务,它的设计思想也被后续的许多分布式系统借鉴。

    DYSON

    探码科技自主研发的DYSON智能分析系统,可以完整的实现大数据的采集、分析、处理。DYSON智能分析系统专业针对互联网数据抓取、处理、分析,挖掘。可以灵活迅速地抓取网页上散乱分布的信息,并通过强大的处理功能,准确挖掘出所需数据,是目前使用人数最多的网页采集工具.

    Elasticsearch

    Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。

    Elasticsearch基于JSON格式的近乎实时的构建了数据索引,能够实现快速全文检索功能。结合开源Kibana BI显示工具,您可以创建令人印象深刻的数据可视化界面。Elasticsearch易于设置和扩展,他能够自动根据需要使用新的硬件来进行分片。他的查询语法和SQL不太一样,但它也是大家很熟悉的JSON。大多数用户不会在那个级别进行数据交互。开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。

    Ember Charts

    Ember Charts – 顾名思义是一种基于Ember.js框架和使用d3.js的可视化工具。Ember Charts以绘制时间序列图,柱状图,饼图和散点图为主。它非常优易于扩展。同为Ember.js开发团队,Ember Charts聚焦于图形互动性。它有极强的错误处理能力,当你遇到坏数据时,系统也不会崩溃

    Flink

    于今年跻身Apache顶级开源项目,与HDFS完全兼容。Flink提供了基于Java和Scala的API,是一个高效、分布式的通用大数据分析引擎。更主要的是,Flink支持增量迭代计算,使得系统可以快速地处理数据密集型、迭代的任务。

    Flink的核心是一个事件流数据流引擎。虽然表面上类似Spark,实际上Flink是采用不同的内存中处理方法的。首先,Flink从设计开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。MapReduce的世界的开发者们在面对DataSet处理API时应该有宾至如归的感觉,并且将应用程序移植到Flink非常容易。在许多方面,Flink和Spark一样,其的简洁性和一致性使他广受欢迎。像Spark一样,Flink是用Scala写的。

    Flume

    Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume支持对数据进行简单处理,并写入各种数据接受方(可定制)。

    FusionCharts

    FusionCharts是最全面的JavaScript图表库,包括90个图表和900种地图。如果你不是特别喜欢的JavaScript。FusionCharts可以轻松集成像jQuery库,Angularjs和React框架以及ASP.NET和PHP语言。 FusionCharts支持JSON和XML数据,并提供许多格式图表:PNG,JPEG,SVG和PDF。

    GemFire

    Pivotal宣布它将开放其大数据套件关键组件的源代码,其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案,以便在“Geode”的名下管理GemFire数据库的核心引擎。

    GlusterFS

    一个集群的文件系统,支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。

    Google Charts

    Google Charts 以HTML5和SVG为基础,充分考虑了跨浏览器的兼容性,并通过VML支持旧版本的IE浏览器。所有您将创建的图表是交互式的,有的还可缩放。Google Charts是非常人性化和他们的网站拥有一个非常好的,全面的模板库,你可以从中找到所需模板。

    GridGain

    由Apache Ignite驱动的GridGrain提供内存中数据结构,用于迅速处理大数据,还提供基于同一技术的Hadoop加速器。

    Hadoop

    一个开源框架,适合运行在通用硬件,支持用简单程序模型分布式处理跨集群大数据集,支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号,它不断壮大起来,已成为一个完整的生态系统,拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

    H2O

    H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

    HaLoop

    是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。

    HBase

    是Hadoop的数据库,一个分布式、可扩展、大数据的存储。是为有数十亿行和数百万列的超大表设计的,是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌Bigtable的存储能力,基于Hadoop和Hadoop分布式文件系统(HDFS)而建。
    HBase像其他的非关系型的分布式数据存储一样,查询结果反馈非常迅速,因此擅长的是经常用于后台搜索引擎,如易趣网,博科和雅虎等网站。作为一个稳定的、成熟的软件产品,HBase新鲜的功能并不是经常出现,但这种稳定性往往是企业最关心的。最近的改进包括增加区域服务器改进高可用性,滚动升级支持,和YARN的兼容性提升。在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。

    HDFS

    Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

    Highcharts

    Highcharts是一个JavaScript API与jQuery的集成,全球最大的100家公司中有61家正在使用它。图表使用SVG格式,并使用VML支持旧版浏览器。它提供了两个专门的图表类型:Highstock和Highmaps,并且还配备了一系列的插件。你可以免费使用它,而如果你想建立付费的应用,只须支付少量牌照费用。此外,你还可以使用Highcharts云服务。

    Hive

    是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

    Hivemall

    结合了面向Hive的多种机器学习算法,它包括了很多扩展性很好的算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希等方面的分析应用。

    HPCC

    作为Hadoop之外的一种选择,是一个利用集群服务器进行大数据分析的系统,HPCC在LexisNexis内部使用多年,是一个成熟可靠的系统,包含一系列的工具、一个称为ECL的高级编程语言、以及相关的数据仓库,扩展性超强

    Hypertable

    是一个开源、高性能、可伸缩的数据库,它采用与Google的Bigtable相似的模型。它与Hadoop兼容,性能超高,其用户包括电子港湾、百度、高朋、Yelp及另外许多互联网公司。

    Ignite

    是一种高性能、整合式、分布式的内存中平台,可用于对大规模数据集执行实时计算和处理,速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。

    Impala

    Cloudera 声称,基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。

    Infogram

    Infogram的最大优势在于,让您的可视化信息图表与实时大数据相链接。只须三个简单步骤,您可以选择在众多图表,地图,甚至是视频可视化模板中进行选择。 Infogram支持团队账号。

    Jaspersoft

    提供了灵活、可嵌入的商业智能工具,用户包括众多企业组织:高朋、冠群科技、美国农业部、爱立信、时代华纳有线电视、奥林匹克钢铁、内斯拉斯加大学和通用动力公司。

    Jupyter

    大家最喜欢的笔记应用程序都走了。jupyter是“IPython”剥离出来成为一个独立的软件包的语言无关的部分。虽然jupyter本身是用Python写的,该系统是模块化的。现在你可以有一个和iPython一样的界面,在笔记本电脑中方便共享代码,使得文档和数据可视化。至少已经支持50个语言的内核,包括Lisp,R,F #,Perl,Ruby,Scala等。事实上即使IPython本身也只是一个jupyter Python模块。通过REPL(读,评价,打印循环)语言内核通信是通过协议,类似于nrepl或Slime。很高兴看到这样一个有用的软件,得到了显著的非营利组织资助,以进一步发展,如并行执行和多用户笔记本应用。

    Kafka

    一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据,在大数据领域,Kafka已经成为分布式发布订阅消息的事实标准。它的设计允许代理支持成千上万的客户在信息吞吐量告诉处理时,同时通过分布式提交日志保持耐久性。Kafka是通过在HDFS系统上保存单个日志文件,由于HDFS是一个分布式的存储系统,使数据的冗余拷贝,因此Kafka自身也是受到良好保护的。当消费者想读消息时,Kafka在中央日志中查找其偏移量并发送它们。因为消息没有被立即删除,增加消费者或重发历史信息不产生额外消耗。Kafka已经为能够每秒发送2百万个消息。

    Kettle

    这是一个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。

    Kibana

    是一个使用Apache 开源协议的Elasticsearch 分析和搜索仪表板,可作为Logstash和ElasticSearch日志分析的 Web 接口,对日志进行高效的搜索、可视化、分析等各种操作。

    Kinesis

    可以构建用于处理或分析流数据的自定义应用程序,来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据,如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。

    KNIME

    全称是“康斯坦茨信息挖掘工具”(Konstanz Information Miner),是一个开源分析和报表平台。宣称“是任何数据科学家完美的工具箱,超过1000个模块,可运行数百个实例,全面的集成工具,以及先进的算法”。

    Kylin

    是一个开源的分布式分析引擎,提供了基于Hadoop的超大型数据集(TB/PB级别)的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
    Kylin是eBay开发的用于处理非常大量数据的OLAP分析系统,他使用标准的SQL语法,和很多数据分析产品很像。Kylin使用Hive和MR来构建立方体,Hive用作预链接,MR用作预聚合,HDFS用来储存构建立方体时的中间文件,HBase用来存储立方体,HBase的coprocessor(协处理器)用来响应查询。像大多数其他的分析应用一样,Kylin支持多种访问方法,包括JDBC,ODBC API进行编程访问以及REST API接口。

    Leaflet

    你是否专注于专业的大数据解决方案?无需饼图和条形图?Leafleft 基于Open Street Map数据,使用HTML5 / CSS3绘制互动式可视化图。您可以使用他们的扩展插件库添加热点图(heatmaps)和动画标记。 Leaflet 是开源和只有33 KB大小。

    Lingual

    是Cascading的高级扩展,为Hadoop提供了一个ANSI SQL接口极大地简化了应用程序的开发和集成。Lingual实现了连接现有的商业智能(BI)工具,优化了计算成本,加快了基于Hadoop的应用开发速度。

    Logstash

    一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理,提供了Web接口用于查询和统计。

    Lucene

    基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称,它在现代硬件上每小时能够检索超过150GB的数据,它拥有强大而高效的搜索算法。

    Lumify

    归Altamira科技公司(以国家安全技术而闻名)所有,这是一种开源大数据整合、分析和可视化平台。

    Lustre

    一个大规模的、安全可靠的、具备高可用性的集群文件系统,它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统,目前可以支持超过10000个节点,数以PB的数据存储量。

    Mahout

    目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”,主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink的新颖算法、Samsara(类似R的矢量数学环境),它还包括了用于在MapReduce上进行数据挖掘的众多算法。

    Mesos

    Mesos由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件,后来转变成Apache孵化器中的一个项目。提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、ElasticSearch、MPI、Hypertable、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池,从物理或虚拟机器中抽离了CPU,内存,存储以及其它计算资源, 很容易建立和有效运行具备容错性和弹性的分布式系统。

    使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配(内存和CPU)。提供Java、Python和C++ APIs来开发新的并行应用程序,提供基于Web的用户界面来提查看集群状态。Mesos应用程序(框架)为群集资源协调两级调度机制,所以写一个Mesos应用程序对程序员来说感觉不像是熟悉的体验。虽然Mesos是新的项目,成长却很快。

    MongoDB

    是一个基于分布式文件存储的数据库。由C++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富、最像关系数据库的产品。

    n3-charts

    N3-charts是一种基于AngularJS框架的工具。它建立在D3.js之上,帮助您创建简单的互动图表。 N3-charts是一种小型化的图表工具,不适用于大型项目。

    Neo4j

    是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。自称“世界上第一个和最好的图形数据库”,“速度最快、扩展性最佳的原生图形数据库”,“最大和最有活力的社区”。用户包括Telenor、Wazoku、ebay、必能宝(Pitney Bowes)、MigRaven、思乐(Schleich)和Glowbl等。

    NiFi

    Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置。两个最重要的特性是其强大的用户界面及良好的数据回溯工具。NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。其数据回溯特性允许用户查看一个对象如何在系统间流转,回放以及可视化关键步骤之前之后发生的情况,包括大量复杂的图式转换,fork,join及其他操作等。另外,NiFi使用基于组件的扩展模型以为复杂的数据流快速增加功能,开箱即用的组件中处理文件系统的包括FTP,SFTP及HTTP等,同样也支持HDFS。NiFi获得来来自业界的一致好评,包括Hortonworks CEO,Leverage CTO及Prescient Edge首席系统架构师等。

    NVD3

    NVD3运行在d3.js之上, 它可建立可重用的图表组件。该项目的目标是保持所有的图表整洁和可定制性。 NVD3是d3.js之上的简单的接口,保持了d3.js的所有强大功能。 NVD3由Novus Partners前端工程师开发和使其保持了图表技术洞察力。

    OpenRefine

    OpenRefine(之前的GoogleRefine)现在是一款用来专门清洗混乱数据的开源工具。从而使你能够轻松和快速的探索有一定程度非结构化的大数据集。

    OpenTSDB

    opentsdb是建立在时间序列基础上的HBase数据库。它是专为分析从应用程序,移动设备,网络设备,和其他硬件设备收集的数据。它自定义HBase架构用于存储时间序列数据,被设计为支持快速聚合和最小的存储空间需求。通过使用HBase作为底层存储层,opentsdb很好的支持分布与系统可靠性的特点。用户不与HBase的直接互动;而数据写入系统是通过时间序列的守护进程(TSD)来管理,它可以方便的扩展用于需要高速处理数据量的应用场景。有一些预制连接器将数据发布到opentsdb,并且支持从Ruby,Python以及其他语言的客户端读取数据。opentsdb并不擅长交互式图形处理,但可以和第三方工具集成。如果你已经在使用HBase和想要一个简单的方法来存储事件数据,opentsdb也许正好适合你。

    Pentaho

    是世界上最流行的开源商务智能软件,以工作流为核心的、强调面向解决方案而非工具组件的、基于Java平台的商业智能(Business Intelligence)套件。包括一个web server平台和几个工具软件:报表、分析、图表、数据集成、数据挖掘等,可以说包括了商务智能的方方面面。

    Pentaho BI

    Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

    Phoenix

    是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。

    Pig

    是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本 ,类似我们通常熟悉的SQL语句。

    Plotly

    Plotly帮助你在短短几分钟内,从简单的电子表格中开始创建漂亮的图表。Plotly已经为谷歌、美国空军和纽约大学等机构所使用。 Plotly是一个非常人性化的网络工具,让你在几分钟内启动。如果你的团队希望为JavaScript和Python等编程语言提供一个API接口的话,Plotly是一款非常人性化的工具。

    Polymaps

    Polymaps是一款地图可视化一个JavaScript工具库。 Polymaps使用SVG实现从国家到街道一级地理数据的可视化。您可以使用CSS格式来修改你的样式。Polymaps使用GeoJSON来解释地理数据。它是创建heatmap热点图的最好的工具之一。您创建的所有地图都可以变成动态图。

    Presto

    是一个开源的分布式SQL查询引擎,适用于交互式分析查询,可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。

    Processing.js

    Processing.js是一个基于可视化编程语言的JavaScript库。作为一种面向Web的JavaScript库,Processing.js是您能够有效进行网页格式图表处理。这使得它成为了一种非常好交换式可视化工具。 Processing.js需要一个兼容HTML5的浏览器来实现这一功能。

    PVFS

    一个高性能、开源的并行文件系统,主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计,它的模块化设计结构可轻松的添加新的硬件和算法支持。

    QFS

    Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统,用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。

    RabbitMQ

    一个受欢迎的消息代理系统,通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。

    Ranger

    安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。

    RapidMiner

    RapidMiner是一款相当出色的预测性分析工具,具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,解决方案覆盖了各个领域,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。

    RAW

    RAW弥补了很多工具在电子表格和矢量图形(SVG)之间的缺失环节。你的大数据可以来自MicrosoftExcel中,谷歌文档或是一个简单的逗号分隔的列表。它最厉害的功能是可以很容易地导出可视化结果,因为它和Adobe Illustrator,Sketch 和Inkscape是相容的。

    Redis

    是一个高性能的key-value存储系统,和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。

    Samza

    出自于LinkedIn,构建在Kafka之上的分布式流计算框架,是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。

    Scribe

    Scribe是Facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。

    Shark

    即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境下运算,支持自己编写简单的机器学习或简单分析处理函数,对HQL结果进一步分析计算。

    Sigma JS

    Sigma JS 是交互式可视化工具库。由于使用了WebGL技术,你可以使用鼠标和触摸的方式来更新和变换图表。Sigma JS同时支持JSON和GEXF两种数据格式。这为它提供了大量的可用互动式插件。Sigma JS 专注于网页格式的网络图可视化。因此它在大数据网络可视化中非常有用。

    SlamData

    如果你正在寻找一个用户友好的工具,能理解最新流行的NoSQL数据的可视化工具,那么你应该看一看SlamData。SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询,不需要转换或语法改造。该技术的主要特点之一是它的连接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。你可能会问:“我不会有更好的数据池或数据仓库工具吗?请认清这是在NoSQL领域。

    Solr

    基于Apache Lucene,是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。

    SpagoBI

    Spago被市场分析师们称为“开源领袖”,它提供商业智能、中间件和质量保证软件,另外还提供相应的Java EE应用程序开发框架。

    Spark

    一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。
    在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。Spark的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。spark-packages.org网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。

    SparkSQL

    前身是Shark,SparkSQL抛弃原有Shark的代码并汲取了一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等。由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

    Spark Streaming

    实现微批处理,目标是很方便的建立可扩展、容错的流应用,支持Java、Scala和Python,和Spark无缝集成。Spark Streaming可以读取数据HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以读取自定义数据。

    Splunk

    是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据,从一个位置搜索并分析所有实时和历史数据

    Statwing

    Statwing将数据分析提高到了一个新台阶,它提供从漂亮的可视化到复杂的分析中的任何事情。NFL上的Statwing的博客相当酷。操作十分简单,你可以在5分钟之内学会。

    Stinger

    原来叫Tez,是下一代Hive,由Hortonworks主导开发,运行在YARN上的DAG计算框架。某些测试下,Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL。

    Storm

    Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单,显著地降低了实时处理的难度,也是当下最人气的流计算框架之一。与其他计算框架相比,Storm最大的优点是毫秒级低延时。
    Storm是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和Spark不同,Storm可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。Spark掩盖了很多Storm的光芒,但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache Kafka一起配合使用。

    Tableau

    Tableau 是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形,表格和地图。 它不仅提供了PC桌面版,还提供了服务器解决方案,可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。Tableau的客户包括巴克莱银行,Pandora和Citrix等企业

    Tajo

    目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓库系统,它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集,以及为更传统的ETL提供工具。

    Talend Open Studio

    是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。

    Terracotta

    声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”,支持简单、可扩展、实时消息,声称在190个国家拥有210万开发人员,全球1000家企业部署了其软件。

    Thrift

    在2007年facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。

    Trident

    是对Storm的更高一层的抽象,除了提供一套简单易用的流数据处理API之外,它以batch(一组tuples)为单位进行处理,这样一来,可以使得一些处理更简单和高效。

    Vertica

    基于列存储高性能和高可用性设计的数据库方案,由于对大规模并行处理(MPP)技术的支持,提供细粒度、可伸缩性和可用性的优势。每个节点完全独立运作,完全无共享架构,降低了共享资源的系统竞争。

    Visual.ly

    isual.ly是一个可视化的内容服务。它提供专门的大数据可视化的服务,用户包括了VISA,耐克,Twitter,福特和国家地理等。如果你想完全外包可视化文件给第三方。你可以使用非常简化的在线流程:你只需描述你的项目,服务团队将在项目的整个持续时间内和你在一起。 Visual.ly给您发送所有项目关键点的邮件通知,也将让你不断给出反馈。

    Yahoo S4 (Simple Scalable Streaming System)

    是一个分布式流计算平台,具备通用、分布式、可扩展的、容错、可插拔等特点,程序员可以很容易地开发处理连续无边界数据流(continuous unbounded streams of data)的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白,并提供高性能计算平台来解决并发处理系统的复杂度。

    YARN

    一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。

    Zeppelin

    是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

    ZooKeeper

    一个分布式的应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具,让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目,为分布式系统提供了高效可靠且易于使用的协同服务。

    展开全文
  • 大数据工具总结

    2018-12-17 23:21:36
    这篇文章就说说大数据方面的一些工具。 一、大数据概念 1.1 概念 当数据维度达到现有工具或软件在处理时所需要的时间超过了人类所能容忍的时间时,这样的数据称为大数据。 1.2 特征(4V特征) 数据量大Volume:...

    这两天参加华为云举办的各种培训,顺便做了点笔记。这篇文章就说说大数据方面的一些工具。

    一、大数据概念

    1.1 概念

    当数据维度达到现有工具或软件在处理时所需要的时间超过了人类所能容忍的时间时,这样的数据称为大数据。

    1.2 特征(4V特征)

    1. 数据量大Volume:数据包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB
    2. 种类和来源多样化Variety:结构化(身份证)、半结构化(网页)和非结构化数据(语音,图像,视频)。
    3. 数据量增长速度快Velocity:用户基数庞大,设备数量众多,实时产生,数据量指数增长。
    4. 价值密度低Value:沙里淘金,要从海量数据中挖掘价值

    1.3 大数据框架

    1.4 Hadoop(分布式处理系统)

    基于Google三大论文的开发的分布式式处理系统

    1. HDFS:分布式文件系统,主要用来进行文件的分布式存储,根据Google File system开发。
    2. MapReduce:分布式计算框架,主要用来进行计算。根据MapReduce开发。
    3. HBase:分布式,面向列的数据库,根据BigTable开发。

    二、大数据采集工具

    2.1 采集方法概述

    1. 实时采集:数据实时产生,实时采集,常用的工具是Flume,Logstash。
    2. 离线数据采集:数据产生后,定时采集。常用工具:Loader。

    2.2 Flume

    2.2.1 特点

    1. 实时采集工具
    2. 常用于系统日志的采集。
    3. 具备数据预处理能力
    4. 支持多种数据源

    2.2.2 组成

    1. Source接受事件,并将这个事件放到一个或者多分channel中。主要有驱动或者轮询两种模式。驱动模式:外部主动把数据送到source。轮询模式:source主动对信息进行采集。
    2. Channel用于临时存储数据,当数据传入sink后,便将数据删除,有memory,File,JDBC三种类型的channel。Memory channel不会对数据进行持久化保存,而其他两种可以。
    3. Sink:接受到数据后便将其发送到最终的目的地。

    2.2.3 结构

    • 级联模式

    • 采集不同数据

    • Flume可以在sourcechannel中间安装拦截器,对数据进行过滤。

    2.3 Logstash

    2.3.1 特点

    1. 实时的数据采集器
    2. 多用于日志采集
    3. 支持多种数据源
    4. 具备数据预处理能力
    5. 常与ES,Kibana连用,组成ELK

    2.3.2 组成

    1. Inputs
    2. Filter(可选)
    3. output

    2.3.3 flumelogstash对比

    flume支持数据预处理,事务机制,数据持久化,但是方法复杂。

    Logstash:支持数据预处理,但是不支持事务机制,数据持久化,预处理方法简单。

    2.4 Loader

    2.4.1 特点

    1. 可视化操作界面
    2. 离线批量数据采集,采集量大,速度慢。
    3. 支持多种数据源
    4. 定时调度,周期执行

    三、大数据存储技术

    3.1 HDFS(分布式文件系统)

    3.1.1 特点

    1. 基于Google GFS论文设计开发,运行在通用硬件上的分布式文件系统。
    2. 高容错(副本机制),高吞吐量,大文件存储。
    3. 适合大文件存储(吞吐量),不适合大量小文件存储(namenode数量会增多),低延迟读数据。

    3.1.2 结构

    1. NameNode:存储元数据,管理元数据。
    2. DataNode:存储用户数据,进行数据读写。

    3.1.3 应用场景

    网络数据存储,生态系统数据存储,气象数据存储,电信信令存储。

    3.2 HBase(分布式NOSQL数据库)

    3.2.1 特点

    1. 高可靠,高性能。
    2. 低延迟访问。
    3. 高容量。
    4. 面向列,可伸缩。
    5. 支持非结构化数据
    6. 需要HDFS支持

    3.2.2 与传统数据库对比

    1. HBase面向列,动态拓展;支持非结构化数据;扩展成本低;缺乏完整的事务机制。
    2. RDB:需要事先定义好表结构;不支持非结构化数据;扩展成本高;完整的事务机制。

    3.2.3 架构

    Master与slave结构,主备结构。

    1. HMaster(master):的增删改查,负载均衡,一般情况,与namenode部署在一起。
    2. RegionServer(slave):表数据增删改查,数据存储,一般情况,与DataNode部署在一起。

    3.2.4 应用场景

    1. 非结构化数据存储:微博数据存储,朋友圈数据存储。
    2. 全量信息存储:户籍信息数据存储,游戏角色数据存储。
    3. 全文检索:数字图书馆,公司内部检索系统。

    3.3 Redis(内存型KeyValue数据库)

    3.3.1 特点

    1. 高性能,低延迟
    2. 支持数据持久化保存
    3. 支持多种数据结构(list,hash)
    4. 支持数据备份,读的速度可以达到11000次/秒

    3.3.2 应用场景

    1. 数据缓存:缓存高频数据,缓存实时数据,可以先把数据先存进Redis,然后在存入Hbase。
    2. 实时排名:百度热点排名,游戏排行榜应用
    3. 实时数据库,推荐系统,舆情分析

    3.4 kafka(基于发布订阅的消息系统)

    3.4.1 特点

    1. 高吞吐量,低延迟。
    2. 分布式部署,容量大。
    3. 磁盘存储,部署成本低。

    3.4.2 基本架构

    1. Producer(产生消息)
    2. Broker(存储消息,存储时,每个会有一个topic)
    3. consumer(使用消息)

    3.4.3 应用场景

    做消息的缓存器,flume采集信息后,先存在kafka中,然后按需消费。

    四、大数据分析与挖掘

    4.1 大数据挖掘工具

    4.1.1 离线类工件

    MapreduceHiveSpark

    4.1.2 实时类工具

    Stormflinkspark

    4.2 MapReduce

    4.2.1 特点

    1. 分布式部署
    2. Map,Reduce两步运算
    3. 易编程、高可靠、高容错
    4. 支持多种数据格式。

    4.2.2 应用场景

    1. 数据密集型并行计算,大规模web信息检索
    2. 计算密集型并行计算,气象预报。
    3. 数据密集与计算密集型的并行计算,点击流日志分析。

    4.3 Spark

    4.3.1 特点

    1. 基于内存,高可靠,高性能
    2. 集离线,实时,图计算,机器学习于一体
    3. 兼容Hadoop体系,业务应用广泛。

    4.3.2 结构

    4.3.3 应用场景

    1. ETL:数据库读写,数据预处理
    2. 数据分析:电商用户行为分析,购物车分析
    3. 数据挖掘:舆情监控,文本挖掘,关系挖掘,好友推荐

    4.4 Storm(分布式,实时计算引擎)

    4.4.1 特点

    1. 实时响应,低延迟
    2. 完善的事务机制
    3. 消息处理严格有序。

    4.4.2 应用

    1. 电商行业:实时推荐系统,实时访问统计
    2. 金融行业:实时交易系统,实时反欺诈交易监控

    4.5 flink(集批式与流式处理的计算引擎)

    4.5.1 特点

    1. 高容错,高可靠
    2. 高吞吐量,低延迟
    3. 数据只处理一次

    4.5.2 应用

    1. 批处理:游戏日志监控,舆情分析
    2. 实时处理:金融交易系统,实时点击流分析

    4.6 Hive(分布式数据仓库工具)

    4.6.1 特点

    1. 基于Hadoop,高容错,高容量,数据量大,速度快
    2. 支持MapReduce、spark两种计算引擎
    3. 类SQL语法,易用

    4.6.2 应用

    1. 数据仓库:ETL
    2. 数据汇总:点击流分析,流量分析
    3. 非实时分析:文本分析,日志分析
    4. 数据挖掘:用户行为分析,兴趣分析

    4.7 Impala(实时数据仓库工具)

    4.7.1 特点

    1. 基于内存,速度快
    2. 兼容Hadoop系统
    3. 与Hive语法相同,学习成本低

    4.7.2 应用

    1. 电信行业:实时流量查询,实时话费查询
    2. 互联网行业:实时流量分析,实时排名

    五、可视化工具

    • Echarts(高度个性化定制的数据可视化图表)
    • Kibana(针对ElasticSeach的开源分析及可视化平台)

    六、协助工具

    6.1 Zookeeper(分布式服务框架)

    6.1.1 功能

    1. 分布式锁服务(决定Hmaster/namenode的主与备,同时监听以及唤醒备用,以奇数形式分布,便于投票)
    2. 文件系统服务(kafka的topic以及Hbase中的元数据表的信息都存在这里)
    3. 注册服务(提供Hmaster/namenode等注册)

    6.1.2 应用场景

    1. HA(高可靠性)集群部署(HDFS及HBase高可用集群部署)
    2. 数据读写,(HDFS元数据读写,kafka注册信息读写),zookeeper集群中的zookeeper服务器上的信息都同步。

    6.2 Yarn(分布式资源管理器)

    6.2.1 特点

    1. 提供统一的资源调度
    2. 支持多重调度模式
    3. 支持多种计算框架(MapReduce,Flink,storm,spark,Hive),提高运维效率。

    6.2.2 原理(工作流程)

    1. 客户端提交请求
    2. Yarn的控制节点ResourceManager(master)接受到请求后,向下寻问每台服务器上的NodeManager(slave)的container(封装CPU与内存)是否空闲。
    3. 当寻问到空闲的container时,这个container被升级为AppMaster,然后AppMaster计算需要完成的任务的所需要的container,上报给ResourceMaster。
    4. ResourceMaster将资源交给AppMaster,有AppMaster统一调度完成任务
    5. AppMaster上报ResourceMaster任务完成,通知回收资源。

    6.2.3 注意

    Yarn只管cpu与内存,不管网络与io。

    6.3 Oozie(工作流调度管理工具)

    6.3.1 特点

    1. 支持多种工作引擎
    2. 支持多种计算框架

    6.4 Azkaban(工作流调度管理工具)

    6.4.1 特点

    1. 图像化操作
    2. 支持多种计算框架

    6.5 工作流应用场景

    1. 在具有依赖关系的任务中,工作流工具可以控制不具备依赖关系的子任务同时开始执行,提高效率。

    七、华为商业大数据平台

    不得不说华为大数据平台FusionInsight做的还是不错的,上去试了一下,感觉我的机器学习的那些知识都白学了,平台上的集成了很多算法。下图就是华为云的大数据平台的结构:

    平台主要包含了五部分:

    1. FusionInsight HD:hadoop
    2. FusionInsight Miner:进行数据分析挖掘用
    3. FusionInsight Libra:大规模并行数据库,效率高
    4. Farmer:研发
    5. FusionInsightManager:运维

     

     

     

     

    展开全文
  • 大数据工具介绍

    2019-01-24 08:57:47
    外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力。虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易。 哪一种工具适合你的技能组合?哪一种工具...

    外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力。虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易。

    哪一种工具适合你的技能组合?哪一种工具适合你的项目?

    为了替你节省一点时间,并帮助你首次选对工具,我们列出了我们青睐的几款数据工具,涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。

    数据存储和管理

    如果你准备处理大数据,就要考虑该如何存储大数据。大数据得到“大”这个名号,一方面在于,大数据太庞大了,传统系统处理不了。一家优秀的数据存储提供商应该可以为你提供一套基础设施,除了用来存储和查询数据外,你还可以在上面运行其他所有分析工具。

    **

    Hadoop

    **

    大数据工具千千万,到底谁才是最强王者?
    Hadoop这个名称已成为了大数据的代名词。它是一种开源软件框架,用于在计算机集群上分布式存储非常庞大的数据集。这一切意味着你可以扩大或缩小数据规模,没必要为硬件故障而担心。Hadoop为任何一种数据提供了海量存储空间、强大的处理能力以及处理几乎无限制的并发任务或作业这一功能。

    Hadoop并不适合数据初学者。想真正发挥其功能,你其实需要知道Java。这可能需要一番投入,但是Hadoop无疑值得你付出努力――因为其他许多公司和技术运行在它的基础上或者与它整合起来。

    **

    Cloudera

    **

    大数据工具千千万,到底谁才是最强王者?
    说到Cloudera,它其实是Hadoop的一个品牌名,上面添加了一些额外服务。它可以帮助贵公司构建一个企业数据枢纽,让贵企业的人员可以更方便地访问所存储的数据。

    虽然确实有开源组件,但Cloudera主要还是一款企业解决方案,帮助公司管理Hadoop生态系统。实际上,它可以替你处理管理Hadoop的大量繁重工作。它还提供了一定级别的数据安全性,如果你要存储任何敏感数据或私人数据,这至关重要。

    **

    MongoDB

    **

    大数据工具千千万,到底谁才是最强王者?
    MongoDB是新颖的现代数据库方法,可谓是后起之秀。它好比是关系数据库的替代技术。它适用于管理经常变化的数据或者非结构化或半结构化数据。

    常见的使用场合包括:为移动应用程序、产品目录、实时个性化、内容管理以及跨多个系统提供单一视图的应用程序存储数据。MongoDB同样不适合数据新手。与任何数据库一样,你确实需要了解如何使用一种编程语言来查询它。

    **

    Talend

    **

    大数据工具千千万,到底谁才是最强王者?
    Talend是另一家出色的开源公司,它提供许多数据产品。我们在这里主要介绍其主数据管理(MDM)产品,该产品将实时数据、应用程序和流程整合与嵌入式数据质量及监管结合起来。

    由于是开源产品,Talend完全免费,因而是个不错的选择,无论贵公司处于哪个发展阶段。而且,它让你没必要构建和维护自己的数据管理系统――这是一项非常复杂而困难的任务。

    开始入门

    大数据工具千千万,到底谁才是最强王者?
    如果你对大数据完全一无所知,数据库可能不是最适合入手的方面。它们比较复杂,确实需要具备一定的编程知识才能上手(这不像下面提到的其他许多工具)。

    然而,如果你确实想要从事或处理大数据,那知道数据库的基本知识、聊起数据库头头是道必不可少。你可以全面了解推动大数据的技术,包括数据库和存储发展史、关系数据库和文档数据库的区别、大数据的挑战以及必不可少的工具,还有Hadoop简要介绍。

    数据清理

    大数据工具千千万,到底谁才是最强王者?
    在你真正挖掘数据、获取洞察力之前,需要清理数据。尽管创建一个整洁、结构清晰的数据集总是好做法,但有时这并非始终行得通。数据集可能形状和大小不一(有些好的,有些不太好!),尤其是你从网上获取数据时。下列公司可以帮助你完善和重组数据,处理成实用的数据集。

    **

    OpenRefine

    **

    大数据工具千千万,到底谁才是最强王者?
    OpenRefine(以前叫GoogleRefine)是一种开源工具,专门用于清理凌乱的数据。你可以轻松快速地浏览庞大的数据集,即便数据有点非结构化。

    就数据软件而言,OpenRefine很易于使用。不过,熟悉数据清理原则肯定有所帮助。OpenRefine好就好在,它有一个庞大社区,拥有众多贡献者,这意味着这款软件在不断变得完善。要是遇到了难题,你可以向社区提问。可以查看其Github代码库

    **

    DataCleaner

    **

    大数据工具千千万,到底谁才是最强王者?
    DataCleaner认识到数据处理是一项冗长乏味的任务。数据可视化工具只能读取结构条理化、“干净”的数据集。DataCleaner可以替你干脏活,将凌乱的半结构化数据集转换成干净的、可读取的数据集,那样所有可视化公司都能读取。

    数据挖掘

    大数据工具千千万,到底谁才是最强王者?
    别将数据挖掘与后面介绍的数据提取混为一谈,数据挖掘是指发现数据库里面的洞察力,而不是从网页提取数据、然后放入到数据库。数据挖掘旨在对你手头的数据进行预测和决策。

    **

    RapidMiner

    **

    RapidMiner拥有一大批客户,包括贝宝、德勤、电子港湾和思科等,这是一款用于预测分析的出色工具。它功能强大、易于使用,还有一个优秀的开源社区。通过API,你甚至可以将自己的专用算法整合到RapidMiner中。

    图形化界面意味着,你不需要知道如何编程或不需要有博士学位,就可以使用其四款分析产品中的任何一款。

    **

    IBM SPSS Modeler

    **

    大数据工具千千万,到底谁才是最强王者?
    IBM SPSS Modeler提供了一整套专门用于数据挖掘的解决方案。这包括文档分析、实体分析、决策管理和优化。其五款产品提供了一系列高级算法和技巧,包括文档分析、实体分析、决策管理和优化。

    SPSS Modeler是一款功能强大的解决方案,很适合满足大公司的需要。它可以在几乎任何类型的数据库上运行,你可以将它与其他IBM SPSS产品整合起来,比如SPSS协作及部署服务和SPSS Analytic服务器。

    **

    甲骨文数据挖掘

    **

    大数据工具千千万,到底谁才是最强王者?
    数据挖掘领域的另一大巨头是甲骨文。作为其高级分析数据库(Advanced Analytics Database)选件的一部分,甲骨文数据挖掘让用户可以发掘洞察力、进行预测并利用甲骨文数据。你可以构建模型来发现客户行为、锁定最佳客户并开发配置文件。

    甲骨文数据挖掘GUI让数据分析员、业务分析员和数据科学家能够使用一种相当优雅的拖放式解决方案,在数据库里面处理数据。它还能创建SQL和PL/SQL脚本,用于整个企业里面的自动化、调度和部署。

    **

    Teradata

    **

    大数据工具千千万,到底谁才是最强王者?
    Teradata认识到这个事实:虽然大数据很出色,但如果你其实不知道如何分析和使用大数据,它就毫无价值。设想一下:拥有成千上万个数据点,却没有查询这些数据点的技能。这时候,Teradata应运而生。它为数据仓库、大数据、分析及营销等应用提供了端到端解决方案和服务。这一切意味着,你可以真正成为一家数据驱动型公司。

    Teradata还提供一整套服务,包括实施、业务咨询、培训和支持。

    FramedData

    大数据工具千千万,到底谁才是最强王者?
    如果你着眼于某一种类型的数据挖掘,有一批初创公司专门帮助公司利用数据解答难题。如果你担心用户流失,我们推荐FramedData,这家初创公司可以分析你的数据分析结果,告诉你哪些客户即将抛弃你的产品。

    它是一款完全托管的解决方案,这意味着你没必要做任何事,只需等待洞察力呈现在面前。

    **

    Kaggle

    **

    大数据工具千千万,到底谁才是最强王者?
    Kaggle是世界上最庞大的数据科学社区。许多公司和研究人员发布数据,来自世界各地的统计人员和数据挖掘人员竞相制作最佳模型。

    数据分析

    大数据工具千千万,到底谁才是最强王者?
    数据挖掘旨在细查数据、寻找之前未发现的模式,数据分析则是对该数据进行分解,评估那些模式的影响。分析是指提出特定的问题,找到数据中的答案。你甚至可以提些关于将来会发生什么方面的问题!

    **

    Qubole

    **

    大数据工具千千万,到底谁才是最强王者?
    Qubole可针对存储在AWS、谷歌或Azure云上的数据,简化、加快和扩展大数据分析工作负载。它消除了管理基础设施方面的麻烦。一旦IT策略实施到位,众多数据分析员就可以随意地协作“点击查询”,享用Hive、Spark、Presto及其他众多数据处理引擎的功能。

    Qubole是一款企业级解决方案。它提供免费试用服务,该软件的灵活性确实让它有别于其余解决方案,它还是所有平台中最易于访问的。

    **

    BigML

    **

    大数据工具千千万,到底谁才是最强王者?
    BigML试图简化机器学习。它提供一项功能强大的机器学习服务,拥有易于使用的界面,以便你导入数据,并从中进行预测。你甚至可以使用其模型用于预测分析。

    如果你想从BigML获得最大的好处,深入了解模型无疑大有帮助,但并非必要条件。它有一款免费版工具,让你可以创建16MB以下的任务,还提供按需付费方案和虚拟私有云,可以满足企业级需求。

    **

    Statwing

    **

    大数据工具千千万,到底谁才是最强王者?
    Statwing将数据分析带到了新的水平,提供从漂亮视图到复杂分析的各种功能。它很易于使用,实际上在5分钟内就可以上手。

    虽然不是免费使用,但价格方案相当优惠。基本套餐是每月50美元,你可以随时取消。这让你可以使用无限制的数据库(最多50MB)。还有其他的企业方案,让你能够上传更庞大的数据集。

    数据可视化

    大数据工具千千万,到底谁才是最强王者?
    数据可视化公司让你的数据栩栩如生。对任何数据科学家来说,挑战一方面在于,将来自数据的洞察力传达给贵公司的其余人员。对你的大多数同事来说,MySQL数据库和电子表格不管用。可视化是传达复杂数据洞察力的一种好方法。最棒的是,它们大多根本不需要编程!

    **

    Tableau

    **

    大数据工具千千万,到底谁才是最强王者?
    Tableau是一款数据可视化工具,主要侧重于商业智能。你可以创建图形、条形图、散点图及更多视图,不需要编程。它最近发布了一款Web连接件,让你可以连接到数据库或API,因而让你能够通过可视化呈现活动数据。

    Tableau有五款产品,支持和功能程度不一。如果你是可视化方面的新手,我们推荐Tableau Public,这是其可视化工具的免费版。探究一番该工具,你应该会了解想要购买另外的哪款Tableau产品。

    **

    Silk

    **

    大数据工具千千万,到底谁才是最强王者?
    Silk是一款比Tableau简单得多的数据可视化和分析工具。它让你只要点击几下鼠标,即可创建交互式地图和图形,因而为你的数据赋予活力。Silk还让你可以与众多人协作处理可视化。

    与本文介绍的许多可视化公司一样,Silk不需要你是编程高手。如果你是数据可视化方面的新手,可以从它入手,因为其最佳功能试图自动可视化数据,你没必要做事情。

    **

    CartoDB

    **

    CartoDB是一款数据可视化工具,专门用来绘制图形。它让你易于可视化位置数据,不需要任何编程。CartoDB可以管理众多的数据文件和类型,甚至还有供你捣鼓的示例数据集,以便逐渐了解。

    如果你有位置数据,CartoDB绝对值得关注。它也许不是用起来最容易的系统,但一旦你掌握了用法,它功能异常强大。它提供了企业软件包,支持项目协作和受控制的访问。

    **

    Chartio

    **

    大数据工具千千万,到底谁才是最强王者?
    Chartio让你可以在浏览器里面合并数据源、执行查询。只要点击几下,你就可以创建强大的仪表板。Chartio的可视化查询语言让任何人都能从任何地方获取数据,没必要知道SQL或其他复杂的模型语言。它还让你可以调度安排PDF报告,那样你可以导出仪表板,并以PDF文件的格式通过邮件发给你想发送的任何人。

    Chartio的另一个优点是,它常常不需要数据仓库。这意味着,可以更迅速地搭建并运行起来;实施成本会更低、更易于预测。

    Plot.ly

    大数据工具千千万,到底谁才是最强王者?
    如果你想制作图形,Plot.ly是不二的选择。这个使用方便的平台让你可以制作效果出众的2D和3D图形(你确实需要眼见为实!)。同样根本不需要编程知识。

    免费版让你可以创建专有图形和无限制的公共图形,你还可以升级到企业软件包,制作无限制的专有和公共图形,另外还有这个选项:Vector导出和保存自定义主题。

    **

    Datawrapper

    **

    大数据工具千千万,到底谁才是最强王者?
    我们介绍的最后一款可视化工具是Datawrapper。它是一款开源工具,可在几分钟内创建嵌入式图形。由于是开源,它会不断完善,因为任何人都可以为它贡献代码。它有一个出色的图形库,你可以看看别人用Datawrapper能制作出什么样的图形。

    类似这部分介绍的其他许多公司,它既有免费工具,也有收费工具,提供这一收费选项:预先安装、定制的Datawrapper软件包。

    数据整合

    大数据工具千千万,到底谁才是最强王者?
    数据整合平台如同每个程序之间的粘合剂。如果你想把使用Import.io提取的数据与推特整合起来,或者想在Facebook上自动共享之前用Tableau或Silk制作的可视化图形,那么下列整合服务正是你所需要的工具。

    **

    Blockspring

    **

    大数据工具千千万,到底谁才是最强王者?
    Blockspring是一种独特的程序,其独特之处在于,它可以利用Excel和Google Sheets等熟悉平台中的IFTTT和Zapier等服务的所有功能。你可以连接到一整批第三方程序,只要编写一个Google Sheet公式。你可以从电子表格发布推特消息,查看你的关注者在关注谁,并且连接到AWS、Import.io 和Tableau等。

    Blockspring可免费使用,但也有企业软件包,让你可以创建和共享专有功能、添加自定义标记以便搜索和发现,并且为你的整个企业同时设置API令牌。。

    **

    Pentaho

    **

    大数据工具千千万,到底谁才是最强王者?
    Pentaho提供大数据整合功能,不需要编程知识。使用一个简单的拖放式用户界面,你就可以整合许多工具,基本上不需要编程。它还提供嵌入式分析和业务分析服务。

    Pentaho是一款企业解决方案。你可以要求免费试用其数据整合产品,到期后需要付费。

    数据语言

    大数据工具千千万,到底谁才是最强王者?
    在你的数据职业生涯中,有时一款工具根本无济于事。虽然如今的工具变得功能更强大、更易于使用,但有时自行编程来得更好。即便你不是程序员,了解这些语言工作原理方面的基本知识还是让你更清楚地知道许多这些工具是如何工作的、如何才能最有效地使用它们。

    R

    大数据工具千千万,到底谁才是最强王者?
    R是一种面向统计计算和图形的语言。如果上述数据挖掘和统计软件无法处理你想处理的任务,学习R是出路。实际上,如果你打算成为数据科学家,那就需要熟悉R。

    它可以在Linux、Windows和MacOS上运行,你可以在此页面(https://www.r-project.org)下载R。有一个庞大的社区,如今许多统计人员使用R,它的人气一直在飙升。

    **

    Python

    **

    大数据工具千千万,到底谁才是最强王者?
    在数据社区人气越来越旺的另一种语言就是Python。该语言于80年代问世,以《蒙提派森之飞行马戏团》(Monty Python’s Flying Circus)命名,它一向跻身于全球最受欢迎的十大编程语言榜单。如果数据收集工具未能获得所需的数据,许多新闻记者使用Python编写自定义抓取器。人们喜欢它,是由于它与英语很相似。它使用“if”和“in”之类的单词,这意味着脚本阅读起来很轻松。它提供了为不同类型的任务设计的一系列广泛的库

    **

    RegEx

    **

    大数据工具千千万,到底谁才是最强王者?
    RegEx(正则表达式)是一套可处理和更改数据的字符。它主要用于将模式与字符串匹配,或字符串匹配。在Import.io,你可以在提取数据的同时使用RegEx,删除字符串的一部分,或者保留字符串的某些部分。

    处理数据提取工作时,它是一种很有用的工具,因为你在提取数据可以获得所需的那部分数据,这意味着你没必要依赖上述那些数据处理公司!

    **

    XPath

    **

    大数据工具千千万,到底谁才是最强王者?
    XPath是一种查询语言,用于从XML文档选择某些节点。RegEx处理和更改数据标记,而XPath会提取准备用于RegEx的原始数据。

    XPath最常用于数据提取。每当你点击某个数据,Import.io实际上自动创建XPath――你根本看不到它们!还可以插入你自己的XPath,从下拉式菜单获取数据以及网页上标签页里面的数据。简而言之,XPath是个路径,它为网页HTML的某个部分指明了方向。

    数据收集

    大数据工具千千万,到底谁才是最强王者?
    在你存储、分析或可视化数据之前,你得收集一些数据。数据提取就是拿来结构化数据(比如网页),然后将它转换成结构化表。一旦你有了结构化数据,就能以各种方式来处理,使用我们提到的这些工具,找到洞察力。

    Import.io

    大数据工具千千万,到底谁才是最强王者?
    Import.io是用于提取数据的头号工具。使用很简单的点击式用户界面,我们拿来网页后,可以转换成易于使用的电子表格,然后可以分析、可视化和使用该电子表格,做出数据驱动的决策。

    除了托管一款免费使用的工具外,Import.io还是数据提供商。我们为每个客户定制了数据集。随后,这些数据定期更新,这意味着贵公司始终获得的是最新数据。

    展开全文
  • 大数据工具集合

    2014-04-16 12:30:03
    随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的...以下是一些大数据方面的顶级开源工具,分为四个领域:数据存储、开发平台、开发工具和集成、分析和报告工具。 数据存储: Apache H
  • 大数据工具比较

    2016-11-23 12:14:51
    有图有真相 转载于:https://blog.51cto.com/h2appy/1875735
  • 大数据工具了解

    千次阅读 2013-01-06 13:44:55
     无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具,这绝对是一个好东西。GigaOm的记者Derrick Harris列举了十二种
  • 什么是大数据,这里从技术层面说不应该是说什么是大数据,应该说什么是hadoop。 上图是hadoop常用的应用架构,初学者一看可能有点蒙,这么多,人都看晕了。下面用大数据的应用流程来说明下这些组件,看这些 ...
  • 主要为大家详细介绍了Java开发者必备10大数据工具和框架,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 常用大数据工具汇总

    千次阅读 2018-03-01 14:37:10
    常用的大数据工具按主题分类为:语言web框架应用服务器SQL数据访问工具SQL数据库大数据构建工具云提供商现在让我们来讨论一下存储/处理数据用的不同的非SQL工具——NoSQL数据库,内存缓存,全文搜索引擎,实时流,...
  • 各种大数据工具架构

    千次阅读 2017-06-05 14:08:09
    大数据的特点可以用4个V来描述:Volume(大)、Variety(多)、Velocity(快)、Value(低)
  • 1、hive命令 在Hive shell下执行hadoop命令行:  #比如:hadoop fs -ls /,在hive下可以这样执行:  hive> dfs -ls /;      在Hive shell下执行linux系统命令:  !cmd;  ...hive
  • 大数据工具/框架

    2016-02-03 10:03:53
    MongoDB-一种非常流行的、跨平台、面向document的数据库。Elasticsearch-专为云计算设计的分布式REST风格的搜索引擎。Cassandra-一个开源的分布式数据库管理系统。最初是Facebook设计和开发的,部署在大量商用服务器...
  • 有哪些大数据工具

    2018-10-26 15:04:10
    大数据工具可以帮助大数据工作人员进行日常的大数据工作,以下是大数据工作中常用的工具:1. HivemallHivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、...
  •   吹牛大数据,不懂hadoop不行的,12大工具一半以上和 这个有关 ...将介绍大数据领域支持Java的主流开源工具: 1. HDFS HDFS是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个Na
  • 大数据工具是什么?

    2018-04-24 15:18:30
    大数据工具可以帮助大数据工作人员进行日常的大数据工作,以下是大数据工作中常用的工具:1.HivemallHivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、...
  • 目前大数据工具主要哪些?

    万次阅读 2018-10-30 10:34:49
    Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。 支持的操作系统:Windows、Linux和OSX。 2.Ambari 作为Hadoop生态系统的一...
  • MongoDB—— 一种流行的,跨平台的面向文档的数据库。 Elasticsearch——专为云而构建的分布式REST风格搜索引擎。 Cassandra——一个开源的分布式数据库管理系统,最初由Facebook开发,被设计用来处理横跨多个商用...
  • 全球100款大数据工具汇总

    千次阅读 2017-07-04 09:31:34
    是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、...
  • 简单介绍IKAnalyzer分词工具与使用 文章目录简介IKAnalyzer的引入使用IK的两个重要词典IK的使用 简介 以下简介参考前辈和项目文档介绍 为什么要分词呢,刚开始介绍的时候介绍过,我们要提取语句的特征...
  • (01)《Hadoop/Spark原理、部署、与开发入门》(v2018.09.01) (02)hdfs_shell (03)hdfs_java[coming soon] (04)mapreduce_java (05)hbase_shell (06)hbase_java[coming soon] (07)hive_shell (08)hive_hiveserver2_be....
  • 摘要:Java Code Geeks联合创始人Byron Kiourtzoglou发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。 大数据几乎已成为所有商业领域共有的最新...
  • 13款java开源大数据工具

    千次阅读 2013-04-28 18:23:08
    大数据几乎已成为所有商业领域共有的最新趋势,然而大数据究竟是什么?是噱头、泡沫,又或是真如传言一样的重要。 事实上,大数据是个非常简单的术语——就像它所说的一样,是非常大的数据集。那么究竟有大多?...
  • 最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。 这是一个系列,主题为: 语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商 今天我们就要说说大数据...

空空如也

1 2 3 4 5 ... 20
收藏数 11,610
精华内容 4,644
关键字:

大数据工具