精华内容
下载资源
问答
  • 大数据工具

    2019-06-18 18:28:13
    其中包括大数据所有的工具包以及开发工具,其中包括hadoop hive hbase spark azkban idea elasticsearch jdk(linux windows) navicat-mysql mongdb xshell xftp vmware centos6 kafka kafka-pool everything elastic...
  • 大数据工具概览.pptx

    2021-09-21 02:31:38
    大数据工具概览.pptx
  • 全球100款大数据工具,基本涵盖了你可能需要的大数据工具,内容丰富,配有相应的说明和讲解。学习利器。
  • 大数据工具之Azkaban使用教程.zip
  • 主要为大家详细介绍了Java开发者必备10大数据工具和框架,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 大数据工具之ClickHouse使用方法教程.zip
  • 大数据工具之HAWQ详细使用教程.zip
  • 大数据工具概览(新)31.pptx
  • Java程序员使用的20几个大数据工具.pdf
  • 常用大数据工具汇总

    千次阅读 2018-03-01 14:37:10
    常用的大数据工具按主题分类为:语言web框架应用服务器SQL数据访问工具SQL数据库大数据构建工具云提供商现在让我们来讨论一下存储/处理数据用的不同的非SQL工具——NoSQL数据库,内存缓存,全文搜索引擎,实时流,...

    常用的大数据工具按主题分类为:

    • 语言
    • web框架
    • 应用服务器
    • SQL数据访问工具
    • SQL数据库
    • 大数据
    • 构建工具
    • 云提供商

    现在让我们来讨论一下存储/处理数据用的不同的非SQL工具——NoSQL数据库,内存缓存,全文搜索引擎,实时流,图形数据库,等等。

    MongoDB—— 一种流行的,跨平台的面向文档的数据库。

    Elasticsearch——专为云而构建的分布式REST风格搜索引擎。

    Cassandra——一个开源的分布式数据库管理系统,最初由Facebook开发,被设计用来处理横跨多个商用服务器的大量数据,提供了无单点故障的高度可用性。

    Redis—— 一个开源的(BSD许可),内存数据结构存储,作为数据库、缓存和消息代理使用。

    Hazelcast——基于Java的开源内存数据网格。

    EHCache——一种被广泛使用的开源Java分布式缓存,用于通用缓存、Java EE和轻量级容器。Ehcache相关介绍

    Hadoop——用Java编写的一个开源软件框架,用于分布式存储和对在计算机集群上的超大型数据集的分布式处理。

    Solr——一个开源的企业搜索平台,用Java编写的,来自于Apache Lucene项目。

    Spark——Apache Software Foundation中最活跃的项目,一个开源的集群计算框架。

    Memcached—— 一个通用的分布式内存缓存系统。

    Apache Hive——提供了Hadoop之上类似于SQL的层。

    Apache Kafka—— 一个高通量、分布式的发布-订阅式消息系统,最初开发在LinkedIn上。Windows上脱离Cygwin运行Apache Kafka

    Akka—— 一个工具包和运行时,用于在JVM上构建高度并行的、分布式的、有弹性的消息驱动的应用程序。

    HBase—— 一个开源的,非关系型的,分布式数据库,在谷歌的BigTable后建模,用Java编写,并运行在HDFS上。

    Neo4j——用Java实现的开源图形数据库。

    CouchBase——一个开源的、面向文档的分布式NoSQL数据库,特别为了交互式应用而优化。

    Apache Storm——开源的分布式实时计算系统。

    CouchDB——使用JSON来存储数据的面向文档的开源NoSQL数据库。

    Oracle Coherence—— 一个内存的数据网格解决方案,通过提供快速访问常用数据的渠道,使得企业可预测地扩展关键任务应用程序。

    Titan—— 一个可扩展的图形数据库,优化的目的在于存储和查询包含数千亿顶点和边的图形,分布在多机集群。

    Amazon DynamoDB——一个快速、灵活、完全管理的NoSQL数据库服务,用于在任何规模需要一致的、个位数毫秒延迟的所有应用程序。

    Amazon Kinesis—— 用于在AWS上的流数据的实时平台。

    Datomic—— 一个用Clojure写的完全事务式的,支持云的,分布式数据库。

    原文:http://developer.51cto.com/art/201601/504910.htm

    展开全文
  • 大数据工具之HIVE外键及多表关联的介绍.zip
  • 详解Java工程师偏爱的大数据工具:MongoDB篇.pdf
  • 大数据(1)---全球100款大数据工具汇总(前50款).pdf
  • 大数据工具篇之Hive与HBase整合完整教程
  • 学习大数据工具

    2019-04-15 16:31:46
    精心整理出的大数据实用工具,希望可以帮到正在学习的小伙伴们,互相学习,共同进步。 工具包括Hadoop,Spark,Zookeeper集群服务注册中心以及Redis内存。。。
  • 如今,为了满足企业的主要需求,大数据工具正在迅速得到应用。在大数据技术作为概念和业务战略出现的十年中,涌现了执行各种任务和流程的数千种工具。而推出这些工具的提供商都承诺可以为企业节省时间和成本,并发现...

    如今,为了满足企业的主要需求,大数据工具正在迅速得到应用。在大数据技术作为概念和业务战略出现的十年中,涌现了执行各种任务和流程的数千种工具。而推出这些工具的提供商都承诺可以为企业节省时间和成本,并发现能够让企业获利的商业洞察力。显然,大数据分析工具的市场正在不断增长。

    许多大数据分析工具最初像大数据软件框架Hadoop一样都是开源项目,但商业实体迅速涌现,为开源产品提供了新工具或商业的支持和开发。

    而在这些工具中选择是一个挑战,特别是许多大数据工具只具有单一用途,而企业需要使用大数据完成许多不同的任务,因此企业的分析工具箱会变得过于充实。根据这个行业领域的专家顾问的建议,以下列出一系列主要的大数据分析工具,并列出三个主要类别。

    主要的大数据工具

    如上所述,大数据工具都倾向于单一使用类别,并且有多种使用大数据的方式。所以可以按类别分类,然后分析每个分析工具。

    大数据工具:数据存储和管理

    大数据都是从数据存储开始。这意味着从大数据框架Hadoop开始。它是由Apache Foundation开发的开源软件框架,用在计算机集群上分布式存储非常大的数据集。

    显然,存储对于大数据所需的大量信息至关重要。但更重要的是,需要有一种方式来将所有这些数据集中到某种形成/管理结构中,以产生洞察力。因此,大数据存储和管理是真正的基础,而没有这样的分析平台是行不通的。在某些情况下,这些解决方案包括员工培训。

    而这个领域的主要的大数据工具有:

    1. Cloudera

    基本上,Hadoop增加了一些额外的服务,企业将需要这些服务,因为大数据并不是一个简单的练习。 Cloudera的服务团队不仅可以帮助企业构建大数据集群,还可以帮助培训员工更好地访问数据。

    1. MongoDB

    MongoDB是最流行的大数据数据库,因为它适用于管理大数据经常出现的非结构化数据或频繁更改的数据。

    1. Talend

    作为一家提供广泛解决方案的公司,Talend的产品是围绕集成平台构建的,该平台结合了大数据、云计算、应用程序,以及实时数据集成、数据准备和主数据管理。

    Talend大数据集成包括数据质量和治理功能

    大数据工具:数据清理

    在企业真正处理大量数据以获取洞察信息之前,先需要对其进行清理、转换并将其转变为可远程检索的内容。大数据集往往是非结构化和无组织的,因此需要进行某种清理或转换。

    在这个时代,数据的清理变得更加必要,因为数据可以来自任何地方:移动网络、物联网、社交媒体。并不是所有这些数据都容易被“清理”,以产生其见解,因此一个良好的数据清理工具可以改变所有的差异。事实上,在未来的几年中,将有效清理的数据视为是一种可接受的大数据系统与真正出色的数据系统之间的竞争优势。

    1. OpenRefine

    OpenRefine是一款易于使用的开源工具,通过删除重复项、空白字段和其他错误来清理凌乱的数据。它是开源的软件,但它有一个可以提供帮助的大型社区。

    1. DataCleaner

    与OpenRefine类似,DataCleaner将半结构化数据集转换为数据可视化工具可读取的干净可读的数据集。该公司还提供数据仓库和数据管理服务。

    1. Microsoft Excel

    人们可以从各种数据源导入数据。Excel对手动数据输入和复制/粘贴操作特别有用。它可以消除重复、查找、替换,拼写检查以及用于转换数据的许多公式。但它很快陷入困境,并不适用于大数据集。

    大数据工具:数据挖掘

    一旦数据被清理并准备好进行检查,就可以通过数据挖掘开始搜索过程。这就是企业进行实际发现、决策和预测的过程。

    数据挖掘在很多方面都是大数据流程的真正核心。数据挖掘解决方案通常非常复杂,但力求提供一个令人关注和用户友好的用户界面,这说起来容易做起来难。数据挖掘工具面临的另一个挑战是:它们的确需要工作人员开发查询,所以数据挖掘工具的能力并不比使用它的专业人员强。

    1. RapidMiner

    RapidMiner是一款易于使用的预测分析工具,具有非常用户友好的可视化界面,这意味着企业无需编写代码,即可运行分析产品。

    1. IBM SPSS Modeler

    IBM SPSS Modeler是一套适用于企业级的高级分析的产品,用于数据挖掘。而IBM的服务和咨询无疑是首屈一指的。

    1. Teradata

    Teradata为数据仓库、大数据和分析以及市场营销应用提供端到端解决方案。这一切意味着企业的业务可以真正成为一个数据驱动的业务,并提供商业服务、咨询、培训和支持。

    像许多当前的大数据工具一样,RapidMiner解决方案也包含云计算解决方案

    大数据工具:数据可视化

    数据可视化是企业的数据以可读的格式显示的方式。这是企业查看图表和图形以及将数据放入透视图中的方法。

    数据的可视化与科学一样,是一种艺术形式。而大数据公司将拥有越来越多的数据科学家和高级管理人员,很重要的一点是可以为员工提供更加广泛的可视化服务。销售代表、IT支持、中层管理等这些团队中的每一个成员都需要理解它,因此重点在于可用性。但是,易于阅读的可视化有时与深度特征集的读取不一致,这成为了数据可视化工具的一个主要挑战。

    1. Tableau

    作为这一领域的领导者之一,其数据可视化工具专注于商业智能,无需编程即可创建各种地图、图表、图形等等。Tableau总共有五款产品,其中有一个名为Tableau Public的免费版本供潜在客户试用。

    1. Silk

    Silk是一种简单版本的Tableau,Silk可让企业将数据可视化为地图和图表,而无需任何编程。它甚至会尝试在第一次加载时自动将数据可视化。它还使得在线发布结果变得容易。

    1. Chartio

    Chartio使用自己的可视化查询语言,只需点击几下即可创建功能强大的仪表板,而无需了解SQL或其他建模语言。与其他不同的是,企业直接连接到数据库,因此不需要数据仓库。

    IBM Watson Analytics

    IBM Watson Analytics是机器学习(ML)和人工智能(AI)的结合,可帮助提供智能数据科学助理,为业务分析师和数据科学家提供广泛的数据科学技能集的用户指南。
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    1.在学习大数据之前,需要具备什么基础
    http://www.duozhishidai.com/article-12916-1.html
    2.大数据工程师培训,需要学习的有哪些课程?
    http://www.duozhishidai.com/article-15081-1.html
    3.大数据的特点是什么,大数据与Hadoop有什么关系?
    http://www.duozhishidai.com/article-13276-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 分享Hadoop处理大数据工具及优势

    千次阅读 2017-09-20 15:09:14
    现如今,随着云计算技术、物联网技术的兴起,企业需要应对的数据规模越来越大、数据格式越来越复杂、数据收集速度...Hadoop带来了廉价的处理大数据的能力,那么,下面我们来分享一些关于Hadoop处理大数据工具及优势吧。
    现如今,随着云计算技术、物联网技术的兴起,企业需要应对的数据规模越来越大、数据格式越来越复杂、数据收集速度越来越快,也使得它和传统意义的业务数据相比,有了明显的特点。比如ApacheHadoop已成为大数据行业发展背后的驱动力。Hadoop带来了廉价的处理大数据的能力,那么,下面我们来分享一些关于Hadoop处理大数据工具及优势吧。
    

    1、MapReduce——Hadoop的核心
      Google的网络搜索引擎在得益于算法发挥作用的同时,MapReduce在后台发挥了极大的作用。MapReduce框架成为当今大数据处理背后的最具影响力的“发动机”。除了Hadoop,你还会在MapReduce上发现MPP(SybaseIQ推出了列示数据库)和NoSQL(如Vertica和MongoDB)。

      MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,此时分布式计算优势就体现出来。将这种技术与Linux服务器结合可获得性价比极高的替代大规模计算阵列的方法。Yahoo在2006年看到了Hadoop未来的潜力,并邀请Hadoop创始人DougCutting着手发展Hadoop技术,在2008年Hadoop已经形成一定的规模。Hadoop项目再从初期发展的成熟的过程中同时吸纳了一些其他的组件,以便进一步提高自身的易用性和功能。


    2、HDFS和MapReduce
      HDFS与MapReduce的结合是强大的。在处理大数据的过程中,当Hadoop集群中的服务器出现错误时,整个计算过程并不会终止。同时HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求,数据可以是非结构化或其它类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。

      开发人员编写代码责任是使数据有意义。HadoopMapReduce级的编程利用JavaAPIs,并可手动加载数据文件到HDFS之中。


    3、Pig和Hive
      Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
      Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS,并允许使用类似于SQL语法进行数据查询。与Pig一样,Hive的核心功能是可扩展的。

      Pig和Hive总是令人困惑的。Hive更适合于数据仓库的任务,Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量,它主要的优势是相比于直接使用HadoopJavaAPIs可大幅削减代码量。正因为如此,Pig仍然是吸引大量的软件开发人员。


    4、改善数据访问:HBase、Sqoop以及Flume
      Hadoop核心还是一套批处理系统,数据加载进HDFS、处理然后检索。对于计算这或多或少有些倒退,但通常互动和随机存取数据是有必要的。HBase作为面向列的数据库运行在HDFS之上。HBase以GoogleBigTable为蓝本。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。HBase利用MapReduce来处理内部的海量数据。同时Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。

      但为了授权随机存储数据,HBase也做出了一些限制:例如Hive与HBase的性能比原生在HDFS之上的Hive要慢4-5倍。同时HBase大约可存储PB级的数据,与之相比HDFS的容量限制达到30PB。HBase不适合用于ad-hoc分析,HBase更适合整合大数据作为大型应用的一部分,包括日志、计算以及时间序列数据。


    5、获取数据与输出数据
      Sqoop和Flume可改进数据的互操作性和其余部分。Sqoop功能主要是从关系数据库导入数据到Hadoop,并可直接导入到HFDS或Hive。而Flume设计旨在直接将流数据或日志数据导入HDFS。

      Hive具备的友好SQL查询是与繁多数据库的理想结合点,数据库工具通过JDBC或ODBC数据库驱动程序连接。


    6、负责协调工作流程的ZooKeeper和Oozie

      随着越来越多的项目加入Hadoop大家庭并成为集群系统运作的一部分,大数据处理系统需要负责协调工作的的成员。随着计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置,ZooKeeper正是为此而生的。而在Hadoop执行的任务有时候需要将多个Map/Reduce作业连接到一起,它们之间或许批次依赖。Oozie组件提供管理工作流程和依赖的功能,并无需开发人员编写定制的解决方案。


    7、使用Hadoop
      通常情况下,Hadoop应用于分布式环境。就像之前Linux的状况一样,厂商集成和测试ApacheHadoop生态系统的组件,并添加自己的工具和管理功能。
    展开全文
  • Java程序员在用的大数据工具

    千次阅读 2016-01-29 09:27:51
    受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具。上一篇Java调查包括下列内容: 开发语言Web框架应用服务器数据库工具SQL数据大数据开发工具云供应商 现在,来看看维基百科上对大数据...

    问题:他们最近一年最喜欢用什么工具或者是框架?

    受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具。上一篇Java调查包括下列内容:

    1. 开发语言
    2. Web框架
    3. 应用服务器
    4. 数据库工具
    5. SQL数据
    6. 大数据
    7. 开发工具
    8. 云供应商

    现在,来看看维基百科上对大数据的定义:

    大数据,广义上来说是一组量很大很复杂的数据集合,在这种情况下传统的数据处理方式将不再适用。

    对于一般情况来说传统的SQL数据库足够用。再另外一些场景下,传统的数据库能够承载的数据库量级有限,并且现在有了越来越多的工具可供使用。关键取决于场景。 
    现在让我们来讨论不同的非SQL工具来存储/处理数据 - NoSQL数据库、内存缓存、全文搜索引擎、实时流媒体、图形数据库等。

    大数据-调查结果

    图片描述

    • MongoDB-一种非常流行的、跨平台、面向document的数据库。
    • Elasticsearch-专为云计算设计的分布式REST风格的搜索引擎。
    • Cassandra-一个开源的分布式数据库管理系统。最初是Facebook设计和开发的,部署在大量商用服务器上来处理大量的数据。高可用,无单点故障。
    • Redis-开源的(BSD)内存数据结构存储、内存库、缓存、消息代理。
    • Hazelcast-基于Java开发的内存数据网格。
    • EHCache-广泛使用的开源Java分布式缓存、J2ee、轻量级容器。
    • Hadoop-用java开发的开源分布式大数据框架,用来处理非常大规模数据,hadoop是集群化部署。
    • Solr-使用java开发的开源企业级搜索平台。最初归属在Apache Lucene项目中。
    • Spark-ASF中最活跃的项目,是一个开源的集群化计算框架。
    • Memcached–通用分布式缓存系统。
    • Apache Hive-在Hadoop支持类SQL封装,将SQL语句变成mr程序来执行。
    • Apache Kafka–高吞吐量、分布式、消息发布-订阅系统,最早是Linkin开发的。
    • Akka–Java开发的用来建造高并发,基于jvm弹性消息驱动的应用。
    • Hbase-根据Google的BigTable论文开发的开源分布式非关系型数据库。开发语言是Java,用HDFS作为底层存储。
    • Neo4j–用Java实现的开源图形数据库。
    • CouchBase–面向Document的开源分布式NoSQL数据库,并且针对交互应用做过优化。
    • Apache Storm–开源分布式实时计算系统。
    • CouchDB–使用json来存储数据的开放源码面向文档的NoSQL数据库。
    • Oracle Coherence–内存数据网格解决方案,使企业通过提供快速访问热数据来预测关键任务应用的规模。
    • Titan–可扩展的图形数据库,针对集群存储和查询数千亿的图形数据做过优化。
    • 亚马逊 DynamoDB – 一个快速、灵活NoSQL数据库,能够应对所有规模应用程序的需求,包括持久化、毫秒级延迟。
    • Amazon Kinesis–AWS上的实时数据计算平台。
    • Datomic–提供完整事务支持,云计算,分布式的数据库,开发语言用Clojure。
    展开全文
  • 大数据工具千千万,到底谁才是最强王者?

    千次阅读 多人点赞 2019-01-05 17:38:30
    外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力。虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易。 哪一种工具适合你的技能组合?哪一种工具...
  • 飞马座:基于VM的部署,用于在Amazon Web Services上对大数据工具进行原型设计
  • 受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具。上一篇Java调查包括下列内容: 1、开发语言 2、Web框架 3、应用服务器 4、数据库工具 5、SQL数据 6、大数据 7、开发工具 8、云供应...
  • 大数据工具集合

    2014-04-16 12:30:03
    随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的...以下是一些大数据方面的顶级开源工具,分为四个领域:数据存储、开发平台、开发工具和集成、分析和报告工具。 数据存储: Apache H
  • 据日前的一则大数据工具使用情况调查,我们知道了Java程序猿最喜欢用的大数据工具。 问题:他们最近一年最喜欢用什么工具或者是框架?受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具。上一...
  • 根据外媒的一项调查报告,中软卓越专家列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义。  先来看看大数据的概念。根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的...
  • 火花示例 学习如何将 Spark 与其他大数据工具(如 ES、Cassandra、Kafka...
  • 据日前的一则大数据工具使用情况调查,我们知道了Java程序猿最喜欢用的大数据工具。 问题:他们最近一年最喜欢用什么工具或者是框架? 受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据...
  • 虎赢优先查-这是代理记账企业专用的一款大数据工具,可以每天下载最新注册的企业工商信息、可以日更新,不限制区域、不限制数量都可以下载。
  • 给 Java 开发者的 10 个大数据工具和框架 当今IT开发人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂。根据外媒的一项调查报告,...
  • 什么是大数据,这里从技术层面说不应该是说什么是大数据,应该说什么是hadoop。 上图是hadoop常用的应用架构,初学者一看可能有点蒙,这么多,人都看晕了。下面用大数据的应用流程来说明下这些组件,看这些 ...
  • 目前大数据工具主要哪些?

    万次阅读 2018-10-30 10:34:49
    Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。 支持的操作系统:Windows、Linux和OSX。 2.Ambari 作为Hadoop生态系统的一...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 240,426
精华内容 96,170
关键字:

大数据工具