精华内容
参与话题
问答
  • apache kafka 简介

    2019-01-12 16:32:47
    Apache Kafka 是分布式发布-订阅消息系统。 该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。 kafka合适也是最常见的使用场景就是日志投递。即适合可靠性、持久性、吞吐量要求高的场景。 图解 ...

    概述

    Apache Kafka 是分布式发布-订阅消息系统。
    该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。
    kafka合适也是最常见的使用场景就是日志投递。即适合对可靠性、持久性、吞吐量要求高的场景。

    图解

    下图摘自wiki:
    在这里插入图片描述
    一般使用中会接触到的主要是以下几个名词:
    Producer: 消息的投递者
    Consumer: 消息的消费者
    Topic: Producer和Consumer交互的中间层。Producer每次需要选定将消息投递到哪个Topic上,而Consumer则需要设置好需要订阅哪些或者哪个Topic。
    Partition: 是Topic的物理分区,一般情况下可以动态调整。一个Topic可以有多个partition。一个partition也可以在多个Topic中。

    处理流程

    1、Producer投递消息到对应的Topic。
    2、Consumer订阅了固定的Topic,发现该Topic收到投递消息,于是Consumer拿到该消息开始处理。
    3、如果Producer投递的速度超过了Consumer处理的速度,消息也不会丢失,没有来得及处理的消息会存储在partition上。开发者可以选择增添consumer的个数加快处理速度,或者在确保Producer投递速度肯定会降下来的情况下,让consumer自行慢慢处理。

    展开全文
  • Apache Hadoop 简介

    2020-01-11 12:24:39
    Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是设计用来依靠硬件来提供高...

    hadoop-logo Apache Hadoop

    Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。

    Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是设计用来依靠硬件来提供高可用性,而是旨在检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性的服务,而每台计算机都容易出现故障。

    了解更多» 下载» 使用入门»

    模组

    该项目包括以下模块:

    • Hadoop Common:支持其他Hadoop模块的通用实用程序。
    • Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
    • Hadoop YARN:用于作业调度和群集资源管理的框架。
    • Hadoop MapReduce:基于YARN的系统,用于并行处理大数据集。
    • Hadoop Ozone Hadoop的对象存储。
    • Hadoop Submarine Hadoop的机器学习引擎。

    谁在使用Hadoop?

    各种各样的公司和组织都将Hadoop用于研究和生产。鼓励用户将自己添加到Hadoop PoweredBy Wiki页面

    相关项目

    Apache的其他与Hadoop相关的项目包括:

    • Ambari™:基于Web的工具,用于供应,管理和监视Apache Hadoop集群,其中包括对Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。Ambari还提供了一个仪表板,用于查看集群健康状况(例如热图)以及以可视方式查看MapReduce,Pig和Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。
    • Avro™:数据序列化系统。
    • Cassandra™:可扩展的多主数据库,没有单点故障。
    • Chukwa™:一种用于管理大型分布式系统的数据收集系统。
    • HBase™:可扩展的分布式数据库,支持大型表的结构化数据存储。
    • Hive™:一种数据仓库基础结构,提供数据汇总和即席查询。
    • Mahout™:可扩展的机器学习和数据挖掘库。
    • Pig™:用于并行计算的高级数据流语言和执行框架。
    • Spark™:一种用于Hadoop数据的快速通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,该模型支持广泛的应用程序,包括ETL,机器学习,流处理和图形计算。
    • Tez™:基于Hadoop YARN的通用数据流编程框架,它提供了强大而灵活的引擎来执行任意DAG任务,以处理批处理和交互用例的数据。Hadoop生态系统中的Hive™,Pig™和其他框架以及其他商业软件(例如ETL工具)都采用了Tez,以取代Hadoop™MapReduce作为基础执行引擎。
    • ZooKeeper™:针对分布式应用程序的高性能协调服务。
    •  
    展开全文
  • apache日志分析简介

    千次阅读 2011-11-04 10:30:03
    对apache的日志分析做下简单的介绍,主要参考...日志分析如果apache的安装时采用默认的配置,那么在/logs目录下就会生成两个文件,分别是access_log和error_log1.access_logaccess_log为访问日志,记录所有对apache服务
    对apache的日志分析做下简单的介绍,主要参考apache官网的Log Files,手册参照 http://httpd.apache.org/docs/2.2/logs.html

    一.日志分析
    如果apache的安装时采用默认的配置,那么在/logs目录下就会生成两个文件,分别是access_log和error_log
    1.access_log
    access_log为访问日志,记录所有对apache服务器进行请求的访问,它的位置和内容由CustomLog指令控制,LogFormat指令可以用来简化该日志的内容和格式
    例如,我的其中一台服务器配置如下

    CustomLog "| /usr/sbin/rotatelogs /var/log/apache2/%Y_%m_%d_other_vhosts_access.log 86400 480" vhost_combined

    -rw-r--r-- 1 root root 22310750 12-05 23:59 2010_12_05_other_vhosts_access.log
    -rw-r--r-- 1 root root 26873180 12-06 23:59 2010_12_06_other_vhosts_access.log
    -rw-r--r-- 1 root root 26810003 12-07 23:59 2010_12_07_other_vhosts_access.log
    -rw-r--r-- 1 root root 24530219 12-08 23:59 2010_12_08_other_vhosts_access.log
    -rw-r--r-- 1 root root 24536681 12-09 23:59 2010_12_09_other_vhosts_access.log
    -rw-r--r-- 1 root root 14003409 12-10 14:57 2010_12_10_other_vhosts_access.log


    通过CustomLog指令,每天一天生成一个独立的日志文件,同时也写了定时器将一周前的日志文件全部清除,这样可以显得更清晰,既可以分离每一天的日志又可以清除一定时间以前的日志通过制,LogFormat定义日志的记录格式

    LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
    LogFormat "%{X-Forwarded-For}i %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combinedproxy
    LogFormat "%h %l %u %t \"%r\" %>s %b" common
    LogFormat "%{Referer}i -> %U" referer
    LogFormat "%{User-agent}i" agent

    随意的tail一个access_log文件,下面是一条经典的访问记录

    218.19.140.242 - - [10/Dec/2010:09:31:17 +0800] "GET /query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1" 200 1933 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 (.NET CLR 3.5.30729)"

    一共是有9项,将他们一一拆开

    218.19.140.242
    -
    -
    [10/Dec/2010:09:31:17 +0800]
    "GET /query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1"
    200
    1933
    "-"
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 (.NET CLR 3.5.30729)"

    1) 218.19.140.242 这是一个请求到apache服务器的客户端ip,默认的情况下,第一项信息只是远程主机的ip地址,但我们如果需要apache查出主机的名字,可以将 HostnameLookups设置为on,但这种做法是不推荐使用,因为它大大的减缓了服务器.另外这里的ip地址不一定就是客户主机的ip地址,如果客户端使用了代理服务器,那么这里的ip就是代理服务器的地址,而不是原机.

    2) - 这一项是空白,使用"-"来代替,这个位置是用于标注访问者的标示,这个信息是由identd的客户端存在,除非IdentityCheck为on,非则apache是不会去获取该部分的信息(ps:不太理解,基本上这一项都是为空,奉上原文)
    The "hyphen" in the output indicates that the requested piece of information is not available. In this case, the information that is not available is the RFC 1413 identity of the client determined by identd on the clients machine. This information is highly unreliable and should almost never be used except on tightly controlled internal networks. Apache httpd will not even attempt to determine this information unless IdentityCheck is set to On.

    3) - 这一项又是为空白,不过这项是用户记录用户HTTP的身份验证,如果某些网站要求用户进行身份雁阵,那么这一项就是记录用户的身份信息

    4) [10/Dec/2010:09:31:17 +0800] 第四项是记录请求的时间,格式为[day/month/year:hour:minute:second zone],最后的+0800表示服务器所处的时区为东八区

    5) "GET /..haizhu_tianhe.xml HTTP/1.1" 这一项整个记录中最有用的信息,首先,它告诉我们的服务器收到的是一个GET请求,其次,是客户端请求的资源路径,第三,客户端使用的协议时HTTP/1.1,整个格式为"%m %U%q %H",即"请求方法/访问路径/协议"

    6) 200 这是一个状态码,由服务器端发送回客户端,它告诉我们客户端的请求是否成功,或者是重定向,或者是碰到了什么样的错误,这项值为200,表示服务器已经成功的响应了客户端的请求,一般来说,这项值以2开头的表示请求成功,以3开头的表示重定向,以4开头的标示客户端存在某些的错误,以5开头的标示服务器端存在某些错误,详细的可以参见 HTTP specification (RFC2616 section 10).[http://www.w3.org/Protocols/rfc2616/rfc2616.txt]

    7) 1933 这项表示服务器向客户端发送了多少的字节,在日志分析统计的时侯,把这些字节加起来就可以得知服务器在某点时间内总的发送数据量是多少

    8) - 暂不知

    9) "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 (.NET CLR 3.5.30729)" 这项主要记录客户端的浏览器信息





    2.error_log
    error_log为错误日志,记录下任何错误的处理请求,它的位置和内容由ErrorLog指令控制,通常服务器出现什么错误,首先对它进行查阅,是一个最重要的日志文件

    tail error_log,随意摘取一个记录

    [Fri Dec 10 15:03:59 2010] [error] [client 218.19.140.242] File does not exist: /home/htmlfile/tradedata/favicon.ico

    同样也是分为几个项

    [Fri Dec 10 15:03:59 2010]
    [error]
    [client 218.19.140.242]
    File does not exist: /home/htmlfile/tradedata/favicon.ico


    1) [Fri Dec 10 15:03:59 2010] 记录错误发生的时间,注意,它跟我们上面access_log记录的时间格式是不同的

    2) [error] 这一项为错误的级别,根据LogLevel指令来控制错误的类别,上面的404是属于error级别

    3) [client 218.19.140.242] 记录客户端的ip地址

    4) File does not exist: /home/htmlfile/tradedata/favicon.ico 这一项首先对错误进行了描述,例如客户端访问一个不存在或路径错误的文件,就会给出404的提示错误



    二.实用的日志分析脚本
    了解日志的各种定义后,这里分享一下从网上淘来的一些对日志分析的脚本

    1.查看apache的进程数
    ps -aux | grep httpd | wc -l

    2.分析日志查看当天的ip连接数
    cat default-access_log | grep "10/Dec/2010" | awk '{print $2}' | sort | uniq -c | sort -nr

    3.查看指定的ip在当天究竟访问了什么url
    cat default-access_log | grep "10/Dec/2010" | grep "218.19.140.242" | awk '{print $7}' | sort | uniq -c | sort -nr

    4.查看当天访问排行前10的url
    cat default-access_log | grep "10/Dec/2010" | awk '{print $7}' | sort | uniq -c | sort -nr | head -n 10

    5.看到指定的ip究竟干了什么
    cat default-access_log | grep 218.19.140.242 | awk '{print $1"\t"$8}' | sort | uniq -c | sort -nr | less

    6.查看访问次数最多的几个分钟(找到热点)
    awk '{print $4}' default-access_log |cut -c 14-18|sort|uniq -c|sort -nr|head



    三.使用awstats自动分析日志
    当然啦,如果想最简单和最直观的分析日志还是用工具,现在网上较流行的工具是awstats,一个基于perl的web日志分析工具,功能很强大也支持IIS等服务器
    下载地址 http://awstats.sourceforge.net
    安装配置见 http://blog.s135.com/post/199/

     

    简单的界面

    展开全文
  • Apache Storm简介

    2017-12-06 00:00:00
    什么是Apache Storm?Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平...它很简单,您可以并行地实时数据执行各种操作。Apache Storm继续成为实时数据分析的领导者。Storm易于设置和操作,并
        

    什么是Apache Storm?

    Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。它很简单,您可以并行地对实时数据执行各种操作。

    Apache Storm继续成为实时数据分析的领导者。Storm易于设置和操作,并且它保证每个消息将通过拓扑至少处理一次。

    Apache Storm vs Hadoop

    基本上Hadoop和Storm框架用于分析大数据。两者互补,在某些方面有所不同。Apache Storm执行除持久性之外的所有操作,而Hadoop在所有方面都很好,但滞后于实时计算。下表比较了Storm和Hadoop的属性。

    StormHadoop
    实时流处理批量处理
    无状态有状态
    主/从架构与基于ZooKeeper的协调。主节点称为nimbus,从属节点是主管具有/不具有基于ZooKeeper的协调的主 - 从结构。主节点是作业跟踪器,从节点是任务跟踪器
    Storm流过程在集群上每秒可以访问数万条消息。Hadoop分布式文件系统(HDFS)使用MapReduce框架来处理大量的数据,需要几分钟或几小时。
    Storm拓扑运行直到用户关闭或意外的不可恢复故障。MapReduce作业按顺序执行并最终完成。
    两者都是分布式和容错的
    如果nimbus / supervisor死机,重新启动使它从它停止的地方继续,因此没有什么受到影响。如果JobTracker死机,所有正在运行的作业都会丢失。

    使用Apache Storm的例子

    Apache Storm对于实时大数据流处理非常有名。因此,大多数公司都将Storm用作其系统的一个组成部分。一些值得注意的例子如下 - 

    Twitter - Twitter正在使用Apache Storm作为其“发布商分析产品”。 “发布商分析产品”处理Twitter平台中的每个tweets和点击。 Apache Storm与Twitter基础架构深度集成。

    NaviSite - NaviSite正在使用Storm进行事件日志监控/审计系统。系统中生成的每个日志都将通过Storm。Storm将根据配置的正则表达式集检查消息,如果存在匹配,那么该特定消息将保存到数据库。

    Wego - Wego是位于新加坡的旅行元搜索引擎。旅行相关数据来自世界各地的许多来源,时间不同。Storm帮助Wego搜索实时数据,解决并发问题,并为最终用户找到最佳匹配。

    Apache Storm优势

    下面是Apache Storm提供的好处列表:

    • Storm是开源的,强大的,用户友好的。它可以用于小公司和大公司。

    • Storm是容错的,灵活的,可靠的,并且支持任何编程语言。

    • 允许实时流处理。

    • Storm是令人难以置信的快,因为它具有巨大的处理数据的力量。

    • Storm可以通过线性增加资源来保持性能,即使在负载增加的情况下。它是高度可扩展的。

    • Storm在几秒钟或几分钟内执行数据刷新和端到端传送响应取决于问题。它具有非常低的延迟。

    • Storm有操作智能。

    • Storm提供保证的数据处理,即使群集中的任何连接的节点死或消息丢失。


    展开全文
  • Apache POI简介

    千次阅读 2019-05-10 00:15:08
    Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序Microsoft Office格式档案读和写的功能。 基本功能 HSSF 提供读写Microsoft Excel格式档案的功能。 XSSF 提供读写Microsoft Excel OOXML格式...
  • Apache Shiro 简介

    热门讨论 2016-07-31 22:31:15
    背景:最近接触的的项目中有shiro,它一无所知,干什么用的都不知道,还好有网络的存在,让我能在第一时间找到明确的答案。下面简单介绍一下,这是个什么东东。 一、简介  Apache Shiro是Java的一个安全框架...
  • Apache简介及安装使用

    2019-07-19 17:07:47
    一、Apache简介 Apache(Apache HTTP Server)服务器是使用广泛的Web服务器软件,可以理解为电脑上的一个应用程序,简单来讲,它的作用就是将你的电脑变成一台服务器,让你的电脑开放特定的网络接口,用以接收...
  • Apache RocketMQ简介

    2019-09-06 14:13:03
    Apache RocketMQ简单介绍 是一个队列模型的消息中间件,具有高性能、高可靠、高实时、分布式特点。 Producer、Consumer队列都可以分布式。 Producer向一些队列轮流发送消息,队列集合称为 Topic,Consumer 如果做...
  • 其中,多进程方式中服务器一个客户要使用一个进程来提供服务,由于在操作系统中,生成一个进程需要进程内存复制等额外的开销,这样在客户较多时的性能就会降低。为了克服这种生成进程的额外开销,可以使用多线程...
  • Apache Ant 简介

    万次阅读 2009-11-28 23:35:00
    Apache Ant 简介 Apache Ant是目前事实上的Java应用的标准build脚本工具。... 本文主要内容有:Ant的简介介绍常用的Ant脚本Ant的安装 Apache Ant是Apache基金会下的一个项目,可以在http://an
  • apache MINA简介

    千次阅读 2015-05-04 16:19:30
    前面 java NIO 有了较深入的了解, NIO的特性也有了理解,今天有空 初步了解些 apache MINA框架,按照官方的说法。 Apache MINA(Multipurpose Infrastructure for Network Applications) 是一个网络应用框架...
  • Apache JMeter简介

    千次阅读 2007-02-19 10:26:00
     Apache jmeter 可以用于静态的和动态的资源(文件,Servlet,Perl脚本,java 对象,数据库和查询,FTP服务器等等)的性能进行测试。它可以用于服务器,网络 或对象模拟繁重的负载来测试它们的强度或分析不同...
  • Apache Kylin简介

    2019-06-28 10:54:17
    Apache Kylin 概述 kylin是一个多维度分析处理(MOLAP)系统,用java语言编写。它能提供交互式SQL秒级内巨大的Hive表分析查询。 简单的来说Kylin的核心思想就是预计算,即多维分析可能用到的度量进行预计算,将...
  • Apache Avro简介

    2017-07-26 18:17:10
    简介 Apache Avro是一个数据序列化方法。 Avro提供: 丰富的数据结构。 紧凑、高效的二进制数据格式。 容器文件,用于存储持久数据。 远程过程调用(RPC)。 易于集成到动态语言的特性。 无论是读写数据文件,还是...
  • Apache Mahout 简介

    2015-12-03 08:44:05
    Apache Mahout 简介 通过可伸缩、商业友好的机器学习来构建智能应用程序 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们机器学习技巧(比如说集群、...
  • Apache commons简介

    2013-02-20 20:23:00
    Apache Commons是一个非常有用的工具包,解决各种实际的通用问题,下面是一个简述表,详细信息访问http://jakarta.apache.org/commons/index.html BeanUtils Commons-BeanUtils 提供 Java 反射和自省API的...
  • Apache ActiveMQ简介

    千次阅读 2013-04-29 11:31:40
    ActiveMQ使用Apache提供的授权,任何人都可以其实现代码进行修改。  ActiveMQ的设计目标是提供标准的,面向消息的,能够跨越多语言和多系统的应用集成消息通信中间件。ActiveMQ实现了JMS标准并提供了很多附加的...
  • Apache Commons简介

    2013-12-27 15:51:17
    Apache Commons是一个非常有用的工具包,解决各种实际的通用问题,下面是一个简述表,详细信息访问http://jakarta.apache.org/commons/index.html BeanUtils Commons-BeanUtils 提供 Java 反射和自省API的包装...
  • Apache POI 简介

    2012-10-15 16:21:01
    Apache POI 是用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java程式Microsoft Office格式档案读和写的功能。其结构如下:  HSSF - 提供读写Microsoft Excel XLS格式档案的功能。  XSSF ...

空空如也

1 2 3 4 5 ... 20
收藏数 3,531
精华内容 1,412
关键字:

对apache简介