精华内容
下载资源
问答
  • 使得服务器网络平稳运行的最重要的方式之一就是使用各种网络运维管理软件。现有的网络运维管理软件可以说是多种多样的,但是这些工具往往比较昂贵,因此花些时间去选购是很值得的,需要仔细研究其适用性、性能、专业...
  • 点击上方“民工哥技术之路”,选择“设为星标”回复“1024”获取独家整理的学习资料!服务器监控工具功能相当强大,无论何时何地,我们都可以了解到服务器的功能以及性能。服务器监控工具的使用,...

    点击上方“民工哥技术之路”,选择“设为星标”

    回复“1024”获取独家整理的学习资料!

    服务器监控工具功能相当强大,无论何时何地,我们都可以了解到服务器的功能以及性能。服务器监控工具的使用,可以让我们清楚的知道用户可以打开我们的网站,且确保网速不慢。只有这样做,才能留住宝贵的用户,以免因为系统停运的原因,导致用户丢失。

    基于此,为大家收集了11款超实用的服务器监控工具

    1、zabbix

    zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。abbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。

    2、Nagios

    Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的状态,交换机路由器等网络设备,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

    3、Performance Co-Pilot

    Performance Co-Pilot,简称PCP,是一个系统性能分析框架。它收集并分析来自多个主机的各种性能指标。可以通过它观察指标走向的趋势,以帮助您快速识别异常所在点。它提供API,可依据此来开发自定义的监控和报告解决方案。

    4、Anturis

    Anturis是一个基于云的SaaS平台,可监控windows和linux服务器,网站和IT基础架构。通过全面的监控解决方案列表,让管理员快速了解整体主机或者服务器瓶颈与风险。

    5、SeaLion

    SeaLion是一个基于云的Linux服务器监控工具。也是通过统一的仪表盘监控所有服务器指标。它只需几分钟即可完成设置,它具有即时报警功能,以便在发生问题时,可以快速收到通知和每日数据摘要等。

    6、Icinga

    Icinga是一个免费的开源监控系统,可以检查服务器资源的可用性。它会记录服务器问题并在停机的时候通知您。

    7、Munin

    Munin是一个网络和系统监控工具,可帮助您分析服务器资源趋势。它旨在成为一个即插即用的解决方案。安装后无需太多额外工作即可收集关键信息。Munin主要功能是有效分析服务器资源优势,属于网络及系统监控的工具。

    8、Monit

    Monit是一个用于管理和监控Unix系统的开源工具。Monit可以进行自动维护和维修。如果出现错误情况,Monit可以自动触发保护行为,例如;如果sendmail(linux的邮件代理程序)没有运行,Monit可以自动重新启动sendmail,或者如果apache使用了太多的资源(例如,如果正在进行DoS攻击),Monit可以停止或重启apache并向您发送报警。Monit还可以监视进程特征,比如;进程使用的内存。

    9、Simple Server Monitor

    Simple Server Monitor这款服务器的监控工具,使用起来相当方便,功能也很强大,成本也相当划算。Simple Server Monitor可以有效的监控WEB应用程序以及服务器运行情况。

    10、SysUsage

    SysUsage使用Sar(Sysstat)和其他系统命令监视您的系统活动。它有一个阈值通知系统,可以在服务器的功能接近极限时提醒您。

    11、Pingdom

    Pingdom可以对互联网上很多地方的服务器以及网站进行监控,以保证他们可以有效的运行。通过Pingdom,可以对电子邮件的服务器、FTP服务器、受密码所保护的那些网站进行监控。

    作者:艾特程序员 

    来源:https://www.toutiao.com/i6852941576763769351

    推荐阅读 点击标题可跳转

    少年!用好这把瑞士军刀,从此网络故障诊断不用愁!

    CentOS 下 MySQL 8.0 安装部署,超详细!

    CentOS 搭建 K8S,一次性成功,收藏了!

    MySQL 5.7 vs 8.0,哪个性能更牛?

    带你深入了解 GitLab CI/CD 原理及流程

    Gitlab 利用 Webhook+jenkins 实现自动构建与部署

    Iptables 最佳实践 !

    一文彻底了解 CDN 加速原理

    超全的数据库建表/SQL/索引规范,适合贴在工位上!

    展开全文
  • Linux服务器网络运维监控软件

    千次阅读 2018-04-24 17:32:15
    要让服务器运行良好而且平稳的话,一个非常艰巨重大的任务就是做好网络运维管理。网络管理员使用了许多工具来监视服务器的运行状况,并查看网络流量的上升和下降状况。他们还必须确保整个服务器网络能够平稳地运行,...

          要让服务器运行良好而且平稳的话,一个非常艰巨重大的任务就是做好网络运维管理。网络管理员使用了许多工具来监视服务器的运行状况,并查看网络流量的上升和下降状况。他们还必须确保整个服务器网络能够平稳地运行,因为只要有一分钟的网络中断就会使得整个机构的工作出现混乱。

          使得服务器网络平稳运行的最重要的方式之一就是使用各种网络运维管理软件。现有的网络运维管理软件可以说是多种多样的,但是这些工具往往比较昂贵,因此花些时间去选购是很值得的,需要仔细研究其适用性、性能、专业性等方面的特性,需要判断的因素很多,但短时间内理解这些指标并作出选择可不是一件容易的事。

          随着现今互联网行业的迅速发展,某些物联网服务的用户已经达到了亿级,如淘宝网注册用户已达到3.7亿,仅在2015年双十一当天活跃用户过亿。支撑如此庞大用户使用的硬件基础是规模庞大的服务器群。如何获取每一台服务器的运行状态,及时获悉潜在隐患,出现问题及时锁定排除显得至关重要。机房运维人员以及高层决策人员只有在实时掌握这些信息后才可有效地对进行决策,如在访问流量过大或其他恶意攻击后是及时关闭服务还是启动备用服务,服务区瘫痪后是需要工作人员至机房处理硬件问题还是只需远程重启服务器等类似或简单或复杂的决策,都需要底层专家系统信息的支持。

    现今比较成熟的开源服务器底层数据的采集解决方案主要有SugarNMS和Nagios。

    服务器运维监控软件之 Nagios

          Nagios是一个监视系统运行状态和网络信息的监视系统,能监视所指定的本地或远程主机以及服务,同时提供异常通知功能等。Nagios可运行在Linux/Unix平台之上,同时提供一个可选的基于浏览器的Web界面以方便系统管理人员查看网络状态,各种系统问题,以及日志等等。 

    Nagios 可以监控的功能有: 

    1. 监控网络服务(SMTP、POP3、HTTP、NNTP、PING等); 2、监控主机资源(处理器负荷、磁盘利用率等); 

    2. 简单地插件设计使得用户可以方便地扩展自己服务的检测方法; 4、并行服务检查机制; 

    3. 具备定义网络分层结构的能力,用”parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态; 

    4. 当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式); 

    5. 可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用; 8、自动的日志滚动功能; 

    6. 可以支持并实现对主机的冗余监控; 

    7. 可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等[2]; 11、可以通过手机查看系统监控信息;

    服务器运维监控软件之SugarNMS

          智和网管平台主要基于SNMP网络协议对服务器进行运维监控,当然如果是其他协议的设备也可以进行协议扩展。

          平台采用了J2SE、XML、Web Service、Web、HTML5、JavaScript、Struts、Spring、Hibernate、SNMP、HTTP、JDBC、Swing、RMI、O-M Mapping、O-R Mapping、Muti-Thread等成熟技术。由表示层、业务层、数据层和设备中间层多层次架构模式组成,提供corba和webservice接口。框架采用设备中间层屏蔽不同厂商设备管理协议的差异,实现支持管理不同类型的被管设备。

    自动发现服务器

          在自动发现的过程中可以搜索到服务器,并识别服务器的厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等。自动设备生成拓扑图。

    这里写图片描述

    服务器综合性能查看

          在拓扑图上选中服务器,点击右键,选择设备综合信息。即可查看服务的总体报告、详细信息、管理建议等信息。

    这里写图片描述

    服务器故障监控

          智和网管平台实时动态监控网络和设备的运行状态。通过告警来反映设备的运行状态。设备的某个故障监视器(工作状态监视器),在某个时刻只能有一个状态。设备有多少个故障监视器,就有多少个对应的状态灯。

          设备和资源图标上会显示设备最严重的状态灯颜色,如设备有4个故障监视器,对应的是红、黄、蓝、绿5个状态灯,那么在设备图标上显示红灯。同样网络图标上会显示网络下最严重的设备状态灯颜色。如网络下有2个设备,一个设备最严重的是红色,另一个设备最严重的是黄色,则网络显示红色。

          智和网管平台实时在拓扑界面、资源视图、全网工作状态、告警列表中显示告警信息。

     

    服务器性能监控

          全面采集服务器资源、应用、服务等性能信息。可将性能信息数据按照时间、资源、性能类型等多种维度以图表等形式展现。支持根据资源类型、监视器种类、时间间隔组合条件查看设备某类资源的实时性能数据;根据时间范围,资源监视器类型以图形和列表的方式展示设备的单个资源的详细性能值。

    这里写图片描述

    其他常用功能

    1. 自动发现:在自动发现的过程中可搜索到网络设备,并识别设备类型和厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等,并发现设备之间的链路关系。

    2. 拓扑管理:以具象化拓扑图方式展示网络设备及其连接关系,用户可编辑。通过拓扑图可以对设备、设备资源、连接进行管理。

    3. 设备管理:通过拓扑视图中,用户可以方便的管理设备及其配置参数。

    4. 设备资源管理:支持在拓扑图的基础上,进一步展示设备细节,包括设备的物理组件,服务器上的服务(Web服务器、中间件应用服务、数据库服务器、邮件服务器)或者用户定义的其他监控对象。

    5. 连接管理:用户可以通过拓扑视图编辑连接,选择连接实时显示的性能数据项。

    6. 安全管理:支持多种安全管理功能,如QOS安全策略、MAC-IP绑定、黑白名单以及准入控制等。

    7. 统计报表:支持多项数据的统计功能,让用户对网络有一个全面直观的了解放。支持将软件中的统计图表导出或打印,以便备份或对比查看。

          整个系统利用智和网管平台开源服务器运维监控解决方案,同时进行二次开发和扩展集成。实现了一套可管理、可监控、可报警的服务器运维监控专家系统。本平台实现了用户对机房的管理与运维监控,更重要的是利用这些信息来与其兄弟单位、子单位以及服务单位的数据对接联通情况。保证了用户可以实时、清晰、准确地了解预报中心各级业务环节的运行状态。一旦出现问题,用户可以及时根据这些信息进行决策,保证业务信息点及时发布。

     

    展开全文
  • 监控易产品运维技术方案,包括所可监控服务器类型、中间件资源、数据库、网络、WEB等各种类型,监控指标设定。平台使用轻量级开发框架,便于维护,方便管理。
  • spotlight 主要是用来监控windows cpu 内存 以及磁盘使用率的工具;提供运维监控软件Spotlight_on_windows_3.2.3软件下载,不含激活码
  • 服务器运维监控知识体系

    千次阅读 2020-05-15 14:24:57
    监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案...

    从来没讲过运维,因为我觉得运维这种东西不需要太多的知识面,然后我一个做了运维朋友告诉我大错特错,他就是从3K的运维一步步到40K的,甚至笑着说:我现在感觉自己什么都能做。

    既然讲,就讲最重要的吧。

    监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案。当然,对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认识。

    一、监控目标

    每个人由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。

     

    1. 对系统不间断的实时监控:实际上是对系统不间断的实时监控(这就是监控);
    2. 实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的状态,是正常、异常、或者故障。
    3. 保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行
    4. 保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。

    二、监控方法

     

    1.了解监控对象:我们要监控的对象你是否了解呢?比如CPU到底是如何工作的?

    2.性能基准指标:我们要监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。

    3.报警阈值定义:怎么样才算是故障,要报警呢?比如CPU的负载到底多少算高,用户态、内核态分别跑多少算高?

    4.故障处理流程:收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗?

    三、监控核心

     

    • 发现问题:当系统发生故障报警,我们会收到故障报警的信息。
    • 定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析。比如一台服务器连不上,我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等,我们就需要去分析故障具体原因。
    • 解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
    • 总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。

    四、监控工具

    下面我们需要选择一款适合公司业务的监控工具进行监控,。这里我对监控工具进行了简单的分类。

     

    1、老牌监控

    • MRTG(Multi Route Trffic Grapher)是一套可用来绘制网络流量图的软件,由瑞士奥尔滕的Tobias Oetiker与Dave Rand所开发,以GPL授权。MRTG最好的版本是1995年推出的,用Perl语言写成,可跨平台使用,数据采集用SNMP协议,MRTG将手机到的数据通过Web页面以GIF或者PNG格式绘制出图像。
    • Ganglia是一个跨平台的、可扩展的、高性能的分布式监控系统,如集群和网格。它基于分层设计,使用广泛的技术,用RRDtool存储数据。具有可视化界面,适合对集群系统的自动化监控。其精心设计的数据结构和算法使得监控端到被监控端的连接开销非常低。目前已有成千上万的集群正在使用这个监控系统,可以轻松地处理2000个节点的集群环境。
    • Cacti(英文含义为仙人掌)是一套基于PHP、MySQL、SNMP和RRDtool开发的网络流量监测图形分析工具,它通过snmpget来获取数据使用RRDtool绘图,但使用者无须了解RRDtool复杂的参数。提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结构、主机设备以及任何一张图,还可以与LDAP结合进行用户认证,同时也能自定义模板。在历史数据展示监控方面,其功能相当不错。Cacti通过添加模板,使不同设备的监控添加具有可复用性,并且具备可自定义绘图的功能,具有强大的运算能力(数据的叠加功能)
    • Nagios是一个企业级监控系统,可监控服务的运行状态和网络信息等,并能监视所指定的本地或远程主机状态以及服务,同时提供异常告警通知功能等。Nagios可运行在Linux和UNIX平台上。同时提供Web界面,以方便系统管理人员查看网络状态、各种系统问题、以及系统相关日志等。Nagios的功能侧重于监控服务的可用性,能根据监控指标状态触发告警。目前Nagios也占领了一定的市场份额,不过Nagios并没有与时俱进,已经不能满足于多变的监控需求,架构的扩展性和使用的便捷性有待增强,其高级功能集成在商业版Nagios XI中。
    • Smokeping主要用于监视网络性能,包括常规的ping、www服务器性能、DNS查询性能、SSH性能等。底层也是用RRDtool做支持,特点是绘制图非常漂亮,网络丢包和延迟用颜色和阴影来标示,支持将多张图叠放在一起,其作者还开发了MRTG和RRDtll等工具。 Smokeping的站点为:http://tobi.oetiker.cn/hp。
    • 开源监控系统OpenTSDB用HBase存储所有时序(无须采样)的数据,来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集,支持永久存储,可以做容量规划,并很容易地接入到现有的告警系统里。OpenTSDB可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的采集指标,并进行存储、索引和服务,从而使这些数据更容易让人理解,如Web化、图形化等。

    2、王牌监控

    • Zabbix是一个分布式监控系统,支持多种采集方式和采集客户端,有专用的Agent代理,也支持SNMP、IPMI、JMX、Telnet、SSH等多种协议,它将采集到的数据存放到数据库,然后对其进行分析整理,达到条件触发告警。其灵活的扩展性和丰富的功能是其他监控系统所不能比的。相对来说,它的总体功能做得非常优秀。从以上各种监控系统的对比来看,Zabbix都是具有优势的,其丰富的功能、可扩展的能力、二次开发的能力和简单易用的特点,读者只要稍加学习,即可构建自己的监控系统。
    • 小米的监控系统:Open-Falcon。Open-Falcon的目标是做最开放、最好用的互联网企业级监控产品。

    3、三方监控

    现在市场上有很多不错的第三方监控,比如:监控宝、监控易、听云、还有很多云厂商自带监控,但在这里我不打算着重介绍,如果想了解三方监控可自行上官网咨询。(避免说广告植入)

    五、监控流程

    上面介绍了这么多,到底选择什么监控工具最合适呢?我这里推荐几款开源监控工具:Zabbix、Open-Falcon、LEPUS天兔(专用于监控数据库)。但本文还是基于Zabbix来构建整个监控体系生态圈。 下面我们就来聊聊Zabbix的整个流程:

     

    1. 数据采集:Zabbix通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集;
    2. 数据存储:Zabbix存储在MySQL上,也可以存储在其他数据库服务;
    3. 数据分析:当我们事后需要复盘分析故障时,Zabbix能给我们提供图形以及时间等相关信息,方面我们确定故障所在;
    4. 数据展示:Web界面展示、(移动APP、java_php开发一个Web界面也可以);
    5. 监控报警:电话报警、邮件报警、微信报警、短信报警、报警升级机制等(无论什么报警都可以);
    6. 报警处理:当接收到报警,我们需要根据故障的级别进行处理,比如:重要紧急、重要不紧急,等。根据故障的级别,配合相关的人员进行快速处理。

    六、监控指标

    上面了解了监控方法、目标、流程、也了解了监控有哪些工具,可能有人会疑惑,我们具体要监控些什么东西,在这里我进行了分类整理,包含硬件监控、系统监控、应用监控、网络监控、流量分析、日志监控、安全监控、API监控、性能监控、业务监控。

    1、硬件监控

    早期我们通过机房巡检的方式,查看硬件设备灯光闪烁情况判断是否故障,这样非常浪费人力,并且是重复性无技术含量的工作,大家懂得。

     

    当然我们现在可以通过IPMI对硬件详细情况进行监控,并对CPU、内存、磁盘、温度、风扇、电压等设置报警设置报警阈值(自行对监控报警内容编写合理的报警范围) 。

    IPMI监控硬件服务参考资料:Zabbix IPMI Interface

     

    2、系统监控

    中小型企业基本全是Linux服务器,那么我们肯定是要监控起系统资源的使用情况,系统监控是监控体系的基础。

    监控主要对象:

     

    CPU有几个重要的概念:上下文切换、运行队列和使用率。这也是我们CPU监控的几个重点指标。

    通常情况,每个处理器的运行队列不要高于3,CPU 利用率中用“户态/内核态”比例维持在70/30,空闲状态维持在50%,上下文切换要根据系统繁忙程度来综合考量。

    针对CPU常用的工具有:htop、top、vmstat、mpstat、dstat、glances。Zabbix提供系统监控模板:Zabbix Agent Interface。

     

    CPU整体状态

     

    上下文切换

     

    负载状态

    内存:通常我们需要监控内存的使用率、SWAP使用率、同时可以通过Zabbix描绘内存使用率的曲线图形发现某服务内存溢出等。

    针对内存常用的工具有:free、top、vmstat、glances。

     

    内存使用率

    IO分为磁盘IO和网络IO。除了在做性能调优我们要监控更详细的数据外,日常监控只关注磁盘使用率、磁盘吞吐量、磁盘写入繁忙程度,网络也是监控网卡流量即可。常用工具有:iostat、iotop、df、iftop、sar、glances。

     

    磁盘使用率

     

    磁盘读/写吞吐

     

    网卡进出口流量

     

    TCP11种状态信息

    其它系统监控还有运行的进程端口、进程数、登陆用户、Open File等(详细查看Zabbix自带OS Linux模板)。

     

    其它相关监控

    3、应用监控

    把硬件监控和系统监控研究明白后,我们进一步操作是需要登陆到服务器上查看服务器运行了哪些服务,都需要监控起来。

    应用服务监控也是监控体系中比较重要的内容,例如:LVS、HAProxy、Docker、Nginx、PHP、Memcached、Redis、MySQL、RabbitMQ等,相关的服务都需要使用zabbix监控起来。

     

    nginx_status

     

    PHP-FPM_status

     

    Redis_status

     

    JVM监控

    笔者之前写过服务监控详细的操作过程,这里就不一一展示,详情访问:Zabbix监控各种应用服务。

    • Zabbix提供应用服务监控:Zabbix Agent UserParameter
    • Zabbix提供的Java监控:Zabbix JMX Interface
    • Percona提供MySQL数据库监控:percona-monitoring-plulgins

    4、网络监控

    作为一个针对全国用户的电商网站,时刻掌握各地到机房的网络状态也是必须的。

    网络监控是我们构建监控平台是必须要考虑的,尤其是针对有多个机房的场景,各个机房之间的网络状态,机房和全国各地的网络状态都是我们需要重点关注的对象,那如何掌握这些状态信息呢?我们需要借助于网络监控工具Smokeping。

    Smokeping 是rrdtool的作者Tobi Oetiker的作品,是用Perl写的,主要是监视网络性能,www服务器性能,DNS查询性能等,使用rrdtool绘图,而且支持分布式,直接从多个agent进行数据的汇总。

    同时,由于自己监控点比较少,还可以借助很多商业的监控工具,比如监控宝、基调、博瑞等。同时这些服务提供商还可以帮助你监控CDN的状态。

     

    监控宝

    5、流量分析

    网站流量分析对于运维人员来说,更是一门必须掌握的知识了。比如对于一家电商公司来说:通过对订单来源的统计和分析,可以了解我们在某个网站上的广告投入有没有收到预期的效果。 可以区分不同地区的访问人数、甚至商品交易额等。百度统计、Google分析、站长工具等,只需要在页面嵌入一个js即可。

    但是,数据始终是在对方手中,个性化定制不方便,于是Google出一个叫Piwik的开源分析工具。

     

    piwik

     

    百度统计

    6、日志监控

    通常情况下,随着系统的运行,操作系统会产生系统日志,应用程序会产生应用程序的访问日志、错误日志,运行日志,网络日志,我们可以使用ELK来进行日志监控。

    对于日志监控来说,最见的需求就是收集、存储、查询、展示,开源社区正好有相对应的开源项目:Logstash(收集)+ElasticSearch(存储+搜索)+Kibana(展示)。

    我们将这三个组合起来的技术称之为ELK Stack,所以说ELK Stack指的是Elasticsearch、Logstash、Kibana技术栈的结合。

    如果收集了日志信息,部署更新有异常出现,可以立即在Kibana上看到。

     

    ELK日志展示

    当然也可以通过Zabbix过滤错误日志来进行告警。

     

    Zabbix日志展示

    7、安全监控

    虽然Linux开源的安全产品不少,比如四层iptables,七层WEB防护Nginx+Lua实现WAF,最后将相关的日志都收至ELkstack,通过图形化进行不同的攻击类型展示。但是始终是一件比较耗费时间,并且个人效果并不是很好。这个时候我们可以选择接入第三方服务厂商。

     

     

     

    某某三方安全

    三方厂商提供全面的漏洞库,涵盖服务、后门、数据库、配置检测、CGI、SMTP等多种类型。

    全面检测主机、Web应用漏洞自主挖掘和行业共享相结合第一时间更新0-day漏洞,杜绝最新安全隐患。

    8、API监控

    由于API变得越来越重要,很显然我们也需要这样的数据来分辨我们提供的 API是否能够正常运作。

    监控API接口GET、POST、PUT、DELETE、HEAD、OPTIONS的请求。可用性、正确性、响应时间为三大重性能指标。

     

    API监控

     

    三方API监控

     

     

    响应时间

    9、性能监控

    全面监控网页性能,DNS响应时间、HTTP建立连接时间、页面性能指数、响应时间、可用率、元素大小等。Zabbix提供URL监控:Zabbix Web 监控。

     

    Zabbix站点监控

     

     

    终端响应时间

    第三方监控监控大盘。各类图表一目了然,全面体现网页性能健康状况。

    10、业务监控

    没有业务指标监控的监控平台,不是一个完善的监控平台,通常在我们的监控系统中,必须将我们重要的业务指标进行监控,并设置阈值进行告警通知。比如电商行业:

    每分钟产生多少订单、每分钟注册多少用户、每天有多少活跃用户、每天有多少推广活动、推广活动引入多少用户、推广活动引入多少流量、推广活动引入多少利润等,重要指标都可以加入Zabbix上,然后通过Screen展示。

    注:由于业务监控图表,涉及到隐私的数据太多,就不截图了。

    七、监控报警

    故障报警通知的方式有很多种,当然最常用的还是短信和邮件。

     

     

    短信报警

     

    邮件报警

    八、报警处理

    一般报警后故障如何处理,首先我们可以通过告警升级机制先自动处理,比如Nginx服务down了,可以设置告警升级自动启动Nginx。

    但是如果一般业务出现了严重故障,我们通常根据故障的级别、业务,来指派不同的运维人员进行处理。

    当然不同业务形态、不同架构、不同服务可能采用的方式都不同,这个没有一个固定的模式套用。

     

    九、面试监控

    在运维面试中,常常会被问题监控相关的问题,这个问题到底该如何来回答,我针对本文给大家提供了一个简单的回答思路

    1、硬件监控

    通过SNMP来进行路由器交换机的监控(这些可以跟一些厂商沟通来了解如何做)、服务器的温度以及其它,可以通过IPMI来实现。当然如果没有硬件全都是云,直接跳过这一步骤。

    2、系统监控

    如CPU的负载,上下文切换、内存使用率、磁盘读写、磁盘使用率、磁盘inode使用率。当然这些都是需要配置触发器,因为默认太低会频繁报警。

    3、服务监控

    比如公司用的LNMP架构,Nginx自带Status模块、PHP也有相关的Status、MySQL的话可以通过Percona官方工具来进行监控。Redis这些通过自身的info获取信息进行过滤等。方法都类似。要么服务自带。要么通过脚本来实现想监控的内容,以及报警和图形功能。

    4、网络监控

    如果是云主机又不是跨机房,那么可以选择不监控网络。当然你说我们是跨机房以及如何如何,推荐使用smokeping来做网络相关的监控,或者直接交给你们的网络工程师来做,因为术业有专攻。

    5、安全监控

    如果是云主机可以考虑使用自带的安全防护。当然也可以使用iptables。如果是硬件,那么推荐使用硬件防火墙。使用云可以购买防DDOS,避免出现故障导致down机一天。如果是系统,那么权限、密码、备份、恢复等基础方案要做好。Web同时也可以使用Nginx+Lua来实现一个Web层面的防火墙。当然也可以使用集成好的OpenResty。

    6、Web监控

    Web监控的话题其实还是很多。比如可以使用自带的Web监控来监控页面相关的延迟、js响应时间、下载时间、等等。这里我推荐使用专业的商业软件监控宝或听云来实现。毕竟人家全国各地都有机房(如果本身是多机房那就另说了)。

    7、日志监控

    如果是Web的话可以使用监控Nginx的50x、40x的错误日志,PHP的ERROR日志。其实这些需求无非是,收集、存储、查询、展示,我们其实可以使用开源的ELKStack来实现。Logstash(收集)、Elasticsearch(存储+搜索)、Kibana(展示)。

    8、业务监控

    上面做了那么多,其实最终还是保证业务的运行。这样我们做的监控才有意义。所以业务层面这块的监控需要和开发以及总监开会讨论,监控比较重要的业务指标,(需要开会确认)然后通过简单的脚本就可以实现,最后设置触发器即可 。

    9、流量分析

    平时我们分析日志都是拿awk sed xxx一堆工具来实现。这样对我们统计IP、PV、UV不是很方便。那么可以使用百度统计、Google统计、商业,让开发嵌入代码即可。为了避免隐私也可以使用Piwik来做相关的流量分析。

    10、可视化

    通过Screen以及引入一些第三方的库来美化界面,同时我们也需要知道,订单量突然增加、突然减少。或者说突然来了一大波流量,这流量从哪儿来,是不是推广了,还是被攻击了。可以结合监控平来梳理各个系统之间的业务关系。

    11、自动化监控

    如上我们做了那么多的工作,当然不能是一台一台的来加key实现。可以通过Zabbix的主动模式以及被动模式来实现。当然最好还是通过API来实现。

    总结

    真正想做到更完整的监控体系,目前的开源软件确实无法很好地满足,有条件的公司都开始自己开发自己的监控系统,比如小米开源的Open-Falcon。

    也有比较好的开源的监控框架如Sensu等,再加上InfluxDB、Grafana可以用来定制符合自己企业的监控平台。

    展开全文
  • 目录 1、zabbix 2、Nagios 3、Performance Co-Pilot 4、Anturis 5、SeaLion ...zabbix是一个基于WEB界面的...abbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决

    目录

    1、zabbix

    2、Nagios

    3、Performance Co-Pilot

    4、Anturis

    5、SeaLion

    6、Icinga

    7、Munin

    8、Monit

    9、Simple Server Monitor

    10、SysUsage

    11、Pingdom


    1、zabbix

    zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。abbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。

    2、Nagios

    Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的状态,交换机路由器等网络设备,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

    3、Performance Co-Pilot

    Performance Co-Pilot,简称PCP,是一个系统性能分析框架。它收集并分析来自多个主机的各种性能指标。可以通过它观察指标走向的趋势,以帮助您快速识别异常所在点。它提供API,可依据此来开发自定义的监控和报告解决方案。

    4、Anturis

    Anturis是一个基于云的SaaS平台,可监控windows和linux服务器,网站和IT基础架构。通过全面的监控解决方案列表,让管理员快速了解整体主机或者服务器瓶颈与风险。

    5、SeaLion

    SeaLion是一个基于云的Linux服务器监控工具。也是通过统一的仪表盘监控所有服务器指标。它只需几分钟即可完成设置,它具有即时报警功能,以便在发生问题时,可以快速收到通知和每日数据摘要等。

    6、Icinga

    Icinga是一个免费的开源监控系统,可以检查服务器资源的可用性。它会记录服务器问题并在停机的时候通知您。

     

    7、Munin

    Munin是一个网络和系统监控工具,可帮助您分析服务器资源趋势。它旨在成为一个即插即用的解决方案。安装后无需太多额外工作即可收集关键信息。Munin主要功能是有效分析服务器资源优势,属于网络及系统监控的工具。

    8、Monit

    Monit是一个用于管理和监控Unix系统的开源工具。Monit可以进行自动维护和维修。如果出现错误情况,Monit可以自动触发保护行为,例如;如果sendmail(linux的邮件代理程序)没有运行,Monit可以自动重新启动sendmail,或者如果apache使用了太多的资源(例如,如果正在进行DoS攻击),Monit可以停止或重启apache并向您发送报警。Monit还可以监视进程特征,比如;进程使用的内存。

    9、Simple Server Monitor

    Simple Server Monitor这款服务器的监控工具,使用起来相当方便,功能也很强大,成本也相当划算。Simple Server Monitor可以有效的监控WEB应用程序以及服务器运行情况。

    10、SysUsage

    SysUsage使用Sar(Sysstat)和其他系统命令监视您的系统活动。它有一个阈值通知系统,可以在服务器的功能接近极限时提醒您。

    11、Pingdom

    Pingdom可以对互联网上很多地方的服务器以及网站进行监控,以保证他们可以有效的运行。通过Pingdom,可以对电子邮件的服务器、FTP服务器、受密码所保护的那些网站进行监控。

    转载于:开源Linux

    展开全文
  • 运维监控不可忽视的指标
  • 多年以来一直以稳定运行为前提,确保业务永不掉线,带领运维团队自主开发了运维系统,包含,资产管理,工单管理,监控系统,域名管理,公有云管理,私有云管理等平台,并将运维数据进行分析整理,将运维工作透明化,...
  • 高性能Linux服务器构建实战运维监控、性能调优与集群应用,所有代码和书中使用的软件包
  • 云智慧有幸邀请到精硕科技运维总监顾凯先生,为大家带来《从几台到几千台的运维经历》精彩分享。 AdMaster精硕世纪科技(北京)有限公司是领先的营销数据技术公司,利用先进的大数据技术帮助品牌指导营销策略并预先...
  • 运维服务器的事前检查和监控存在不能及时预警的问题、如:数据备份、安全监控、故障避免预防、事中操作、事后检查分析、搭建报警,及时获得出错信息等维度来及时预防等相关措施、降低服务器存在的安全风险
  • 服务器运维监控项总结

    千次阅读 2014-11-28 09:35:13
    服务器监控的对象进行分类,可以归纳为硬件资源类、服务资源类和自定义的资源类。 1、硬件资源类包括: CPU使用率CPU负载内存使用率磁盘空间使用率磁盘I/O网络流量系统进程数 2、服务资源类包括(Linux平台上...
  • 常见的17种运维软件

    万次阅读 2019-03-08 20:25:00
    1. Zabbix Zabbix 作为企业级的网络监控工具,通过从...Zabbix的企业级监控软件为用户提供内置的Java应用服务器监控,硬件监控,VMware监控和CPU,内存,网络,磁盘空间性能监控。 该企业级网络监控工具能够每...
  • 详解十三款运维监控工具

    千次阅读 2020-06-02 13:02:51
    纵观我们部署在基础设施当中并始终保持运作的全部测量机制,监控系统无疑是重要性最高的机制之一,但它却常常遭到我们的忽视。如果能够建立起一套坚实的监控系统来针对可能发生的灾难加以警示,我们就有机会迅速启动...
  • WGCLOUD的server基于springboot架构开发,agent采用go开发,核心模块包括:主机监控,ES集群监控,CPU监控,CPU温度监控,大屏看板,docker监控,网络流量监控,内存监控,业务数据监控(mysql,oracle,pg等),服务...
  • 目前市面上企业网络运维监控软件比较多,质量也是参差不齐。因此很多企业在选择时候非常盲目,不知道哪款比较适合自己。为此我们小编给大家汇总了11款企业网络运维监控软件,大家可以先了解再做选择。 11款企业网络...
  • 服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地...
  • 服务器运维用什么软件好?因此我们小编针对着三家问题进行了详细解答,希望可以帮到大家。 服务器运维是什么意思?日常工作包含哪些? 服务器运维,顾名思义就是把服务器“伺候”好了不出问题,保证服务器在产品上线...
  • OSA开源运维监控管理平台是由OSA开发团队,针对目前服务器运维监控和报警提出的一个开源、 易用、实用的跨平台服务器运维管理平台;OSA运维管理平台除了满足运维需求,还引导用户进行知识管理,流程规范,日常学习等...
  • TCP的连接状态对于我们web服务器来说是至关重要的,尤其是并发量ESTAB,或者是syn_recv值,假如这个值比较大的话我们可以认为是不是受到了攻击;time_wait值比较高的话,我们要考虑看我们内核是否需要调优,太高的...
  • 宝塔Linux面板是提升运维效率的服务器管理软件,支持一键LAMP/LNMP/集群/监控/网站/FTP/数据库/JAVA等100多项服务器管理功能。有20个人的专业团队研发及维护,经过200多个版本的迭代,功能全,少出错且足够安全,已...
  • 服务器运维工程师工作的具体内容 服务器运维工程师需要收集整理所有技术问题和客户意见反馈给相关部门或人员下面是小编整理的服务器运维工程师工作的具体内容 服务器运维工程师工作的具体内容1 职责 1负责公司网站...
  • Jpom(Java Project Online Management)Java项目在线管理 你为什么需要Jpom SpringBoot、Jboot等框架开发的项目通常是以Jar的方式在后台运行的,如果只有一两个项目,管理起来不是太...项目的堆栈信息,服务器CP...
  • 控制路径与数据路径相分离 , 避免服务器成为数据传输路径上的瓶颈 基于元数据存储的虚拟存储管理平台原理 客户端 元数据服务器 存储集群 元数据操作 文件操作 元数据 I/O 强大的云平台安全管理 云计算环境下各种...
  • 运维,送你7个常用的服务器资源监控工具

    千次阅读 多人点赞 2021-01-07 11:48:04
    摘要:服务器监控工具功能相当强大,无论何时何地,我们都可以了解到服务器的功能以及性能。服务器监控工具的使用,可以让我们清楚的知道用户可以打开我们的网站,且确保网速不慢。这里为你列出了几个常用的服务器...
  • 公司大概有5000+以上的服务器节点,包括各种应用,我和同事共同维护大约...服务器型号的区分,为以后的统一化和标准化作硬件上的准备,很多人忽视这一点,其实如果这一点做得好会使后面的运维工作轻松很多,根据应用...
  • 常用的17个运维监控系统(必备知识)

    万次阅读 多人点赞 2018-08-16 10:58:31
    Zabbix的企业级监控软件为用户提供内置的Java应用服务器监控,硬件监控,VMware监控和CPU,内存,网络,磁盘空间性能监控。 该企业级网络监控工具能够每分钟进行 3,000,000 次检查,具有更高的安全性和数据中心监控...
  • 运维工作梳理

    千次阅读 多人点赞 2019-12-19 07:44:12
    1.1 inux运维的主要工作内容 1、什么是linux运维 ...运维又包括很多种,有DBA运维、网站运维、虚拟化运维、监控运维、游戏运维等等。 运维分类: 1)开发运维:是给应用运维开发运维工具和运维平台的 2)...
  • 服务器软件系统日常运维工作制度

    千次阅读 2018-11-22 15:47:38
    1、负责服务器的硬件配置、软件安装、机房上下架等技术维护工作 2、负责虚拟化技术产品物理机配置、管理和日常运行监控和维护 3、负责独立主机或虚拟应用产品的开通使用、日常维护、故障诊断和排除 4、提供独立主机...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 85,286
精华内容 34,114
关键字:

服务器监控运维软件