精华内容
下载资源
问答
  • 运维监控
    2022-04-26 10:57:16
    监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要。
    有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作。

    现在运维监控工具非常多,哪个好,哪个不好,哪个适合你,哪个不适合你,其实只有你了解了他们的特性后,才知道。

    1、Cacti

    Cacti是一套基于PHP、MySQL、SNMP及RRDTool开发的网络流量监测图形分析工具。

    简单的说Cacti就是一个PHP程序。它通过使用SNMP协议获取远端网络设备和相关信息,(其实就是使用Net-SNMP 软件包的snmpget 和snmpwalk 命令获取)并通过RRDTOOL工具绘图,通过PHP程序展现出来。我们使用它可以展现出监控对象一段时间内的状态或者性能趋势图。

    Cacti是很老的一款监控工具了,其实说它是一款流量监控工具更合适,对流量监控比较精准,但缺点很多,出图不好看,不支持分布式,也没有告警功能,所以使用的人会越来越少。

    2、Nagios

    Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

    Nagios主要的特征是监控告警,最强大的就是告警功能,可支持多种告警方式,但缺点是没有强大的数据收集机制,并且数据出图也很简陋,当监控的主机越来越多时,添加主机也非常麻烦,配置文件都是基于文本配置的,不支持web方式管理和配置,这样很容易出错,不宜维护。

    3、Zabbix

    Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供强大的通知机制以让系统运维人员快速定位/解决存在的各种问题。

    Zabbix由2部分构成,zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux, Solaris, HP-UX, AIX, Free BSD, Open BSD, OS X等平台上。

    Zabbix解决了cacti没有告警的不足,也解决了nagios不能通过web配置的缺点,同时还支持分布式部署,这使得它迅速流行起来,zabbix也成为目前中小企业监控最流行的运维监控平台。

    当然,Zabbix也有不足之处,它消耗的资源比较多,如果监控的主机非常多时,可能会出现监控超时、告警超时等现象,不过也有很多解决办法,比如提高硬件性能、改变zabbix监控模式等。

    4、Ganglia

    Ganglia是一款为HPC(高性能计算)集群而设计的可扩展的分布式监控系统,它可以监视和显示集群中的节点的各种状态信息,它由运行在各个节点上的gmond守护进程来采集CPU 、内存、硬盘利用率、I/O负载、网络流量情况等方面的数据,然后汇总到gmetad守护进程下,使用rrdtool存储数据,最后将历史数据以曲线方式通过PHP页面呈现。

    Ganglia监控系统有三部分组成,分别是gmond、gmetad、webfrontend。gmond安装在需要收集数据的客户端,gmetad是服务端,webfrontend是一个php的web ui界面,ganglia通过gmond收集数据,然后在webfrontend进行展示。

    Ganglia的主要特征是收集数据,并集中展示数据,这是ganglia的优势和特色,ganglia可以将所有数据汇总到一个界面集中展示,并且支持多种数据接口,可以很方面的扩展监控,同时,最为重要的是,ganglia收集数据非常轻量级,客户端的gmond程序基本不耗费系统资源,而这个特点刚好弥补了zabbix消耗性能的不足。

    最后,Ganglia在对大数据平台的监控更为智能,只需要一个配置文件,即可开通Ganglia对hadoop、spark的监控,监控指标有近千个,完全满足了对大数据平台的监控需求。

    5、Centreon

    Centreon是一款功能强大的分布式IT监控系统,它通过第三方组件可以实现对网络、操作系统和应用程序的监控:首先,它是开源的,我们可以免费使用它;其次,它的底层采用类似nagios的监控引擎作为监控软件,同时监控引擎通过ndoutil模块将监控到的数据定时写入数据库中,而Centreon实时从数据库读取该数据并通过Web界面展现监控数据;最后,我们可以通过Centreon web一键管理和配置主机,或者说Centreon就是nagios的一个管理配置工具,通过Centreon提供的Web配置界面,可以轻松完成nagios需要手工配置主机和服务的不足。

    Centreon的强项是一键配置和管理,并支持分布式监控,nagios能够完成的功能,通过centreon都能实现,同时,centreon还可以和ganglia进行集成,centreon将ganglia收集到的数据进行整合,可以实现主机自动加入监控以及自动告警的功能。

    6、Prometheus

    Prometheus是一套开源的系统监控报警框架,它既适用于面向服务器等硬件指标的监控,也适用于高动态的面向服务架构的监控。对于现在流行的微服务,Prometheus的多维度数据收集和数据筛选查询语言也是非常的强大。Prometheus是为服务的可靠性而设计的,当服务出现故障时,它可以使你快速定位和诊断问题。

    7、猎报安全

    作为一款国内开发的运营工具,猎豹安全依托传统态势感知平台通过收集大量日志,将安全事件与相关日志进行关联,发现威胁事件。通过引入全球先进的威胁情报数据,一方面威胁情报是经过验证的恶意攻击资产信息,可过滤大量误报,并对威胁事件赋予优先级,指导客户用有限资源应对关键问题;另一方面,通过威胁情报丰富的上下文信息深入分析了解威胁事件的本质、意图、技术和造成损害,增强深入分析能力,有效指导响应处置工作。

    更多相关内容
  • OSA开源运维监控管理平台是由OSA开发团队,针对目前服务器运维、监控和报警提出的一个开源、 易用、实用的跨平台服务器运维管理平台;OSA运维管理平台除了满足运维需求,还引导用户进行知识管理,流程规范,日常学习等...
  • 运维监控不可忽视的指标
  • 运维监控体系

    2021-02-24 12:05:07
    监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力,效率最高的方案...
  • 上篇文章《建设DevOps统一运维监控平台,先从日志监控说起》主要从日志监控的方面进行了分享,本篇文章则是重点在系统监控层面进行分享。目录:一、统一监控平台架构解析二、系统监控的技术栈三、开源系统监
  • 运维监控系统告警收敛的算法研究与应用 运维监控系统告警收敛的算法研究与应用 运维监控系统告警收敛的算法研究与应用 运维监控系统告警收敛的算法研究与应用
  • 了解并且构建运维监控平台,是企业必不可少的基础组件;
  • Zabbix运维监控平台解决方案.doc
  • 云时代监控分析的窘境在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据。传统的监控工具在这种场景下,对于数据的提取分析,已经...
  • spotlight 主要是用来监控windows cpu 内存 以及磁盘使用率的工具;提供运维监控软件Spotlight_on_windows_3.2.3软件下载,不含激活码
  • it运维监控管理.pdf

    2021-09-25 21:57:12
    it运维监控管理.pdf
  • 金融行业IT运维监控体系建设内幕.docx
  • 自动化运维监控工具.zip zabbix nagios ganglia zenoss core hyperic HQ ...
  • #资源达人分享计划#
  • 包含主机,redis,tomcat,nginx,mq,url,mysql,oracle,sqlsever,pg等监控及巡查指标
  • 运维监控系统清单.doc

    2022-06-28 22:08:13
    运维监控系统清单 "序号 "采购内容 "数量 "单位 "预算(万元) " "1 "运维监控系统 "1 "套 "9 " 运维监控系统参数要求 "货物名称 "功能及要求 "数量 " "运维监 "总体要求 "产品标配硬件产品,无需单独购买服务器安装...
  • 运维监控系统培训 省公司建维部 2015年10月12日 运维监控系统培训全文共99页,当前为第1页。 浏览器地址栏中,输入系统地址:http://101.227.240.110:8989,出现系统首页界面,如图所示,点击"登录"链接,出现登陆框...
  • 运维监控都监控些什么

    千次阅读 2021-05-17 14:21:21
    什么是运维监控? 今天所讲的运维监控不是视频的监控,也不是那种上网行为的监控,确切的讲我们可以叫他IT运维管理系统,也就是专门针对一些有一定IT规模的有idc机房的一些企业提供的管理软件,也就是我们所说的...

    什么是运维监控?

    今天所讲的运维监控不是视频的监控,也不是那种上网行为的监控,确切的讲我们可以叫他IT运维管理系统,也就是专门针对一些有一定IT规模的有idc机房的一些企业提供的管理软件,也就是我们所说的网管软件,网管软件发展到今天不仅仅是提供监控的功能了,而是更多的参与到了IT的管理,如果利用好收集来的数据能为其他部门甚至整个公司带来很大的方便和效益。

    运维监控可以监控管理的设备有哪些

    我们习惯把监控的IT设备叫做IT元素并且对他们进行了分类,这样做也是为了方便让使用者梳理自己的资产,我们把他们分成了6大元素分别是:网络设备,系统,数据库,中间件,存储,应用,除了这常见的六大类还可以监控管理到虚拟化,云平台还有物联网的的一些设备

    可以监控管理的品牌

    不管是网络设备,数据库,中间件,还是安全设备涉及的品牌以及同一厂家的版本都是繁多的,但是我们的运维监控系统是都可以统一纳入监控的,可以说目前市面上的品牌我们都可以监控的到,能监控这么多的品牌一个是得益于自己本身多年的积累,还有就是我们可以自定义监控器,也就是说如果某个厂家新出了一款设备如果运维监控系统监控不到的话,咱们可以自定义一个适配的监控器来对他进行管理,而且以后再出现同类型的就可以直接监控了,非常的方便。

     

    可以监控管理到哪些数据

    从图片可以看出我们可以监控到硬件cpu,内存,风扇,端口等信息,当然不是所有的设备都可以监控这样全面,因为每个设备的厂家吐出的信息是不一样的,比如有些设备他是不吐出内存信息的,如果厂家的Snmpwalk本来就没有吐出这些信息无论谁你功能有多强大都不会监控到它的信息的,相反只要Snmpwalk吐出的信息咱们都可以获取到

     

    展开全文
  • 智慧方案
  • 运维监控软件

    2018-11-18 22:19:32
    保证有用,内有3个监控软件。
  • 当今监控乃至整个运维行业正处在变更之际,面对诸多变化和不确定性,运维监控的规划应该首先考虑保证技术投资的可持续性,避免锁定在某一具体的架构和方案上,而是立足核心技术要点与诉求,跟随技术潮流,平滑演进,...

    当今监控乃至整个运维行业正处在变更之际,面对诸多变化和不确定性,运维监控的规划应该首先考虑保证技术投资的可持续性,避免锁定在某一具体的架构和方案上,而是立足核心技术要点与诉求,跟随技术潮流,平滑演进,保持技术先进性,在演进过程中分阶段持续输出业务价值。本文将介绍几种常见运维监控系统的技术选型。

    监控系统的功能

    监控系统是运维系统或平台系统中较为核心的组成部分,它承载了运维工作中数据闭环的部分。从功能角度,监控系统分为数据采集功能、数据上报功能、数据存储功能、告警功能、大屏功能、报表功能等功能模块;从技术场景角度,监控系统又可以分为机房监控、硬件监控、网络监控、操作系统监控、中间件监控、云平台监控、业务监控、拨测监控等垂直技术领域;从业务场景角度,监控系统还可以分为资源类监控、成本类监控、审计类监控、质量类监控、运营类监控、安全类监控等垂直业务领域。

    无论从哪个角度划分,监控系统的核心职责是保证平台所有信息的及时采集、正确处理、准确告警和合理展示。

    监控系统的工作位置

    运维负责支撑业务模块的正常运行,这需要从最底层的云或硬件开始构建运维技术栈,按下图所示,一般来说运维技术栈的职能从下往上依次包括环境(如 IDC 机房)、设备(如云主机、硬盘)、基础软件系统(如 linux)、部署和管理(如 docker、k8s)、中间件(如 mysql 数据库)、业务调度,最终到最上层的业务模块。不同公司、不同业务场景下,运维的技术栈的实现方式会有很大区别,但从功能上不会超出下图所示的范围。

    在运维技术栈中,监控系统(如上图右侧所示)需要在垂直维度上负责所有层次、所有组件的工作状态收集和风险预警。监控系统的工作位置贯穿了运维技术栈的所有层次,这对监控系统在技术上的全面性、可靠性和工程上的强度提出很高要求。

    监控系统的核心组件

    数据采集器

    数据采集器一般是支持插件机制的数据采集和数据上报工具。它可以从自己所运行的系统上直接采集相关运维数据,或从其它系统的 API 中获得数据,亦或是从系统或第三方组件中监听监控数据。

    数据存储仓库

    数据存储仓库通常是时间序列数据库,它负责处理大量的监控数据写入和复杂的监控数据查询。数据存储仓库一般需包含数据压缩、数据过期、聚合运算等必须功能。

    用户操作和可视化界面

    用户操作界面是用户管理监控系统的入口,它必须使对监控指标和告警的管理易用并可维护;数据可视化界面负责提供监控数据的展示,它必须支持必要的时序数据展示手法,并支持一定程度上灵活的查询能力。

    数据处理引擎

    数据处理引擎处理数据存储仓库中的时间序列数据,一般要支持流式处理和批量处理。数据处理引擎一个最重要的功能是对监控告警的计算。

    监控系统的关键技术

    监控系统在技术上涵盖面广、技术栈深,容易存在技术风险。在设计或评估一个监控系统时,我们要格外关注以下关键技术:

    收集器

    收集器决定了监控数据的来源,收集器的好坏决定了监控数据的覆盖面、数据质量和及时性。一个好的监控系统应该配备大量针对常见技术场景的收集器,并提供方便的自定义数据接口。标准场景的监控数据占所有监控数据的 70% 左右,大量的标准收集器可以大大降低监控系统的持有成本;自定义监控数据占所有监控数据的 30% 左右,设计良好的自定义监控数据接口可以更好的调度、组织和收集自定义数据源,并为后续的二次开发工作夯实工程基础。

    时间序列存储技术

    时间序列的管理、存储和处理是监控闭环中的核心环节,在设计或评估一个监控系统时应着重考察时间序列存储的技术方案。时间序列技术的关键点在于可用性、可靠性、压缩比、旧数据清理、指标项管理、多维度聚合等多个方面。

    查询语言和查询效率

    查询语言是监控数据的查询接口,好的查询语言可以极大释放监控数据的价值,而不好的查询语言会限制对监控数据的进一步加工和使用(有些监控系统不支持通过语句方式查询数据,应该避免选择这样的方案)。数据的查询效率会影响监控系统的使用效率,尤其在告警计算、报表生成、数据统计等使用场景下,低下的查询效率会极大影响对数据使用方式的想象空间。

    告警策略的配置方式

    对告警策略配置方式的考量,应该以灵活性和可维护性为目标。混合架构、微服服等新技术催生了更现代化的业务系统技术栈,这对告警策略的灵活性提出更高要求,告警策略应该支持条件告警、组合条件告警、同比环比、回归、线性拟合等高级功能,最好能支持基于聚类算法的告警合并(基于聚类算法的告警合并是目前业界普遍认为最有效也是最可落地的告警合并方法);云原生、容器带来高动态的服务端环境,这样的环境需要可维护性更强的告警策略配置方式,业务环境高频甚至自动变化,缺乏可维护性的告警策略配置方式会导致监控系统的配置无法跟上业务环境的变化,不但耗费大量人力,还容易导致漏配、错配。

    API 和二次开编程接口

    基础设施可编程逐渐将运维工作软件化,这股软化趋势不断向运维技术栈的上部蔓延。监控系统作为运维系统的中枢需要具有强大的 API 和二次编程接口才能与 CMDB、虚拟化环境、部署系统(CI、CD)、运维自动化系统等其它运维子系统良好配合,协同工作;孤立的监控系统会形成数据孤岛,成为运维工作流中的瓶颈点,影响运维系统的整体规划与技术演进。

    常见技术选型

    Zabbix

    使用原生 Zabbix 方案,通过 Zabbix agent 采集数据;通过 Zabbix server 接收、存储数据并计算告警;通过 Zabbix web UI 或 Grafana 展示数据;通过 shell 脚本收集自定义监控数据,如下图所示:

    优点:方案成熟、初期持有成本低

    缺点:超过 1000 台服务器时存在性能和管理效率瓶颈;自定义脚本维护成本高;可扩展性差。

    Zabbix + 二次开发

    基于 Zabbix server 的数据存储和告警计算能力,使用部分 Zabbix agent 内置监控指标;自研数据上报器管理和收集自定义监控指标数据;通过 CMDB 或服务器统一管理告警配置和自定义收集并自动同步给 Zabbix server 和数据上报器;Zabbix server 产生告警后发送至告警中心,由告警中心统一管理告警并发送。如下图:

    优点:告警配置和自定义收集统一管理,并可贴合自身业务场景定制,运维体验较好,可维护性强。

    缺点:超过 1000 台服务器时存在性能和管理效率瓶颈;数据能力弱;技术投资不具备可持续性,后续运维智能化、数据驱动等技术路线锁死。

    Prometheus

    使用原生 Prometheus 方案,能过开源社区的 exporter 采集数据,通过 Prometheus 存储数据,通过 AlertManager 计算并发送告告警,通过 Grafafa 展示数据,如下图:

    优点:开源社区大量收集器可以直接使用;数据能力较强;数据吞吐能力较强;Prometheus 为新一代监控系统事实标准,技术投资风险低、技术红利较大。

    缺点:无可视化管理界面,告警配置、数据查询门槛极高;系统组件多,组件间耦合松,管理维护成本高。

    OpsMind

    兼容 Prometheus 的核心功能,配合 Prometheus 优秀的二次开发接口,自研分布式存储引擎、告警引擎、指标项管理、数据查询等业务功能,在充分利用核心优势的基础上弥补 Prometheus 在功能性上的不足,如下图:

    将 Prometheus 包装为完整的监控解决方案,并加入 AIOps 能力:

    1. 提供完善的分布式方案,大大加强系统容量、性能和稳定性

    2. 系统管理可视化,基础配置鼓励需求方自助完成,减少机械性工作,加快需求响应时间

    3. 数据查询产品化、客制化,数据民主,平台直接输出数据能力和数据价值

    4. 告警智能合并,减少漏报和重复告警

    5. 提供结合行业特点的监控项和告警梳理服务,借鉴行业最佳监控实践

    6. 提供产品维保、技术支持、定制化开发,保证甲方自主可控,保护技术投资的可延续性

    目前该方案被一线互联网企业普遍认可和采用,技术投资具备可持续性,跟随业界发展动态,最大程度享受产业技术发展的红利。

    技术趋势

    在监控系统技术演进过程中,我们必须持续关注并适度跟随以下技术趋势:

    监控系统的中枢作用

    监控系统越来越发挥整体运维系统的中枢作用,运维系统逐渐由流程驱动转变为数据驱动。我们应该更加重视监控系统的开放性,使监控系统具有与其它所有运维子系统对接、整合的能力,并对外做出数据、算法等技术输出。

    自动识别、自主采集

    云原生技术浪潮带来了混合的技术栈和高动态的服务端架构,我们应该重视采集器的自主能力,在面向复杂多变的被监控环境时,采集器尽可能做到对环境的自动识别,对指标的自主采集。

    重视高维度数据管理能力

    云、容器和微服务的出现使被监控对象的数量增加了两到三个数量级,所以高维度的数据管理能力尤其重要,我们的时间序列管理技术架构应该为 10 亿级别时序数据个数作好充足准备。

    数据科学和机器学习的引入

    我们的架构应该支持数据科学技术和机器学习技术的引入,AIOps 技术还在快速发展之中,很多算法和数据方法还在不断变化,应该为这类变化保留足够的灵活性。

    强调数据可视化

    随着监控数据的数据量呈几何级数式增长,传统的数据展示方法很难表达大规模数据的准确涵义,我们应该在线图、直方图、散点图等朴素的展示方式之外积累更多适合运维大数据的数据可视化手法。

    立足运维视角,体现业务价值

    运维环境承载业务运行,运维视角的数据必然具有业务涵义,比如服务请求数对应业务订单数、服务响应时间对应业务用户体验、资源利用率对应业务成本模型,我们应该基于监控系统的数据能力,深挖监控数据的业务涵义,对外输出监控系统的业务价值。

    展开全文
  • 为了更好地满足业务发展的需求,创建更加完善的IT运维监控管理体系,经过长达6个月的技术论证和测试,中国航信最终决定选择IBM Tivoli Netcool lT服务管理解决方案来帮助中国航信构建新一代的ITOMS系统。
  • 海量运维监控系统规划与部署 PDF 下载
  • 更多内容关注微信公众号:fullstack888【故障场景】以运维监控系统为例,先给大家分享一个案例:值班电话响了,有业务人员反映业务系统运行缓慢,部分业务系统处理超时。运维人员开始忙活了,查系统资源使用情况、查...

    更多内容关注微信公众号:fullstack888

    6e2f010e6b061dbc444c2b69604b1ff6.png

    【故障场景】

    以运维监控系统为例,先给大家分享一个案例:

    值班电话响了,有业务人员反映业务系统运行缓慢,部分业务系统处理超时。

    运维人员开始忙活了,查系统资源使用情况、查应用服务是否正常、查日志是否异常报错、层层递进只为尽快定位问题根本原因。

    时间在不知不觉中流逝,业务员不断催促,值班经理也围上来了解情况,甚至惊动了部门老大,可以想象的问题三连:“系统恢复了吗?”、“影响了哪些业务?”、“问题原因是什么?

    而此刻,值班人员面色凝重,手飞快的在敲键盘,输命令、查日志、写sql、看业务波动。

    随着值班人员紧皱的眉头舒展开,最终定位到问题原因是其中一个功能没有控制返回数量,导致内存OOM。

    定位了问题解决起来就很容易了,问题虽然很快被处理了,但运维的工作才刚刚开始...

    针对这个故障,各方诉求是不同的:

    1、业务人员希望尽快恢复系统使用并确保以后不再出现此类问题;

    2、运维经理希望进一步优化完善运维中心故障处理流程:

    • 优先故障处理过程的时间,

    • 提前发现故障,加强监控,

    • 完善故障应急方案,

    • 长远目标:故障自愈。

    【运维监控机制】

    这个问题解决了,还有解决不完的其他问题。尤其是运维经理还提出了新问题。

    如何解决经理提出的问题,并提出未来解决故障的想法?其实这涉及到IT自动运维监控系统的设计理念。

    从故障常见的处理方法到故障前的准备工作(完善监控、制定应急方案等方式)来阐述一下运维监控机制。

    一、故障处理方法

    1、确定故障现象并初判问题影响

    在处理故障前,技术人员首先要明确故障现象,故障现象直接决定故障应急方案的制定,这就要求技术人员需要对应用系统的整体功能有一定的了解。

    2、应急恢复

    保证系统可用性运维最基本的指标,这就涉及系统应急恢复。

    有了上述故障现象与影响的判断后,就可以制定故障应急操作,故障应急处理方式有很多:

    • 服务整体性能下降或异常,可以考虑重启服务;

    • 应用做过变更,可以考虑是否需要回切变更;

    • 资源不足,可以考虑应急扩容;

    • 应用性能问题,可以考虑调整应用参数、日志参数;

    • 数据库繁忙,可以考虑通过数据库快照分析,优化SQL;

    • 应用功能设计有误,可以考虑紧急关闭功能菜单;

    • 等等

    另外,在故障应急前,运维人员并不能充分利用不受破坏的现场去定位故障,所以日志收集显得尤为重要。

    在有条件的情况需要保存当前系统场景,比如重启数据库前,可以先抓个数据库快照。

    3、快速定位故障原因

    • 偶发还是频发

    故障现象是否可以重现,对于快速解决问题很重要,能重现的故障往往可能是服务异常、变更等工作导致的问题,能重现总会有办法或工具帮助我们定位到问题原因。

    如果故障是偶发的,能否准确定位原因很大程度上依赖于系统是否有足够的故障期间的现场信息。

    • 是否进行过系统升级

    升级会导致系统出现很多问题,如果恰好系统进行过变更,有助于从变更角度出现分析是否是变更引起,进而快速定位故障并准备好回切等应急方案。

    • 缩小范围

    故障可能由于应用、系统软件、硬件、网络等环节的问题。在排查故障原因时应该避免全面性的排查,建议先把问题范围缩小到一定程序后再开始协调关联团队排查。

    • 足够的日志

    分析日志是定位故障原因的常见方式,运维人员需要知道业务功能对应的哪些应用日志。

    • 故障现场快照

    故障期间的系统现场很重要,这个在故障应急前建议在有条件的情况下留下系统现场的文件。

    二、运维监控机制

    1、监控可视化

    故障处理人员能够快速的看到相应的运行数据。

    比如:能够看到一段时间的趋势、故障期间的数据表现、性能分析的情况等,这些数据可以提前制定好策略直接推出分析结果给故障处理人员,这样就大大提高了故障的处理效率。

    2、监控面

    监控最基本的工作就是实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理。

    3、监控告警

    完善的监控策略需要有清晰的监控告警提示,值班人员要以根据监控告警即可作出简单的问题定位与应急处理方案。

    三、应急方案

    提前制定好故障应急方案是很有必要的,但在日常工作过程中我们的应急方案遇到一些问题:

    1)应急方案缺乏持续维护;

    2)应急方案过于追求大而全,导致不利于阅读与使用;

    3)应急方案形式大于实际使用效果,方案针对性不强;

    针对上述常见问题,应急方案需要做到以下几点:

    1、内容精简

    很多人可能会认为故障出现的形式各种各样,所以应急方案需要涉及到方方面面。

    实际的故障处理过程中不是这样的,我们可以发现其实我们的应急措施往往重复使用几个常用的步骤,所以应急方案要有重点。

    过于追求影响应用系统方方面面的内容,会导致这个方案可读性变差,最终变更一个应付检查的文档。以下是我觉得系统应急方案应该有的内容:

    (1)系统级:

    了解当前业务系统,当前系统出现问题或上下游出现问题时,可以知道如何配合上下游分析问题。

    (2)服务级:

    知道这个服务影响什么业务,服务涉及的日志、程序、配置文件在哪里,如何检查服务是否正常,如何重启服务,如何调整应用级参数等。

    (3)辅助工具的使用:

    有时候,需要借助一些工具或自动化工具辅助分析并应急,这时需要有辅助工具如何使用的方法。

    2、持续迭代

    有了应急方案,要让运维人员持续去更新,需要让运维人员经常使用这个手册。

    如果一个手册没有场景可以用,那就需要管理者为运维人员创造机会去使用这个手册,比如应急演练。

    - END -

    往期回顾

    再谈如何写好技术文档?

    如何高效阅读源码?

    面试题:为什么数据库连接池不采用 IO 多路复用?

    8点帮你构建自己构建知识体系

    51 个核心点助你搞懂 Kafka

    事件、故障排查处理思路,你值得试试

    原来 Elasticsearch 还可以这么理解

    如何构建10x程序员的思考模型

    企业级高可用延时消息中台设计方案

    一种避免递归查询所有子部门的树数据表设计与实现!

    a13bbd55954a91847c8880c386a84b76.png

    技术交流,请加微信: jiagou6688 ,备注:Java,拉你进架构群

    展开全文
  • IT运维体系的架构中,IT运维监控是IT运维体系中重要的组成部分,作为运维的生命线,安全生产保障的生命线仍需强调。运维的安全生产保障,主要以“监、管、控”为核心,其中“监”则主要指的是监控。 笔者在工作过程...
  • 运维监控平台:基于主动运维的管理与技术整合 .pdf运维监控平台:基于主动运维的管理与技术整合 .pdf运维监控平台:基于主动运维的管理与技术整合 .pdf运维监控平台:基于主动运维的管理与技术整合 .pdf运维监控平台...
  • 运维监控平台:基于主动运维的管理与技术整合 .docx运维监控平台:基于主动运维的管理与技术整合 .docx运维监控平台:基于主动运维的管理与技术整合 .docx运维监控平台:基于主动运维的管理与技术整合 .docx运维监控...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 177,643
精华内容 71,057
关键字:

运维监控

友情链接: Fano.zip