精华内容
下载资源
问答
  • 运维监控汇报ppt
  • 因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重要。 从信息系统期理论出发,信息系统大致分为规划与设计、开发与测试(或购买)、实施、运维管理与持续改进五个阶段。而前三个阶段...

    IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。因此,进行银行业IT运维监控指标体系研究与构建,建立IT统一运维监控指标体系至关重要。

    从信息系统期理论出发,信息系统大致分为规划与设计、开发与测试(或购买)、实施、运维管理与持续改进五个阶段。而前三个阶段从时间角度看,只占整个周期的20%,其余时间基本上是对其进行运行维护。这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。

    一、IT运维监控指标体系研究的背景和意义

    1.业务发展的客观需要

    为了充分发挥运维监控的预警作用,逐步提升各类运维监控指标的覆盖率和完备率,我们需要建立一套系统、规范、面向业务服务的运维监控指标体系。在管理层面,该指标体系旨在让企业管理者花更多的时间在决策上,而不是用于了解复杂、繁琐的IT细节上;从服务定义、服务水平管理、服务监 控、服务诊断的角度,让管理者一目了然;既满足企业要求的服务水平,确保最佳的业务系统表现,又辅助整个企业的业务运营与IT决策。

    在技术层面,该体系既可以丰富开发新业务系统时的非业务功能需求,使开发团队在系统设计阶段,就把以后运维阶段需要关注的监控指标内嵌到应用系统中,起到 “未雨绸缪”的作用;又可以在老系统改造过程中增加指标的监控功能,起到“亡羊补牢”的效果;同时,该指标体系对于运维团队全面、有效地部署和配置各类运维工具也起到“有的放矢”的指导作用。

    1. 监管导向

      根据银监会《商业银行数据中心监管指引》第二十六条第八款“应集中监控重要信息系统和通信网络运行状态。采用运维监控工具,实时监控重要信息系统和通信网络的运行状况,通过监测、采集、分析和调优,提升生产系统运行的可靠性、稳定性和可用性。监控记录应满足故障定位、诊断及事后审计等要求。”为了满足上述 要求,迫切需要建立一套切实可行的运维监控指标体系来指导监控和分析工作,促进运维管理工作的系统化和规范化,降低运维风险。

    二、IT运维监控指标体系的研究

    在系统资源层面可以分为数据库类、中间件、操作系统类和存储四大类。其中数据库类的指标可以分别反映服务器的运行状态、实例的运行状态、会话数、锁资源和 监听器的运行状态。中间件类根据不同的使用特性,如业务中间件、消息中间件等,细分为WAS、Weblogic和MQ三种。操作系统类可以按照使用环境分 为Windows、Linux和Unix三种,客观反映各种主流操作系统的运行状态。存储系统类可分为光纤交换机、光纤交换机端口、存储系统、XP存储系 统和光纤链路,客观反映存储系统端到端的运行状况。

    在网络层面按照管理特性可分为网络或安全设备的处理器、内存、风扇、温度、电源、系统、设备端口、运行协议等不同纬度客观反映网络环境的运行情况和运行质量。

    在机房基础设施层面可以按照管理设备种类分为电量仪、UPS、空调等,反映机房基础设施的使用情况和运行质量。

    上述领域的监控指标通过标准化的数据采集接口收集整理、分类汇总和关联分析,进行IT统一运维监控管理,实现了事件管理、性能管理、告警管理、故障分析等风险处置功能。同时还能提高运维管理工作(跑批、备份、版本、维保、值班、资产等)的日常监督和及时提醒功能。

    三、IT运维监控指标体系的构建方法

    为了促进监控指标有效落地,充分发挥监控预警作用,需开发和运维团队积极配合,围绕逐步优化和完善指标体系开展工作,从指标梳理、指标设置、指标权重计算、指标评估、体系建立五个阶段,形成持续优化的闭环工作过程。

    1.指标的梳理

    各开发和运维团队需要根据业务特点和系统情况,结合实际运维工作需要,采用专家经验法,以调查问卷的方式选取相应的监控指标形成特定的监控指标集
    针对性能类指标,指标阈值是衡量应用系统性能容量是否正常、是否需要优化或扩容的量化依据。可以将阈值分为基准阈值、关注阈值和告警阈值三种。

    基准阈值是指信息系统正常运行状态下的标准值,即该系统在业务时段,性能容量指标正常运行时的数值。关注阈值是指分析评估信息系统是否需要优化的临界值, 其数值是在基准阈值的基础上上浮一定比例,具体比例应根据信息系统的特点而定。告警阈值是指信息系统要进行扩容的临界值,仅需对关键指标设定该类阈值。

    理想情况下,阈值的设置应遵循“基准阈值<关注阈值<告警阈值”的原则;阈值的初始设置可依据系统的运行特性,结合专家经验而定,在实际使用过程中,可根据指标监控情况进行调整。

    2.指标的设置

    在指标梳理的基础上,各运维和开发团队应对监控指标集中每个指标进行科学的设置,设置内容包含指标采集方式、采集频率(采样间隔)、指标数据类型、触发告 警条件、告警级别、告警描述、指标数据输出接口类型和字段格式等对于关键指标应明确标识,例如在指标名称前加*号标识。

    对于关键性能类指标还应明确其阈值的设置,

    3.指标权重的计算

    在设计指标权重时,各使用部门可以使用专业的层次分析法进行定量计算,也可以使用通常的专家经验法进行定性划分。层次分析法的好处是可以解决因子分析法有时无法采集数据的缺陷,且通过指标间的两两比较,在确定多指标的权重时,较他方法而言更可靠和准确。而专家经验法在评判权重时相对简单,但缺点是因指标太多,无法综合判断导致的指标权重不准确,需要后期持续优化。

    4.指标的评估

    实际运维工作中,在充分发挥各类监控指标用途、又不影响正常的业务生产活动时,为了推动运维管理质量的提升,需要遵循SMART原则对指标进行评估。即:S代表具体(Specific),是指监控指标要有针对性,不能笼统;M代表可度量(Measurable),是指监控指标是可量化的,验证指标的数 据或信息是可获取到的;A代表可实现(Attainable),是指监控指标可以通过现有技术手段或工具采集到的;R代表相关性(Relevant),是 指监控指标与其他指标存在逻辑上的相关性;T代表时限性(Tine_bound).是指监控指标的获取要有时间周期的限制。

    5.指标体系的确定。经过上述过程,明确了哪些指标需要监控,指标之间的层次和依赖关系,重要程度等信息。通过这些信息,就可以清晰地构建一个层次化的指标体系

    四、小结

    建立IT运维监控指标体系是提升运维管理、ITIL落地实施中最为基础,也是最重要的环节。今后我们对于系统运行健康状况的判断,不仅可以像中医一样的“望、闻、问、切”,还可以像西医一样的“×××、化验、做CT、专家会诊、打疫苗和预防宣传”。从而让“定量分析”与“定性判断”相结合,“运维经验” 与“实时数据”相结合,“前期开发”与“后期运维”相结合,打通系统开发和运维管理工作界面,使IT统一运维监控管理不仅为防范运维风险提供及时预警和综 合分析功能,同时也为优化应用系统性能提供了详实和科学的参考依据。

    转载于:https://blog.51cto.com/13491925/2343843

    展开全文
  • 光伏电站运维监控系统
  • linux运维监控

    2012-10-20 21:58:21
    linux运维监控
  • 运维监控说明

    2014-06-04 15:51:47
    详细的运维监控管理和说明,运维管理业务及基本使用,是运维的好帮手。
  • 什么是运维监控? 今天所讲的运维监控不是视频的监控,也不是那种上网行为的监控,确切的讲我们可以叫他IT运维管理系统,也就是专门针对一些有一定IT规模的有idc机房的一些企业提供的管理软件,也就是我们所说的...

    什么是运维监控?

    今天所讲的运维监控不是视频的监控,也不是那种上网行为的监控,确切的讲我们可以叫他IT运维管理系统,也就是专门针对一些有一定IT规模的有idc机房的一些企业提供的管理软件,也就是我们所说的网管软件,网管软件发展到今天不仅仅是提供监控的功能了,而是更多的参与到了IT的管理,如果利用好收集来的数据能为其他部门甚至整个公司带来很大的方便和效益。

    运维监控可以监控管理的设备有哪些

    我们习惯把监控的IT设备叫做IT元素并且对他们进行了分类,这样做也是为了方便让使用者梳理自己的资产,我们把他们分成了6大元素分别是:网络设备,系统,数据库,中间件,存储,应用,除了这常见的六大类还可以监控管理到虚拟化,云平台还有物联网的的一些设备

    可以监控管理的品牌

    不管是网络设备,数据库,中间件,还是安全设备涉及的品牌以及同一厂家的版本都是繁多的,但是我们的运维监控系统是都可以统一纳入监控的,可以说目前市面上的品牌我们都可以监控的到,能监控这么多的品牌一个是得益于自己本身多年的积累,还有就是我们可以自定义监控器,也就是说如果某个厂家新出了一款设备如果运维监控系统监控不到的话,咱们可以自定义一个适配的监控器来对他进行管理,而且以后再出现同类型的就可以直接监控了,非常的方便。

     

    可以监控管理到哪些数据

    从图片可以看出我们可以监控到硬件cpu,内存,风扇,端口等信息,当然不是所有的设备都可以监控这样全面,因为每个设备的厂家吐出的信息是不一样的,比如有些设备他是不吐出内存信息的,如果厂家的Snmpwalk本来就没有吐出这些信息无论谁你功能有多强大都不会监控到它的信息的,相反只要Snmpwalk吐出的信息咱们都可以获取到

     

    展开全文
  • 运维监控技术选型

    2020-08-14 16:24:21
    文章目录运维监控技术选型ZABBIXInfluxDB/M3/OpenTSDBOpen-FalconPrometheusNightingale 运维监控技术选型 运维监控系统 - 选型篇 参考URL: https://baijiahao.baidu.com/s?id=1665018709160710115&wfr=spider&...

    运维监控技术选型

    运维监控系统 - 选型篇
    参考URL: https://baijiahao.baidu.com/s?id=1665018709160710115&wfr=spider&for=pc

    在这里插入图片描述

    ZABBIX

    国内使用ZABBIX非常广泛,移动互联网没有发展起来之前,这基本就是唯一的选择,对机器的监控非常全面,也非常灵活,各类监控插件,各类教程,在网上应有尽有。软件本身经过多年的发展,bug基本不会遇到了,相对比较稳定。

    另外最重要的,ZABBIX既有监控能力,又有告警能力,是一套体系化的解决方案。

    缺点有几个:

    • 产品易用性比较差,管理监控策略、服务器分组都不是太方便
    • 容量有限,ZABBIX的监控数据使用MySQL存储,MySQL没法良好的扩展,这导致ZABBIX监控的机器量有限,如果1分钟采集一次监控指标,大约可以监控2000台设备,如果10秒采集一次,大约可以监控400台设备
    • 对业务模块监控能力较差,监控指标描述的数据格式比较死板,与最新的监控领域的推荐做法相比,还是差了一个时代

    总结:如果只是对机器做监控,不需要做业务监控,设备量也不多,可以使用;如果设备量较大,而且对业务监控有需求,比如监控业务模块各个接口的QPS、延迟、成功率等等,ZABBIX就不太合适了。

    InfluxDB/M3/OpenTSDB

    在这里插入图片描述
    随着移动互联网的发展,大家对网站稳定性的要求越来越高,而监控作为提升稳定性的重要抓手,对它的要求也不止是要监控机器、交换机了,还有非常多的模块、业务的监控诉求,这导致监控指标呈爆炸式增长。

    监控系统的难点,实际是大容量高性能的时序数据的存储和查询,于是涌现了非常多的时序数据库,专门来解决这个问题,比如InfluxDB、OpenTSDB、M3DB等。所以,这些工具,不算是监控系统,只能算是监控系统的一个存储库。

    如果我们具备自研能力,能够自己编写告警引擎,那就可以基于这些时序数据库构建自己的监控告警系统,但是这需要非常多的开发工作,也不是特别建议。

    Open-Falcon

    官网: http://open-falcon.org/

    Open-Falcon是小米开源的一款监控系统,用来解决大容量监控场景,小米刚开始使用ZABBIX,但是ZABBIX容量有限,所以他们搭建了三套ZABBIX,这样一来,要做一些全局的统计、看图,就会非常麻烦了。

    另外,小米是随着移动互联网发展起来的,公司有非常多的业务指标需要监控,ZABBIX难以胜任,于是,他们开发了一个内部的大一统监控系统,就是Falcon,后来开源了,名字就是Open-Falcon。

    Open-Falcon被很多公司使用,除了小米,还有美团、滴滴、金山云、七牛、360、京东金融,等等,超过200家商业公司在用,现在来看,已经非常稳定了。既能解决机器监控的场景,也能解决业务监控的场景。

    但是,Open-Falcon的易用性较差,页面是后台研发人员写的,比较糙,阉割掉了小米内部的服务树功能,真正落地的时候一般都是要二次开发,和自己公司的系统打通,但是Open-Falcon的存储组件、告警引擎的设计,都可圈可点,这也是为什么都是大公司使用,并且都做了二次开发。

    Prometheus

    在这里插入图片描述
    在当下,2020年,聊监控肯定要聊Prometheus,Prometheus的作者,都是从Google跳槽出来的,基本就是Google内部的Borgmon的开源版本,和Kubernetes整合的很好,随着Kubernetes的火爆,Prometheus也建立了非常强大的影响力。

    Prometheus的优点很明显,和Kubernetes有良好的整合,这是最大的优势,毕业于CNCF,一提到云原生,就会提到Prometheus。

    Prometheus的查询引擎也非常厉害,支持PromQL,非常灵活,可以对数据做各种实时计算。

    但是,Prometheus也有一些自己的问题,最大的问题是单点,虽然查询引擎有PromQL很灵活,但是单点问题削弱了这种灵活性的价值,告警策略是基于配置文件的不太方便,学习成本较高,告警事件的处理缺少了一些生产级的灵活性。不过近年来出现了Thanos,号称是大规模Prometheus解决方案,大家可以调研尝试一下。

    Nightingale

    官网:http://n9e.didiyun.com/

    Nightingale,中文是夜莺,是近来滴滴开源的一款监控系统,核心研发人员就是Open-Falcon的研发人员,可以看做是Open-Falcon的升级版本。

    Nightingale融入了滴滴内部的监控实践,据说监控指标达到7亿,这个数据量是非常吓人的。他们有一个商业版本的运维平台,Nightingale就是从那个商业版本的运维平台里摘出来的。

    夜莺有服务树,弥补了Open-Falcon长期以来被诟病的点,易用性大为提升,看官方介绍,相比Open-Falcon也有很多性能提升架构优化。看图告警策略配置都有页面,这点比Prometheus要好一点,策略非常灵活,支持告警升级、告警收敛、告警时段、与条件告警等等,看起来确实是生产级的灵活性。

    另外他们融入了日志监控,可以从日志里抽取业务指标,比如接口的QPS、延迟、成功率等,这点比较适合国内环境,因为国内IT界,大都不愿意用SDK埋点的方式采集监控指标,读取日志,相对更接地气一些。

    看这个架势,Open-Falcon估计是不会维护了,毕竟Open-Falcon的主力研发都去搞Nightingale了,大家选型的时候要注意。

    展开全文
  • 运维监控系统告警收敛的算法研究与应用 运维监控系统告警收敛的算法研究与应用 运维监控系统告警收敛的算法研究与应用 运维监控系统告警收敛的算法研究与应用
  • 资源名称:海量运维监控系统规划与部署 内容简介:今天,互联网大潮催生了众多卓越的互联网企业,其用户数及业务规模很容易达到海量级别,且企业内部对IT运维管理的质量水准也日益提出高标准和严要求,而IT运维管理...
  • 运维工程师岗位划分,运维所需掌握的技能,运维监控.zip 系统运维技能 web运维技能 大数据运维技能 容器运维技能 1.实时监控:对软硬件系统进行不间断的监控 2.实时监控的目的 3.监控方法 4.监控工具 5.监控流程 6....
  • Liinux运维监控案例集

    2017-08-28 11:42:46
    Liinux运维监控案例集-李晨光作品
  • 选择运维工具的几大要素:一是看我哪些指标需要监控,二是看我监控到什么 三是看这种运维监控工具能监控到什么程度 有可能,这几个问题IT运维人员自己都没有弄的很明白,那么我们先看一下整个运维行业目前的现状: ...
       选择运维工具的几大要素:一是看我哪些指标需要监控,二是看我监控到什么 三是看这种运维监控工具能监控到什么程度 有可能,这几个问题IT运维人员自己都没有弄的很明白,那么我们先看一下整个运维行业目前的现状:

       目前来说,传统企业的IT运维大部分还是用户在使用过程中发现故障,然后通知运维人员,再邮运维人员确定是什么问题,采用哪种方式可以解决。大部分的运维人员目前还是充当的只是一个救火员的身份,没有起到真正的IT运维监控的作用。运维人员的大部分时间和经历都花在了处理简单而重复的问题上,导致同事及领导的不满。

    现在各大企业在运维管理过程中没有明确的定义和责任划分也没有一个自动的运维监控工具,所以等到问题出现后,不能很快的查出问题找到原因,而在问题出现后,也没有必要的跟踪和记录,导致同样的问题可能会不断的出现,浪费大量的人力资源

    2、安全运维挑战目前的运维现状

       运维工程师在目前的大数据下,对大量网络安全事件,若没有有效的运维监控工具没法完成有效的分析工作 。每天出现巨大数量的安全报警,管理员很难对这些报警做出响应。误报严重,管理员无法判断故障

       大量重复,零散而没有规律的报警,黑客的一次攻击行为会在不同阶段触发不同的安全调备告警,这样导致报警数据之间在时间和空间上存大量的重复数据 ,如果不实现安全事件的关联处理,就无法有效的提高告警质量。

    出现这些问题有一部分是因为企业没有一个事件监控和运维监控工具,如果没有一个有效的管理工具支持就很难让故障得到主动快速处理,随着网络化的不断扩大,市面上有很多的运维监控工具,例如商业版的Cisco Works 2000、Solarwinds、ManageEngine 开源领域极MRTG、Ngios、cacti等 这些运维监控工具之前并没有必然的联第,即便是你用了这些工具,很多运维人员并没有真正的从运维中解脱出来,原因是有一部分监控工具虽然能获取计算机设备,服务器,网络流量,甚至是数据库的告警信息,但成千上万的告警告信息让运维人员根本分不清故障根源在哪里,缺乏对信息进行筛选。数据挖掘的能力。但是pigoss bdm在这方面就做了优化,告警信息出现后,平台自动分析大体是属于哪方面故障,提高故障修复效率。

    图片1.png
     

     

    另外还有很多的运维监控工具需要登录多次,查看很多的界面才能了解整个被监控系统的运行情况。当设备数量达到一定数量后,工作量之大无法想像所以运维监控人员需要像pigoss这样的集成安全管理的运维监控工具。

    过 去是仅靠几个技术大拿就可以包打天下的时代已经没有了,企业需要一种安全的运维平台。满足专业化,标准化,流程化的需要来实现运维工作的自动化管理。通过 这种集成的运维监控工具可以实发发现故障,主动的告诉用户需要关注的资源,降低运维人员的工作负担,最大限度的减少维修时间,提高IT运维部门的服务质量。

     运维监控工具的选择

       一个好的安全运维平台需要将事件与IT 流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。还需要能够筛选出运维人员完 成日常的重复性工作,提高运维效率。要实现这些功能都是常规监控软件Cacti、Zabbix所无法实现。

       同时,还要求能够预测网络蠕虫威胁,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。总的来说运维人需要能够在一个平台中 实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件告警、事件聚合、日 志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理的功能,这种集成开源工具到底有没有?它去哪儿啦?

       目前国产的运维监控工具pigoss 可以实现以上的大部分监控功能,实 现了对客户数据中心所有IT系统的全方位运行监控。 监控范围覆盖网络运行监控,主机运行监控,数据库运行监控,中间件运行监控,虚拟化平台运行监控, 存储运行监控,Web服务质量监控等等。同时帮助客户梳理IT组件运行状态对每一个业务的关联影响关系,生成可视化的业务拓扑监控视图。

        shouye.jpg

    了解更多运维监控的信息,可关注pigoss官网 www.netistate.com 

     

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31351613/viewspace-2118931/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/31351613/viewspace-2118931/

    展开全文
  • 适合想要搭建自己的自动化运维监控分析平台,博主可提供支持,联系博主微信搜索:regretdays 文件包含:源码,数据库表结构,环境配置信息
  • 自动化运维监控工具.zip zabbix nagios ganglia zenoss core hyperic HQ ...
  • 运维监控不可忽视的指标
  • 金融行业IT运维监控体系建设内幕.docx
  • afunms:IT运维监控系统
  • 京东大规模数据中心网络运维监控,2017 GOPS全球运维大会
  • 运维监控体系

    2021-02-24 12:05:07
    监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力,效率最高的方案...
  • 海量运维监控系统规划与部署 PDF 下载
  • 证券行业IT自动化运维监控平台建设方案
  • 用Python实现多站点运维监控.pdf
  • spotlight 主要是用来监控windows cpu 内存 以及磁盘使用率的工具,文档包含运维监控软件spotlight的安装及使用;
  • 海量运维监控系统规划与部署 ,付哲著 完整版 海量运维监控系统规划与部署
  • 了解并且构建运维监控平台,是企业必不可少的基础组件;
  • 云平台技术选型之六:运维监控,对市面上的监控类运维开源软件进行了调研,并确定了最终的选型方案。
  • wgcloud是新一代的运维监控系统,以极简高效著称,网站有详细安装说明www.wgstart.com

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 138,251
精华内容 55,300
关键字:

运维监控