精华内容
下载资源
问答
  • 使用HostMonitor实现运维自动化监控.......................................
  • 自动化运维自动化监控

    千次阅读 2020-05-05 23:36:07
    昨天我们讲了自动化构建,今天我来讲讲我认为的自动化监控。每个项目正式上线后,是要给用户使用的,那如如何保证系统可以持续给用户提供服务? 我认为除过项目前期的合理架构设计、规范和科学的编码和高效准确的发布...

    昨天我们讲了自动化构建,今天我来讲讲我认为的自动化监控。每个项目正式上线后,是要给用户使用的,那如如何保证系统可以持续给用户提供服务? 我认为除过项目前期的合理架构设计、规范和科学的编码和高效准确的发布外,上线后的系统运行监控也很重要。

    对于传统的系统架构而言,系统运行监控可以分为操作系统监控、中间件监控、应用监控、数据库监控、网络监控等等。操作系统监控一般主要监控操作系统可用性、CPU使用率和负载、内存使用率、磁盘使用率等等指标。中间件监控主要监控可用性、JVM使用率、线程监控、JMS监控、JDBC监控等等。应用监控主要监控系统的可用性、响应时间、用户连接数等等。数据库监控主要监控数据库的可用性相关指标、表空间使用情况、性能相关指标等。网络监控则是为了保证IT整理网络的运行,监控网络延迟、可用性、通讯质量相关指标。其实啰嗦了这么多,换个角度来讲,一方面监控服务的可用性,另一方面监控服务的性能,保证系统能用、好用、安全。

    对于互联网架构的系统,这些监控的对象几乎被彻底颠覆了,不过万变不离其宗,监控的核心思想还是保证高可用、高性能、高安全。

    初级的互联网架构,已经可以实现操作系统的虚拟化,就是所谓的IAAS架构,我们根本不需要关心每个操作系统的一堆指标,而是站在服务可用性的视角,一旦发现哪个操作系统的可用性或者性能不符合要求,直接隔离,永不续用;其他层面的架构可能跟传统监控类似。

    中级的互联网架构,在实现了操作系统虚拟化的基础上,已经实现了中间件的虚拟化,就是所谓的Paas架构,开发人员只要写好代码并经过各种测试后,直接将代码自动部署到Paas平台即可,需要部署多少就部署多少,反正脚本帮我们去部署,我们不需要关注操作系统、中间件的各种指标,只要每个Paas提供的应用服务可用性和性能超过我们设置的基线,自动从负载均衡中隔离,我们只要关注对外服务的可用性和性能,还有IAAS和Pass平台本身的监控即可。

    对于高级的互联网架构,其实就是现在流行的Saas架构,公司不需要开发人员写代码、测试代码、发布代码,而是直接购买各种微服务,由于微服务本身的高可用性和高性能,我们什么都不要监控了。IT业务由各种微服务组成,就跟搭积木一样简单,只要关心业务本身,关心如何让用户的体验更好。虽然这种Saas服务,业界还有各种质疑,尤其安全性方面的风险。但是不得不说,私有的Saas架构也是一个比较折中的办法,互联网大厂应该早就在试水了。

    说了半天了,随着IT架构的演化,我们需要监控的东西越来越少。如果你是IT运维人员,恭喜你离失业不远了。时代要求我们IT运维人员具备开发能力或者业务能力,只要这样我们才不会失业!

    今天的废话结束了,退朝!

    展开全文
  • 自动化运维监控工具.zip zabbix nagios ganglia zenoss core hyperic HQ ...
  • Deployment and Monitoring Automation Platform(部署和监控自动化平台) 解决工程运维的根本问题 获取更多Bugatti内容,请移步Bugatti文档 . Bugatti简介 Bugatti是专为解决开发、运维人员在项目打包、发布、部署...
  • OneCenter自动化运维管理平台结合ITIL最佳实践和自动化理念,经过多年持续研发,支持跨平台、多厂商异构环境统一监测;自动区分根源事件和衍生事件,快速诊断定位故障根源;多维性能分析明确基线和趋势,CMDB自动...
  • 用zabbix+ansible实现监控自动化,自动化运维.zip
  • 运维自动化ppt

    2018-04-17 10:25:15
    运维自动化ppt 文档介绍了采取自动化安装、配置及监控的方案(运维自动化)。
  • 基于大数据平台的自动化运维监控技术研究 王二辉,周高强,李英杰,孙亚平(大盛微电科技股份有限公司,河南 许昌 461000)
  • 自动化运维-系统部署

    2018-12-13 11:05:07
    网站业务上线,需要运维人员在短时间内完成几百台服务器部署,包括系统安装、系统初始、软件的安装与配置、性能的监 控......
  • 运维自动化概述

    2019-12-30 20:30:19
    运维自动化概述 运维与自动化概述 一:运维工作内容分类: 1).机房运维(负责服务器上下架、IP配置与划分、服务器打标签、机房定期巡检、服务器故障报修、服务器硬件监控) 2).基础设施运维(系统安装及初始化、...

    运维自动化概述

    运维与自动化概述

    一:运维工作内容分类:

    1).机房运维(负责服务器上下架、IP配置与划分、服务器打标签、机房定期巡检、服务器故障报修、服务器硬件监控)
    2).基础设施运维(系统安装及初始化、网络维护) 
    3).监控运维(7×24运维值班、简单故障处理、通知相关业务负责人) 
    4).基础服务运维(包含运维开发)(内部DNS管理、负载均衡配置、系统监控报警、硬件资产管理平台、监控平台搭建、代码发布平台) 
    5).应用运维(精通公司业务、各种服务系统部署、业务系统部署、版本管理、灰度发布、应用监控) 
    6).系统运维(架构层面的分布式缓存、分布式文件系统、日志收集与分析、业务环境规划(测试、开发、生产)、业务架构设计与规划实施、服务器系统性能调优) 
    7).安全运维(整体的安全方案、规范、漏洞监测、DDOS防护、病毒防护及处理、关键程序包更新、漏洞扫描与修补等)

    二:运维的发展线路:

    1).搭建服务–可以安装服务并运行,由于是参加工作没有相关服务安装和部署经验,所以此阶段的主要目的是可以把服务安装并可以运行起来。 
    2).用好服务–适当对服务优化,工作一两年后可以根据业务的实际需求对服务做适当的优化,比如可以对nginx做调优和监控。 
    3).自动化–自动化服务的部署或监控,工作三到五年后可以结合自动化部署工具或编写脚本实现业务的自动化部署。 
    4).产品设计(如何设计一个监控系统),可以根据需要设计和部署大型业务系统,现在很多公司都在用云服务,比如阿里云、Amazon的AWS,微软的Azure,以及腾讯云、青云等等各种云计算,云计算的核心竞争力是运维,其始终离不开运维对业务的技术支撑,比如搭建云服务时的服务器选型、网络规划、物理机系统部署与优化、监控系统的安装配置等等。

    三:自动化运维之运维标准化

    1.物理设备层面: 
    1).服务器标签化(IP地址/与交换机接口/当前服务/)、设备负责人(管理人)、设备采购详情(保修日期)、设备摆放标准(服务器之间间隔1U通风)。
    2).网络划分、远程控制卡、网卡端口。
    3).服务器厂商机型号同一、硬盘大小转速同一、内存统型号大小频率一、服务器课根据业务分类,有的要求IO高(存储服务器),有的要求内存大(缓存服务器),有的要求CPU块(代理服务器),有 的对CPU和IO要求CPU和内存都高(数据库服务器)。 
    4).资产命名规范、编号规范、类型规范。 
    5).监控标准(统一阈值和监控类型)。

    2.操作系统层面:

    1).操作系统版本(不要混合使用linux和windows,linux发行版尽量统一)
    2).系统初始化(IP、网关、掩码、DNS、NTP、内核参数调优、rsyslog、主机名规范、任务计划) 
    3).基础Agent配备(Zabbix Agent、Logstash Agent、Saltstack minion) 
    4).系统监控标准(CPU使用率、内存使用率、硬盘使用率、IO延时、网络状况、进程数与僵尸进程、运行时间等)

    3.应用服务层面:
    1).Web服务器选型(LNMP/LAMP/Tomcat/MySQL) 
    2).进程启动用户身份及目录、端口监听规范、日志收集规范(访问日志、错误日志、运行日志、系统日志)
    3).配置管理(配置文件规范、脚本规范)
    4).架构规范(Nginx+Keepalived、LVS+Keepalived、Haproxy+Keepalived、阿里云SLB、Ucloud ULB等等)
    5).部署规范(位置、包命名等)

    4.运维操作层面:

    1).机房巡检流程(巡检周期、巡检内容、硬件报修流程)
    2).业务部署流程(先在开发环境和测试环境测试、最后后在生产环境部署、如出现问题立即回滚、出现问题先回滚再修复)
    3).故障处理流程(紧急故障处理、故障升级流程及时间、重大故障管理、责任分配)
    4).工作日志标准(如何编写工作日志周报、月报)
    5).业务上线流程(1.项目发起人 2.系统安装部署优化 3.部署Nginx及相关访问 4.备案及解析域名 5.上线测试 6.对服务和主机加监控 7.数据定期备份)
    6).业务下线流程(谁发起,下线时间,服务器和数据如何处理。)
    7).运维安全规范(密码复杂度、更改周期、VPN使用规范、服务登录规范、命令使用规范、备份还原规范)
    运维标准化实现业务规范化,最终达到文档化的目的,即所有和业务相关的都有文档可查,包括技术文档、升级文档、故障文档等,也不会导致因为某员工离职而导致业务中断。

    四:自动化运维之工具化:通过相关运维工具,替代需要人工需要多次执行单一的工作内容,如:

    1).Shell或Python脚本(简单功能配置或修改的脚本,如自动修改配置文件、流程执行的脚本,如需要先修改完配置文件才能重启服务、检查性,如检查配置文件是否修改,日志是否生成、报表性的脚本,如生成自定义数据的文本文档并自动发送到邮箱)
    2).开源监控工具:Zabbix ELKStack SaltStack Cobbler 
    3).开源部署工具:cobbler、walle、jenkins等
    4).开源跳板工具:jumperserver等

    运维工具化带来的好处:
    1).促进标准化的实施
    2).将重复的操作,简单化
    3).将多次操作,流程化
    4).减少人为操作的低效和降低故障率

    运维工具化遇到的问题:
    1).你至少要ssh到服务器执行。可能犯错
    2).多个脚本有执行顺序的时候,可能犯错。
    3).权限不好管理,日志没法统计。
    4).无法避免手工操作。

    例子:比如某天某台Web服务器磁盘可能发生问题,要在访问量较低的凌晨要将服务器的数据导出来放在其他服务器替代,那么需要考虑的是:
    1).是否有由其他服务器连接此服务器取数据或此服务器是否到其他服务器取数据。
    2).此服务器是否有定时任务计划到其他服务器执行或有其他服务器连接到此服务器执行。
    3).任务计划索要涉及的内容,以及停服务是否影响其他服务器。
    4).后续的代码更新问题。

    五:自动化运维之web化
    公司基于php等语言自己开发的可以在web通过鼠标点击就能实现代码发布和回滚等功能的web界面的操作平台。
    1).招聘开发运维做成Web界面。
    2).web界面的登录权限控制。 
    3).操作日志记录。
    4).一键部署所有指定服务器,弱化操作流程。
    5).不用ssh到每台后端服务器,减少人为误操作的故障率。
    例如:
    1).DNS Web管理 bind-DLZ 
    2).负载均衡Web管理
    3).Job管理平台
    4).监控平台 Zabbix
    5).操作系统安装平台

    六:自动化运维之服务化(API化)

    1).DNS Web管理 ———->bind-DLZ dns-api(bind)
    2).负载均衡Web管理——>slb-api(haproxy、LVS、Nginx)
    3).Job管理平台————->job-api(php自主开发) 
    4).监控平台 Zabbix ——->zabbix-api(zabbix、nagios、cacti)
    5).操作系统安装平台——>cobbler-api(cobbler、kickstack)
    6).部署平台——————>deploy-api(安装服务软件nginx+php)
    7).配置管理平台————>saltstack-api(saltstack、ansible)
    8).自动化测试平台———>test-api(自主开发测试)

    通过调用相关api实现服务器从系统安装到上线完全自动化:
    1).调用cobbler-api自动安装指定的操作系统
    2).调用saltstack-api进行系统初始化和配置
    3).调用dns-api 解析域名和主机名
    4).调用zabbix-api 讲该新上线机器加上监控
    5).再次调用saltstack-api 部署访问软件(安装Nginx+PHP,Tomcat,Mysql)
    6).调用deploy-api 将当前最新稳定版本的代码部署到服务器上的指定目录。
    7).调用test-api 测试当前服务运行十分正常,如有异常,则执行报警等操作
    8).调用slb-api 将该节点加入集群

    七:自动化运维之智能化:
    能根据一定的策略或条件,智能化的自动化扩容、缩容、(服务降级、故障自修复),包括自动发布代码加进负载集群等一些列操作
    触发:指的是触发事先定义的一个阈值,可能是CPU使用率80%,也可能是并发超过100000,也可能是web访问响应时间超过5s,这是一个触发机制,然后要定义要做的决策,如:
    1).当某个集群的访问量超过最大支撑量,比如10000
    1.1 CPU使用率达到xx%  内存使用率达到xx% 响应时间> x秒
    2).此状态已经持续5分钟。
    3).判断不是攻击
    4).扩张资源池有可用资源
    4.1).当前网络带宽使用率
    4.2).如果是公有云(钱够不够)
    5).当前后端服务支撑量是否超过阈值 如果超过应该后端先扩容
    6).数据库是否可以支撑当前并发
    7).当前自动化扩展队列,是否有正在扩容的节点
    8).其它业务相关的。

    自动化扩容机制:
    1).扩容之前:先判断Buffer区域是否有最近x小时,已经移除的之前创建的虚拟机,并查询软件版本是否和当前一致,如果一致,跳过 2 3 4步骤,如果不一致,跳过2 3。
    2). OpenStack 创建虚拟机
    3). Saltstack 配置环境—-监控
    4). 部署系统部署当前代码
    5). 测试服务是否可用(注意间隔和次数)
    6). 加入集群
    7). 通知(短信、邮件)
    自动化缩容机制:
    1).触发条件和决策
    2).从集群中移除节点-关闭监控-移除
    3).通知
    4).移除的节点存放于Buffer里面。
    5).Buffer里面超过1天的虚拟机,自动关闭,存放于xx区
    6).Buffer区的虚拟机,每7天清理删除。

    展开全文
  • 简述 各位小伙伴,近期技术文感觉发的有点多,不知是否给大家在工作中解决实际问题带来了一些灵感。为什么这么说呢?因为正是文章中涉及的细小知识点...本次分享的是运维管理与运维自动化的思考。 一、运维的工作

    简述

    各位小伙伴,近期技术文感觉发的有点多,不知是否给大家在工作中解决实际问题带来了一些灵感。为什么这么说呢?因为正是文章中涉及的细小知识点积少成多,让我从零碎繁忙的运维工作中得到了一定程度的解放。相信认真读过的小伙伴,一定会觉得工作中并非只有什么高大上的技术才能解决痛点,恰恰相反,正是那些我们平时忽视的细节才是问题的要害。那么只有切中要害,我们才能对症下药。

    因此接下来一段时间,我可能会陆续分享运维过程中对一些问题的思考,希望给大家带来一定的启发。

    本次分享的是运维管理与运维自动化的思考

    一、运维的工作有哪些?

    1.基础设施,包括网络、服务器、操作系统等工作;
    2.环境管理,包括开发环境、测试环境、生产环境等;
    3.部署,将应用或系统部署至不同环境;
    4.监控,对基础设施、应用或系统进行监控;
    5.告警响应,对告警通知的响应及处理;
    6.性能优化,对系统及相关组件性能进行优化;
    7.系统高可用,对应用系统中的单点进行高可用升级;
    8.SLA保障,保证业务系统的可用性,可根据SLA实现自动扩缩容;

    以上工作是根据运维管理框架进行提取,包含但并不限于以上几方面。
    在这里插入图片描述

    二、运维现状

    从“二八定律”来看,以上运维工作有80%可以通过繁琐的手动处理进行处理,有20%需要根据不同因素来进行特定处理。

    而80%的工作我们可以借助自动化进行处理,而剩下的20%可以借助监控的多维监控,对问题进行收集、分析进一步判断处理。

    三、运维管理

    从运维现状来看,我们优先需要解决的是自动化的问题,而自动化的前提是标准化/规范化,而好的自动化需要配合可视化或web化,可以将我们80%或更多的工作进行优化。

    因此目前我们总结的运维管理主要目标是标准化/规范化,自动化,可视化/web化。

    其中标准化可根据运维实际情况进行制定;而可视化/web化,可以通过开源工具或web开发实现。

    四、运维自动化

    运维自动化可以实现的几个主要方面:

    1.服务器上架自动化

    新服务器或虚拟机从创建到交付到不同环境,需要进行一系列的定制,如cpu、内存、磁盘、ip地址、内核参数优化、时间同步、ssh加固、防火墙、各种客户端安装;当然这还不够,若运维平台集成了cmdb、跳板机、zabbix等,服务器上架还需要注册到cmdb及跳板机、zabbix等管理工具;如还有其他工具也需要进行集成。

    总之服务器上架自动化的最终目标是环境优化、安全可用、注册到一切管理工具。

    2.环境定义自动化

    环境自定义分两种情况:
    (1)中小公司,测试环境包含所有的系统,即系统间是不隔离的,数据库中包含各种系统对应的库;
    (2)大公司,每套系统需要单独一套隔离的测试环境,各系统间不能互相访问;

    对于环境定义的自动化比较适用于第二种情况,需要对需求部门快速创建资源。

    总之环境定义自动化的主要原则无论是哪种情况,都要进行不同程度的隔离,减少环境连错导致的问题。排查环境问题是运维比较恶心的一个问题。

    3.部署自动化

    部署自动化的过程是不断进化的,大体分为:脚本>批量ssh>自动化工具>容器,从每个过程来看部署自动化已经有批量操作>可用性>易用性>效率不断转变。部署自动化现在解决的不仅仅是部署本身了,还包括怎么才能更快,更容易屏蔽底层的不同。

    注意:此处联想到《DevOps》思维导图中关于自动化中的提高速度,即自动化初步完成,还需要进行速度方面的优化。

    另部署自动化完成后,需要和监控进行联动,即系统的可用性监控、性能监控等需要自动添加到监控系统。

    4.监控自动化

    从《系统监控体系》中我们知道监控对象分为从多个维度,每个维度可能用到的工具不一样,即监控自动化可能需要对接不同的工具。如:
    (1)自动添加可用性监控,如端口、url监控等
    (2)自动添加日志状态监控,如status、error等

    当然监控自动化不仅仅只针对监控,还要兼顾到故障恢复的自动化,即故障自愈。

    5.版本发布自动化

    在服务器规模不大的情况下,版本发布要考虑摘节点、屏蔽告警等,需要和nginx、监控进行联动。如:
    (1)nginx实现平滑摘节点
    (2)调用api实现监控项的禁用及启动

    五、运维自动化的几个阶段

    站得高,看得远。无论我们正在做哪个方面的自动化,从更高的层次了解运维自动化的各个阶段,对我们更有益处:

    1.操作自动化

    这个层次的特征是把一系列的手工执行的操作,用脚本或工具串联,在一定程度上解决了运维手动执行的问题。但是不同的场景需要不断调整脚本或工具,反而增大了出错概率。

    2.场景自动化

    这个层次的特征是工具会根据外部环境判断如何运行,而这些判断条件是运维事先定义好的。此层次的运维系统需要各类环境数据来作为判断条件,同时还要能够变化操作行为。
    另,此层次的运维系统需要跟很多第三方系统对接(cmdb、网管系统)。

    3.智能化

    此层次的运维系统具备数据核心(大数据存储,所有运营中的数据都会按关联关系集中存储),具备根据数据自己分析和判断、并自我决策和执行的能力。
    在此层次,运维的主要工作是为系统增添分析策略、运营和维护此智能运维系统,以及在系统执行的关键节点上介入做人工判断。

    六、怎样做运维自动化

    在我们思考怎么做运维自动化之前,我们需要意识到“企业的架构不是设计出来的,是演变而来的”。
    因此我们可以借助这个作为指导思想。

    1.先解决痛点

    日常工作中,对常见问题进行分类和梳理,能做成工具的就工具化,能程序化操作的,就避免人为干预。
    至于是否基于cmdb,反而不太重要,特别是如果业务系统并没有那么大,服务器的变动也没那么频繁的话。

    2.选择正确的阶段

    运维自动化一般沿袭这样的阶段:手动支撑 => 线上标准规范化 => 运维工具化 => 平台自助化/自动化。
    选择适合自己当前业务发展阶段的运维自动化方式,不要一口吃成胖子。

    另外,对于大中型运维自动化平台而言, CMDB和配置系统依然不可或缺。
    CMDB即配置管理数据库,一般用于统一管理IT数据、服务器数据资产等。CMDB数据的准确性和权威性,关系到运维自动化是否走在正确的路上。

    需要注意的是,解决痛点和标准化/CMDB不是矛盾互斥的:
    解决痛点而搭建的运维自助部署平台,和基于标准化/CMDB而部署的高大上运维自动化平台,可以共存。毕竟前者实施起来快,后者建设周期长。

    七、总结

    1.运维自动化

    在以上自动化过程中,在不同的自动化阶段需要对接不同的第三方系统,因此可以看出一条统一的ESB(企业系统总线)来实现对系统的接口对接是多么重要。但是也并不是没有ESB就不好,不同阶段解决的痛点不一样,只有适合业务发展的阶段的运维自动化才是最好的。

    2.运维管理

    文章开头说运维管理主要目标是标准化/规范化,自动化,可视化/web化,从切身体验来看运维管理的目标也是随着运维自动化阶段的不同而变化的。
    例如现在公司已经初步做到场景自动化及智能化,虽然还不深入,在一定程度上我的运维工作也已经解放了80%左右,已经给我释放了大部分时间,我也在想运维管理是否应该步入下一个阶段:运维服务化?

    理由:
    (1)运维自动化的价值在于,将运维从繁琐的、例行、容易发生人为事故的工作中脱离出来,做更有价值的业务运维和服务运维。
    所以,从这个角度来看,运维自动化既不是起点,也不是终点。运维自动化不是万能的,我们需要看清楚它的位置。
    (2)运维的本质到底是服务,是服务于业务,因为运维是用技术解决业务问题,运维的价值要依托于业务才能体现。运维不是因为技术高深,或者管理了几万台服务器而很牛逼,也不是能玩转很多开源工具而很牛逼,这都不是运维的关键。对于运维来说,服务第一,技术第二。运维技术再牛,如果不能服务于业务,帮助业务取得成功,那价值也是有限的。

    参考:
    1.高效运维:运维自动化之殇
    https://yq.aliyun.com/articles/54429
    2.腾讯最赚钱的部门是怎么做运维的?
    https://www.cnblogs.com/peter316/p/6287264.html

    展开全文
  • Linux Shell 实现自动化运维实践,非常详细,建议大家学习下载
  •  在我们的生产环境中,大部分情况下需要有自己的运维体制,包括自己健康状态的检测等。如果发生异常,需要提前预警的,通知形式一般为发邮件告知。  在上一篇文章中已经分析了SQL SERVER中关于邮件的基础配置,...
  • 大数据平台的自动化运维监控技术分析.pdf
  • 论IT运维自动化的重要性

    千次阅读 2019-03-08 11:26:02
    概念简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维...

    概念
    简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

    背景
    随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式中的保障因素就是IT运维(其他因素是更加优越的IT架构等)。从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化、等降低IT服务成本的因素越来越被人们所重视。其中,自动化最开始作为代替人工操作为出发点的诉求被广泛研究和应用。
    IT运维从诞生发展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面,IT运维团队的构成,也从各级技术人员占大多数发展到业务人员甚至用户占大多数的局面。
    因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。可以说自动化一定是IT运维最高层面的重要属性之一,但不是全部。

    存在问题
    目前许多企业的IT运维已经实现从人工运维到计算机管理,但在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:
    (1)IT 运维人员被动、效率低
    在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

    (2)缺乏一套高效的IT运维机制
    目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

    (3)缺乏高效的IT运维技术工具
    随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、储存设备、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

    迫在眉睫
    尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
    现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉运维人员需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此, 对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。原因有三:

    • 首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。
    • 其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。
    • 再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

    工具
    对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:

    • 监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙,服务器,存储和备份设备等。
    • 配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置,避免配置错误引发的故障。
    • 维护事件提醒自动化,是指通过对IT设备和应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
    • 系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检。配合IT运维团队实施对系统的健康检查和监控。
    • 维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。

    建立管理步骤
    (1)建立自动化运维管理平台
    IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

    (2)建立故障事件自动触发流程,提高故障处理效率
    所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。

    (3)建立规范的事件跟踪流程,强化运维执行力度
    IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

    (4)设立IT运维关键流程,引入优先处理原则
    设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。

        总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

    转载于:https://blog.51cto.com/jettcai/2360004

    展开全文
  • 自动化系统是以配置管理为基础的监管控一体化,利用与运维日常操作实际 相关的应用系统配置信息管理为基础构建应用模型,将应用系统与模型、配置、 监控、流程衔接,围绕生产系统运行的运维操作实现监管控一体化。
  • 运维自动化概念

    2019-05-21 22:41:18
    一、运维标准 (规范 —> 流程 —> 文档) 物理设备层面: 1.服务器标签、设备负责人、设备采购详情、设备白方标准 2.网络划分、远程控制卡、网卡端口 3. 服务器机型、硬盘、内存统一。根据业务分类 4...
  • 自动化运维经典文档

    2019-07-22 17:00:06
    【】GoldenGate企业级运维实战电子书(全套13章)【】Python自动化运维 技术与最佳实践【】《高性能Linux服务器构建实战Ⅱ》全书源码包和实例代码分享【】应用性能监测与管理——02zabbix运维自动化和基于监控服务...
  • 课程旨在将传统运维技术升格到Python自动化与大数据运维的级别,实现企业的大数据应用,为企业提供大数据级别的统计,实现企业级持续集成与企业级监控自动化企业管理平台,是真正的新时代运维工程师的必修课程。
  • 运维自动化方案

    2018-05-31 22:47:04
    运维自动化简写 自动化运维主要包括以下几个方面: 系统安装 系统优化 系统监控 日志监控和收集 应用自动化部署 代码自动化部署 自动化测试 自动化更新 自动化扩容 配置文件管理 系统自动化安装和优化系统的自动...
  • 自动化运维已成为企业信息化建设生态环境中重要一环,为企业各信息系统正常运行和日常监管提供有力支撑,...以下六个自动化运维体系建设的要点,为企业搭建成一体化、综合性的日常运维、监管、监控和调度平台提供参考。
  • IT运维自动化解析

    2021-07-16 17:41:04
    IT运维自动化解析 (一)、什么是IT运维自动化? 随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越复杂的业务,面对越来越多样化的用户需求,不断扩展的IT应用需要越来越合理的模式...
  • 经典的自动化运维脚本 checkNmp abiao原创,可以实现在nginx宕机时候杀死进程让它自动重启,在php挂掉或者502状态时候,自动检测到服务资源异常,杀死进程重启服务,MySQL重启服务等等、、、
  • 运维自动化实践

    2018-02-02 15:13:28
    二是运维流程自动化工具。 其中监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等;配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过...
  • 自动化运维产品介绍PPT IT运维 DevOps 平台架构 多云对接 智能监控 持续交付 运维工具开箱即用
  • Python3 采用vue drf 的运维自动化系统 django rest framework、channels
  • 监控体系 一、grafana界面显示无数据展示 排错流程: 1、找到表盘所显示的数据源2、登陆到数据源所在机器,查看数据库是否在运行2.1、未运行,则运行数据库2.2、运行中,则登陆数据库2.2.1、influxdb直接在系统中...
  • 记得刚来这家公司的时候,我部门就我一个运维工程师,然后就是经理,刚开始公司平台什么监控都没有,在我与经理的努力下,先搭建nagios+cacti监控平台,后来随着公司业务的增加,平台的功能与服务也不断的扩展,...
  • 开源运维自动化平台-opendevops

    千次阅读 2019-05-27 14:02:00
    开源运维自动化平台-opendevops 简介 官网|Github | 在线体验 CODO是一款为用户提供企业多混合云、自动化运维、完全开源的云管理平台。 CODO前端基于Vue iview开发、为用户提供友好的操作界面,增强用户...
  • Puppet也许是四款工具中最深入人心的。就可用操作、模块和用户界面而言,它是最全面的。Puppet呈现了数据中心协调的全貌,几乎涵盖每一个运行系统,为各大操作系统提供了深入的工具。初始设置比较简单,只需要在需要...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 84,498
精华内容 33,799
关键字:

运维自动化监控