精华内容
下载资源
问答
  • 运维必备制度故障分级和处罚规范作者简介唐文,《海量运维、运营规划之道》一书作者,关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那运维、...

    运维必备制度故障分级和处罚规范

    作者简介

    唐文,《海量运维、运营规划之道》一书作者,关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构

    师用能否设计多高的摩天大楼来衡量架构能力,那运维、运营更多的是在关注互联网服务的质量、效率、成本、故障、瓶颈,

    用户的忍耐、抱怨等问题。

    在接下来的日子里,将以质量、效率、成本为核心,从运营规划、管理、流程

    /

    规范、系统

    /

    平台,监控、告警、安全、优化、考

    核等几个维度结合案例来与大家分享自己的体会,内容大致如下所示。

    编者按:

    一个好的制度是可操作、可执行的,不是高高挂起的。每个公司情况不同,制度需要定期根据公司自身情况进行适当

    修改,以下文章算是一个制度的模板,仅供参考,要想使用肯定还需要修改。

    正文

    互联网产品提供

    7*24

    小时服务,而因人为操作、程序

    Bug

    等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各

    业务产品的运维和运营质量,规范各业务线的服务、故障响应,拟定和发布

    故障分级和处罚规范

    是非常必要的。

    故障分级标准

    运营故障中,对非不可抗力所造成的故障归类为

    故障

    ,对于故障将追究故障的分级,故障责任人,及故障处理结果。下面将

    就各类故障级别进行定义说明,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级最高

    者为该故障综合严重等级,故障分级如下所示。

    故障分级表

    故障奖惩制度

    运营故障处理评定是根据相关责任人对故障的响应、处理、完成结果等因素来对故障的处理情况进行综合评定,部门内会依据

    这个评定来对故障处罚等级进行调整。该评定只用于由部门内决定的故障处罚分级,公司的处罚条例不受此约束。符合下面条

    件者,可以对故障处罚等级进行适当降级,具体所降等级由部门领导决定,故障升级制如下所示。

    故障升级制度表

    对于所出现的各级运营故障,如果运营故障的主要原因由人为工作疏忽

    /

    失误所导致,参照以下处罚标准对个人和项目组进行相

    关惩处,任何运营故障,要及时通报相关领导或相关处理人员,对于延报、瞒报故障者,将从严处罚,故障分级及处罚如下所

    示。

    故障分级表

    展开全文
  • “三分建设,七分运维”,运维占据了整个信息系统从产生到消亡这一整个生命周期中的最长时段。传统的“稳态”IT环境的运维通常围绕监测、处理、展现三个主要活动来展开,也就是常说的“监、管、控”,体现的”眼“和...

    “三分建设,七分运维”,运维占据了整个信息系统从产生到消亡这一整个生命周期中的最长时段。

    传统的“稳态”IT环境的运维通常围绕监测、处理、展现三个主要活动来展开,也就是常说的“监、管、控”,体现的”眼“和”手“作用。尤侧重于监测,强调对IT环境的运行监测的准确、及时、全面,最大的感知和体现是多种方式的告警或预警通知。在时间层面,它更多的是”事后型“,即在事件发生后展开一系列的运维活动。在处理的方式上,依赖于过往经验,以及”骨干“或”专家“的梳理与提炼,形成固化的规则或知识来指导运维。

    而在现时的IT环境中,以云计算、大数据、AI等为代表的革命性信息技术的兴起和应用,带动和促进了企业由信息化建设向数字化转型演进,信息系统也朝着架构规模化、技术集约化、组件微服务化、数据巨量化、部署动态化等”敏态“方向变革,由此给运维带来巨大的冲击和挑战。

    ”敏态“IT环境的需求,更注重对于运维事件的预测、分析和决策,更强调是对运维全过程的贯穿,需要一个强有力的”智慧大脑“来帮助、甚至代替人来进自动完成,由此AIOps应运而生。

    1 IT运维演进路线

    IT运维由最早的ITOM、ITOA、到AIOps(Algorithmic IT Operations)、再演进到如今的AIOps(Artificial Intelligence for IT Operations),是从被动到主动、手动到自动、人工提炼规则到自我学习迭代的过程,本质上借助云计算的”算力”,AI的”算法“、大数据的”算据“,给IT运维安上具备自我分析、自我学习、迭代更新特性的运维“大脑“,实现运维分析、决策的智能化。

    a94019b5668eca0824068791145f5f20.png
    IT运维发展

    2 什么是AIOps

    Gartner将AIOps 的概念从原本的基于大数据及算法,扩充为基于人工智能(Artificial Intelligence for IT Operations,AIOps),期望通过大数据、现代机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。

    AIOps,其实是对运维规则或知识的AI化,即将人工总结运维规则的过程转变为自我提炼、学习、迭代的过程,同时将这种AI化渗透至运维的监测、分析、决策、修复、总结全程,实现运维全过程的AI化。

    3 AI与机器学习、深度学习差别

    AI,人工智能是一个广义概念,最早期提出来的时候,人们的愿景是希望AI能够完全具备人类智慧,这属于“强人工智能(General AI)”,但前提是得知晓人类大脑运转的每一个细节。

    但在非常具体和特定的领域,机器是可以做的比人类更好的,比如图形图像处理、语音识别等等,这些人工智能的应用,称之为“弱人工智能(Narrow AI)”,这些应用的实现手段,就得益于机器学习算法长足的进步,而深度学习又是机器学习领域很精深的一部分。所以,我们现在提到的AI,更多的是依赖机器学习(包含深度学习)算法的实现的AI场景,或者说机器学习算法只是实现AI的其中一种手段。

    cf4a91e7805970cb1ce0a5099be1d7db.png
    AI、机器学习与深度学习

    4 AIOps目的与价值

    TO BE CONTINUED……

    展开全文
  • 原标题:运维必备制度:故障分级和处罚规范作者简介《海量运维、运营规划之道》一书作者,关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那运维...

    原标题:运维必备制度:故障分级和处罚规范

    作者简介

    《海量运维、运营规划之道》一书作者,关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那运维、运营更多的是在关注互联网服务的质量、效率、成本、故障、瓶颈,用户的忍耐、抱怨等问题。

    在接下来的日子里,将以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台,监控、告警、安全、优化、考核等几个维度结合案例来与大家分享自己的体会,内容大致如下所示。

    编者按:一个好的制度是可操作可执行的,不是高高挂起的。每个公司情况不同,制度需要定期根据公司自身情况进行适当修改,以下文章算是一个制度的模板,仅供参考,要想使用肯定还需要修改。

    以前还发过一篇关于运维制度的文章,有兴趣的可以点击查看,

    正文

    互联网产品提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的运维和运营质量,规范各业务线的服务、故障响应,拟定和发布“故障分级和处罚规范”是非常必要的。

    故障分级标准

    运营故障中,对非不可抗力所造成的故障归类为“故障”,对于故障将追究故障的分级,故障责任人,及故障处理结果。下面将就各类故障级别进行定义说明,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级最高者为该故障综合严重等级,故障分级如下所示。

    故障分级表

    故障分类

    等级

    业务故障描述

    业务可用类

    一级故障

    业务中断8小时以上

    二级故障

    业务中断2-8小时

    三级故障

    业务中断1-2小时,业务核心功能无法使用

    四级故障

    业务中断1小时以下,业务核心功能受到影响

    五级故障

    业务中断1小时以下,业务次要功能无法使用

    业务安全类

    一级故障

    系统入侵:核心业务受到入侵,核心用户数据等受到入侵,或者系统文件给恶意窜改,容易引发入侵扩散;

    页面窜改:门户网站首页给非法窜改内容、内容涉及危害性极大的;

    CGI漏洞:已经引起大面积用户讨论、传播和以之侵害公司品牌利益,或者造成直接经济损失的

    二级故障

    系统入侵:核心业务受到入侵,未危及重要数据,仅造成扩散隐患但是并未发现有以外的机器系统受入侵的;

    页面窜改:业务页面给非法窜改内容、或者小恶作剧;

    CGI漏洞:由外部发现但还没有造成重大危机或者造成经济利益损失的

    三级故障

    系统入侵:核心业务存在高危端口或者系统漏洞

    CGI漏洞:由内部发现但还没有造成重大危机或者造成经济利益损失的核心系统漏洞

    四级故障

    系统入侵:非核心业务存在高危端口或者系统漏洞

    CGI漏洞:由内部发现但还没有造成重大危机或者造成经济利益损失的普通系统漏洞

    五级故障

    隐患:自身有漏洞,但无重大后果

    故障奖惩制度

    运营故障处理评定是根据相关责任人对故障的响应、处理、完成结果等因素来对故障的处理情况进行综合评定,部门内会依据这个评定来对故障处罚等级进行调整。该评定只用于由部门内决定的故障处罚分级,公司的处罚条例不受此约束。符合下面条件者,可以对故障处罚等级进行适当降级,具体所降等级由部门领导决定,故障升级制如下所示。

    故障升级制度表

    评定项

    降级标准

    升级标准

    响应时间

    第一时间响应,包括故障的通知,处理,善后等事宜

    相关人员一再催促下,责任人仍没有及时对故障进行处理

    准备度

    对故障发生的原因已有充分的预防机制

    对已有发生的问题,或低级错误没有进行预防或规避

    处理态度与能力

    在最快时间内处理故障,并积极配合其他相关人员的故障处理工作;遇到技术问题积极寻求解决办法和资源支持;

    对故障不重视,态度怠慢,敷衍;或没有足够技能进行故障处理

    处理结果

    系统在最短时间内完全恢复正常运作,故障影响降到最低

    故障没有完全解决;或由于处理过程不及时不妥善导致故障影响(范围,金额,投诉量,恶性舆论等)有所扩大

    后续措施

    对故障发生的原因进行总结,制定同类故障的预防规避措施

    拒绝对故障原因(除不可抗力因素以外)进行总结和制定预防/规避措施

    对于所出现的各级运营故障,如果运营故障的主要原因由人为工作疏忽/失误所导致,参照以下处罚标准对个人和项目组进行相关惩处,任何运营故障,要及时通报相关领导或相关处理人员,对于延报、瞒报故障者,将从严处罚,故障分级及处罚如下所示。

    故障分级表

    等级

    个人处罚

    一级故障

    以公司级故障处罚为准(全公司通报,甚至开除)

    二级故障

    以公司级故障处罚为准(全公司通报,甚至开除)

    三级故障

    全产品线以及相关小组通报批评,处以2000元罚款

    四级故障

    全产品线以及相关小组通报批评,处以1000元罚款

    五级故障

    全产品线以及相关小组通报批评

    ps:还有一个《重大故障分析报告模板》,有兴趣的朋友可以订阅号回复zhidu下载

    热门文章

    欢迎加入运维帮QQ技术讨论群:542812110

    快乐分享,快乐生活

    商务合作,请加微信yunweibang008

    赞唐文

    责任编辑:

    展开全文
  • 保密级别公开当前版本V1.0语言中文作者寇培磊完成日期二〇二〇年六月二十三日目录一、服务内容.......................................................................................................2A、对接...

    保密级别

    公开

    当前版本

    V1.0

    语言

    中文

    作者

    寇培磊

    完成日期

    二〇二〇年六月二十三日

    目录

    一、

    服务内容

    .......................................................................................................

    2

    A

    、对接新企业

    ...............................................................................................

    2

    B

    、日常问题处理

    ...........................................................................................

    2

    C

    、定期定时任务

    ...........................................................................................

    2

    D

    、工作交接及留痕

    .......................................................................................

    3

    二、服务要求

    .........................................................................................................

    3

    E

    、企业对接要求。

    .

    .......................................................................................

    3

    F

    、日常问题要求。

    .

    .......................................................................................

    3

    H

    、定期定时任务要求

    ...................................................................................

    3

    I

    、工作交接

    .....................................................................................................

    4

    三、服务响应时间和方式

    .....................................................................................

    4

    四、服务级别定义

    .................................................................................................

    4

    五、服务响应级别

    .................................................................................................

    6

    展开全文
  • 原标题:收藏 |《智能运维等级白皮书》发布(附全文)《智能运维等级白皮书》发布在物联网、大数据、人工智能等智能技术不断发展成熟,“智能+”技术体系开始被工业领域和公共领域广泛接纳的时代背景下。应用智能技术...
  • 正文 互联网产品提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的运维和运营质量,规范各业务线的服务、故障响应,拟定和发布“故障分级和处罚...
  • 6月18日晚,由北京金融科技产业联盟、移动支付网联合举办的《金融科技大讲堂》第六期准时开播,光大银行信息科技部系统运维中心监控管理团队主管吴勇从数据中心在支持业务敏捷化面临的挑战入手,介绍了光大银行借助...
  • 管理能力要求:多云接入能力、资源管理能力、运维管理能力、运营管理能力、安全管理能力。 标准通过分级分类对国内云MSP的基础能力要求进行评定,将云MSP的能力水平分为1-3个等级。评定标准的制定以用户需求为核心,...
  • 关于BeyondDevOps平台 BeyondDevOps 平台是博云提供从 “ 需求 -> 开发 -> 测试 -> 发布 -> 运维 -> 运营 ” 端到端的开发运营一体化平台解决方案。平台覆盖项目管理、研发管理、运行管理和运营管理的协同服务和...
  • 这也就是为什么大型企业都会建立比较完善的分级和分层发布流程,层层监管和审批,避免个人单点故障的无限放大。当然,这些监管和审批必须要纳入到由技术驱动的DevOps流水线中来完成,而不是靠传统的领导签字来完成。...
  • 今年9月初,陕西西安出台了一系列管理共享单车的新措施。其中,对共享单车骑行... 【陕西新闻广播新媒体综合整理】 【来源:央视新闻 西安大交通发布 陕视新闻】 【编辑:冯甜】 【审核:郭伟玲】 来,试试最新的分享
  • 中国移动研究院网络与IT技术研究所项目经理、5G SA联盟测试床组组长胡玉双介绍,《网络切片分级白皮书》是今年3月24日中国移动研究院联合华为、腾讯、电科院和数字王国共同发布的。白皮书从性能指标、功能差异、网络...
  • 2020年3月4日,工信部发布了该指南《工业互联网企业网络安全分类分级指南(试行》。该指南的主要目的是:为贯彻《促进大数据发展行动纲要》《大数据产业发展规划(2016-2020年)》有关要求,更好推动《数据管理能力...
  • 2020全球移动宽带论坛期间,华为无线网络产品线总裁杨超斌提出面向未来的“1+N”5G目标网,并发布了支撑“1+N”的5G全系列解决方案,构筑5G极简网络。杨超斌表示:“共创5G未来黄金十年之路,需要全频谱走向5G,构筑...
  • 而随着企业与客户之间的数据触点日益丰富,全链路的客户数据治理带来新难点:数据的多元异构、数据孤岛、数据开发及运维成本高、数据建设壁垒高、数据安全等等……最终导致难以形成营销闭环。而企业需要面对日趋丰富...
  • K讲啦直播倒计时2天 长按识别下方二维码(或点击阅读... -END- 推荐阅读 直播报名丨Pivotal权威解读:云原生和DevOps解决方案 动态丨Nebulogy品牌定位重磅发布,释放“智能+”新动能 干货丨BizDevOps推...
  • 运维行业发展至今,从最初的人肉运维、脚本时代,到后期的平台化阶段、以及现在很火的AIOps的概念。都绕不过一个主题——资源管理。 无论是健全而人性化的发布体系、灵敏强大的监控体系、还是稳定高效的服务发现,都...
  • 第一条 为规范公司安全生产目标的制定、分解、发布、实施、评价与考核等管理要求,特制定本办法。第二条 本办法适用于公司各部门。第三条 制定依据(一)《中华人民共和国安全生产法》;(二)《电力安全生产监管办法》...
  • 响应分级 111 5.2.4.2. 应急处置 111 第6章 项目管理方案 114 6.1. 项目管理方法 114 6.2. 项目团队 118 6.2.1. 项目经理简介 118 6.2.2. 项目组织管理机构情况表 119 6.3. 项目沟通 120 6.4. 项目计划 121 6.4.1. ...
  • 信息摘要: DMS企业版...支持DBA、运维人员对不同业务按照重要等级不同管控规则的梳理定义,完成了核心业务高安全流程、非核心业务轻流程的分级管控(研发可以自助的完成绝大多数DML、DDL的上线发布,当影响行数或...
  • 阿里云数据管理DMS企业版,作为数据管理产品大家族里的新成员,于2017年11月开启公测,今年1月底正式发布商业化版本。 作为业界领先的面向企业的数据库DevOps解决方案,DMS企业版旨在帮助企业安全、高效的使用...
  • 阿里云数据管理DMS企业版,作为数据管理产品大家族里的新成员,于2017年11月开启公测,今年1月底正式发布商业化版本。 作为业界领先的面向企业的数据库DevOps解决方案,DMS企业版旨在帮助企业安全、高效的使用数据库...
  • 程序员技能图谱第一版发布 版权声明 本技能图谱遵循 CC-BY-NC-SA 4.0 协议。商业转载必须征求极客邦科技 Geekbang 授权同意,转载请务必注明出处。 极客邦科技 Geekbang 保留最终解释权及法律追究权力。 欢迎关注...

空空如也

空空如也

1 2
收藏数 27
精华内容 10
关键字:

运维分级发布