精华内容
下载资源
问答
  • 北京软件造价联盟团标,软件运维成本度量规范,
  • 您是否有兴趣与我们一起探讨,如何降低充电桩控制与运营维护的成本?除了原材料成本的压缩,在设计方案与系统架构上是否有更好的降本空间?
  • 市场的火热,使充电桩制造与运维成本伴随着竞争的加剧备受桩企关注。本节以直流桩为例,从电子控制这个点上与您共同探讨可行的降本方案。  电子控制可简化为主控制板+人机交互显示两部分;进一步细分,则有图1、图...
  • 市场的火热,使充电桩制造与运维成本伴随着竞争的加剧备受桩企关注。本节以直流桩为例,从电子控制这个点上与您共同探讨可行的降本方案。  电子控制可简化为主控制板+人机交互显示两部分;进一步细分,则有图1、图...
  • 3G投资与运维成本DOC4.doc
  • 数据挖掘在风电机组运维成本控制中的应用.pdf
  • 工程造价的构成及光伏电站的建设、运维成本分析.pptx
  • 数据挖掘在风电机组运维成本控制中的应用分析.pdf
  • 目前全球都在为受到金融危机造成的经济低迷烦恼着,企业也不例外要为ERP预算进行瘦身,这意味着ERP运维费用要过一分钱掰成两半花的苦日子。有调查显示在谈到ERP管理时,大多数企业最关心的就是运维,即运行和维护...

    目前全球都在为受到金融危机造成的经济低迷烦恼着,企业也不例外要为ERP预算进行瘦身,这意味着ERP运维费用要过一分钱掰成两半花的苦日子。有调查显示在谈到ERP管理时,大多数企业最关心的就是运维,即运行和维护管理。

    实际上,许多企业的ERP财务软件运维预算早已经到了减无可减的地步。因此,在经济不景气时,ERP运维经理都会遭遇到这一个问题:就是如何既能降低运维成本,又能增加ERP系统和业务的灵活性。简单说是:ERP运营维护要以更少的成本投入,做更多的事情。

    被动救火式ERP运维,成本居高不下一直以来,许多企业都把大部份的ERP专项资金投入在着重解决从无到有的ERP系统的实施和上线,然而却忽视了ERP上线以后的运行维护。正如一条流速快的河流,就算混有大量的泥沙也不成问题;但当流速慢下来时,大量的泥沙就会堵塞河流。同理,在ERP运维费用充裕时,许多成本的浪费总会被掩蔽起来;但在 ERP运维成本压缩的压力下,许多不良反应就会逐渐凸现出来,并成为影响ERP系统应用效果的主要瓶颈。

    有调查发现,在运维过程中经常出现的问题,源自技术或ERP产品方面的问题其实只占20%,而流程失误问题占40%,人员疏忽失误问题占40%。作为ERP运维经理,如何在有限的投入下尽快解决流程和人为因素造成的成本高企是重中之重。

    (1)高昂的救火式运维成本

    目前企业在ERP运维管理上侧重于硬件、软件和网络方面的管理,而缺乏对人为因素、流程管理和资源管理的ERP运维制度,或是ERP运维制度不能科学全面的覆盖各项工作,从而容易造成成本浪费的漏洞。例如,在运维过程中,只有当事件已经发生并已造成影响时才能发现和着手处理。这种被动的、孤立的、分散的救火式运维管理模式,不但使运维人员终日忙碌,也使运维服务本身质量很难提高,导致运维人员和业务部门的满意度都不高等。

    在资金充足的情况下,许多救火式的成本浪费会被隐藏起来,但当经济不景气时,问题就会无处藏身。高峻在总结时认为救火式的被动运维往往是成本高居不下的根本原因,而且也是很难解决的问题。

    (2)人员职责不清,增加运维隐性成本

    ERP管理软件运维过程中没有明确的人员角色定义和责任划分,使到问题出现后很难快速、准确地找到相应的人员进行修复和处理。运维人员职责越不清晰,ERP运维中的不稳定因素就越多。因此,人为因素成为许多运维隐性成本的增加,重复投资的重要原因。在ERP运维中,如何减少人为因素的隐性成本,避免出现因人员职责不清导致运维无法有效运行,是ERP运维面临的重大考验。

    (3)运维制度缺乏规范化,随意性浪费成本严重

    在运维处理流程方面,一直处于原始的状态,随意浪费成本的现象随处可见。主要的成本浪费是在问题出现后缺乏流程化的故障处理机制,或处理问题时欠缺规范化的解决方案,而且还缺乏全面的跟踪记录。

    例如,在事件处理流程上:没有明确的事件升级标准,例如满足怎样的条件后,事件必须从一线转到二线支持工程师,再转到资深工程师处理。没有事件的限级标准,没有建立优先级和解决时限的关联关系,不能保证事件解决的实效性和资源的有效利用。事件产生后没有明确而唯一的责任人,从而缺乏有效对事件监控和跟踪机制。这些都使事件/服务请求处理过程中没有形成严格的闭环管理,没有建立明确的重大或紧急事件处理流程,从而不能保证在相应事件发生后有效及时地处理,造成许多隐性的流程处理成本。

    (4)缺乏合适的运维工具,无法真实核算成本

    也许有人会说,我们早就利用运维工具来管理ERP运维了。没错,这是事实,但恰恰是在已经部署运维管理工具的企业中,他们的基础设施相对完善,也部署了相关的管理工具,但问题是依然无法保障ERP系统的发挥最大的作用。Versugw

    为什么会出现这种情况呢?高峻认为根本原因是缺乏合适的运维工具,运维责任也局限于一个封闭部门,常常造成ERP运维成本核算失真。当只看表面进行ERP运维成本削减时,反而让正常ERP运维处于严重受损状态。因此,如何简化而高效ERP运维成本核算,更好地满足业务需求,已经成为ERP运维的一个重大挑战。

    本文整理自快普ERP管理系统官网:http://www.kuaipu.com.cn

     

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29000993/viewspace-774856/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/29000993/viewspace-774856/

    展开全文
  • 1.一体化专利浮桶,支架、便道与浮箱组合结构(集成浮箱)等 2.支架檩条的平整度及柔性与组件的匹配(波浪影响) 3.就地升压变可放置在岸边或专用浮台上,大型项目应布置在方阵内 4.运行维护和检修通道 ...
  • 上周,我参加了一个CIO沙龙研讨会,现场调查问到目前CIO在IT运维中最关注的问题是什么时,大多数CIO表示最关心的是运维成本过高。这要求CIO除了穷尽一切降低成本的常规办法外,还需要有针对性的创新方法来迎接挑战。...

    随着IT建设的不断深入和发展,IT运维成为了企业运营的必需品。许多企业的IT预算相比于去年虽然有了很大的提高,但总体来说还是非常紧张。上周,我参加了一个CIO沙龙研讨会,现场调查问到目前CIOIT运维中最关注的问题是什么时,大多数CIO表示最关心的是运维成本过高。这要求CIO除了穷尽一切降低成本的常规办法外,还需要有针对性的创新方法来迎接挑战。

           此次调查显示在过去的5年中,由于IT系统越来越复杂,使到运维成本也随之水涨船高,其中人力成本更是花费惊人。具体为软硬件和网络设备的维护成本占 30%,日常维护服务成本占30%,而运维人力成本则占了40%。人力成本包括现场维护、训练教育、人员流失、招聘成本等。因此,这次CIO沙龙最热门的 话题是如何破解IT运维人力成本困境。

    一.IT运维陷人力成本困境的常见原因

           谈到IT成本管理,大多数CIO表示最关心的是IT运维成本。IT运维是指为保障IT系统与业务正常、安全、有效运行而采取的活动,包括IT运行和IT维 护两大部分。按照IT运维的范围定义,可归纳为七个方面:桌面系统维护、网络系统维护、网络安全系统维护、服务器维护、软硬件系统维护、机房环境维护、 IT固定资产管理服务。这些活动发生的成本费用,统称为IT运维成本。

             此次现场调查发现,IT运维人员成本占到约40%。原因是IT运维的七大范围都涉及到一个共同点,就是都需要人员来执行和操作。因此,现场许多CIO一致 认为人力成本是影响运维成本最重要的一个因素。但遗憾的是IT运维人力成本的浪费却随处可见,经常被大多数CIO所忽视。以下是使IT运维人力成本过高的 几个常见原因:

    (1)IT运维职责不明确,导致人力成本严重浪费

             尽可能经济地、低成本地提供高质量的IT运维服务,这是管理层对IT运维管理效率的最基本要求。但很多时候,IT部门作为一个技术支持部门,其运营效率常 常是惊人的低下。最重要的原因是对运维服务工作缺乏细致的职责管理。据此次调查显示,在企业IT日常操作中,约有30%人力成本是由于IT人员在IT运维 执行过程中相互扯皮、推卸责任所浪费的,而且这些浪费的隐性人力成本往往是IT成本中最被人所忽视的部分。

             例如,在运维过程中,执行不力导致的工作效率不高或需要重复操作,直接体现为运维人员“出工不出力、人浮于事、得过且过”。如在牵涉到几个部门之间配合时 会出现推卸责任,纠缠不清的扯皮事件。或问题出现时A部门找B部门反馈,B部门则说要找C部门处理,这样导致很简单的问题也无法得到及时有效的处理。表面 来看,我们可以把这些IT运维的人力成本浪费归因于IT运维过程执行不力。但从本质上看,它的背后必然隐藏着CIO对运维人员的责、权、利缺乏规范化管 理,这才是IT运维人力成本居高不下的深层次原因。

    (2)运维流程缺乏分级管理,导致人力成本隐性浪费

              在IT运维流程上,很多企业没有明确的运维事件升级标准,即满足怎样的条件后,运维事件必须从一线转到二线支持工程师,再转到资深工程师处理;或没有设置 运维事件的限级标准,所有运维人员都混成一团,谁有空谁处理的混乱局面,造成人力成本的隐性浪费。简单的说,就是没有建立人力优先级标准,不能保证IT运 维人力资源的有效利用,或运维事件产生后没有明确而唯一的责任人,从而缺乏对事件监控和跟踪机制。这些都使得运维事件、运维服务请求处理没有形成严格的闭 环管理,也没有建立明确的重大或紧急事件处理流程,从而造成许多人力成本的隐性浪费。

    (3)缺乏量化的绩效管理,人员潜力难以最大化

             IT运维人力成本过高表面上看是由于人员效率过低,但深层次原因是缺少对IT运维人员进行绩效考核。绩效考核是一种人员激励管理手段,本身并非是管理的目 的。本质的意义是通过绩效考核把员工聘用、职务升降、培训发展、劳动薪酬相结合,使得企业激励机制得到充分运用,有利于企业的健康发展,同时对员工本人也 便于建立不断自我激励的心理模式。而当没有对IT运维人员进行绩效考核时,也就没有监督IT运维人员解决故障的处理效率和处理质量。因而在IT运维人员解 决问题时可能会出现缺乏协作、责任不清晰、经常扯皮。简单的说,缺乏绩效管理的“大锅饭”,是导致运维人员劳动力浪费的根本原因。

    二. 什么是IT运维专业化分工

    (1)什么是专业化分工?

             一般来说,降低人力成本有三个方法:一是减少劳动力人数;二是降低服务过程的人力操作成本;三是提高人力单位效率。专业化分工正是提高人员效率和降低操作 成本的常用方法。专业化分工最初的研究主要是在古典经济学领域,经济学家亚当·斯密在其名著《国富论》中认为提高劳动生产率是节省人力成本的最有效的方 式,而最大化提高劳动生产率的方式则是进行专业化分工。他认为专业化分工能最大程度的改进人力效率以及提高人员的熟练、技巧和判断力。

            亚当·斯密解释其原因是:第一,人员的技巧因专业化而更加熟练,在分工条件下每一个人员只从事某一种操作,就能成为“局部熟手”,不但能精益求精,还能减 少了技能的学习时间。第二,专业化分工能节省劳动时间,这是因为分工使人员从事某种固定操作,有助于操作经验的积累和操作方法的完善以及效率的提高。第 三,分工最重要的一点是使到职责、权利和义务清清楚楚,打破了吃大锅饭不利于个体绩效考核的平均主义。

             事实上,随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了。专业化分工就是要把企业IT运 维活动的特点和IT运维人员的特点结合起来,把每位人员都安排在适当的领域中积累知识、熟练技能从而不断提高工作效率。所以,从某种意义上来说,专业化分 工不仅仅是一个培训技能熟练的运维人员,而是一个IT运维团队人力结构优化和运维效率改进的问题。

    (2)IT运维专业化分工的分类和形式

            一般来说,专业化分工有两种形式:技能专业化分工和对象专业化分工。技能专业化分工是指按照IT运维服务技能或IT系统设备相同性的原则来建立运维服务 团队,即按不同的运维服务技能特征,建立不同的团队小组。它的特点是:“三同一不”。“三同”是指同类型的IT软硬件设备、同工种技能人员、应用相同的运 维方法;“一不”是指为不同的服务对象服务。对象专业化分工是指按照同一个服务对象来划分运维团队的原则,即按不同的服务对象建立不同的服务团队。特点: “三不一同”。“三不”是指不同类型的IT系统软硬设备、不同工种技能人员、不同的运维方法;“一同”是指只为相同某一个服务对象服务。

            简单的说,技能专业化分工能形成一个相同技能的高质量专家群体;同样道理,对象专业化分工则能形成一个高质量的不同技能混合为一体的团队群体。因此,高 度专业化分工与高质量人力群体之间互为因果并互相解释。正如著名管理学大师彼得德鲁克所说:“只有专门化的知识,才会产生高质量的专家团队,也才会产生更 高的效率。”

    三. 如何建立高效专业化分工的运维体系

            尽快破解IT运维的人力成本困境是目前许多CIO迫切需要解决的问题,但首要关注的问题应是如何建立专业化分工的IT运维体系。以下与大家分享我的一些经验总结:

    (1)根据企业发展策略,确定专业化分工模式

             企业发展战略是决定企业运营模式的依据,也是对IT运维人力管理模式产生重大影响的因素。目前IT运维人力分工模式有两种:一种是技能专业化分工,另一种 是对象专业化分工。一般来说,企业发展策略和核心能力的不同,会导致选择不同的运维人力分工模式。而不同的分工模式,又是导致运维人力成本支出结构不同的 重要因素。所以说,首先需要从公司战略出发,选择最优的IT运维人力专业化分工模式。

    (2)优化专业化分工配置,力求提高运维效率

            运维人力分工管理包含人员、岗位、角色等信息,如果这些信息没有统一规划,就无法进行统一配置。专业化分工是把IT运维各种事情(包括人员、资源、突发事 故)分成不同级别和不同运维操作,以便有效的配置运维人力资源。因此,对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如, 明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少 IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。

    (3)设立IT运维服务台,避免人力成本混乱浪费

            设立IT运维服务台是 为了确定运维等级和引入优先处理原则。IT服务台主要承担:运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容。服务台就像是传统 产业生产车间的调度分配员,它会不断的根据事件的等级进行匹配分工和调度。例如发生任何一个突发运维事件时,服务台会先检查并进行分类流转处理。运维人员 可分为一线普通维护、二线技术专家和三线厂商专家。一线人员作为第一级问题处理人员,主要解决常规的运维问题;在一线人员不能解决的情况下,二线技术专家 将迅速介入问题解决过程;三线技术专家来自产品供应商,由二线技术专家申请三线厂商专家的介入,使问题解决时间能够大大缩短。

    (4)设立专业自助式知识库,最大限度节省人力成本

            自助式知识库是指对IT运维中的典型故障事件和常见问题解答的自助式处理流程。当出现故障时,用户先在自助式知识库寻找解决方法。如果问题没有得到解 决,则用户进行自助式申请维护,用户申请将会移交给服务台接管,服务台第一时间建立服务档案并一直实时监控,直到问题得到圆满的解决。因此,自助式知识库 能帮助运维人员节省大量的时间,从而节省人力成本支出。

            总 而言之,IT运维人力管理不但是IT建设最繁杂的部分,也是IT运维成本最关注的要素。通过专业化分工来提高IT团队人力资源的利用效率是一个长期的工 作,后续还需要配套许多具体的执行工作。但最关键的一步是要从企业实际出发,根据企业IT建设各阶段的需要把运维团队进行专业化分工。 (转帖)

    转载于:https://www.cnblogs.com/cancanwyq/p/4040336.html

    展开全文
  • 9月10日-11日,上海光大国际会展中心隆重举办了“2017上海站CNUTCon全球运维技术大会”。本次大会的主题是“智能时代的新运维”,各个公司为观众带来了他们关于该主题的思考,并分享了他们的实践经历。InfoQ有幸邀请...

    9月10日-11日,上海光大国际会展中心隆重举办了“2017上海站CNUTCon全球运维技术大会”。本次大会的主题是“智能时代的新运维”,各个公司为观众带来了他们关于该主题的思考,并分享了他们的实践经历。InfoQ有幸邀请了杭州优云软件有限公司的产品副总裁蒋君伟老师接受我们的采访。谈到对自动化运维未来的展望,蒋老师表示自动化运维必然是大势所趋,但是因为相关技术债务的存在,自动化运维的成本还很高。那优云自己的技术与产品是如何去做高效运维的呢?本次采访带你了解一二。

    162926_p4Ar_2828032.jpg

    优云automation

    InfoQ:与其它同类产品相比,优云有哪些优势?

    蒋君伟:要介绍优云的产品优势,我想可以简单说明一下优云是如何来的。优云来自广通,广通公司成立于2003年,14年以来一直专注于运维领域,广通的产品也随着运维行业的趋势发展,从最初的监控、CMDB、ITIL到APM,行业的客户也深入到政府、金融、运营商领域,我们对用户运维痛点与上一代运维产品的瓶颈,有深刻认识。

    所以,2016年,广通成立全资子公司,推出了新一代运维产品线优云,与同类产品相比,我们有以下优势:

    1.平台化:打通运维场景,避免运维信息孤岛与运维工具碎片化的情况

    2.自动化:结合自动化操作编排,实现故障自愈与运维自助式服务

    3.社交化:通过ChatOps App,由运维机器人辅助运维人员,随时随地完成运维工作

    4.大数据:内置运维数据分析算法,有效解决数据中心容量规划难题

    5.分布式:支持水平扩展,可随资源规模增长而增加管理能力

    InfoQ:优云产品采用了哪些核心技术?

    蒋君伟:优云产品的核心技术包括:

    1、 安全、稳定、低负载、易扩展的采集代理平台

    采集代理是运维体系中非常重要的落地工具,由于企业用户的环境非常复杂,所以采集代理在技术设计需要非常注意:

    优云Agent主要使用Python与Java技术平台实现,所以在服务器的兼容性上有很大保障;

    为兼容被防火墙与网闸隔离的网络,Agent总是单向对Server发起连接,拉取作业或上报结果,这种方式也可以让Agent集群形成一个网状级联,兼容多级网络;

    同时Agent会主动降低进程的优先级,以降低CPU消耗,控制内存与磁盘使用,将对部署服务器的影响降到最低;

    Agent使用强引擎弱脚本的设计思路,内置了ssh/wmi/snmp/ipmi等交互协议,允许用户快速使用shell/python/groovy等脚本快速扩展Agent能力。

    2、 可视化埋点技术

    优云UEM产品可以实现用户Web端与移动端的用户操作体验监控,不像传统的用户体验监控产品,我们不需要预先埋点,我们可以帮助产品经理生成用户的操作热区,并直接在产品界面上操作,决定要关注哪些用户的操作行为。这个埋点依赖两个部份完成:

    用户交互数据的全量抓取技术:通过在应用端部署前端agent js, agent会监听页面中的相关操作,比如点击事件,超链接等,将相关数据(比如来源、去向)全部记录下来,并每隔1分钟进行上报,由服务端存储分析。

    用户界面元素标记技术:可以直接在被监控应用端进行框选,设置页面元素标记,这些元素会和全量采集的数据进行匹配(比如通过匹配css选择器、文本等)。通过这种可视化标记的方式就可以直接关注用户需要的数据,无须开发者手动对页面元素进行埋点。

    3、全链路监控技术

    优云UEM与APM,已经将用户端的操作与服务端对此操作的执行过程结合在一起,通过UEM的用户端请求染色,可以跟踪每一个请求操作到服务端,针对服务端的常用RPC协议,如http/dubbo/rmi等,也可以通过嵌入式agent进行染色与跟踪。因此,一笔操作所经过的每一个计算节点与数据存储节点的调用堆栈,我们都可以捕捉到,并能呈现分析其中的瓶颈节点与代码。

    4、 图像质量分析算法

    优云VideoMon产品使用的图像与视频质量分析算法,可以快速完成摄象头成像质量的分析,其中诊断的准确性与快速是技术关键。使用信号波动检查、像素灰度值分析、非灰色像素集中区域分析、图像弱边缘数分析等算法,来实现视频信号丢失检测、偏色检测、清晰度异常检查等功能。

    InfoQ:谈谈对全栈双态运维解决方案的具体理解?

    蒋君伟:这里有两个关键词:

    1.全栈

    全栈体现了解决方案的覆盖面是完整的,运维的对象,可以从基础架构到业务应用;从物理资源到云资源;从用户端到服务端的全链路运维。

    2.双态

    双态则有两层含义。从技术层上来说,双态要求产品能同时进行传统IOE架构的运维,以及x86架构的云资源运维;从管理上来说,应能支撑ITIL与DevOps这两种运维体系。

    我认为全栈双态运维解决方案,应该能满足这两个关键词。

    InfoQ:优云产品解决方案已经应用到了哪些行业和哪些客户中?具体效果如何?蒋君伟:自16年7月发布我们的产品后,很多用户都非常踊跃,到目前我们也实施了不少典型案例:

    1、 某金融双态方案,实现云资源交付的服务自助化

    金融目前是最典型的双态运维场景了,一方面金融核心系统要保持非常稳定,是稳态,另一方面移动支付渠道又要求应用的迭代与响应非常敏捷,是敏态。

    通过优云的Monitor,我们实现了传统业务与互联网业务的全栈监控;并且通过ITSM实现流程自助服务,业务部门提交的资源申请工单,在审批通过时,借助CMDB与Automation,实现业务部门的资源交付、应用部署自助化。

    2、 某部委业务大数据分析监控方案

    此客户全国拥有数万的站点需要上报业务数据,这些数据的处理要求非常高的时效性与准确性。由于站点的规模变大、数据种类增加以及数据监控粒度的增加,旧的业务支撑保障系统已无法满足对业务数据的实时监控需求。

    优云Store运维数据平台具有大数据分析能力,能实现这些上报的业务数据实时流数据处理,结合CMDB中的站点基本信息,实现监控指标的多个管理维度分析,并通过Show大屏可视化呈现全国的数据质量。

    3、 某海外平安城市运维项目

    平安城市中存在大量的IT设备与海量的物联网设备需要运维管理,其运维团队对于整个城市的摄象头故障总是头痛不已,一直处于被动运维的状态。

    优云VideoMon能快速完成上万路的摄象头图像质量分析监控,大量减少运维团队的巡检成本。对存在故障的结点,优云Alert通过告警热图功能,从地域、类型、业务等多个维度,为用户呈现故障分布情况,快速帮助用户找到问题根源,缩短故障修复时间。

     

    InfoQ:谈谈对自动化运维的展望。

    蒋君伟:自动化运维必然是大势所趋,并且会越来越快地改变我们的运维工作,目前我们所处的时代是一个旧与新的过渡时代,就像集装箱发明后的航运业一样。

    在集装箱刚开始被发明出来的阶段,大家从心理到技术上都没有作好准备,包括货主、公路、铁路、港口、吊车到轮船,都没有为集装箱做好配套。但由于几个关键事件,集装箱的标准化,以及随之配套的操作、运输手段,很快就改变了全世界。

    我们现在也是,虽然容器及服务、函数及服务技术已经出现,但我们还有太多的历史债务需要偿还,所以现在的标准化与自动化的收益还不明显,自动化运维的成本还很高。

    但随着历史债务的解决,新的应用研发、运维手段,都会围绕着这些新技术配套起来,到时候自动化运维就非常容易实施与获得巨大收益。

    最后,我们运维人员也会像码头工人一样,需要改变我们的技术工作内容与深度,否则就会被下岗。

    嘉宾介绍:

    蒋君伟,优云产品副总裁,IT运维领域的十年老兵,先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了国内多个全国性的网络管理与运维管理项目。现从事优云新一代数据中心运维产品研发工作,主要负责产品线规划、核心技术研发、研发团队建设与运维咨询等工作。

    优云automation免费使用:https://www.uyun.cn/uyun_automation.shtml

    转载于:https://my.oschina.net/uyunsoft/blog/1542940

    展开全文
  • 运维成本和效率两方面发力,以达到节省资源、提高效率的目的。 今天我们要分享的是近几年我们在AIOps(智能运维)领域的探索和实践经验。 下面是本次分享的摘要: 背景介绍 ...

    讲师介绍

    籍鑫璞

    奇虎360 

    智能运维项目技术负责人

    • 360机器学习工程师,2016年加入360后一直从事与智能运维相关的工作,致力于用AI手段解决运维场景下的各种疑难杂症。

    • 从运维成本和效率两方面发力,以达到节省资源、提高效率的目的。

    今天我们要分享的是近几年我们在AIOps(智能运维)领域的探索和实践经验。

    下面是本次分享的摘要:

    • 背景介绍

    • 360对AIOps的思考

    • AIOps的实践方案

    • 经验和总结

     

    一、背景介绍


    随着互联网的软硬件呈现爆发性的增长,新的架构层出不穷,运维人员需要做到7*24小时的职守来保证系统的可靠性和稳定性。但这明显是不可能的。

    那么面对这种空前的压力,有没有一种“机器大脑”能够减少甚至代替运维人员去做一些事情,极大地减少他们的工作量,提高运维的效率?又该如何得到这种“机器大脑”呢?

    很多运维场景都可以总结成一些规则化的东西,可以经过提炼总结生成人工经验库。除了人工经验以外,是否可以通过AI算法对历史数据进行分析,得到一些由机器生成的规则?

    答案当然是可以的。如果能将AI算法+人工经验应用到Ops中,代替一部分的人工决策,这样将推动运维从普通的自动化阶段到智能化阶段迈进。

    从今年开始,很多公司在AIOps领域进行了一些尝试。我们公司的AIOps也经历了从最开始的标准化到后来的精细化、数据化运维的前期铺垫,在2018年,AIOps项目组正式组建,经过近一年的发展,已经在很多单点应用方面取得比较好的效果,并争取在今年年底,能够实现一些场景的闭环。

     

    二、360对AIOps的思考


    大家熟悉的AIOps场景有很多,诸如异常检测、根因分析、故障自愈、容量预测等方面。根据平台的实际场景和业界AIOps的实践经验,我们将AIOps划分为三个场景:成本、效率和稳定性。

    针对成本来说,利用AI算法节省资源、智能调度、提高资源利用率的手段来节省资源;针对效率方面来说,利用AI算法主动发现问题、分析问题和解决问题,真正节省人力,提高效率。

    那如何开展AIOps呢?我们认为AIOps需要开展需要下面三种人员:运维人员、运维开发、机器学习工程师。三者缺一不可,否则项目就会半途而废。

    上面介绍了我们对AIOps的理解,下面就是纯干货出场了,我们将分两个大方向五个具体项目来介绍AIOps最佳实践经验。

     

    三、AIOps实践方案


    1、基础

    数据积累

    所谓“巧妇难为无米之炊”,在启动AIOps之前,需要准备很多数据,包括机器维度的基础数据、网络数据、日志数据、甚至进程数据等。我们有专门的大数据工程师历时两年多对数据进行收集,为后面的数据分析、机器学习模型打下坚实的基础。

    下面是我们前后收集的数据总结:

    容量预估

    有了历史数据,我们就可以对数据进行一些分析。

    首先介绍一种场景——容量预估。对重要监控项的预测,能够使我们及时了解指标的走势,为后面的决策提供了科学的依据。

    监控项的样本就是时间序列,通过分析监控项的序列,得到未来一段时间的预测值。根据波动剧烈程度,监控项可以分为波动不太剧烈和剧烈的;根据周期性,可以分为具有周期性和不具有周期性等等,当然还有很多划分的标准。可见,不同时间的序列,我们需要使用不同的模型去预测。

    在对时间序列进行预测的过程中,我们先后使用了下面几种模型,从中总结出了一些经验:

    很多时间序列具有周期性,我们还自研了一个周期性检测的模型,能够比较好的判断一个序列是否具有周期性。在周期性检测的基础上,进一步跟进序列的周期性特征,来预测不同的时间序列。

    对于预测模型,前人已经总结了很多种,我们在项目中使用了下面一些模型,你可以根据时间开销和准确度来选择自己的模型。以上所有的预测方法将在近期进行开源,还希望大家持续关注:

    主机分类

    在实际的项目中,我们经常会遇到分类任务,比如根据主机监控项的特征,需要用模型判断出该机器是否为空闲机器;再比如,我们会根据监控项的特征,来判断该机器属于的类型(CPU、磁盘、内存密集型)。

    机器学习中有很多分类算法,比如SVM、决策树、分类树等都可以完成分类任务。我们只需要做一些预处理以及特征工程等方面的工作后,就可以使用Python中现成的分类模型,在此就不详细介绍。

    2、项目

    有了容量预估和主机分类的基础模块后,我们在成本方面先后做了资源回收、智能调度系统两个项目,并取得了比较好的效果。

    资源回收

    资源回收,就是及时发现比较空闲的机器,通知业务进行回收,以达到提高资源利用率的目的。

    我们的资源回收系统分为三块:容量预估、主机分类以及通知模块。容量预估模型是对五个比较重要的指标(CPU使用率、内存使用率、网卡流量、磁盘使用率以及状态连接数)进行预测以及定量分析后,生成了五个特征。接下来使用分类器来对五个特征进行分类后,得到空闲的机器列表,最后将空闲机器通知给相应的业务负责人。

    在AIOps中,经常会遇到负样本不足的问题,一个原因是异常的场景比较少,另一个原因是用户标注的成本比较高。

    在主机分类的过程中,我们使用了两种手段来生成样本,一种是人工标注,一种是用户标注,解决了负样本不足的问题。下面这幅图是我们在Q2季度时候资源回收取得的效果,目前看还不错:

    MySQL智能调度系统

    我们线上的MySQL机器存在严重的浪费问题,例如下面的场景:可以看到只要有一个指标是高负载的情况,这个机器将不可用。细想一下,如果一台机器内存比较高,但是并不代表这台机器不可用,我们可以将CPU使用率较高但内存使用率较低的实例调度到这台机器上,达到充分利用资源的目的。

    为了将不同类型的机器和不同类型的实例进行合理搭配,需要将实例和机器进行分类。在该项目中,实例分类采用了BP神经网络,其中输入是7个重要的实例指标,输出是4个类别(低消耗、计算型、存储型、综合型)。

    机器分类采用决策树模型,输入是5个机器指标,输出和实例的输出类型一样。样本全部采用人工标注的方式,生成了1000左右的样本。

    有了分类好的机器和实例以后,就需要进行调度。在调度过程中,考虑了多种因素:

    • 尽量保证迁移次数少

    • 尽量少的避免切主

    • 保证主库和大容量端口的稳定性

    • 控制每台机器上主库的个数(不超过5个)和实例总个数

    • 同一端口的实例不能出现在同一机器上

    • 不调度黑名单机器

    我们按照上面的原则对一个机房的实例进行测试,端口迁移的次数为45次,可能将30台高负载机器中的14台变为可用状态。

    成本一直是我们今年努力的一个大方向。除了上面介绍的两个项目,我们还使用了分时计算的手段来进一步节省资源。今年的目标是能够为公司节省五千万的成本,目前已经节省三千五百万,还没有达到目标,需要继续努力。

    上面介绍的是成本方面的工作,下面介绍效率方面的项目。

    异常检测

    异常检测是AIOps最常见的场景,算法也有很多,业界比较流行的比如普通的统计学习方法——3σ原则,它利用检测点偏移量来检测出异常。比如普通的回归方法,用曲线拟合方法来检测新的节点和拟合曲线的偏离程度,甚至有人将CNN和RNN模型应用到异常点的检测。

    我们公司使用LVS比较多,为了应对流量突增和突减的情况,需要一个异常检测算法。

    通过对LVS流量的时间序列图的分析,发现有的曲线有周期性,有的没有;有的毛刺比较多,有的比较平稳,所以需要有一个普适检测算法,能够处理各种复杂的场景。

    现实场景中,负样本比较少,我们采用了无监督模型,除此之外,还借鉴投票机制来解决单纯的方法有时候具有偏差这样的问题。

    在该项目中,我们采用了五种以上的检测算法,有统计学中同比环比的情况、曲线拟合算法以及周志华老师的隔离森林模型。通过这些模型来一起对一个时间序列进行检测。如果这些算法中有超过一半的算法认为该检测点为异常点,我们就认为这个点为异常点。

    跟踪了将近半年线上LVS流量数据,检测算法的准确率高于95%,效果还是不错的。

    报警收敛

    为了保证系统的可靠性,运维人员经常设置很多监控项来及时了解系统的状况。如果某个监控项超过设置的阈值,则系统中某些指标出现问题,需要运维人员进行处理。这样不经过过滤,直接将所有的报警全部发出来的方式,很容易增加运维人员的压力,而且随着报警数的增多,也很容易造成他们的疲劳感,并不能达到好的报警效果。

    我们对历史报警进行分析,发现其中有很多规律。如果我们利用算法分析出这些报警项之间的关系,再加上人工经验,将很大程度减少报警的数目。

    人工经验就不用说了,下面介绍一下如何通过算法去分析出报警项之间的潜在关系。

    我们采用机器学习中关联分析常用的算法Apriori来分析历史报警,该模型利用频繁项集分析出A→B这种关系。将这种规则应用到报警中,如果A报警发出,则B报警就不需要发出,这样就能够成倍减少报警次数。下图是我们对过去30天的报警数据分析,得到20+的关联规则:

    我们线上维护着一个规则库,这个规则库来源于两部分:算法分析规则、人工总结规则。在利用这些规则同时,我们还结合了业务的评级来对业务报警进行一定程度的合并处理。跟踪了半年的报警,采用这个规则库能够减少60%-80%的报警。

    报警事件的根因分析

    上节介绍了减少报警的方式,但是现实中的报警是不可避免的。在发生报警以后,如何快速定位具体问题就成为关键的环节。那如何通过模型去定位问题呢?

    通过统计分析,我们线上发生最多的是这六大类的报警,这些报警分别是:

    • 主机存活(host.alive);

    • 磁盘空间使用率(df.bytes.used.percent);

    • 磁盘分区只读(sys.disk.rw);

    • CPU使用率(cpu.idle);

    • 内存使用率(mem.swapused.percent);

    • 磁盘io操作百分比(disk.io.util)。

    在发生报警后,运维人员需要登陆到机器或者监控系统去看出现问题的时间段内是哪些监控项或者进程出现问题。这样繁重且具有很强规则性的场景特别适合模型去搞定。本节将介绍一种模型,能够帮助运维人员缩小报警排查范围,快速定位到问题。

    该项目中要分析两个维度数据:

    • 一个是事件维度,关注的是六大类报警事件;

    • 一个是指标维度,关注机器维度的监控项(大约有200左右个监控项)。

    那如何在事件发生后,找到跟它相关的指标呢?实现的方法如下:

    1)针对每个事件,使用在2014年SIGKDD会议上发表的论文《Correlating Events with Time Series for Incident Diagnosis》中提到的方法,看哪些指标跟这个事件发生有关系。这样的做目的是对指标进行初筛,达到降维的目的。

    2)针对第一步选出来的指标,求出这些指标的信息增益比,选择前k个(我们取得值是5)特征作为最后的影响指标;

    3)最后使用xgboost对影响指标进行分类,验证效果。

    下图是我们对这六大类报警的分析结果,取报警事件最相关的Top5指标,取得比较好的准确率:

     

    比如下一次发生“host.alive”报警,就有很大概率是 'cpu.idle' 、 'net.if.total.bits.sum' 、 'mem.memused.percent' 、 'mem.swapused.percent' 和 'ss.closed' 导致的,这样就能够减少排查问题的时间。

     

    四、经验和总结


    通过将近一年的努力,我们已经在一些单点的应用方面取得比较好的效果。下面是接下来要做的工作前瞻:

    • 报警进程级别的定位;

    • 开源组件(容量预估、异常检测以及报警事件的关联分析);

    • 运维聊天机器人。

    接下来的工作中,我们将结合一些具体的场景将上面介绍的一些单点串联起来,真正能够从发现异常问题、分析问题到最后的解决问题,形成真正意义上的闭环。

    以上就是我此次分享的全部内容,感谢大家的参与,谢谢!

     

    直播回放

    https://m.qlchat.com/topic/details?topicId=2000002350036659&tracePage=liveCenter

    展开全文
  • 由于IT系统越来越复杂,运维成本也随之水涨船高,其中人力成本更是花费惊人。具体为软硬件和网络设备的维护成本占30%,日常维护服务成本占30%,而运维人力成本则占了40%。人力成本包括现场维护、训练教育、人员流失...
  • 林昊介绍,淘宝在2011年开始引入虚拟化,引入以后,淘宝整个运维成本下降许多。他指出,许多企业运维成本不够低的主要原因包括:单台物理机上跑的应用不够多;分给应用的机型以及机器数是静态的;集群的资源利用率
  • 当前数据中心TCO成本构成中,服务器及机柜成本是最大成本,约占总成本的54%左右,排在第二位的是供电和制冷,约占21%左右,从中可以看到,服务器成本优化对整个运营成本控制是有关键作用。 当前服务器发展趋势是...
  • 智能运维 --- 成本优化 --- 容量规划 --- 案例 AIOps新应用:为大数据批处理任务配置最佳云资源 项目背景 运行在云上的大数据分析任务变得越来越重要。现有的大数据分析技术包括map-reduce、SQL式查询语言、...
  • 我掐指一算,大概涉及到数据中心、网络、服务器等基础架构的规划、建设、运营及服务管理,涉及业务架构评估、部署方案优化、运行环境设计、容量与成本管理、可用性与连续性管理、故障恢复与维护等诸多方面,以上工作...
  • 降低网络运维管理成本技巧分析

    千次阅读 2013-01-06 14:24:44
    如何正确的降低网络运维管理成本,是每一个企业IT管理员必须要解决的问题。受国内外各方面因素的综合影响,IT市场整体需求下滑,而传统的网络产品的价格却越来越透明,竞争越来越大,产品利润越来越低,不少中小渠道...
  • 2009系统架构师大会ppt 网络架构设计专场——丁伟:广域网优化、应用加速降低IT运维成本 (若要下载大会其他部分,点击 标签“2009系统架构师大会”,即可看到)
  • 对于每一个运维问题,业务人员更多关注结果,开发人员更多关注如何实现,而对于总公司运维人员首先考量成本与效益之比,如:此类问题出现的几率是多少?此类数据使用的频次是多少?每次出现进行后台修正的成本与通过...
  • 运维工作梳理

    千次阅读 多人点赞 2019-12-19 07:44:12
    1.1 inux运维的主要工作内容 1、什么是linux运维 ...运维又包括很多种,有DBA运维、网站运维、虚拟化运维、监控运维、游戏运维等等。 运维分类: 1)开发运维:是给应用运维开发运维工具和运维平台的 2)...
  • 作为企业IT运维工作人员,我们最关心的往往是数据中心各项服务是否稳定运行,系统是否安全。然而,数据中心的运维人员、甚至公司领导和业务部门都几乎很少关心数据中心的能耗。据相...
  • 随着IT技术的发展,运维需求越来越多样,运维系统的架构也越来越复杂,各公司分别独立建设运维系统的技术和成本要求越来越高,因此越来越多的大型集团企业开始转变思路,考虑建设集团统一的一体化运维系统。...
  • 本文根据杨经营老师在〖Deeplus直播第216期〗线上分享演讲内容整理而成。杨经营58到家运维专家多年互联网运维经验,2015年加入58到家,精通Linux操作系统,见证了58到家运维...
  • 7.1以运维成本最优为目标的智能运维策略模型 7.2基于建模优化的海上风电运维调度 7.3基于模糊综合评估的运维策略 7.4基于运筹优化的运维策略 7.5基于全生命周期可控成本优化的运维策略 7.6基于仿真评估的运维...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 113,266
精华内容 45,306
关键字:

运维成本