订阅云计算RSS CSDN首页> 云计算

[TUP第25期]IT自动化运维

发表于2012-08-26 13:26| 次阅读| 来源CSDN| 0 条评论| 作者包研

摘要:搜索、社交、视频等应用层出不穷这些应用对IT企业的运维能力提出了近乎苛刻的挑战。IT运维之道一直是互联网企业和技术人员关注的重点。自动化运维是近几年的热点话题。本期TUP活动特邀请到来自艺龙网、新浪网、奇虎360的三位运维专家畅谈IT自动化运维。

【CSDN报道】8月26日,TUP第25期在翠宫饭店举行,此次TUP话题为IT自动化运维,艺龙网平台总监余沛、SinaEdge平台运维主管刘宇、奇虎360技术经理刘浩分别带来了各自对IT自动化运维的理解和实践。运维在整个IT业务中往往被忽视,但却是不可或缺的重要工作。如何保证IT系统稳定运行的同时,将一些重复性的、密集的工作自动化,对于整个运维的稳定性、降低工作量都是十分有效的。此次TUP一如既往的热闹,会前现场工作人员不得不增加座位。

图:TUP第25期IT自动化运维

艺龙网平台总监余沛:互联网时代的自动化运维

余沛主要介绍了自动化构建体系的发展历程,以及艺龙网自动化构建体系的发展历程。

图:艺龙网平台总监余沛

整个计算机发展历史可以简单归纳为上面所写三个时代,就是从单机时代到局域网时代一直到现在互联网时代。在整个发展历程期间,无论业务模型还是技术模型都发生了很大的变化,而这些变化也催生了我们运维的方式和手法在相应会做调整,或者说重点会发生一些转移。我们设备管理、内容管理、资产管理,比如说搞一个自动装机系统装一个操作系统,你有一百台机器跟一千台机器,随着机器数量增加带来时间复杂度的线上增加,本质上没有什么太大的变化。所以根据这两种不同复杂度,使得后期互联网时期的运维目标又一次发生了一个切分。这种复杂度不一致的出现,使运维工作衍生出更加明确的分工,也逐项剥离。安全这一块也基本上从运维中独立出来,现在很多公司安全部门已经是一个单独的体系,成为很重要一环。

运维工作随着公司规模的发展扩大,问题就会凸现出来,仅仅工具肯定是不够的,另外还缺乏运维指标、运维预案和知识库。当规模聚集到一定程度的时候,依靠工具化本质人是手工管理运维就比较难以应付了,我相信如果很多公司机器上百太或者一两千台规模的时候就能体会这个问题。针对这个问题,各种领域系统就如雨后春笋般冒出来。规模到了一定的程度,比如说现在互联网上会冒出上万台的公司里,业务之间交互和子系统已经非常头疼了,传统的软件已经覆盖这个场景下的运维需求,到了这个阶段,除了各个服务自身的监控信息、部署信息我们需要维护以外。服务与服务之间的关系管理,和上下游变更带来的影响,业务之间的串联显得非常重要。

在自动化运维的后期,这个应该是一个前期我们看到我们的开发关注的是应用,运维关注的是一个机器,其实两个之间并没有交际点。

在可预见的方向上,运维的角色重要性也越来越提升,这种提升的关键其实不是说公司需要你如何调整,而是运维在整个技术体系中的参与度和所处的位置发生了一个变化。自动化运维的兴起将传统意义上的后期服务的运维人员直接带到服务的前沿。我们以往简单追查故障和保证服务,虽然是运维一部分,但是随着运维自动化的发展,运维人员应该有更多精力和条件投入到整个服务架构的梳理,因为我们知道很多研发的时候,他对自己那一块很清楚,但是对整个架构不是很清楚,所以运维人员可以站在整个架构的角度对这些东西进行梳理甚至设计。甚至以主见的方式参与开发,以至于有天生的预见性。所以我提倡我们研发应该关注运维,而运维一定要有能力建立研发,只有对等能力的脚色配合,各自负责不同领域的方向,才是整个技术体系必然分工,也是运维真正能够摆脱苦力劳作继续往更深技术发展是一个必然直路。

SinaEdge平台运维主管刘宇:集中化运维管理——Puppet的管理之路

接下来SinaEdge平台运维主管刘宇做了《Puppet的管理之路》的主题演讲,刘宇负责新浪微博、新浪视频、看点、微盘、音乐等业务CDN运维。2011年编写《Puppet集中化管理》。

图:SinaEdge平台运维主管刘宇

自动化运维分三个重要,一个是系统安装,第二个是配制管理,第三个是监控报警,就囊括了我们运维中必须做的事情。目前比较常见的系统安装是KICKSTART,大家达到了必要的效果,我们也可以做一些系统安装一些自定义,来配合我们的配制管理,通过我们配制管理可以陆陆续续做一些监控报警。配制管理这些工具大家肯定都不陌生。新起之秀是Puppet,很多公司都在用。CAPISTRANO等等,这些配制是相辅相成的。

监控报警NAGIOS这个不用提了,大家都在用,ZABBIX我也使用很多年了,GANGLIA是新浪去年部门使用比较多的东西,但是我个人比较推荐ZABBIX,这四款软件是我个人最熟悉的软件。CACTI是报表里面做的最好一个,但是它会有问题,就是你看年图和月图的时候当你数据量非常庞大的时候,准确率会出现不足的情况。所以我目前推荐的是ZABBIX。

刘宇分享了Puppet各种优势以及实际使用过程中的经验,干货很多。稍后CSDN会有详细的文章进行解读。

奇虎360技术经理刘浩:可扩展的云监控构建之道

图:奇虎360技术经理刘浩

当我进入360的时候,老板告诉我说,自动运维这方面你全局负责,我突然在开心的时候觉得自动运维可做的事情太多了,我们应该做什么呢?这么多东西我应该从哪一个地方开始呢?是先做配制管理刘宇应该熟,还是把自动部署问题解决,或者直接从IAAS开始做起。我在考虑如果在一个公司实施自动化运维,我们实施什么在本质上促进这个公司运维自动化水平能够提高?是不是把这些做完了就OK了?我们应该从什么地方开始?后来我一个感觉就是,在公司不同的规模它所处的行业不一样的时候,它的需求差异还是比较明显的。可能我们需要去做量体裁衣够用就好。

这是我对自动运维的总结出来几个基础性的东西。第一个他应该有一本清晰地张本,这个清晰地帐本是什么?就是应该有一个准确基础信息记录一个地方。

第二个是靠谱的监控。自动运维特别是互联网公司,看起来公司规模很大,但是每一个产品规模都不是特别大,特别是非主业的几个研发、几台机器,自动化部署并不存在通用很强烈的需求,因此我认为监控肯定是靠前的。还有就是一个靠谱的任务执行系统。这个任务执行系统是一个什么概念,就是比如说我们提到自动部署,比如说我们提到关联关系的管理,甚至其他一些调度的东西,其实它最终在底层可能有一个通用的需求,就是说我需要在一批机器上去执行一个任务,这个任务不是特定某一种,中间可能涉及到一些控制逻辑、并发逻辑的一些管理,这是一个比较通用的需求,所以我整理出来基础运维的基础就是三方面。

什么是一个靠谱的监控。我自己做了一些定义。我觉得监控这个东西本质是什么东西,它其实就是对被监控对象的指标进行状态判定。举一个例子比如说我们拿一台服务器上NGINX服务来说,被监控对象是什么呢?就是NGINX服务,指标是大于多少等于多少。需要支持网络层、服务器、服务、业务四层。业务是不需要关注内部是什么样的,只需要从用户的角度看就好了。比如说用户访问质量,需要支持这四层。这个在互联网公司是不可或缺的。如果一个靠谱的监控,我觉得需要解决这些挑战,特别是在互联网公司,常听到运维的人抱怨,报警太多了基本跟没报是一样的,或者报警是一样的看不懂,根本没办法看,报警系统不好用,我觉得它不好用的原因就是这些事情没有抓住根本。

 图:会后余沛、刘宇、刘浩与听众交流

往期活动报道:

[TUP第24期] 由国内外开源现状全景解读“我们的开源”

[TUP第23期]新浪、搜狗、语智云帆分享智能算法实战

[TUP第22期]底层地图服务与LBS应用开发技术分享


什么是TUP?

Technology 技术

User Experience 用户体验

Product 产品

分享产品背后的技术和用户体验故事

TUP是由全球最大的中文IT技术社区CSDN和最具影响力的IT技术期刊《程序员》发起组织的线下活动,以业界知名专家讲座和论坛形式在北京、上海等主要城市定期举行,主要针对IT产品研发相关的技术、设计、运营、运维、管理专业人士,目的是与技术界人士共同关注IT产品研发背后的成败经验,关注技术、用户体验和产品设计,信仰开放、创新、交流和社区。

0
0
[TUP第25期]IT自动化运维