运维工程师 订阅
运维工程师(Operations),负责维护并确保整个服务的高可用性,同时不断优化系统架构提升部署效率、优化资源利用率提高整体的ROI。运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好几十万台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。 展开全文
运维工程师(Operations),负责维护并确保整个服务的高可用性,同时不断优化系统架构提升部署效率、优化资源利用率提高整体的ROI。运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好几十万台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。
信息
外文名
Operations
技    能
服务器、操作系统、数据库
中文名
运维工程师
应    用
网络、服务器
运维工程师职责
无论做什么运维,运维工程师最基本的职责都是负责服务的稳定性,确保服务可以7*24H不间断地为用户提供服务。在此之上运维工程师的主要工作职责如下:从产品的生命周期来看:1. 产品发布前:负责参与并审核架构设计的合理性和可运维性,以确保在产品发布之后能高效稳定的运行。2. 产品发布阶段:负责用自动化的技术或者平台确保产品可以高效的发布上线,之后可以快速稳定迭代。3. 产品运行维护阶段:负责保障产品7*24H稳定运行,在此期间对出现的各种问题可以快速定位并解决;在日常工作中不断优化系统架构和部署的合理性,以提升系统服务的稳定性。
收起全文
精华内容
下载资源
问答
  • 整理了这些初级运维工程师面试题。很多问题其实答案很简单,但是背后的思考和逻辑不简单,要做到知其然还要知其所以然。
  • 运维工程师考试试题 适合笔试使用 运维工程师考试试题 适合笔试使用
  • 运维工程师笔试题.doc

    2020-06-02 13:38:43
    某文件的组外成员的权限是只读、属主是全部权限、组内权限是可读可写、该文件权限为?( D ) A.467 B.674 C.476 D.764 Linux配置文件一般放在什么目录?( A ) etc bin lib
  • linux运维工程师的六类好习惯和23个教训 关于rm -rf / var 这种错误,我相信手快的人,或者网速比较慢的时候,出现的几率相当大。 当你发现执行完之后,你的心至少是凉了半截。 大家可能会说,我按了这么多次都没出...
  • 本试卷第一版(V1.X)题目涵盖桌面运维工程师考核试卷的卷一至卷三所有选项、判断类题目,类似题库,考核“面试人员”时,从中摘选部分题目考核,比如单选只留前30道题目,然后打印,试卷可复用。参考答案,参见最后...
  • 软件开发生产环境运维工程师日常巡检报告模板,包含Linux、MySQL、Redis、NGINX、Tomcat、Apache等服务器巡检工作
  • 系统运维工程师笔试题目--答案版,详细题目000
  • 面试真题属于应试者记忆问题的再现,会与真实面试情况存在部分差别,建议你参考多家企业的 Linux 运维面试题目,增加通过率。
  • 机房运维工程师培训教材 目的为新入职的运维工程师提供培训快速的掌握机房运维所需要的知识了解熟悉机房的管理要求规范加强运维操作管理规范降低IDC的运维风险保障IDC及设备的运维安全大纲IDC基础知识计算机基础知识...
  • Linux顶级运维工程师学习笔记,超级牛逼的,一定要下载学习
  • 系统运维工程师.docx

    2019-08-12 13:00:36
    简历中主要描述软件运维的方式和方法!仅作参考
  • 桌面运维工程师年中总结PPT.pptx
  • Linux运维工程师学习成长路线

    万次阅读 多人点赞 2019-12-14 20:52:46
    作为互联网的幕后英雄,Linux运维工程师长期隐匿在大众认知范围之外,关于运维的讨论仍旧是一片无人涉足的荒漠。在某知名行业研究调查结果中,非互联网从业者对于运维相关问题的回复有三个高频词汇是:不知道、没听...

    作为互联网的幕后英雄,Linux运维工程师长期隐匿在大众认知范围之外,关于运维的讨论仍旧是一片无人涉足的荒漠。在某知名行业研究调查结果中,非互联网从业者对于运维相关问题的回复有三个高频词汇是:不知道、没听过、网管。当调查人员告诉他们科幻电影中展示黑客高超技巧时的命令行界面,正是大多数运维工程师每日工作环境时,他们发出极其一致的惊叹。相对于普罗大众的一无所知,技术圈对运维的态度则更偏向于黑色幽默。相较于开发等工作岗位,7*24小时待命的运维工程师总是默默无闻作为守护者,当然同时还要接受“背锅侠”这一艰巨使命。

    其实,Linux运维工程师被称为“背锅侠”只是网友调侃,有不少同学对这个岗位工作还是有一定误解。在双十二来临之际我们介绍下这个幕后英雄的技术岗位-Linux运维工程师

    目前国内互联网、移动支付、O2O业务发展迅猛,需要为亿万用户提供线上服务。像腾讯、百度、阿里等一线互联网公司,需要数十万台服务器和成千上万IT从业人士,来提供技术服务。

    那么在很多企业IT技术工程师中,一般会分为:开发、测试、运维等几大分支,其中,开发和运维大类中,又可分为很多具体技术岗位。

    在众多互联网公司,IT技术岗位,整体分为三大类:

    1、开发岗位,也就是我们所说的码农,天天撸代码。

    2、测试岗位,找码农写的bug,然后让码农改,改好后上线。

    3、运维岗位,需要搭建好线上服务环境及架构,并保证代码无误上线,及线上业务正常能够被用户访问。

    开发-测试-运维分工

    在企业中,整个技术生产线是这样的流程:

    开发需要开发好代码---> 交给测试工程师测试----->测试完成后,提交给运维工程师进行上线

    运维工程师,的一个重要工作是需要把开发写好的代码,发布出去,给用户提供服务。当然,很多大公司已经实现可持续集成,开发自己就能发布。但这个环节,也少不了运维工程师的支持。可以看出,Linux运维工程师在整个环节中是离用户最近的,也是决定用户访问质量的重要环节。随着移动互联网、O2O、云计算、大数据的发展,服务器的可用性,成为各家公司技术的分水岭,对于一些大的互联网公司而言,对服务器的可用性要求极高,有些要求可达到99.99%(一年停机时间不超过1小时)

    所以,公司对服务可靠性的追求,也会转化为对运维工程师的技能和能力要求,这也是目前高端运维工程师十分稀缺的原因,有不少企业,薪资30-50W找高端运维,但是很难找到合适的。要想成为一个高端Linux运维工程师,都需要具备哪些能力呢?如下图所示:

    看完以上能力要求,相信不少同学应该不会再认为Linux运维工程师没有开发重要了吧。Linux运维工程师,在企业担负非常重要的环节,这也是Linux运维工程师这个岗位,薪资高原因,甚至到后期薪资会比开发高的多。有很多前期做网管,桌面运维或者技术支持的同学,到后期,基本都选择转Linux运维岗,随着云技术的推广,docker、K8s、DevOPS普及,低端的技术支持岗位,会慢慢被边缘化,取而代之的是会这些新技术的中高级运维工程师。我有很多朋友做运维,腾讯、百度、阿里这些厂商,对于优秀的运维工程师,给年薪50W的还是不难的。在一线城市,对于不少刚入门的新手,基本起薪也能达到7K-9K左右。下图招聘的薪资,也是不低的。

    Linux运维工程师,总体来说,是比开发要好掌握一些,开发是要求比较高的数学能力,因为到后期,算法会成为很多人的天花板,Linux运维工程师学起来比较容易一些,都是实操类的学科,把命令、安装、配置和服务练熟。技术支持岗位往往到后期,都会选择晋升到Linux运维工程师。而且对于刚毕业的大学生来说,学习起来是非常顺手的,因为在学校的课程中,就包含了不少运维所需要的基本技能:操作系统、网络、数据库、Linux等。对于转行的人来说,Linux运维工程师的趣味性比较强一些,上手也更容易些,Linux运维是首选,上手容易趣味性强,薪资高,将来工作还轻松。

    想成为合格运维工程师,需要掌握不少技能,Linux运维工程师讲究的是广度,下面是年薪50W的Linux云计算工程师的学习路线图:

    1、Linux 系统基础⼊门-Linux的基础知识内容,和命令使用,以及用户和权限等核⼼知识点

    2、Linux 系统管理和进阶-Linux从进程、资源、任务、⽂件、软件包、磁盘等管理⽅法

    3、Linux 企业常用服务-企业级常用服务如DNS、FTP、Http、mail

    4、Linux 企业级安全原理和防范技巧以及网络和安全-Linux安全架构、安全威胁模型、以及加密、解密等原理,常见攻击和防范⼿段

    5、Shell 编程⼊门及进阶-Shell脚本基本用法以及进阶,从基础到精通,需要学习一些企业级常见脚本用法

    6、MySQL 应用原理及管理⼊门-Mysql安装、管理、授权、增删改查

    7、http 服务代理缓存加速-http ⾼级协议应用、缓存、web服务nginx

    8、企业级负载集群-企业级4层负载均衡LVS、和7层负载均衡nginx以及haproxy的企业应用,静动分离等

    9、企业级⾼可用集群-⾼可用集群原理,实现以keepalived为核⼼的⾼可用集群,以及主从高可用、双主,分库分表

    10、运维监控zabbix-企业级监控体系以及zabbix流⾏开源监控系统的功用及架构,自动发现,插件开发

    11、云计算运维自动化-Ansible、Puppet等运维自动化解决方案,Ansible生产环境应用案例和实战操练、批量进行上百台服务器

    12、WEB 服务体系架构-WEB服务体系架构,JSP体系、tomcat、CDN、缓存原理、压测、评估、LNMP、LAMP等

    13、⼤型互联⽹集群架构和实战⽅案-LB集群:nginx、Haproxy、LVS HA集群、动静分离

    14、MySQL DBA 实战技能和优化-数据库参数优化、分库分表、备份方案、数据恢复策略、主从复制、读写分离、连接池及sharding技术、MHA等

    15、企业级云计算Openstack-Keystone、Glance、Nova核⼼组件、网络模块、块存储服务等

    16、企业级⼤数据Hadoop 运维实战-列式数据库HBase基础原理、安装配置及其应⽤、Zookeeper集群构建、hadoop实现Namenode⾼可⽤

    17、企业级虚拟化KVM 实战-KVM环境:KVM的安装、配置及应⽤

    18、NoSQL 企业级应用-Nosql 应用,Redis、Mongodb、memcached分布式缓存集群实战

    19、企业级日志收集系统ELK 实战-海量数据日志收集系统Elasticsearch+Logstash+kibana 应用

    20、可持续化集成-Jenkins+github企业级应用

    21、虚拟化容器Docker-Linux 轻量虚拟化Docker ,Docker 的原理和安装,配置以及应用,以及生产环境配置和故障恢复

    22、企业级K8S实战-组件功能、安装、配置、企业级应用场景和常见故障分析,kubernetes集群部署,Kubernetes 中的网络管理

    23、Linux 系统调优实战-从内存、CPU、进程调度、磁盘IO、⽹络参数等全面讲解Linux系统调优

    24、Python 自动化开发-python自动化工具开发、Python实现执行环境构建及代码测试示例

    25、个人综合能力提升-表达能力、团队协作能力、执行能力、胜任力等

    以上25条技能,每一条大概价值2K,你的工资多少,在这个行业,就取决于你会多少。要想挣钱,你要先值钱。

     

    展开全文
  • 该资源主要是北京中烟的运维面试题。包括DB2,SQLSERVER,计算机网络,系统安全还有思维逻辑测试题
  • 运维工程师

    2018-11-21 11:15:34
    详细讲解了关于运维工程师的日常工作、所需要使用的开发工具以及以后的职业发展和行业前景
  • 介绍linux运维工程师,在Hadoop大数据安全领域的发展方向,又兴趣的可以看一下。
  • 文档为笔者面试腾讯安平部、微信数据库、腾讯云Iaas运维、网易游戏sre、金山WPS运维开发的面试题, 系统运维工程师笔试题目,以及收集了互联网运维岗/网络岗面试题,希望可以帮助到大家
  • 交付运维工程师面试题(3).pdf
  • Linux administration and maintenance engineer interview questions Summary 一有文件 file1 1查询 file1 里面空行的所在行号 awk {if$0~/$/)print NR} file or grep n $ file |awk BEGIN{FS=:}{print $1} 2查询 ...
  • 面试职位 姓名 日期 IDC 运维工程师基础技能测试题 答卷期间请勿查阅手机及其他资料 1 . Windows 的主流远程登陆方式是 微软系统自带的远程桌面连接工具 , Linux 的 主流远程登陆方式是 ssh 远程登陆工具常见的有 ...
  • UOS运维工程师考试题库答案 已考已过 可查看博客 考试成绩
  • 运维工程师述职报告 篇一运维工程师岗位报告 运维工程师岗位报告 运维工程师对一个公司来说是非常重要的岗位它本身 所覆盖的运维职责就很重要所以运维对其它关联工种必 须非常了解熟悉络系统系统开发存储安全,DB等 ...
  • Linux初级运维工程师最佳学习笔记 for CenOS 7.x,非常牛逼的
  • 运维工程师岗位划分,运维所需掌握的技能,运维监控.zip 系统运维技能 web运维技能 大数据运维技能 容器运维技能 1.实时监控:对软硬件系统进行不间断的监控 2.实时监控的目的 3.监控方法 4.监控工具 5.监控流程 6....
  • 运维工程帅年终个人工作总结范例 2019_工作总结 为满足公司的快速发展提升业务部门网络办公效率提升 it 服务意识it运维工程师按照sla协议承诺受理公司用户提交 的it服务请求包括用户使用网络服务器电脑终端及周边 ...
  • 桌面运维工程师能力试卷试卷题库(面试版本)
  • 一、什么是大型网站运维? 首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度...

    一、什么是大型网站运维?

    首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器 量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、 QQ等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统 、开发工作于一身的“复合性人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。

     

    运维工程师的职责

    ”确保线上稳定“,看似简单,但实属不容易,运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的冲击、产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及架构上的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素,都会是网站稳定的大敌,运维工程师必须把控好这最后一关,需具体高度的责任感、原则性及协调能力,如果能做到各因素的最佳平衡,那就是一名优秀的运维工程师了。

     

    二、运维工作师需要什么样的技能及素质

    做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多IT工种技能与一身的岗位,对系统->网络 ->存储->协议->需求->开发->测试->安全等各环节都需要了解一些,但对于某些环节需熟悉甚至精通,如系统 (基本操作系统的熟悉使用,*nix,windows ..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server 、db、中间件、存储等)、网络,IDC拓朴架构。

     

    技能方面总结以下几点:

    1、开发能力,这点非常重要,因为运维工具都需要自已开发,开发语言:perl、python、php(其中之一)、shell(awk,sed,expect….等),需要有过实际项目开发经验,否则工作会非常痛苦。

     

    2、通用应用方面需要了解:操作系统(目前国内主要是linux、bsd)、webserver相关 (nginx,apahe,php,lighttpd,java。。。)、数据库(mysql,oralce)、其它杂七八拉的东东;系统优化,高可靠性;这些只是加分项,不需必备,可以边工作边慢慢学,这些东西都不难。当然在运维中,有些是有分工偏重点不一样。

     

    3、系统、网络、安全,存储,CDN,DB等需要相当了解,知道其相关原理。

     

    个人素质方面:

    1、沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说。

     

    2、工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱。

     

    3、主动性、执行力、精力旺盛、抗压能力强:由于IT行业的特性,变化快;往往计划赶不上变化,运维工作就更突出了,比如国内各大公司服务器往往是全国各地,哪里便宜性价比高,就那往搬,进行大规模服务迁移(牵扯的服务器成百上千台),这是一个非常头痛的问题;往往时间 非常紧迫,如限1周内完成,这种情况下,运维工程师的主动性及执行力就有很高的要求了:计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。

     

    4、其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。

     

    5、最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于幼年的职业(国外也一样,但比国内起步早点),没有成熟体系或方法论可以借鉴,只能靠大家自已摸索努力。

     

    三、怎样才算是一个合格的运维工程师

    1、保证服务达到要求的线上标准,如99.9%;保证线上稳定,这是运维工程师的基本责职所在。

     

    2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。

     

    3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。

     

    4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。

     

    5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。

     

    6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。

     

    7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。

     

    以上只是技术上的一些层面,当然个人意识也是很重要的。

     

    四、运维职业的迷惘、现状与发展前景

    运维岗位不像其它岗位,如研发工程师、测试工程师等,有非常明确的职责定位及职业规划,比较有职业认同感与成就感;而运维工作可能给人的感觉是哪方面都了解一些,但又都比上专职工程师更精通、感觉平时被关注度比较低(除非线上出现故障),慢慢的大家就会迷惘,对职业发展产生困惑,为什么会有这种现象呢?除了职业本身特点外,主要还是因为对运维了解不深入、做得不深入导致;其实这个问题其它岗位也会出现,但我发现运维更典型,更容易出现这个问题。

    针对这个问题我谈一下网站运维的现状及发展前景。

     

    运维现状:

    1、处于刚起步的初级阶段,各大公司有此专职,但重视或重要程度不高,可替代性强;小公司更多是由其它岗位来兼顾做这一块工作,没有专职,也不可能做得深入。

     

    2、技术层次比较低;主要处于技术探索、积累阶段,没有型成体系化的理念、技术。

     

    3、体力劳动偏大;这个问题主要与第二点有关系,很多事情还是依靠人力进行,没有完成好的提练,对于大规模集群没有成熟的自动化管理方法,在此说明一下,大规模集群与运维工作是息息相关的如果只是百十来台机器,那就没有运维太大的生存空间了。

     

    4、优秀运维人才的极度缺乏;目前各大公司基本上都靠自已培养,这个现状导致行业内运维人才的流动性非常低,非常多好的技术都局限在各大公司内部,如 google 50万台机器科学的管理,或者国内互联公司top 10 的一些运维经验,这些经验是非常有价值的东西并决定了一个公司的核心竞争力;这些问题进而导致业内先进运维技术的流通、贯通、与借签,并最终将限制了运维发展。

     

    5、很多优秀的运维经验都掌握在大公司手中;这不在于公司的技术实力,而在于大公司的技术规模、海量PV、硬件规模足够大,如baidu可怕的流量、 http://51.com海量数据~~~~这些因素决定了他们遇到的问题都是其它中/小公司还没有遇到的,或即将遇到。但大公司可能已有很好的解决方案或系统。

     

    发展前景:

    1、从行业角度来看,随着中国互联网的高速发展(目前中国网民已跃升为全球第一)、网站规模越来越来大、架构越来越复杂;对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱;目前国内基本上都是选择毕业生培养(限于大公司),培养成本高,而且没有经验人才加入会导致公司技术更新缓慢、影响公司的技术发展;当然,毕业生也有好处:白纸一张,可塑性强,比较认同并容易融入企业文化。

     

    2、从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

     

    3、网站运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给大家提供一个很好的个人能力与技术广度的发展空间。

     

    4、运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,具备很好的各层面问题的解决能力及方案提供、全局思考能力等。

     

    5、特长发挥和兴趣的培养;由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。

     

    6、如果真要以后不想做运维了,转到其它岗位也比较容易,不会有太大的局限性。当然了,你得真正用心去做。

     

    7、技术发展方向:网站/系统架构师。

     

    五、运维关键技术点解剖

    1、 大规模集群管理问题

    首先我们先要明确集群的概念,集群不是泛指各功能服务器的总合,而是指为了达到某一目的或功能的服务器、硬盘 资源的整合(机器数大于两台),对于应用来说它就是一个整体,目前常规集群可分为:高可用性集群(HA),负载均衡集群(如lvs),分布式储、计算存储集群(DFS,如google gfs ,yahoo hadoop),特定应用集群(某一特定功能服务器组合、如db、cache层等),目前互联网行业主要基于这四种类型;对于前两种类似,如果业务简单、应用上post操作比较少,可以简单的采用四层交换机 解决(如f5),达到服务高可用/负责均衡的作用,对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活;对于后两种,那就考验公司技术实力及应用特点了,第三种DFS主要应用于海量数据应用上,如邮件、搜索等应用,特别是搜索要求就更高了,除了简单海量存储,还包括数据挖掘、用户行为分析;如 google、yahoo就能保存分析近一年的用户记录数据,而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是至关重要的。

    接下来,我们再谈谈如何科学的管理集群,有以下关键几点:

     

    I、监控

    主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;

     

    a、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端web server,我们就可以有很多种类型的监控,包括应用端口 状态监控,便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,常用方法是采用面业特征码进行判断,或对重点页面进行签名,以网站被黑篡改(报警、并自动恢复被篡改数据)等等,这些只是一部份,还有N多监控方式,依应用特点而定,还有一些问题需解决,如集群过大,如何高性能的进行监控也是一个现实问题。

     

    b、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。

     

    2、故障管理

    a、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,但给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。

     

    b、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。

     

    3、自动化

    自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大。。。而现在通过自动化工具,只需几个简单命令 就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等。。。这些好处非常明显不再多说。。。应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。

    展开全文
  • 运维工程师面试常考的题 希望对大家有帮助
  • 运维工程师工作就上才智尚招聘网 找运维工程师工作就上才智尚招聘网 运维工程师 个人简历模板 姓 名 简历模板 国 籍 中国 个人照片 目前住地 所在地 民 族 族 户?籍?地 所在户籍 身高体重 XXX cm? XX kg? 婚姻状况...
  • 1-9Linu系统服务,网盘文件,永久连接 1-8Linu权限管理 1-7Linuⅸx网络配置与远程管理 1-6管道命令详解 1-5Linu用户管理 1-4Linu文件管理(下) 1-3Lnu文件管理(上) ...1-1运维概述与 Centos7.6系统安装部署

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 83,719
精华内容 33,487
关键字:

运维工程师