运维_运维面试题 - CSDN
运维 订阅
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。 展开全文
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。
信息
外文名
Operation and maintenance
运维工程师
运维从业人员
SRE
Site Reliability Engineer
中文名
运维
DBA
Database Administrator
运维平台
运维相关工作平台
运维运维的职责
对于初创公司,运维部和系统部一般是合二为一的,相关工作由同一批人负责,界限可能不是很明显。大型公司对运维工作的要求更高,需要有更精细的分工,因此机房/网络/操作系统相关的底层工作分离出来由专人负责,成为系统管理部,而上层和应用产品相关的工作则由运维负责,成为运维部。以下从互联网产品生命周期和运维涉及的技术分别来看分工较细的大型互联网公司中运维工作的职责。 [1] 
收起全文
精华内容
参与话题
  • 运维一般干什么?

    万次阅读 2019-04-19 02:35:44
    运维一般干什么?”这个问题居然是百度上搜索“运维”的最热门问题:对应这个问题的最佳答案如下,不知道各位运维同学是否认同?一、运维工程师的工作:保障业务长期稳定运行(如...
        

    “运维一般干什么?”这个问题居然是百度上搜索“运维”的最热门问题:


    640?wx_fmt=png


    对应这个问题的最佳答案如下,不知道各位运维同学是否认同?

     

    一、运维工程师的工作:


    1. 保障业务长期稳定运行(如网站服务器、游戏服务器等)。

    2. 保障数据安全可靠(如用户名密码、游戏数据、博客文章、交易数据等)。

    3. 随时解决报警故障。

    4. 业务程序更新。

    5. 编写一些脚本,监控或完成其他可自动完成功能。

    6. 运维架构完善,部署一些用起来更方便更可靠或性能更好的开源工具以及制定运维流程规范。

    7. 打杂,如调交换机,装系统,部署新环境等。


    运维和开发是两个截然不同的方向。如果做运维的话,有开发的底子那么转岗位也不是不可以。


    运维负责具体的产品线运维工作,同时也需要掌握开发的能力,深入业务,最了解业务的痛点和问题,同时研发/优化针对产品业务需求的平台、工具和手段,能够接触到各类优秀的系统架构并有能力做出优劣对比,同时对业务的掌控决定了相应运维工程师在业务发展中的作用。


    二、拓展资料:


    运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。


    一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。


    运维是一个非常广泛的定义,在不同的公司不同的阶段有着不同的职责与定位,如果以operation字面的含义去理解,认为就是敲几行操作命令的工作,那就错了。 对于初创公司,运维工程师的工作可能需要从申请域名开始,购买/租用服务器,上架,调整网络设备的设置,部署操作系统和运行环境,部署代码,设计和部署监控,防止漏洞和攻击等等。

    展开全文
  • 必看,运维还要懂这么多?

    千次阅读 多人点赞 2018-05-28 14:30:25
    听说你精通运维?Apache、Nginx、tomcat、vmstat、iftop、awk、sed、sar、iostat、LVS、HA-proxy、MHA、Zookeeper、Zabbix、Nagios、Cacti、Prometheus、shell、python、go、rundeck、ansible、saltstack、puppet、...

    听说你精通运维?Apache、Nginx、tomcat、vmstat、iftop、awk、sed、sar、iostat、LVS、HA-proxy、MHA、Zookeeper、Zabbix、Nagios、Cacti、Prometheus、shell、python、go、rundeck、ansible、saltstack、puppet、chef、cobbler、fabric、docker、Moby, kubernetes 了解一下?

    我们这篇文章不是说运维除了懂Linux,还要懂Windows,而是涉及运维的其他方方面面。

    环境部署

    一开始这个世界是开发的,然后才是运维的。

    开发实现产品逻辑,将产品开发完成后,然后提交运维进行部署。此时允许就需要准备好部署环境,如部署在Linux服务器上,安装相应的软件,如Apache、Nginx、tomcat、JDK、PHP、MySQL等等。你不能只装了软件吧,还需要看看具体是哪个版本,java 7 和java 8 的差别还是有点的,php5和php7也有些语法不兼容。把软件都安装好了,就可以上线了?还是不行。还需要测试吧,那就还需要部署一套测试环境。有些时候,开发环境也是需要运维来部署的。

    排错和调优

    事情从来都没有一帆风顺的。

    上线没多久,服务就502了,还不被老板骂死。尽管你有一肚子的委屈,我只是个运维,代码不是我写的,为什么要我来背这锅?!委屈归委屈,服务访问不了了,就是运维的事。尽快定位问题,解决问题才是王道。怎么来定位问题呢?最简单直接的办法就是看日志,看系统日志,看软件相关的日志,结合故障现象和经验,快速的进行定位和恢复。然后就是总结经验,吸取教训,写事故报告。OK,现在你知道,需要对系统环境需要进行一定的调优操作,不再做背锅侠。

    相关技术: top, vmstat, iftop, awk, sed, sar, iostat, strace, ...

    备份

    做最好的计划,做最坏的打算。

    前不久的gitlab删库事件的教训犹在眼前,丢失了几小时的数据,虽然大部分的备份策略都失效了,但还是挽救了几小时前的一个备份,才没有造成更大的数据丢失和公司损失。我们需要对设备进行备份冗余,需要对数据库进行备份及离线备份,需要对网站静态进行备份冗余,需要对机房进行备用,能做到双活,那是更好的啦。

    相关技术: rsync, crontab, lvm快照, mysqldump, extrabackup, 完全备份, 差异备份, 增量备份, 离线异地备份, ...

    高可用和集群

    没有永垂不朽,我们不能保证硬件24小时在线,但需要保障服务24小时在线。

    出现故障后,如果做好高可用和冗余,故障自动切换,移除故障节点,那样也就保障了服务的实时在线。在老板和用户不知情的情况下,悄么的把故障处理好的,KPI算是保住了,奖金也许就会有的吧。

    相关技术: F5, Nginx, LVS, HA-proxy, MHA, Zookeeper, 各种其他分布式集群方案, ...

    监控告警

    运维工程师的第一次解放运动。

    时刻担心网站挂掉,一年365天、每周7天、每天24小时,时刻保持精神高度紧张,就算你是神仙都会撑不住的。我们需要一个机器来监督其他的机器工作,我们需要解放我们自己。当有故障发生的时候,通过短信、微信、钉钉、邮件等等通知对应的运维工程师来处理,甚至是自动切换或摘除故障节点,然后我们离线对故障节点进行问题排查。

    相关技术:Zabbix, Nagios, Cacti, Prometheus, open-falcon, Ganglia, sar, ...

    安全和审计

    狂奔在互联网的康庄大道上,不过有些人是在裸奔。

    不安全的网络环境和服务器配置,无异于在网络世界裸奔,任何人都可以窥探你的隐私。你的应用是否做了SQL防注入?你的防火墙是否开启?是否还在用root+密码的方式登录服务器?网站开启了https么?是否对系统操作进行审计?

    相关技术: iptables, firewalld, waf, auditd, 各服务的正确配置, ...

    自动化和DevOps

    运维工程师的第二次解放运动。

    偷懒是社会进步的第一动力。聪明的我们怎么会让自己一直在重复枯燥的事情上浪费时间,装系统、部署环境、发版本、批量操作,把这一切交给程序去实现吧,我们需要的是享受生活。

    相关技术: shell, python, go, rundeck, ansible, saltstack, puppet, chef, cobbler, fabric, ...

    虚拟化和云服务

    正在发生的一场运维革命。

    这场革命的发起人是买书的亚马逊,这家伙希望卖一切可以卖的东西,包括自己闲置的服务器资源。现在国内的阿里云和腾讯云也发展得如日中天,他们几乎提供了运维所需要的一切,甚至可以让一个公司不再需要运维的岗位。你需要服务器,只需要几秒钟,就可以创建一台。你需要数据库集群,只需要鼠标点击几下,就可以开通。

    相关技术:docker, Moby, kubernetes, Xen, CoreOS, Hyper-V, KVM, ...

    来源:http://os.51cto.com/art/201805/573436.htm



    文末福利 || 免费领:运维大神速成秘籍(300页干货,基础、进阶、高端,全方位linux技能整理)




    展开全文
  • 很多运维人对未来充满忧虑,不知道该怎么办。但我到是对运维行业充满信心的,因为我坚信:运维其实是架构师的前身。你别说我吹牛,我们看看运维的发展:最开始的运维算是“工业”时代。丰富的开源社区...


    很多运维人对未来充满忧虑,不知道该怎么办。但我到是对运维行业充满信心的,因为我坚信:运维其实是架构师的前身你别说我吹牛,我们看看运维的发展:

    最开始的运维算是“工业”时代。丰富的开源社区,使得开源软件在企业的应用逐步增加。这就需要大量的手工运维人员,导致运维成为低门槛的岗位。

    互联网的普及让运维迎来了“蒸汽机”时代。大数据、AI 成为业务的核心,要求运维工程师具备更高效和成熟的自动化实现能力。就像汽车淘汰马车一样,大量的运维人在这个阶段被淘汰。

    到了互联网的下半场,运维也进入了“航天”时代。降低成本、提高效率、精耕细作是企业对运维的基本要求,也涌现出了 Docker、Kubernetes、SDN 这些成熟的技术。所以运维人除了掌握运维流程,还需要对开发方面有一些自己的思考。作为工程师除了把太空船发射出去,还要考虑如何实现载人、实现回收、甚至太空站对接的事项。

    所以你可以看到,运维的发展是在不断走向架构师这个方向的,这也是我对运维行业充满信心的原因。但最大的问题在于,你能不能跟得上行业的发展,也就是你能否成为运维行业的高手,这至关重要。 

    我认识一位具有 10 多年经验的运维老兵,叫牧客曾经是阿里巴巴的运维专家,靠着自己对行业和运维的理解,一路从人肉运维、到运维专家,现在成为了一名架构师。他不仅在阿里巴巴这样的巨头担任核心的运维岗位,还在一家大型互联网公司担任过架构师,从零搭建团队和运维架构,对于如何成为运维高手这件事,他有着自己独特的观点。

    ∆ 扫码即可免费试读 / 订阅

    正好他在拉勾网的专栏「运维高手的 36 项修炼」在拉勾网上架了。他发给我看了看内容,觉得让我眼前一亮,非常想推荐给你。

    这个课程会模拟一个运维工程师的全部核心工作,也就是部署、服务运维、割接、故障排除、监控、安全防护、方案设计 这7个模块。

    从较为基础的底层能力讲起,通过 36 讲带你掌握运维高手的运维技巧。最宝贵的是,全部的内容都来源于他这十余年的运维经验和工作技巧。这个专栏,是你修炼成为运维高手的绝佳秘籍。

    牧客是谁?

    牧客,运维领域深耕 10 余年,曾就职于大型互联网公司阿里巴巴、大型国企中体彩等,先后担任运维专家、SRE 负责人、架构师等核心岗位。曾经主导开源国内第一个基于 Ansible2.4 实现的完整运维自动化项目;曾带领 SRE、运维开发、DBA 三个团队出色重构近千级别主机的运维架构。

    ∆ 扫码即可免费试读 / 订阅

    课程目录

    根据运维的核心工作,专栏分成运维、部署、割接、监控、安全、方案、趋势 7 个模块,通过理论结合实战,保证:

    • 知识点全面:7个模块涵盖运维各项知识类型;

    • 学会就能用:36项修炼,也是36个面试和工作常见问题;

    • 实战化思考:10余年运维老兵从人肉运维到架构师的独家实战经验;

    • 进阶式学习:从基础开始,搭建一套运维高手的学习路径;

    所以不论你是想系统化提升运维技能,还是想转型成为运维开发。总之,如果你想成为运维领域的高手,欢迎来和牧客一起修炼成为运维高手。 

    限时优惠①

    原价¥98

    上新限时优惠 ¥68

    (新用户首次订阅立减 ¥20)

    限时优惠②

    点击 阅读原文,加入「运维高手交流群」

    ∆ 扫码即可免费试读 / 订阅

    点击阅读原文,加入「运维高手交流群」。

    展开全文
  • 本人现在一个企业做运维经理,分享给大家自己2年时间从一个初级运维做到运维经理一些个人经验 ,让学习linux同学不在迷茫,走出困惑,找到理想一个高薪工作,改变一生
  • 点击上方“民工哥技术之路”选择“置顶或星标”每天10点为你分享不一样的干货前言谈起运维工作,估计很多人会下意识的认为就是修电脑的、网管(上不去网,第一个被召唤的那种)。其...
        

    点击上方民工哥技术之路选择“置顶或星标”

    每天10点为你分享不一样的干货

    640?wx_fmt=png

    前言

    谈起运维工作,估计很多人会下意识的认为就是修电脑的、网管(上不去网,第一个被召唤的那种)。其实不能说这是错误的理解,IT运维人员的工作小到修电脑、理网线,大到部署整个数据中心。

    负责运维的设备,小的从个人电脑,大的到数以亿计的高精尖计算设备(比如IBM的大型机Z13)。

    从运维的工作层次来分,又分为硬件运维、桌面运维、系统运维、数据库运维和应用运维。几乎所有的和系统相关的问题,都与IT运维人员有关。

    根据公司IT系统规模的不同,有的运维团队不到10人,有的甚至达到数百人。每晚通宵达旦,为IT系统保驾护航。

    但是始终还是有很多的人和同事会质疑:为什么我的电脑还这么卡?网络速度还这么慢?某某系统还是上不去,很影响业务运营等等。

    这些质疑让运维人员很尴尬也很无语,有些问题甚至类似客户没有插网线,抱怨上不去网。有时候甚至会胡思乱想,究竟运维的意义是什么?这么努力怎么还这么受气?

    前段时间在群里和论坛上与运维方面的朋友一起交流的时候,大家总是时不时的诉苦,抱怨运维苦逼,没有成就感,甚至经常成为“窦娥”、“背锅侠”的代名词。种种抱怨和不满,也促使我更加的想表达一下如何做好IT运维方面的经验和个人见解(不一定对,欢迎拍砖),尤其是企业级的IT系统运维。因为其不但系统分支多,而且够复杂。业务频繁变更,要求IT系统必须随需应变。

    运维的价值

    我毕业后就一直从事IT系统运维方面的工作,从当初的桌面技术人员到现在的运维总监,一路荆棘,回想起来已有超过10年的运维经验了。

    虽然谈不上老道,更说不上是大咖,但是也总结了一些自己对运维工作的理解,对运维价值的理解。

    多年的摸爬滚打,我对运维总结成了两句话“技术只是手段,业务才是王道”。运维的好坏评定标准其实就是你给公司及业务带来了哪些价值及哪些影响。

    无论是小企业还是大企业,很多时候,运维人员的确做了很多的事情,处理了很多紧急的事件,甚至都是在凌晨才动手,确实非常辛苦,真所谓是“累成狗,起的比鸡早,睡得比猪晚”。但是这些事情真正为业务创造了多少价值呢?老板知道吗?可能这个就是运维人员该好好思考一下的了。

    当然,我并不是否定我们运维在做的事情,毕竟我也是做运维出身的。这些事情的确是运维人员必须要做的,但是我的观点是不能陷在这个自我感觉良好的漩涡中——自认为运维做了很多的事情,非常的辛苦,甘做幕后英雄。

    如果有这样的想法,那一定是运维人员自己的问题了。运维不光是需要技术上的不断改进与创新,更需要思维观念的改变,学会站在业务的角度思考问题。往往在这个改变的过程中,运维的价值就会逐步的得到体现。

    在这里,我总结了一下多年来自己做运维的经验分享给大家,踩过的坑,背过的锅,还历历在目。希望大家可以避开这些问题,做好企业IT系统的运维,体现运维的真正价值给公司。

    什么是运维

    运维是一件对知识面要求很高的工作,它要求运维者不仅要懂得基本的系统与网络知识,还要对运维的业务系统有较深的理解,知道整套业务系统的工作模式与工作原理。这也是对运维人员学习能力的一种考验。

    一听到故障描述,就可以大概知道问题的故障点所在。同时知道如何通过技术手段及清晰的逻辑方法去发现和解决问题。

    运维是一件对自动化要求很高的工作,随着IT技术的不断发展,越来越多的方便运维的技术应运而生。

    从互联网时代开始,业务系统的交付和迭代也变得越来越频繁,从每月的迭代一次,甚至到了每天迭代多次的场景。如果没有自动化的手段快速响应与处理,对用户的影响可想而知。自动化的主要目的个人认为主要是三个:

    • 效率提升:

    初期自动化主要解决的是和日常运维例行工作相关的操作。

    比如各种平台的资源分配&回收、统一配置管理、CI&CD(持续集成&发布)、操作系统的部署、系统空间的扩容与缩容、简单应用部署、文件分发等等,这些都是运维最基础的工作,也是自动化最容易实现和集中的领域。

    个人觉得凡是那些偏日常和重复的工作都应该自动化,解放运维的生产力,提升运维效率,降低人为失误,让运维的同事可以有更多的精力去学习更多的技能,做更有价值的事情,无论互联网时代还是大数据时代,人才毕竟是最贵的。

    目前自动化的解决方案都相对完善了很多,所以可以放心的去实践和应用。对于重要的领域和操作,一定要经过严谨的测试才能应用,否则自动化带来的灾难也是不可估量的。

    • 可靠可控:

    可控对于运维人员来说是再重要不过的了,自身经验是,如果运维一套不可控的系统,无疑是攥着一颗不知道什么时候会爆炸的定时炸弹,时刻担心它会产生不可预知的后果。可控要细说我觉得大致可以分为稳定性可控、性能可控和安全可控。

    • 稳定性可控:

    作为企业级的运维人员,我们要运维的系统不但数量多,而且网络架构复杂。包括的硬件更是多样,除了熟知的服务器、存储、网络设备、负载均衡设备等,可能还有很多是运维人员没有接触过的新玩意。

    而这些硬件又承载了各种应用,组成了各类不同的系统供用户访问,复杂程度不言而喻。如何让这些设备在损坏的情况下也不影响业务,不影响运维人员陪女朋友看电影。做到心中有数,掌控硬件损坏会对系统有什么影响,需要多少时间来修复等等。

    • 性能可控:

    合理的分配系统资源产生合理的性能对系统的稳定性起到了至关重要的作用。
    一个系统慢与快并不是运维人员最担心的,而是时快时慢是最可怕的,因为那种状态是最不可控的状态,这样的系统是不可能承载企业核心或者重要的业务的。

    最典型的应用场景就是云计算平台的资源分配。一旦平台资源被错误的分配,对业务的影响是不可估量的,拍错过程也是运维人员最头疼的。

    • 安全可控:

    现在运维圈子流行的模块化管理、运维自动化、可视化甚至是基于大数据决策的运维,本质上都是希望达到运维可控的目标。安全是唯一一个贯穿运维全部过程的模块。

    所以运维人员每日都会花费特别多的精力在系统的安全建设和防御上,比如防止哪些未授权行为,所有的操作必须通过堡垒机,关键操作必须通过审计等等。

    IT运维安全方面的内容还是相当复杂的,比如应用交付可控,各种变更可控以及效率可控都是值得特别关注的。为什么我们熟悉的工作往往是最容易出问题的工作。

    简单分析一下就是因为我们平常一直在周而复始的做一件事,产生了麻痹。同理,IT运维大部分都是一些重复性的操作与工作,但是又是必须的。

    合理的通过自动化代替人工操作,可以非常有效的避免低级错误的发生。这对于企业级的复杂系统是至关重要的,可以明显提高可靠性,减轻运维人员繁琐的人工任务。

    • 降低人员依赖:

    运维工作是个很有意思的工作,他不是靠人多堆出来的工种。运维工作对人员的技能要求还是比较高的,可谓是要精不要多,多培养精兵强将。

    任何问题的处理都要避免靠堆人来解决,这种方式不一定会解决问题,但是一定会增加运维的成本。

    运维是一件对精细化要求很高的工作,那么什么是精细化管理呢?引用一段官方解释:

    “精细化管理是源于发达国家的一种企业管理理念,它是社会分工的精细化,以及服务质量的精细化对现代管理的必然要求,是建立在常规管理的基础上,并将常规管理引向深入的基本思想和管理模式,是一种以最大限度地减少管理所占用的资源和降低管理成本为主要目标的管理方式”。

    现在的IT运维已经进入了精细化管理的时代,而不是以前的大锅饭年代了。分工明确,注重细节、注重过程、注重质量。

    通过技术手段对全部的信息进行收集,管理员可以随时知道目前系统的运行状态。从而提高运维管理的整体水平和效果,实现了灵活的弹性扩容能力。

    运维是一件对责任心要求很高的工作,各行各业都对责任心有很强的要求,运维也是如此。

    因为不同系统的应用等级不同,影响范围也会不同。如果运维人员因为疏忽大意导致业务系统崩溃,所带来的影响可能是灾难性的。比如银行的结算系统、股票的交易系统等等。

    我认为一个运维人员技术可以不是那么精深,做事可以不是那么敏捷,但是一定要有一颗较强的责任心,否则一切归零。

    运维方法浅谈

    随着信息技术的发展以及企业业务的不断扩张,运维人员所面临的系统架构越发的复杂,关联度越发紧密。从技术角度上,对运维人员的要求也会越来越高,需要个个都是精兵强将,对业务系统了如指掌。

    现在的运维已经不像N年前那种被动式的运维了,需要运维人员快速转变观念,学会通过主动运维的方式应对复杂多变的IT问题,保证业务系统的稳定。需要更多的站在客户的角度思考问题,解决问题。

    当然,每个人的经历不同,职责不同,所以对运维的理解也会有不同,我们可以将运维说的高大上、高精尖,也可以将运维说的稀疏平常、平易近人。

    高精尖、高大上是在于运维使用了很多非常牛X的技术,在业务系统没有感知的情况下实现了业务的变更、升级。终端用户可以在无感知的情况下继续进行自己的支付操作、游戏操作等等。

    稀疏平常是在于用户每天都有机会和运维人员打交道,或多或少,或深或浅都会有不同程度的交集。哪天不和运维人员发个牢骚、抱怨一下就会觉得自己没有来上班一样。

    以下是我总结归纳的一些不成规律的运维经验,不成方法的运维手段。正如前文所述,不同的人就会有不同的见解,不同的经验就会碰撞出不同的火花。欢迎运维爱好者一起讨论、拍砖。

    结合自己多年的经验,总结了一些运维经验,希望可以抛砖引玉得到更多爱好者甚至专家的指点,促使我不断的进步。下文方法主要分为五大类:文档、流程、技术、监控和备份。

    640?wx_fmt=png

    图1-概述

    文档

    正所谓兵马未动,粮草先行;一个好的系统或者项目,必定有很多的文档进行支撑。

    比如系统建设前期,一定要做好系统的需求文档、设计文档、实施文档。在系统建设中要依据前期的文档进行实施和设计,并生成系统相关的问题总结文档和更新实施文档。系统建设完成后,要基于系统的业务能力和使用对象编写操作手册和运维手册等。

    有些业务在交付的过程中,并未按照要求提供相关的文档,系统上线后问题层出不穷,导致运维人员手忙脚乱,不知道从何下手处理,往往会让运维人员绕很多的弯路,错失良机。

    文档也分好多种,比如配置文档、实施文档、设计文档、系统规范性文档、项目管理文档等等。基于种种,所以要求运维人员一定要具备相应的文档编写能力和整理能力。同时一定要严格按照之前的文档进行实施,有问题要学会及时沟通,并把修正后的问题更新到文档中。

    以前文档的管理大多数是放在用户的本地,高级点是放在共享的NFS或者FTP中。

    但是很多的功能受到技术限制,不能满足高效、敏捷、互动的要求。通过知识库的一个文档管理功能,不仅可以解决如上问题,还可以将不同运维人员的经验和知识转化为生产力,协同办公。类似的软件比如Confluence、Wiki等。

    流程

    正所谓无规矩不成方圆;随着IT环境的不断扩大,业务变更的频繁度越来越高,就要求运维人员一定要基于一个既定的规则来干活,而不是完全按照业务的要求,被扯来扯去,拆东墙补西墙,毕竟业务人员专注点与运维人员的专注点不同,责任也不同。这规则就称为流程。

    在IT界最有名也最实用的流程莫过于英国政府部门CCTA在20世纪80年代末制定的ITIL了(即IT基础架构库(Information Technology Infrastructure Library, ITIL,信息技术基础架构库)。

    当然现在由英国商务部 OGC(Office of Government Commerce)负责管理,版本也从当初的V1到了现在的V3。

    ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范。

    这次我不是要细讲ITIL的内容,有兴趣的朋友可以Google、Baidu一下,认真研读ITIL,一定会让你受益匪浅,尤其是运维人员。

    640?wx_fmt=png

    图2-ITIL环形图

    在整个系统的运维过程中,流程由始至终贯穿整条链路。它是对运维人员的保障,同时也是对所做变更合规可控的保证。合理的流程设置不仅节约了运维成本,也可以推进事情有序的进行,达到预期效果。

    那么如何制定符合实际需求的流程呢?这个就仁者见仁,智者见智了。我把整个过程分成三个阶段:

    1、要做啥?
    就是说这个流程要完成什么任务,目的是什么,切记一定是一个或者唯一的任务,不是多个任务。比如要安装软件、要变更配置、要发布程序等等。

    2、谁来做?
    就是说要完成这个事情,需要涉及到哪些部门的哪些人。请切记,流程一定要落实到人,否则就是空谈。

    3、多长时间?
    一个流程从开始到结束一定是有个时间约束的,也就是说这个流程被要求多长时间内必须完成。一般这个往往和业务系统的SLA有关,达不到要求可能会扣银子,那就不好玩了。当然流程不是固定不变的。随着IT业务和人员的变更,要学会对流程进行优化和改进,以适应最新的IT环境和业务要求。

    技术

    正所谓工欲善其事,必先利其器;如今是一个知识爆炸的时代,想获取什么知识只需要打开浏览器即可。

    不像以前还要频繁的出入图书馆,我记得当年自己经常去的就是新华书店啦(主要是因为那里可以坐下来慢慢的看书,而且还可以将其抄录下来),暴露年龄啦!

    现如今很多的企业都在强化以用户服务为中心,专业技术为驱动的理念,可见拥有过硬的技术是多么的重要。

    这里所说的技术,我主要想从两个方面入手,一个是指人员自身所掌握的技能,一个是指对主流技术的剖析与实践能力。

    • 人员自身技能:

    运维对技术的要求还是很高的,不是谁都可以做运维的。

    首先运维人员要对自己所负责的系统有较深的理解,全程参与系统的设计、实施与运维。

    正所谓打铁还需自身硬,就像武侠名著所说,每个武侠人物都会有个看家本领,比如乔峰的“降龙十八掌”,段誉的“六脉神剑“。

    运维人员也是如此,一定要具备相关领域的技术积累,有较丰富的设计或者排错经验。同时要具备较为灵敏的技术嗅觉,不敢说需要十八般武艺样样精通,但是也要对相关辅助技能略知一二,此称为硬实力。

    光有硬技能其实只能证明你可以解决系统的硬性问题,但是不具备更好的解决问题的能力。很多重大的问题几乎都与外界系统相关联,甚至是强关联。

    这个时候单纯的技术能力就很难解决了,需要运维人员具备以下软实力:

    1、我认为首先要具备的就是沟通能力;

    记得刚工作的时候,我们部门的技术人员被戏称为“傻、呆、倔”,脑子里装的都是代码和命令,什么风花雪月、人情世故都成功的过滤了我们。

    随着困难增多,坑踩多了后,才知道沟通是多么的重要。良好的沟通可以很快与多部门协同工作,了解大家的共同点和痛点,对症下药,可以更快速的解决问题。

    2、合作心态很重要;

    这么多年,我一直认为团队作战远比孤军奋战要强,效率要高。

    尤其现在很多的公司都有分公司,IT运维人员往往也是分布式的。总部与分公司员工之间只有保持合作心态才可以高效、快速的发现问题、解决问题。

    3、同理心让沟通事半功倍;

    很多人认为同理心是企业中负责用户体验部门的技能,实际上随着互联网技术的发展,IT与业务的紧密融合,运维人员是非常需要同理心的。

    当运维人员接到故障报告或者通知,需要及时与客户沟通,站在客户的角度理解问题,解决问题,避免无谓的抱怨与投诉,提高运维满意度。

    4、善于写作的基础

    无论是系统还是项目从孵化到交付都离不开文档的支持。运维人员应该具备良好的文档写作能力,可以将系统设计说明清晰,问题描述清晰,解决方案调理清晰。

    运维人员如果每天都往机房跑,一定是有问题的。多数时间应该是在学习、探索,自我提升、总结问题,避免二次发生。这些都需要文档的记录与支撑。

    5、认真做事的态度

    认真做事的态度在任何的行业都是通用的好模板。记得一本书上说过“你做事的态度,决定你的高度”对于运维人员来说,一定要高度热爱自己的工作,如果你不热爱它,肯定不会认真的去做。

    这不是一句口号,而是要以结果为导向,具备不达目的不罢休的精神。有些运维上的问题,就是某个细节所决定的,只有认真才能从众多乱麻中,找到线索,解决问题。

    主流技术:

    运维人员一定要对现在的主流技术有一定的涉猎(云计算、边缘计算、大数据、AIops、人工智能、深度学习等等),要与时俱进。经常参与线上或者线下的相关讨论和交流学习。

    了解目前流行的IT技术,并学习它,思考如何将其用于企业的业务中,为企业创造价值,提升运维效率。所以具备主流技术的捕捉能力,也是运维人员的必修课之一。

    监控

    正所谓与其后悔于已然,不如防患于未然,监控的目的就是防患于未然。

    通过监控,运维人员能够及时了解到企业网络的运行状态,一旦出现安全隐患,可以及时预警或者是以其他方式通知运维人员,让运维监控人员有时间处理和解决,避免影响业务系统的正常使用,将一切问题的根源扼杀在摇篮当中。

    监控的方式很多,软件更多。如何选择监控对象、设计监控指标就需要运维人员根据不同业务的实际情况自己去实践了。

    但是一定要记住,现在的监控工具可以在监控指标触发时,自动修复一些故障,但是它最多帮你做些简单的自动化任务,更高阶的自动化任务需要运维人员具备较深的脚本和系统知识。

    所以监控作为运维人员的眼睛,要时刻保持12分精神,运维人员要定期对监控系统进行“照料”,避免“视觉疲劳”,影响监控效果。

    备份

    正所谓天有不测风云,人有旦夕祸福;备份是一种保障机制,一般用不到,用到就是大事。

    备份可以说是运维人员的最后一根救命稻草,用好这最后一根稻草可以起死回生,用不好就会死无葬身之地呀。

    其实一点也不夸张,公司将重资产都交给运维来做,是对运维的信任,运维人员自然要对这些资产和数据负责,对公司负责,这也是运维价值的一种体现。

    现在被备份软件很多,国产的、国外的,所以选择一款适合自己业务需要的备份软件很重要。

    不是什么数据都需要备份,要首先甄别出哪些数据需要备份,确定备份范围。制定好备份策略,不同的数据需要不同的策略设定。

    选择靠谱的备份介质,到底是选择磁带、硬盘还是光介质等,这些都是需要运维人员根据业务需求而制定。

    总结

    以上这些算是自己对这十年运维经验的小小总结,很多内容不可能一日说完,也不可能全部写下来,毕竟运维这东西很多还是看自己的感悟和直觉。

    在运维方法浅谈章节中,我仅仅是总结了自己做运维用到的一些主要方法,并未涉及具体的技术。

    可能有些朋友会问,为啥没有体现当下流行的CMDB、可视化运维、ITSM等。其实这些都只是工具,一种让运维更透明,让运维人员更轻松,让老板更放心的运维工具。在实际工作中,可以根据需要自行采购或者自己开发,满足业务要求。

    最后和运维的朋友分享一段心里话,运维是一件细致的工作,不允许一丝马虎。运维人员一定要富有勇于创新的精神和对工作的激情,有了这些东西,我相信,你一定是个非常优秀的运维人员。

    结尾祝做运维的朋友在运维的道路上越走路越宽,技术更上一层楼。也祝自己在以后的工作中学习到更多,分享更多给大家。

    作者:张志强,从事信息技术服务及管理工作,多年的云计算、虚拟化架构设计、企业信息化建设、自动化运维经验。熟练掌握X86、Power、存储、虚拟化等硬件设备调优与配置。拥有丰富的混合元架构及管理经验,信息安全及网络架构的设计与运维。文章转自高效运维。

    运维工程师进阶之路640?

    640?wx_fmt=png

    求职跳槽避坑指南640?

    640?wx_fmt=png

    - MORE | 往期精彩文章 -


    如果你喜欢本文

    请长按二维码关注民工哥技术之路

    640?

    扫码关注公众号,回复「目录」可以查看公众号文章目录大全,回复加群可以加入读者技术交流群,与大家一起交流。


    点击【阅读原文】公众号所有的精华都在这

    正在看的你,点这里有惊喜哦~

    640?wx_fmt=gif

    展开全文
  • 运维概念

    2018-11-23 09:17:02
    运维( Operation and maintenance)-般 是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维( IT运维)。所谓IT运维管理,是指单位IT部门]采用相关的方法、手段、技术、制度、流程和文档等,对...
  • 运维基本概述

    2018-11-26 15:11:56
     下面将IT运维管理基础知识必须要学习或能让你运维任务加分的技艺稍做简介。最先我们假定你是一个公司的IT运维经理。须要完成五十台以上的服务器和若干杂七杂八的配备,哪些运维人员应该必备的技术? IT运维管理...
  • 日常运维(一)

    千次阅读 2018-08-25 11:55:30
    日常运维(一) 10.1 使用w查看系统负载10.2 vmstat命令10.3 top命令10.4 sar命令10.5 nload命令10.6 监控io性能10.7 free命令10.8 ps命令10.9 查看网络状态10.10 linux下抓包10.11 Linux网络相关   10.1使用w...
  • 常见的17种运维软件

    千次阅读 2019-03-08 20:25:00
    1. Zabbix Zabbix 作为企业级的网络监控工具,通过从服务器,虚拟机和网络设备收集的数据提供实时监控,自动发现,映射和可扩展等功能。 Zabbix的企业级监控软件为用户提供内置的Java应用服务器监控,硬件监控,...
  • 运维是干什么的?

    千次阅读 2018-11-27 17:54:14
    什么是运维? 按照字面意思就是运行维护。 在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同的作用,因此运维工程师的工作内容和方向非常多。 产品发布前:负责参与并审核架构设计的合理性和可运维...
  • 运维工程师 主要是做什么的?

    万次阅读 多人点赞 2019-06-05 17:28:25
    在软件开发领域当中,前端、后端开发我们一般比较熟,但运维工程师是做什么的,很多人都不太了解。真的是只是维护工作吗?今天我们就介绍一下 运维工程师 到底是做什么呢 随时解决报警故障、业务程序更新 编写一些...
  • 文章目录0.监控体系框架1.监控系统设计1.1 评估系统1.2 监控种类1.3 监控技术方案/软件选取(主观因素)1.4 监控体系的人员安排2.监控系统搭建3.数据采集编写3.1 可选用脚本作为采集途径3.2 数据采集的形式分类3.2.1...
  • windows运维实战视频从零基础讲起,做到全方位技术提高,内容包括Windows Server 2012 R2概述、安装与基本环境设置,本地用户与组账户的管理,建立Active Directory域,NTFS磁盘的安全性与管理,访问网络文件,...
  • 运维

    千次阅读 2017-11-10 19:30:34
    运维 运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。 一个互联网产品的生成一般经历的过程是...
  • 运维工作梳理

    千次阅读 2019-12-19 07:44:12
    1.1 inux运维的主要工作内容 1、什么是linux运维 ...运维又包括很多种,有DBA运维、网站运维、虚拟化运维、监控运维、游戏运维等等。 运维分类: 1)开发运维:是给应用运维开发运维工具和运维平台的 2)...
  • 我认识的运维工作

    万次阅读 多人点赞 2020-06-28 14:38:49
    运维这个工作对于非运维岗位的人来讲,一直都是神秘的,大家对于运维的工作内容其实并不了解,或者了解的比较片面。其实算是一种工作类别了,除去互联网软件行业的运维人员不说,一般的机关事业单位也有相应的岗位...
  • Linux运维工程师学习成长路线

    千次阅读 多人点赞 2020-01-17 11:52:58
    作为互联网的幕后英雄,Linux运维工程师长期隐匿在大众认知范围之外,关于运维的讨论仍旧是一片无人涉足的荒漠。在某知名行业研究调查结果中,非互联网从业者对于运维相关问题的回复有三个高频词汇是:不知道、没听...
  • 不懂编程的运维人员到底还能走多远? 首先,可以肯定的说,未来的IT岗位需要的是综合能力强的人员,运维、开发、数据库、网络,技术岗位对上述知识体系都要会一些,才能很好的胜任对应岗位工作。 下面已经不是...
  • Linux运维提升之路

    千次阅读 多人点赞 2018-11-12 17:26:31
    运维的职业现状 运维的工作 运维的晋升空间 运维要掌握的必备技能 初级: 中级: 高级: 资深: 运维的时间管理 首先,在进做IT运维行业前,你一定要做好心理准备,这并不是一个轻松的工作,工作中的事情...
  • 运维业务相关知识总结

    千次阅读 2019-08-21 09:19:45
    目录 一、前言 二、运维简介及职责 三、ITIL概述 ...运维是一个很宽泛的概念,这里一般是指互联网运维运维在公司的日常运作中扮演着一个非常重要的角色,随便举两三个例子,比如软件安装、日...
1 2 3 4 5 ... 20
收藏数 372,538
精华内容 149,015
关键字:

运维