运维管理_运维管理规章制度 - CSDN
精华内容
参与话题
  • IT运维管理系统管理制度,本制度明确了公司IT的使用规定及工作规范。 本制度适用于公司IT运维管理工作。公司所有相关人员均应严格遵照执行,与信息安全相关的业务也应严格遵守本制度。
  • 运行维护管理制度

    万次阅读 2019-05-20 15:13:45
    1、总则 第一条为保障公司信息系统软硬件设备的良好运行,使员工的...第三条运维管理制度的适用范围:运维部全体人员。 2、编制方法 本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管...

    1、总则

    第一条 为保障公司信息系统软硬件设备的良好运行,使员工的运维工作制度化、流程化、规范化,特制订本制度。

    第二条 运维工作总体目标:立足根本促发展,开拓运维新局面。在企业发展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性发展。

    第三条 运维管理制度的适用范围:运维部全体人员。

     

    2、编制方法

    本实施细则包括运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象以及基于流程的管理方法。

    本实施细则以ITIL/ISO20000为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以全生命周期的PDCA循环为提升途径,体现了对运维服务全过程的体系化管理。

     

    3、运维部工作职责

    一、负责网站运维和技术支持

    (一)根据网站运营战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性和先进性。

    (二)负责网站栏目和应用系统的使用培训和操作使用指南编写,对用户使用过程中出现问题的沟通和解决;

    (三)网站设备和软件购买计划书的拟定,包括采购数量、品牌规格、技术参数。会同行政部进行采购。

    (四)网站设备和软件操作规程和应用管理制度的制定,并负责监督执行。

    (五)网站设备和软件安装、调试和验收,使用培训和维修保养。

    (六)网站日常运行过程中信息安全和技术问题的协调解决,保障网站24小时安全稳定运行。

    (七)网站技术服务外包管理,主要包括技术外包开发、运行服务托管和空间域名管理。

    (八)负责网站管理系统及设备保密口令的设置和保存,保密口令设置后报中心主任备案,保密口令设定后任何人不得随意更改,保密口令每季度更新一次。

    (九)负责网站新程序、新系统和网站改版升级方案技术的设计开发。

    二、负责网站信息和技术安全

    (一)执行国家和省上有关网络信息技术安全的法律法规,与通信管理和网络安全监管部门联络,及时处理网站信息技术安全方面存在的问题,确保网站安全、稳定、可靠运行。

    (二)网站信息技术安全保密制度和工作流程的制定,落实信息技术安全保密责任制,执行“谁主管、谁负责,谁主办、谁负责”的原则,责任到人。

    ( 三 )在服务器和计算机之间设置硬件防火墙,在服务器及工作站上均安装防病毒软件,进行硬件和技术双保护,确保网站不受病毒和黑客攻击。

    (四)负责网站信息技术安全应急处理预案制定和实施。

    (五)安排专人监控网站各频道,各页面,各版块,各栏目信息内容,建立网站信息技术安全监控值班登记制度,发现问题及时处理,并登记问题和处理结果登记;

    (六)建立多机备份网站信息服务系统机制,一旦主系统遇到故障或受到攻击导致不能正常运行,可以在最短的时间内替换主系统提供服务。

    (七)建立网站系统集中式权限管理,按照岗位职责设定工作人员操作权限,针对不同应用系统、终端、操作人员,设置共享数据库信息的访问权限,并设置密码。不同的操作人员设定不同的用户名,且定期更换,严禁操作人员泄漏密码。

     

    4、运维服务管理体系

    运维服务管理体系规定了运维活动涉及的各类实体,以及这些实体间的相互关系。相关的实体按照运维服务管理体系进行有机组织,并协调工作,按照服务协议要求提供不同级别的IT运维服务。

     

    4.1 运维服务管理对象

    运维服务管理对象包括基础设施、应用系统、用户、供应商、以及IT运维部门和人员,具体内容如下:

    (1)基础设施包括网络、主机系统、存储/备份系统、终端系统、安全系统、以及机房动力环境等。

    (2)应用系统包括内部办公系统、门户网站、面向公众的应用系统等。

    (3)用户包括使用如上应用系统的用户。

    (4)供应商包括基础设施和应用系统的供应商以及IT运维服务的供应商。

    (5)运维部门和人员包括内部参与运维活动的相关部门和人员,以及提供运维服务的企业和相关人员。

     

    4.2 运维系统功能框架

    根据建设单位的系统结构和业务开展需要,运维项目组将项目的维护框架分为9个具体组成部分,分别为:服务台、时间管理。工单管理、问题管理、变更管理、配置管理、工程师考核、知识库管理、统计、系统管理等9个子项。而具体运维流程将以此为依据开展工作。

    4.3 运维管理组织结构

    本运维项目的运维管理结构位三层模式,具体如下图所示。由项目负责人与甲方进行业务范围接洽,并将沟通结果向下传递。项目经理负责项目的整体运维工作,包括各种制度的制定和实施。运维工程师则在项目经理的指导下开展维护工作。

     

     

    4.3.1 项目负责人

    职责:负责项目商务、整体协调事宜。

    职位描述:

    1)、整体负责建设单位运维项目服务计划的制定,领导项目经理并安排项目工作,指导项目经理完成具体维护工作,每周听取项目经理的工作汇报,负责考核项目经理工作完成情况。

    2)、协助建设单位完成新增项目的调研、方案设计并指导项目经理进行具体实施。

     

    4.3.2 项目经理

    职责:规划、执行、完善信息化项目的运维工作,指导网络、数据库维护工程师开展工作。

    职位描述:

    1、根据公司战略目标,指导下属工程师开展客户服务工作,确保运维工作能够满足客户的实际需要;

    2、建立和持续完善运维管理体系,优化运维流程流程,解决运维服务中出现的特殊问题;

    3、规划并提升运维工程师专业服务能力,在整体上提高客户满意度;

    4、制定和持续完善绩效考核体系;

    5、制定整理运维项目的应急预案系统,并指导运维工程师实施;

    6、提高自身专业技能,在业务方面给予网络管理员和数据库管理员指导。

     

    4.3.3 技术主管

    职责:应用、数据库管理,oracle性能调优,实现应用负载均衡。

    职位描述:

    1、 技术主管非项目常驻人员,根据项目需要进行专业方面指导;

    2、 负责数据库性能分析与调优,数据库运行状态监控,及时发现异常并快速处理。

    3、 熟练掌握Oracle10G的RAC技术,能够实现部署及调优。

    4、 掌握WAS、Weblogic、Tomcat、websphere等中间件的工作原理,能够实现部署调优及故障解决。

    5、 熟练掌握red-flag、redhat等linux操作系统,部署oracle10g、mysql数据库。熟练掌握dataguard技术,保证oracle数据库冗灾、数据保护、故障恢复。

    6、 负责应用负载均衡的部署和调试。

    7、 负责指导数据库工程师管理员开展工作。

     

    4.3.4服务台

    职责:故障电话受理,文档管理。

    职位描述

    1、 负责业务的救助电话的受理工作;

    2、 故障处理的发起人,同时进行维护工程师指派,跟踪事件处理状态;

    3、 进行维护故障统计、用户满意度统计、工作报表输出等工作;

    4、 协助项目经理,进行文档整理、归类、保存等工作。

     

    4.3.5 应用、数据库管理员

    职责:维护建设单位业务系统运行正常,解决应用和数据库故障。

    职位描述:

    1、监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整;

    2、规划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,根据业务的需要执行数据转换及迁移等操作;

    3、保证应用和数据库系统的安全性、完整性和运行效率。

    4、负责数据库平台的整体架构及解决方案的制定和实施;

    5、工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神.

     

    4.3.6 终端管理员

    职责:维护建设单位桌面系统运行正常,解决终端、外设故障。

    职位描述:

    1、各部门电脑、打印机、传真机的维护;

    2、对各部门职员进行电脑相关的技术支持及培训工作;

    3、精通Windows XP及Office的使用,能够熟练使用Excel2003、Excel2007及以上版本,能够制作相应教程对其他部门员工进行培训

     

    4.4 运维服务流程

    IT运维服务管理流程涉及服务台、事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、财务管理、能力管理、可用性管理、服务持续性管理、知识管理及供应商管理等,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。

     

    4.4.1 项目运维服务工作流程图

     

     

    4.4.2 服务台

    服务台是支持运维服务的核心功能,与各个流程联系密切。所有管理流程都要通过服务台为用户提供单点联系,解答用户的相关问题和需求,或为用户寻求相应的支持人员。

     

    在本系统中,服务台是接收各种来源服务请求和相关信息反馈的唯一入口和出口,同时服务台还负责一般请求、通过知识库(历史事件)能够解决的请求;他也是复杂问题二线处理的桥梁。

     

    4.4.3 事件管理

    事件管理流程的主要目标是尽快恢复服务提供并减少其对业务的不利影响,尽可能保证最好的服务质量和可用性等级。事件管理流程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和诊断、事件的解决和恢复以及事件的关闭。

    本系统把所有服务请求和报警归结为事件。事件管理是提供服务台和事件管理者对于事件记录、处理、查询、审核、派发等功能。它也包括通过和第三方监控系统对接,把其发送报警形成事件的功能。

     

    4.4.4 工单管理

    工单管理:工单是现场运维、二线支持的任务载体,运维工程依据所接收工单进行运维工作。工单管理是对工单实现创建、变更、查询浏览、派发、监督等功能的模块。

     

    4.4.5 问题管理

    问题管理流程的主要目标是预防问题和事故的再次发生,并将未能解决的事件的影响降低到最小。问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动,通过合适的控制过程,尤其是变更管理和发布管理,负责确保解决方案的实施。问题管理还将维护有关问题、应急方案和解决方案的信息。

    问题管理是针对已处理事件的遗留问题或处理事件的方案只是治标不治本的不能彻底解决问题而考虑的模块。根据事件、及处理方案,问题处理人经过调查、诊断并提出最终解决方法。

     

    4.4.6 变更管理

    变更管理实现所有基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。其主要目标是以对服务最小的干扰实现有益的变更。

    变更管理是要对重大资源的新增、变更、升级等运维活动进行审核的功能,以免这些活动对现有资源的可用性造成没有必要的影响和破坏;同时,他还要实现在工单中产生的变化进行后审计的功能。

     

    4.4.7 配置管理

    配置管理流程负责核实基础设施和应用系统中实施的变更以及配置项之间的关系是否已经被正确记录下来;确保配置管理数据库能够准确地反映现存配置项的实际版本状态。

    配置管理实际上是全部资源的统一管理的功能,包括资源整个生命周期的参数或配置的变化记录的管理。管理信息主要涉及分类、型号、版本、位置,状态、相关资料等基本信息还包括核心参数等

     

    4.4.8知识库管理

    知识库管理:知识库是提供给运维人员重要的技术资料内容,他汇集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料手册。在本系统中,知识库管理提供便于使用的人机接口、快速查询的技术手段和维护手段。

     

    4.4.9 统计及工作报告

    运维管理系统提供一线解决率统计、客户满意度统计、按分类的事件汇总统计、工作报告生成的功能,按照一定格式根据事件数据、工单数据、问题数据、配置数据、变更数据可以帮助运维管理者能把运维的所做的工作内容清晰的罗列出来。

     

    5、运维服务内容

    5.1 服务目标

    运维项目组提供的运行维护服务包括,信息系统相关的主机设备、操作系统、数据库和存储设备的运行维护服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。

    用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。

    服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标:

     运行状态、故障情况

     配置信息

     可用性情况及健康状况性能指标

     

    5.2 IT资产统计服务

    服务内容包括:

     硬件设备型号、数量、版本等信息统计记录

     软件产品型号、版本和补丁等信息统计记录

     网络结构、网络路由、网络IP地址统计记录

     综合布线系统结构图的绘制

     其它附属设备的统计记录

     

    5.3 网络、安全系统运维服务

    从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。

     设备基础性能检测:cpu、内存使用情况监测;

     设备日志查看;

     设备snmp状态;

     测试Ping,tracert等工具的连通性;

     网络安全策略应用是否正常;

     Internet带宽流量的实时监测;

     网络拓扑链路状态监测;

     异常网络数据包流量;

     Dos、ddos等网络攻击情况监测;

     Internet线路的误码率、丢包率监测;

     

    5.4 主机、存储系统运维服务

    提供的主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。

    进行监控管理的内容包括:

     CPU 性能管理;

     内存使用情况管理;

     硬盘利用情况管理;

     系统进程管理;

     主机性能管理;

     实时监控主机电源、风扇的使用情况及主机机箱内部温度;

     监控主机硬盘运行状态;

     监控主机网卡、阵列卡等硬件状态;

     监控主机HA运行状况;

     主机系统文件系统管理;

     监控存储交换机设备状态、端口状态、传输速度;

     监控备份服务进程、备份情况(起止时间、是否成功、出错告警);

     监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;

     对存储的性能(如高速缓存、光纤通道等)进行监控。

     

    5.5 数据库系统运维服务

    提供的数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。

    进行监控管理的内容包括:

     数据库基本信息:文件系统、碎片、死锁、CPU占用率较大或时间较长的SQL语句。

     表空间使用信息监测;

     数据库文件I/0读写情况;

     Session连接数量监控;

     数据库监听运行状态监测;

     查看每日数据备份、数据同步是否正常;

     报警日志监测;

     对表和索引进行Analyze,检查表空间碎片;

     检测数据库后台进程;

     数据库对象的空间扩展情况监测;

     

    5.6 中间件运维服务

    中间件管理是指对BEA Weblogic、tomcat、MQ等中间件的日常维护管理和监控工作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳定运行。中间件监控指标包括配置信息管理、故障监控、性能监控。

     执行线程:监控中间件配置执行线程的空闲数量。

     JVM内存:JVM内存曲线正常,能够及时的进行内存空间回收。

     JDBC连接池:连接池的初始容量和最大容量应该设置为相等,并且至少等于执行线程的数量,以避免在运行过程中创建数据库连接所带来的性能消耗。

     检查中间件日志文件是否有异常报错

     如果有中间件集群配置,需要检查集群的配置是否正常。

     

    5.7 终端、外设运维服务

    负责对终端PC、笔记本以及工作站的操作系统、应用软件和硬件的维护,解决使用人员在应用过程中遇到的问题并进行简单培训,完成打印机等其他外设的故障处理工作。

     

    6、应急服务响应措施

    运维项目组制定了详尽的应急处理预案,整个流程严谨而有序。但在服务维护过程中,意外情况将难以完全避免。我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。

     

    6.1应急预案实施基本流程

     

     

    6.2 突发事件应急策略

    (1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。

    (2)正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。

    (3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。

     

    7、服务管理制度规范

    7.1服务时间

    (1) 在5*8 小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。

    (2) 在非工作时间设置有专人7*24 小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24 小时机房监控人员的机房突发情况汇报。

    (3) 服务响应时间:

     

    故障级别

    响应时间

    故障解决时间

    I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。

    10分钟,30分钟内提交故障处理方案

    3小时以内

    II级:属于严重问题;其具体现象为:出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。

    10分钟,30分钟内提交故障处理方案

    6小时以内

    III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。

    10分钟,30分钟内提交故障处理方案

    12小时以内

    IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。

    10分钟,2小时内提交故障处理方案

    24小时以内

    7.2 行为规范

    (1) 遵守用户的各项规章制度,严格按照用户相应的规章制度办事。

    (2) 与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。

    (3) 出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。

    (4) 现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。接听电话时要文明礼貌,语言清晰明了,语气和善。

    (5) 遵守保密原则。对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。

    展开全文
  • 如何提高运维团队的运维效率?

    千次阅读 2017-10-18 16:22:33
    如何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障? ...在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。

       如何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障?

    52.jpg

      1。以终为始


      以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是“不忘初心,方得始终”。数据中心的终极目标是支持业务系统的不间断运行。在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。


      2。以人为本


      70%的数据中心故障是由人为造成的。与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的最终决策和操作。所以,配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。


      3。培训与学习


      学习是一种修炼。有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业,对于数据中心运维团队来说,需要学习的专业知识非常多。同时,每一个数据中心的配置和特定的操作流程都不完全相同。因此,培训与学习应该成为运维团队管理的一个重要组成部门。


      4。建立管理体系


      数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户),是一项系统性很强的工作,需要建立起一个管理体系。在整个运维管理系统体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。


      5。规范操作流程


      任何规范化的企业管理,都不可避免地需要引入流程,数据中心运维管理也不例外。完全基于个人经验和判断的操作,往往隐藏着重大的故障风险。数据中心就是要强化流程管理。任何重要的操作,必须严格按照流程执行。建立流程文化是数据中心规范化管理的一个重要环节。数据中心最重要的三类流程是标准操作流程(SOP),维护保养操作流程(MOP),和应急相应流程(EOP)。


      6。动态管控


      除了之前提到的管理体系和操作流程这些相对静态的工作以外,数据中心还需要进行动态的管控。近几年,IT负载的动态性表现得越来越明显。一方面,IT设备的增加速度比较快。新的业务系统上线可能导致IT负载在短期内有较大的增加。另一方面,企业大量采用虚拟化技术以后,可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。


      7。持续改善


      大型数据中心的出现只是近几年的事情。当数据中心超过一定规模的时候,管理变得复杂,已经超越原来简单的依赖于少数运维人员的责任心的时代,需要的是完整的管理思想和方法论。国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态:基础级、成长级、文化级。

        8、用运维管理工具

         实践已经证明,用一个优秀的运维管理系统可以大幅度的提升运维管理效率。可以理顺运维流程,并对每一个运维事件进行时间限制。督促运维工程师解决故障。另外,运维经理可以从PC或者移动端随时关注运维事件的进程。运维管理工具的知识库、配置管理、拓扑图、监控管理等功能,也是提升运维效率的有效功能。

    展开全文
  • 运维服务方案

    热门讨论 2020-07-30 23:33:35
    3.3 一般信息化设备及相关软件运维管理 33 3.3.1 一般信息化设备服务范围 33 3.3.2 一般信息化设备运维 33 3.3.3 例行维护流程图 34 3.3.4 一般设备服务方案 35 3.4 防(杀)病毒服务 40 3.4.1 防病毒服务需求 40 ...
  • 几个开源的运维管理系统介绍

    万次阅读 2015-09-02 14:46:28
    国内开源运维管理平台 OWS OWS是Open Web SA的简称,意指开放的web运维管理系统。 OWS是由Open Web SA开发团队,针对目前服务器运维、监控和报警提出的一个开源、易用的Linux服务器运维管理平台。 OWS是一个基于...

     国内开源运维管理平台 OWS

    OWS是Open Web SA的简称,意指开放的web运维管理系统。

    OWS是由Open Web SA开发团队,针对目前服务器运维、监控和报警提出的一个开源、易用的Linux服务器运维管理平台。

    OWS是一个基于《GPLv2协议》永久开源,并且可以免费下载和使用的运维管理软件。

    OWS感谢有您的一路支持,如果您有建议可以发表到社区的建议专版,我们会认真的听取和采纳任何有价值的建议!

    如果您在使用过程中遇到任何问题,可以登录我们的社区进行交流,也可以加入技术QQ群:22250846 进行技术咨询!


    OSA logo

    开放的运维管理系统 OSA

    OSA是Open System Adminstrator 的简称,意指开源,开放的运维管理系统。

    OSA运维管理平台是由OSA开发团队,针对目前服务器运维、监控和报警提出的一个开源、 易用、实用的跨平台服务器运维管理平台;

    OSA运维管理平台除了满足运维需求,还引导用户进行知识管理,流程规范,日常学习等。

    OSA感谢有您的一路支持,如果您有建议可以发表到社区的建议专版,我们会认真的听取 和采纳任何有价值的建议!

    OSA己开放BETA版所有源码,欢迎各位下载和测试。根据调查问卷 的结果, 添加适当的功能后,继续推出新版本,感谢大家的关注!

    演示版本地址:

    http://demo.osapub.com
    用户名:demo
    密码:demo

    OSA开源运维监管理平台是由OSA开发团队,针对目前服务器运维、监控和报警提出的一个开源、 易用、实用的跨平台服务器运维管理平台;OSA运维管理平台除了满足运维需求,还引导用户进行知识管理,流程规范,日常学习等。

      主要功能:

      资源监控

      独创的即时监控,智能分析服务器进程的内存和CPU占用率等信息。

      邮件报警

      灵活的报警设置,以邮件的方式进行服务异常、设备宕机等告警通知。

      单机运维

      简单操作即可进行服务器的日常维护与管理,支持通过智能手机进行登录和管理。

      批量操作

      批量操作结合计划任务功能,让操作更加自动化,一键部署成千上万台服务器。

      故障记录

      强大的故障记录与分类功能,根据历史记录很好的分析突发故障。

      知识库

      丰富的知识库内容,帮助您解决问题,寻找日常运维中的问题的答案。

      运营分析

      用图形的方式分析服务器,让运营人员对基础设备状态信息了如指掌。

      账户管理

      通过合理的权限分配,为不同用户设定不同角色,方便灵活管理。







    国产开源运维管理工具介绍TriAquae

    如果你有以下需求,本文章或许会对你有所帮助:
    1. 网络里LINUX服务器较多,缺乏统一管理的工具。
    2. 系统经常需要更改,如果定期更改所有服务器密码、批量更新特定文件等。
    3. 需实时获得所有服务器的运行信息,例如,需立刻查看每台服务上装分别装了多少根内存条该怎么办,难道一台台登录 上去看?当然一般的系统监控软件是不会收集服务器有多少条内存条这样的信息的。
    4. 如果想往所有服务器上放一个文件,怎么办?
    5. 想在所有服务器上启动一个服务或执行一个脚本怎么办?


    关注官网:triaquae2.sinaapp.com 

    相信许多LINUX 管理员,运维工程师都遇到过自动化运维的需求,如批量安装机器、批量装应用、批量传文件、批量监控等等(如果你还没需到过,呵呵,可能你还不是一名合格的工程师)。市场上有N多相关的管理软件,开源的如Nagios,Cacti,Shrink监控,Cfengine,Puppet统一部署管理软件,商业的更是多了去了,如HP 的S A,SiteScope监控,openview,Oracle Grid Control等,它们都很强大,当然也各有利弊。共同的缺点就是无一例外配置起来都不简单,好像开发人员是故意做了个门槛,只有能成功搭建起来的人才是有资格使用的工程师。并且加上都是国外软件,好多英语不好的工程师学习这些软件确实需要花很大力气。
    本人多年以来也算用过不少IT管理软件,虽然现在的管理工具也能满足大部分运维需要,但总是希望能把IT管理做的越简单越好,管理1000台,10000台服务器能和管理一台服务器一样,解决运维人员的双手,能使他们花更多的心思去降低IT成本,提高运维效率上,而不每天疲于奔命的装服务器,搭建服务,软件更新等 ,尽做一些不能真正体现自身价值 的工作。基于这样的想法,我2年前用PYTHON和SHELL写过一个叫RMT的批量管理工具,它就可以实现批量执行命令,脚本,传文件等,但 它需要在被管理机上装一个小的客户端,并且安全性上不是很好。近期自己换了工作,在一家大型500强外企,相信多数人都使用过他们的产品,虽然这个公司已经做了很多的IT自运化运维,统一管理工作,比如统一装机器,统一监控,SSO统一登录等,但依然看到很多同事要花很多的时间去在很多机器上做重复的工作。北京分公司几百台服务器,有十多个在管理,每个人管一摊,我觉得如果他们在自动化上再往前走一步的话,一半的人被开掉,IT系统也不会出问题吧。
    终于我决定自己要专心搞一个开源自动化运维软件,吸收现有IT自动化软件的优点,一步步的把它做起来,说不定以后会比Puppet还有好用呢,呵呵。


    先Show下功能:
    IT批量运维管理软件-- TriAquae  
    1.        服务器分组管理
    2.        批量命令执行
    3.        批量文件传送、接收
    4.        服务器运行状态抓取、分析
    5.        服务器硬件信息收集
    6.        定时计划任务
    7.        批量软件部署
    8.        系统密码更改
    我推荐大家使用 TriAquae的理由:
    1、        它如此方便,你可以像管理本地一台服务器一样可以轻松的让成千上万台服务器做同样的事情,比如 uname –a查一下系统版本,执行一个收集日志的脚本,修改所有服务器上的一个文件……,当然它能做的不至这些……
    2、        它如此之轻,只要你的机器上装有Python,那么你就可以开始使用它,它不需要你装数据库,不需PHP、不需要JAVA虚拟机,only  Python。你甚至不需要在客户机上装客户端,只需要支持SSH,当然你得知道用户名密码
    3、        它如此简单,你无需学习特殊的语法、花数天的时间研究软件的结构,只需5分钟,你就可以开始自如的使用它管理你的系统了
    4、        它是开源的,它是免费的……

     T1.jpg (15.73 KB)

    2012-10-16 14:07

    T1.jpg

     T2.jpg (25.43 KB)

    2012-10-16 14:07

    T2.jpg

     t3.jpg (19.25 KB)

    2012-10-16 14:07

    t3.jpg

     T4.jpg (15.2 KB)

    2012-10-16 14:07

    T4.jpg

     T5.jpg (30.14 KB)

    2012-10-16 14:07

    T5.jpg

     T6.jpg (39.03 KB)

    2012-10-16 14:07

    T6.jpg

     triaquae_web.jpg (21.71 KB)

    2012-12-5 17:00

    triaquae_web.jpg

     monitorPage.png (93.78 KB)

    2012-12-14 10:24

    monitorPage.png

     WEB.jpg (18.62 KB)

    2012-12-14 10:24

    WEB.jpg

    开源项目:天涯服务器管理系统 V2.1.1


        一个用于管理服务器的运维软件,可以很方便管理上千台Linux服务器。

    项目托管地址:http://code.google.com/p/tianyaservmanager/

    开源协议
    Artistic License/GPL

    一、开发包
    Client

    python 2.5 +
    wxpython2.8+
    rpyc3.0+
    psyco 1.6+
    MySQLdb
    ConfigParser
    pywin32 for py2.5 (windows only)

    Server
    func
    certmaster
    cfengine
    mysql5.0+
    rpyc3.0+

    二、支持平台
    Windows xp/2000/2003 Linux2.6+ MacOS

    三、角色分配
    客户端
    服务器端

    四、功能特点
    跨平台、分级管理、实时监控、及时报警、远程操作、可扩展性、在线升级、安全可靠

    五、系统架构图
    点击在新窗口中浏览此图片

    六、功能截图
    客户端登录界面
    点击在新窗口中浏览此图片
    客户端主界面
    点击在新窗口中浏览此图片

    更多截图:
    http://blog.liuts.com/post/175/

    七、服务器端Demo
    http://blog.liuts.com/post/183/

    八、模块编写
    XRC(XML Resource)的设计来源于wxWidgets,它的想法很简单,就是将界面设计的工作从程序中独立出来。具体的做法是,创建单独的XML文件,负责 界面设计,程序运行的时候载入,生成界面。这样做的好处是显而易见的。首先,将繁琐的外观设计代码从程序中去掉,程序更清晰易读。其次,XRC文件独立于 程序,程序运行时才调用,因此可以随意更换外观。这种思想并不是wxWidgets的原创,MFC中的RC已经有了,类似的还有HTML和CSS的关系。 wxPython从wxWidgets继承而来,当然也保留了XRC(介绍来源于互联网)。 
    更多http://wiki.wxwidgets.org/Using_XML_Resources_with_XRC

    九、目录结构
    /var/SERVMANAGER
    ├─data 存放服务器分类及一般信息(XML格式)
    ├─img 系统图片资源
    ├─Module 系统模块UI资源
    ├─numbers 系统帐号pem密钥文件,默认只有root.pem。
    ├─sql 系统表结构
    └─tmp 系统临时目录(XML格式)

    十、初始化系统
    修改config.py,配置服务器主机、帐号、密码及数据库。
    默认帐号:root
    默认密码:123456
    运行文件ServManager.py即可。

    十一、声明
    由于平台目前只在公司内部使用,因些会存在很多不完善的地方,大家在使用过程当中出现问题本人将不负任何责任,软件只供学习与交流用,同时禁止用于任何商业用途。

    Ducter

          Ducter是面向设备、产品的分布式命令平台,为第三方提供针对设备与产品的信息收集或操控的命令通道。作为国内已在多个公司投入使用的一款开源产品运维管理系统。 Ducter是产品的管理平台,实现任意产品的管理、监控及用户自定义的发布与回退,为第三方提供产品运行状况的实时数据及事件通知。Ducter是集设备管理、产品管理、服务上线和服务器操作等于一体的运维管理系统。该系统分为Dcuter-Server/Ducter-Web两个部分。

    Ducter目标

    • 产品管理系统

      产品->服务->服务池(服务池属性)->服务池设备->设备。
    • 产品自动发布系统

      可视化、自定义、并发、自动。
      适用于任意产品类型:c/c++、python、java、php等。
    • 产品操控系统

      远程操作产品服务的启动、停止、重启等。
    • 产品运行及使用资源的实时信息收集与通知系统

      实时收集产品的运作状态及资源占用信息。在状态改变的时会主动实时事件通知。
    • 分布式命令平台

      命令的action由用户脚本实现:shell、python、ruby等。
      ducter提供脚本运行的环境。

    运维定位

    与其他系统关系

    • 与puppet、cfengine等配置系统关系:

      puppet、cfengine:面向配置
      ducter:面向交互,可与puppet等集成。
    • 与Mesos的关系:

      Mesos:资源管理、调度平台。
      Ducter:分布式任务与命令平台,服务管理平台,资源及服务调度有第三方实现。



    其他网络运维管理工具参考:http://net.it168.com/a2014/1011/1672/000001672664.shtml

    展开全文
  • 系统运维管理

    千次阅读 2018-11-27 09:41:07
    系统运维管理 系统开发出来不仅要符合用户的需求,而且有支持人员持续不断维护他,就像呵护自己的孩子一样,这样系统才能够稳定,高性能,高可用性。 系统的运维包括很多方面: 运维团队的建立。团队由接线员,...

    系统运维管理

    系统开发出来不仅要符合用户的需求,而且有支持人员持续不断维护他,就像呵护自己的孩子一样,这样系统才能够稳定,高性能,高可用性。

    系统的运维包括很多方面:

    1. 运维团队的建立。团队由接线员,操作咨询人员,供应商技术支持接口人,现场解决人员,核心技术支持人员,协调者等。
    2. 搭建好软件环境。
    3. 日常运维要清理数据目录。
    4. 要做好运维日志。
    5. 定义呼叫热线。
    6. 接收问题,分析问题,解决问题。
    7. 处理好第三方供应商问题。
    8. 系统版本管理与升级。
    9. 定期召开运维会议。
    展开全文
  • IT运维服务管理

    千次阅读 2019-06-19 10:36:09
    IT 运维服务管理遵循 ITIL/ITSM 最佳实践进行建设, 以 SLA服务级别管理为中心, 以服务目录面向用户, 支持事件 / 问题 / 变更 / 配置/ 发布等 ITIL 标准流程,并根据实际运维需要支持值班 / 作业计划 / 进出机房...
  • IT运维服务规范

    千次阅读 2018-05-15 11:55:15
    本部分规定了IT运维服务支撑系统的应用需求,包括IT运维服务模型与模式、IT运维服务管理体系、以及IT运维服务和管理能力评估与提升途径。 本部分适用于企业理解智控国际IT运维服务管理体系,指导智控国际为客户提供...
  • Django自动化运维管理平台

    万次阅读 热门讨论 2018-04-27 19:18:44
    运维管理平台展示,还在完善中,有所不足,望提出建议,感激不尽。@@ 个人网站:http://www.mykurol.com@@ Github :https://github.com/kurolz 架构:Python+Django+bootstrap+SaltStack+Zabbix+MySQL 资产管理...
  • 运维工程师岗位工作技能的评定类别(5)和(6)5、自动化运维技术级别0,什么都不懂级别1,了解ansible、saltstack、puppet等主流的自动化运维管理技术工具,掌握公司主要使用的一种自动化运维工具的基本操作方法。...
  • 开源运维管理平台

    千次阅读 2018-11-05 01:09:15
    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!   ...
  • 转行做linux运维工程师,首先要了解linux运维要做多少事情,需要什么基础,然后根据自己的情况进行有的放矢的追踪学习。先了解下做linux运维工程师需要做的事情 1.熟悉linux命令基本操作,玩不转基本操作别的都是...
  • 2015年8月18日,中国电子联合会发布了《关于发布信息系统运维分项资质办法(试行)的通知》,这让国内IT运维服务企业出现了一些困惑:运维资质与ITSS运维标准有什么关系,二者又有什么区别,企业选哪个认证更适合呢...
  • windows运维实战视频从零基础讲起,做到全方位技术提高,内容包括Windows Server 2012 R2概述、安装与基本环境设置,本地用户与组账户的管理,建立Active Directory域,NTFS磁盘的安全性与管理,访问网络文件,...
  • 2016 年中国数据中心行业投资狂潮掀起了 IDC 基础设施建设狂潮,经过 2 年的建设周期,数据中心基础设施运维&管理工作紧跟其后,拉开了数据中心运维&管理人才迫切需求的大幕。然而行业发展周期特性,运维&管理面临着...
  • 谈谈我对运维的理解

    万次阅读 2017-02-07 23:16:15
    随着互联网+时代的来临,运维的角色越发得重要,随着云计算云平台的普及,更多的是智能化,自动化地监控运维,仅仅停留在操作,业务层次上,是不够的作为从事运维工作的我,一个毕业不久--我是2016-06毕业的,算上...
  • 对于运维工程师岗位职责有哪些

    千次阅读 2019-04-12 20:02:51
     3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化;  4、建立面向开发部门,业务部门的服务流程和服务标准;  5、负责IT运维相关流程的规划、设计、推行...
  • 运维的职业规划

    千次阅读 2019-06-10 17:04:31
    开发技能运维很快学会,但是运维开发未必一下能够学会 一个运维需要知道:网络、系统、数据库、云计算虚拟化、自动化运维、Web架构、Python、监控、安全等知识领域。 运维第一个方向: 1.系统架构师(或偏管理...
  • 运维一般干什么?

    万次阅读 2019-04-19 02:35:44
    运维一般干什么?”这个问题居然是百度上搜索“运维”的最热门问题:对应这个问题的最佳答案如下,不知道各位运维同学是否认同?一、运维工程师的工作:保障业务长期稳定运行(如...
  • IT运维存在问题及改进

    万次阅读 2016-12-02 19:13:31
    IT运维管理可能存在的问题  1.1 IT运维机制不完善,流程操作层面缺乏统一  没有建立起稳定、规范的IT运维机制。现有的IT运维流程的操作层面缺乏统一。如事件单提交之后,事件预判和优先级的设定缺少统一...
1 2 3 4 5 ... 20
收藏数 203,485
精华内容 81,394
关键字:

运维管理