精华内容
下载资源
问答
  • 10. 线上故障处理流程

    千次阅读 2019-09-18 11:48:22
    1. 线上故障处理原则 第一时间告知干系人。 影响客户使用、影响业务数据沉淀的,以快速恢复业务为首要目标。 及时关注问题解决的进度,注意升级问题,以协调最大资源解决问题。...2. 线上故障处理流程 ...

    1. 线上故障处理原则

    1. 第一时间告知干系人。
    2. 影响客户使用、影响业务数据沉淀的,以快速恢复业务为首要目标。
    3. 及时关注问题解决的进度,注意升级问题,以协调最大资源解决问题。
    4. 事后进行详细的回溯、复盘,总结改进。

    2. 线上故障处理流程

    线上故障处理流程

    展开全文
  • 线上事件处理流程规范

    千次阅读 2020-07-22 11:11:00
    线上事件处理流程规范线上事件处理流程图目的线上问题定义问题处理 线上事件处理流程图 目的 为了明确线上事件的报告,应急响应,处理,复盘机制,确保以快速,高效,准确应急处理能力来保证各类业务系统的正常运转...

    线上事件处理流程图

    在这里插入图片描述

    目的

    为了明确线上事件的报告,应急响应,处理,复盘机制,确保以快速,高效,准确应急处理能力来保证各类业务系统的正常运转,当发生突发事件时,能在最短的事件内回复系统的正常运转,将因此带来的损失控制到最低限度,特此定此流程。

    线上问题定义

    1. 线上事件:包括线上故障和需求
    2. 线上故障:包括线上故障(A级,B级)和一般故障(C级)
    3. 线上故障的等级定义如下
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    问题处理

    1. 报告问题
      发现线上事件的人员,包括用户,业务方,运维监控,测试人员等发现线上事件的人员,报告发现线上事件后,需第一时间报告运营经理,项目经理。

    2. 受理问题
      事件发生时:
      1)接受线上事件报告
      2)判断线上事故是否故障:接到线上事件报告后,首先判断线上事件的性质。
      3)对外报告处理故障进展:如果是故障,立即按流程要求通知相关负责人。运营经理和项目经理随时将处理情况报给受影响的部门和相关管理人员。如果是非事故,需要协助解决或引导用户找到解决办法。

    3. 处理问题:

      1)线上故障为A级,需要立即通知运维部,研发管理部以及相关产品部门的领导,并告知中心领导。由各部门领导协调事故处理,10分钟内响应事故,2小时内给予解决,保证系统恢复正常,并及时告知运营经理或项目经理。

      2)线上故障为B级,需要立即通知运维部,研发管理部门的领导,并告知中心领导。由各部门领导协调事故处理,10分钟内响应事故,1小时内给予解决,保证系统恢复正常,并及时告知运营经理或项目经理。
      3)线上问题为C级,需要尽快录入工单系统,通知产品部门产品经理或技术经理以及测试经理,并告知部门负责人,由产品/技术经理协助处理线上问题,保证系统在最短事件内恢复正常,最长不包括48小时。

    4. 验证问题
      线上故障处理后都需要测试人员进行跟进,协助技术人员分析定位问题,如果是A级或是B级故障,问题修复后第一时间验证并告知运营经理或者项目经理;如果是C级故障,开发人员修复问题后及时更新缺陷状态并通知测试人员验证,并评估是否需要发布

      1)需要发布:问题处理人员需要按照上线管理流程进行程序发布
      2)不需要发布。测试人员直接验证问题是否已解决;如果验证通过,需要在工单系统中关闭问题单。如果验证不通过,则将问题重新打开并提醒问题处理人需要重新进行问题修复

    5.通知业务方
    1)线上故障为A级或者B级,故障恢复前,由运营经理或项目经理跟踪处理进展。每隔15分钟告知业务方,直至故障恢复。
    2)线上故障为C级,由运营经理或者项目经理跟踪问题状态,问题单关闭后实时通知业务方。

    事故培训流程

    在这里插入图片描述
    线上重大问题解决之后,需要召开线上事件的事故培训会议,对事故进行详细

    分析并给出规避措施以及潜在风险评估,从而避免同种重大问题再次出现。

    展开全文
  • 项目线上Bug处理流程

    千次阅读 2017-09-24 15:41:51
    前言针对线上Release版本出现的Bug问题,我们需要有一套稍微严谨的处理流程,否则很容易忙乱掉。 下面是处理流程初稿。流程处理思维图

    前言

    针对线上Release版本出现的Bug问题,我们需要有一套稍微严谨的处理流程,否则很容易忙乱掉。
    下面是处理流程初稿。

    流程处理思维图

    Bugflow

    展开全文
  • 从机器层面(内存,cpu,硬盘,io)到进程层面(进程占用cpu和内存)再到线程层面(线程在干什么)以及JVM老年代,新生代使用情况,gc情况,带你进行全面得Java程序线上问题定位与排查

    一.Java线上问题处理流程.

       这里主要包含三步,通常的应用程序都适用于此步骤,而我们首先要做的就是快速恢复,其次才是问题的解决.

    1. 快速恢复
    2. 问题定位和解决
    3. 问题防范

       本篇文章主要侧重于问题的定位,当线上应用程序出现问题时,我们怎么去找到问题出现的根源.

    二.问题定位

       当线上程序应用出现问题时,第一还是要查看日志,通常情况下日志还是能直观反应出问题所在(如果没有反应出,那小伙伴们可能就需要反思自己日志是否添加得当)
       然而,在某些情况下日志反应不了对应的问题,我们就需要自己进行排查,也是本篇文章所写目的所在.在排查时主要有三个步骤,机器层面,进程层面和线程层面.

    1.机器层面.

    (1)查看机器cpu占用.

    命令:top
    在这里插入图片描述
    us 用户空间占用CPU百分比:  7.3%
    sy 内核空间占用CPU百分比:  2.0%
    ni 用户进程空间内改变过优先级的进程占用CPU百分比:  0.0%
    id 空闲CPU百分比:  90.4%
    wa 等待输入输出的CPU时间百分比;  0.3%

    load average :当前系统负载的平均值,后面的三个值分别为1分钟前、5分钟前、15分钟前进程的平均数,一般的可以认为这个数值超过 CPU 数目时,CPU 将比较吃力的负载当前系统所包含的进程

    (2).查看机器内存使用:

    命令:free -h
    在这里插入图片描述 total:总计物理内存的大小。
    used:已使用多大。
    free:可用有多少。
    Shared:多个进程共享的内存总额。
    Buffers/cached:磁盘缓存的大小。

    (3)查看机器硬盘使用:

    命令:df -h
    在这里插入图片描述

    (4)查看机器网络IO情况:

    命令:iostat
    在这里插入图片描述
    在这里插入图片描述

    2.进程层面(整体情况).

    (1)首先获取进程ID.

    命令: ps -ef | grep 应用名
    在这里插入图片描述

    (2)查看进程所占用cpu和内存

    命令:ps -aux | grep 进程ID
    在这里插入图片描述
    USER : 用户
    PID : 进程号
    %CPU : 执行命令时候进程占用的CPU百分比
    %MEM : 执行命令时候进程占用的内存百分比
    VSZ : 进程占用虚拟内存(一般不用关注)
    RSS : 进程占用物理内存(实际占用内存,单位KB)
    TTY : 终端号

    3.线程层面和进程内部内存使用分析.

    (1).查看线程正在干什么,也就是线程快照.

    命令:jstack 进程ID
    在这里插入图片描述

    (2)JVM老年代,新生代使用情况.

    命令:jmap -heap 进程ID.
    该命令会打印一个堆的摘要信息,包括使用的GC算法、堆配置信息和各内存区域内存使用信息
    在这里插入图片描述
    在这里插入图片描述

    (3)查看哪个类使用内存最多

    命令:jmap -histo:live 进程ID
    在这里插入图片描述

    (4)查看详细GC情况.

    命令:jstat -gcutil 进程ID
    在这里插入图片描述
    S0,S1 表示Survivor区
    E表示Eden(新生代),
    O表示Old(老年代),
    M表示Metaspace(元空间),
    YGC(Minor GC次数),
    YGCT( Minor GC耗时,单位:秒),
    FGC(Full GC次数),
    FGCT(Full GC耗时,单位:秒),
    GCT(GC耗时)

       经过以上步骤基本能定位到问题,如果在过程中定位到比如说CPU占用过高OOM或者是内存溢出,可以在该文章查看详细步骤:OOM与CPU占用过高分析

    展开全文
  • 本工作规范用于指导新员工入职后,快速知悉研发中心线上线下问题处理工作流程,能快速的融入团队并高效完成问题处理工作 。 2. 适用范围 研发中心开发部门、测试部门。 二、线上线下问题处理工作流程 1. 各中心线...
  • 目的:规范测试线上BUG的处理流程,提升线上缺陷的响应速度,提升版本质量 二.解决问题: 1.线上问题响应速度慢,技术客服、开发、测试团队配合混乱 2.测试人员对逃逸缺陷理解存在偏差 三.流程描述 1.一线...
  • 前言:整理了一下项目线上问题应急处理规范,仅供参考! 1.1线上报障流程 1.2.目的 为了明确线上事件的报告、应急响应和处理机制,确保能以快速、高效、准确的应急处理能力来保证各类系统的正常运转,当发生突发事件...
  • 后台回复「MTSC」,领取大会 PPT阅读本文大概需要 5 分钟。上周产品出现了一个线上 bug,我和一位同事临时通宵给做了善后处理,本来是有很清晰的处理思路,以及很熟练...
  • 目的:规范测试线上BUG的处理流程,提升线上缺陷的响应速度,提升版本质量 二.解决问题: 1.线上问题响应速度慢,技术客服、开发、测试团队配合混乱 2.测试人员对逃逸缺陷理解存在偏差 三.流程描述 1.一线...
  • 线上bug解决流程图的总结

    千次阅读 2019-09-27 20:57:12
    产品上线后,避免不了BUG,作为测试人员针对出现BUG的处理流程
  • 最近看了一篇关于线上故障解决的博客很受启发,下面我想根据目前实际工作情况讨论一个解决流程: 发现问题——>定位排除——>回溯 1、发现问题(在此阶段要将线上问题录入JIRA)(从上到下优先级增高) ...
  • 罚则--线上疑似问题处理流程 建立线上问题反馈群 各项目组由测试组织一个线上问题反馈群,并担任管理员 参与人: 研发测试全体成员, 产品经理, 系统使用方(人员由使用方决定) bug空间 所有线上问题确认后,...
  • 1、事故问题: 某个旧版本业务功能中运行了一个失败重试的job,因一位离职的同事编码时未考虑周全出现死循环,导致线上从24日下午2点一直到27日晚9点持续3天一直在刷日志。异常日志内容如下: 2、事故...
  • 线上故障处理原则

    2019-06-17 21:00:00
    那么,我们需要对线上服务产生任何现象,哪怕是小问题,都要刨根问底,对任何现象都要遵循下面问题 为什么会发生 ? 发生了该怎么应对 ? 怎么恢复 ? 怎么避免 ? 应急目标 在生成环境发生故障时快速恢复服务,避免...
  • 备注:一年半以前网上搜索参考了多篇文章,结合实践做了修正和细化之后进行的内部规范,忘记收藏参考文的链接了。为了让产品人员和开发人员可以更快速解决问题,也为探索更好保证软件质量的方法,针对...
  • 很多时候我们能把大部分的bug或一些部署等问题在业务上线之前就解决了,但由于某些因素,线上问题还是时而出现,影响业务生产甚至是公司效益,避免线上问题的发生以及线上问题及时处理是测试人员的一项重要职责,...
  • 遇到线上故障永远是尽快处理问题,而不是追究谁的责任,有时候快速合理的故障处理,完全可以规避掉大部分的故障危害 1.1.线上故障处理SOP a.线上故障第一要务【发布回滚】,因此针对高风险代码,一定要单独发布,...
  • 线上问题跟进总结

    2020-05-08 13:20:09
    很多时候我们能把大部分的bug或一些部署等问题在业务上线之前就解决了,但由于某些因素,线上问题还是时而出现,影响业务生产甚至是公司效益,避免线上问题的发生以及线上问题及时处理是测试人员的一项重要职责,...
  • 如何建立线上问题快速响应机制

    千次阅读 2019-05-18 11:33:04
      线上问题通常是指大规模影响生产服务的问题或事件,通俗点说就是"踩雷",线上问题处理流程也可以看成是"踩雷"、“排雷”、“填雷”、“避雷”,优先级从高到底依次排序;   线上问题处理,不仅是一项技术...
  • 在测试工程师的职责范围内,要尽可能且尽早地发现程序上的问题,找到问题,然后暴露出来给开发修复,减少线上问题的发生,降低公司因线上问题产生的风险。在发现问题之后 ,也要关注定位问题、分析问题,下面针对...
  • 线上信贷管理全流程

    千次阅读 2020-06-02 20:29:13
    文章想全面的概述下信贷全流程及行业内相对常见的实现方式。 按照资产负债表的构成,银行业务可以分为:资产业务、负债业务、中间业务三大类,我们所说的贷款即是可以为银行带来经济效益的资产业务。可以放贷的...
  • 作者|贾淑华转转作为一个互联网公司和电商运营平台,有独立的客服团队和问题反馈渠道,所以经常会收到一些用户的反馈和问题咨询,我们把这些统称为线上问题。做为一名新转转QA,不仅要关注业务支持,...
  • 线上问题定位基本流程 看日志log。 若日志中没有发现异常。 top看CPU、内存情况。 jcmd查看运行的java程序。 jstack pid > a.log 把线程情况存入a.log文件中。 vi a.log 进入文件shift + :搜索自己类的路径,...
  • 线上事故处理方法

    2019-02-28 13:47:00
    之前写的一系列文章或者小经验一直没有时间去整理放在博客上,今天整理出来,之前是写在作业部落,语法是markdown,点击链接浏览,仅供参考,希望对你有帮助。 https://www.zybuluo.com/chenhongen/note/1386439 ...
  • 快速定位java系统线上问题

    千次阅读 2018-08-31 10:37:02
    笔者依据自己的 工作经验总结出一套基本的线上问题排查流程,同学们可以根据自己的实际工作情况进行归纳总结。 二、Java 服务常见线上问题 所有 Java 服务的线上问题从系统表象来看归结起来总共有四方面:CPU、内存...
  • 下面是线上机器的cpu使用率,可以看到从4月8日开始,随着时间cpu使用率在逐步增高,最终使用率达到100%导致线上服务不可用,后面重启了机器后恢复。 二、排查思路 简单分析下可能出问题的地方,分为5个方向: ...
  • Java 线上问题排查思路与工具使用

    万次阅读 多人点赞 2018-01-10 00:00:00
    本文来自作者 蓬蒿 在 GitChat 上分享 「Java 线上问题排查思路与工具使用」,「阅读原文」查看交流实录。「文末高能」编辑 | 哈比一、前言Java 语言是当前互联网应用最为广泛的语言,作为一名 Java 程序猿,当...
  • 昨天刚好是周五,忙碌了一周本以为可以在周五好好轻松下,没成想线上的活动服务出了个问题,市场反馈最近上线的微信活动(是一个类似于测试性格的答题游戏),在游戏结束后结算的时候页面卡死。 排查 我们赶紧...
  • Java应用线上问题排查思路

    千次阅读 2020-08-09 22:16:21
    本文总结了一些Java应用线上常见问题的定位步骤,分享的主要目的是想让对线上问题接触少的同学有个预先认知,免得在遇到实际问题时手忙脚乱。毕竟作者自己也是从手忙脚乱时走过来的。 只不过这里先提示一下。在线上...
  • Bug管理规范及流程

    2018-09-03 17:12:12
    Bug管理规范及流程:整理测试流程,bug提交规范,bug属性定义

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 65,990
精华内容 26,396
关键字:

线上问题处理流程