精华内容
下载资源
问答
  • 2020-10-18 09:44:59

    腾讯云云运维TCP训练题集
    一、选择题

    1. 您在本地有3台物理服务器,由于担心物理机的安全性和可靠性,所以希望能把物理机上的业务整体上云,但是您又不太懂物理机上的业务,无法重新在云上部署,此时您应该使用以下哪项操作来完成此目标?
      A.将硬盘中的数据复制一份到腾讯云的对象存储中; 2、在云上购买CVM,将数据拉取到CVM
      B.通过P2V工具将物理机转换为虚拟机; 2、将虚拟机制作成符合规范的镜像; 3、将镜像上传至腾讯云上; 4、使用该镜像创建CVM
      C.将本地物理机中的数据存入CDM(腾讯云离线数据迁移设备)中; 2、将设备邮寄回腾讯; 3、购买CVM,将数据拷贝到CVM中
      D.将物理机邮寄到腾讯云机房; 2、联系腾讯云完成物理机上架并调试; 3、完成上云
      答案:
      解析:vx联系:26985432,扣扣群:1085480699。添加请注明CSDN TCP

    2. 以下哪项描述不属于业务运维模型的业务活动(DMOA)的范围?
      A.部署
      B.监控
      C.操作
      D.更新
      答案:
      解析:

    3. 如果您是第一次使用腾讯云的云产品API,您希望可以通过工具来进行在线调用云服务器来创CVM,应该使用以下哪项步骤?
      A.打开AP13.0 Explorer产品的控制台; 2、选择云服务器选项; 3、选择实例相关接口,输入实例参数; 4.点击在线调用按钮,点击发送请求
      B.打开API3.0 Explorer产品的控制台; 2、选择云服务器选项; 3、选择地域相关接口,输入实例参数; 4点击在线调用按钮,点击发送请求
      C.打开AP13.0 Explorer产品的控制台; 2、选择云服务器选项; 3、选择实例相关接口,输入个人密钥,输入实例参数; 4、点击在线调用按钮,点击发送请求
      D.打开AP13.0 Explorer产品的控制台; 2、选择云服务器选项; 3、输入实例参数:4、点击在线调用按钮,点击发送请求
      答案:
      解析:

    4. 您经常收到用户的投诉,抱怨打开您公司网站很慢,但是您在家测试到公司网站打开测试速度却很正常,您应该使用腾讯云的哪项产品来判断问题所在?
      A. 云监控
      B. 弹性伸缩
      C. 云拔测
      D. 自定义监控
      答案:
      解析:

    5. 您打算在腾讯云上的北京一区同时运行开发环境、测试环境、现网环境,但是又不想这些环境互相冲突,需要完全隔离,以下哪项VPC网络搭建方案是正确的?*
      A. 将这些环境放入同一个VPC,但是用网络ACL来限制通讯
      B. 将这些环境放入同一个VPC,但是用安全组来限制通讯
      C. 将三个环境放入同一个VPC,然后使用访问管理功能来限制网络访问
      D. 将这些环境放入不同的VPC
      答案:
      解析:

    6. 腾讯云中的无服务器云函数提供了众多的触发方式,以下描述中,不属于腾讯云提供的触发方式有哪项
      A. 定时触发
      B. COS触发
      C. CMQ主题订阅触发
      D. 告警触发
      答案:
      解析:

    7. 目前腾讯云已经推出了资源账单2.0功能,如果您希望得知近一年来,您在腾讯云上整体的总费用支出趋势,您应该使用以下哪项图表?
      A. 柱形图
      B. 明细图
      C. 域汇总图
      D. 饼图
      答案:
      解析:

    8. 您管理的业务系统中,当前模块有10台设备,单机负载40%,目标负载80%,业务量需要上涨到原来的3倍,以下关于扩容的设备量描述中,正确的是哪项?
      A.1台
      B.3台
      C.5台
      D.7台
      答案:
      解析:

    9. 腾讯云的费用中心里,包含一些虚拟子账号,以下关于这些虚拟子账号在扣费时的顺序问题,描述正确的扣费顺序是哪项?
      A.现金账户、平台赠送账户、收益转入账户
      B.现金账户、收益转入账户、平台赠送账户
      C.平台赠送账户、收益转入账户、现金账户
      D.现金账户、代金券、赠送账号
      答案:
      解析:

    10. 腾讯云安全整体解决方案中,不包括以下哪项安全范围?
      A.用户自有物理设备安全
      B.主机安全
      C.网络安全
      D.业务安全
      答案:
      解析:

    11. 您打算将本地的所有业务都迁移至腾讯云上运行,其中涉及到大量的业务系统和数据类型,您需要在迁移时尽量把影响降到最低,所以您打算采取平滑迁移的方式,以下关于平滑迁移的流量切换流程描述,正确的是哪项
      A.1、部署云上环境,通过专线连通腾讯云和旧机房,业务层CVM后端指向旧机房数据; 2、切换流量到腾讯云,由腾讯云对外提供服务; 3、禁用旧数据源写功能; 4、完成测余数据同步
      B.1、部署云上环境,通过专线连通腾讯云和旧机房,业务层CVM后端指向腾讯云上的环境; 2、切换流量到腾讯云,由腾讯云对外提供服务; 3、禁用旧数据源写功能;4、完成剩余数据同步
      C.1、禁用旧数据源写功能; 2、部署云上环境; 3、切换流星到腾讯云,由腾讯云对外提供服务; 4、完成剩余数据同步
      D.1、部署云上环境,通过专线连通腾讯云和旧机房,业务层CVM后端指向旧机房数据; 2、完成剩余数据同步; 3、禁用旧数据源写功能; 4、切换流量到腾讯云,由腾讯云对外提供服务
      答案:
      解析:

    12. 在企业中,您负责Linux的网站服务器运维,针对您的网站操作系统、网站应用程序( Apache)安全、以及网站的性能等监控对象,关于各监控指标抽述正确的是哪项?
      A.针对操作系统,只需要关注CPU、内存、硬盘的使用率即可
      B.网站的应用程序仅需要监控进程的状态是否处于运行中
      C.网站的安全指标是由检测木马和检测病毒两方面构成
      D.网站的性能包括:网页的性能、HTTP建立的时间、DNS响应、以及页面的响应时间
      答案:
      解析:

    13. 公有云场景下运维最大的变化就是运维通道不在内网,而是完全通过互联网直接访问公有云上的各种运维管理接口。很容易被嗅探或中间人劫持攻击,造成运维管理账号泄露,您应该怎样用低成本的方式解决此类运维风险?
      A.将业务放入到不同的VPC中,即使有风险,损失也会小很多
      B.使用专线连接云端,来保证运维的安全
      C.将业务放入到不同的子网中,并同时配置合适的安全组和网络ACL
      D.在夜间进行运维,可减少网络攻击和嗅探
      答案:
      解析:

    14. 您打算把本地的业务系统以微服务的方式拆分成模块在腾讯云上线,业务高峰期时,模块必须可以在秒级别的时间内完成扩展,您应该使用腾讯云上哪款中间件产品
      A.容器服务
      B.无服务器云函数
      C.API网关
      D.消息队列
      答案:
      解析:

    15. 随着时间的推移,您发现CVM的带宽利用率总是处于95%的占用率,为了容纳更多的用户访问,您应该做以下哪项操作?
      A.点击服务器右侧的"更多妆钮,选择网络配置,将网络调整为更高一级的档位
      B.点击服务器右侧的“更多”安钮,选择调整配置
      C.使用IP直通车服务
      D.使用负载均衡产品
      答案:
      解析:

    16. 您打算在腾讯云的上海构建一个高可用的网站,需要实现上海一区发生故障,二区还能继续对外提供服务,那么以下哪种子网划分方案是最优的?"
      A.在上海一区和上海二区各创建一个VPC,在两个VPC中创建同一个子网用于服务
      B.上海一区和上海二区共用同一个VPC,在VPC中建立分别两个子网分别绑定两个可用区用于服务器C.在上海一区和二区分别创建一个VPC,并在每个VPC中分别创建一个子网用于服务器
      D.在上海的两个可用区默认无法通信,必须在不同的可用区分别创建一个VPC,使用对等连接打通每个可用区的子网
      答案:
      解析:

    17. 以下关于TSF中集群、命令空间、部署组、应用的关系描述中,错误的有哪项?
      A.集群中包括命名空间,命名空间中包括部署组,部署组包括应用
      B.如果不同的集群关联相同的命名空间,还可以实现跨集群的服务访问
      C.集群、命名空间、部署组、应用之间没有任何关系
      D.集群中包括且只能包括一个命名空间,命名空间中包括部署组,部署组包括应用
      答案:
      解析:

    18. 针对您30台Linux服务器的集群,上云后变成大量CVM,会加剧您的运维压力,您可以使用以下哪款工具来提升您的运维效率?
      A.SCO
      B.Ansible
      C.CDN
      D.TBDS
      答案:
      解析:

    19. 小王在2018.5.17购买了3个月的云服务器,假设月单价为30元,共花费90元,下列关于此次云服务器的消耗明细和收支明细的描述中,正确的是哪项?*
      A.在5月当月的收支明细中,云服务A有一笔30元的机费记录
      B.在5月当月的消耗明细中,云服务A有一笔30元的扣费记录
      C.在5月当月的收支明细中,云服务器有一笔90元的扣费记录;在消耗明细中,云服务器的消耗金额为:日单价x5月使用天数=30/30x15=15元
      D.在6月当月的收支明细中,云服务器有一笔90元的扣费记录;在消耗明细中,云服务器的消耗金额为:日单价x5月使用天数=30/30x15—15元
      答案:
      解析:

    20. 如果您打算 在腾讯云上使用容器服务, 那么以下哪些操作步骤是正确的?
      A.1,购买CVM, 2、创建集群, 3、添加节点, 4、创建服务
      B.1,购买专用宿主机, 2、创建集群, 3、添加节点, 4、创建服务O
      C.1、购买CVM, 2、创建集群, 3、配置消息队列, 4、创建服务
      D.1、购买CVM, 2、创建集群, 3、添加节点, 4、在CVM中部署业务
      答案:
      解析:

    21. 您计划在腾讯云上部署 台CVM用于开展一年一次的活动,本次活动预计会持续10—13天左右,此CVM应该采用以下哪项计费方式会比较划算?*
      A. 竞价实例的计费方式O
      B. 按量计费 O
      C. 包年包月
      D. 按周计费
      E. 答案:
      F. 解析:

    22. 假设您所使用的腾讯云CDN按照流量阶梯累进计费, CDN流量阶梯为:0-2TB的价格为0.34元每GB,2-10TB的价格为0.32元每GB,您当月消耗了3TB,那么下列关于您应付账单的金额描述中,正确的有哪项?
      A.1000元
      B.1024元
      C.2048元
      D.协商约定
      答案:
      解析:

    23. 当前您所管理的企业IT环境涉及200个业务系统,有的业务系统是企业自主开发,有的业务系统是商业产品,现在您决定对这些业务系统进行整体监控,下列描述中不属于业务系统监控合理需求的是哪项?
      A.自动接入各种业务系统
      B.分时段告警功能,夜间的故障集中在上班时间推送告警
      C.自定义恰当的告警策略,防止告警过多
      D.多维度、多层级、立体化进行监控
      答案:
      解析:

    24. 目前您的监控系统显示外网带宽被占满了,网站服务器的CPU、内存资源也已经耗尽,您判断可能是遭受到了DDOS攻击,腾讯云上提供了多款网络安全产品,以下哪项不属于腾讯云网络安全产品? A.DDOS基础防护
      B.DDOS高防包
      C. DDOS高防IP
      D.网页防篡改功能
      答案:
      解析:

    25. 您在腾讯云无服务器云函数控制台中,新建了一个云函数并且书写了正确的代码,您希望在投入生产环境之前确保函数功能正常,您应该点击以下哪项按钮?
      A.测试
      B.运行
      C.沙箱
      D.日志
      答案:
      解析:

    26. 以下关于蓝鲸的APP开发流程描述正确的是哪项?
      A.1、创建本地项目文件夹; 2、拷贝项目模板到项目文件夹; 3、通过SVN客户端签入项目; 4、本地项目开发;5、完成测试;6、应用上线
      B.1、创建本地项目文件夹; 2、通过SVN客户端签入项目; 3、本地项目开发; 4、完成测试; 5、应用上
      C.1、创建本地项目文件夹; 2、本地项目开发; 3、通过SVN客户端签入项目; 4、拷贝项目模板到项目文件夹;5、完成测试;6、应用上线
      D.1、创建本地项目文件夹;2、本地项目开发; 3、完成测试; 4、拷贝项目模板到项目文件夹; 5、通过SVN客户端签入项目;6、应用上线
      答案:
      解析:

    27. 您在腾讯云上部署了一个基于微服务的电商网站,分成了20个子业务,50个容器组,您希望使用API网关来实现API的统一管理,以下关于API网关的创建和配置流程的描述中,正确的是哪项?
      A.1、创建服务, 2、新建API, 3、配置前端, 4、配置后端
      B.1、新建API, 2、创建服务, 3、配置前端, 4、配置后端
      C.1、配置前端, 2、配置后端, 3、创建服务, 4、新建API
      D.1、创建服务, 2、配置前端, 3、新建API, 4、配置后端
      答案:
      解析:

    28. 您在腾讯云中运行了一个网站,前端使用CVM运行网站内容,后端使用云数据库MySQL来提供结构化数据存取,服务器和数据库位于同一个子网中,以下哪项安全组的配置是错误的?
      A.安全组开通了TCP80端口
      B.安全组开通了TCP443端口
      C.安全组开通了TCP的80和443两个端口
      D.安全组开通了TCP的80,443和3306三个端口
      答案:
      解析:

    29. 您需要将本地的ERP系统迁移至腾讯云上,核心数据库放在本地机房,您第一步需要在云上完成网络规划,以下关于网络迁移的步骤,正确的顺序是哪项?
      A.1、 VPC网络搭建; 2、规划互联网访问; 3、混合云网络搭建; 4、云上网络互通
      B.1、规划互联网访问; 2、VPC网络搭建; 3、混合云网络搭建; 4、云上网络互通
      C.1、混合云网络搭建; 2、规划互联网访问; 3、VPC网络搭建;4、云上网络互通O
      D.1、VPC网络搭建; 2、云上网络互通; 3、混合云网络搭建; 4、规划互联网访问
      答案:
      解析:

    30. 在海量数据需要进行监控时,需要一定的数据分析技巧才可以得心应手,那么以下哪些描述属于海量监控数据分析的技巧?
      A. 把指标划分成两大类:低层次指标和高层次指标
      B. 把指标划分成两大类:粗层次指标和细层次指标
      C.遇到问题时,追根溯源,找到问题的根因是什么,从根本上处理问题
      D.在监控中,加入舆情监控维度
      答案:
      解析:

    31. 以下属于腾讯微服务平台TSF所适用的应用场景有哪些项?*
      A.构建分布式服务系统
      B.应用发布和管理
      C.数据化运营
      D.提升业务的合规性,例如符合金融的监管要求等
      答案:
      解析:

    32. 目前您在腾讯云上管理了一个非常大的服务器集群,其中涉及到数据库、负载均衡、服务器、CDN等产品,以下关于使用云监控可以为您带来的功能及优势的描述中,正确的有哪些项?
      A.云监控提供自动、准确且几乎实时地采集基础监控指标的功能,在数据异常时,可以第一时间告警给管理员
      B.云监控可以通过邮件、短信、站内信、QQ、微信等多种渠道将告警发送给管理员
      C.管理员可以创建各种视图用于判断业务情况
      D.云监控可以对公网的质量进行监控,提供了优化服务质量的功能
      答案:
      解析:

    33. 腾讯云上的弹性伸缩产品的伸缩组在以下哪些情况下会失效?
      A.账户余额不足
      B.资源售馨
      C.CVM配额不足
      D.CLB被删除
      答案:
      解析:

    34. 您在腾讯云上购买了一个域名、一台CVM,做了一个纯静态的网站,当您将域名解析到CVM的外网IP之后,发现无法正常通过域名打开网站,可能是以下哪些原因?
      A.服务没有启动,及时启动服务
      B.域名没有实名认证,尽快完成实名认证
      C.域名没有备案,尽快完成备案
      D.网络付费模式不是包年包月,尽快调整为包年包月
      答案:
      解析:

    35. 您在腾讯云服务器上的网站无法被外网用户所访问到,您应该在腾讯云上做以下哪些检查?"
      A.检查网站服务是否启动
      B.检查安全组和网络ACL是否放行
      C.检查CPU和内存利用率是否过高
      D.检查网络带宽利用率是否过限额
      答案:
      解析:

    36. 在腾讯云上您可以设计VPC网络用于您的业务,以下关于VPC的设计原则描述中,正确的有哪些项?
      A.安全
      B.灵活
      C.可控
      D.开放
      答案:
      解析:

    37. 您在完成本地业务迁移至腾讯云上的步骤后,需要尽快完成各项服务验证内容,迁移结束后您应该完成以下哪些服务内容的验证
      A.系统验证:验证系统下各模块服务都已正常启动,且处于自动启动状态
      B.业务验证:验证整个业务逻辑正常,所有业务的功能模块实际使用正常
      C.流量验证:验证用户访问流量和数据读写流量都已正常的切换到腾讯云
      D.性能验证:验证在大量用户并发访问的实际情况下,所有服务正常,业务访问性能正常
      答案:
      解析:

    38. 您经常会发现已上线的APP存在例如隐私泄露、业务逻辑缺陷等高危或者低危漏洞,您可以使用
      以下哪款产品来实现在APP上线之前就可以解决此类漏洞?
      A.T-Sec移动应用安全
      B.T-Sec天御业务安全
      C.T-Sec主机安全
      D.T-Sec秘钥管理系统
      答案:
      解析:

    39. 腾讯云上提供了各式各样的安全产品来全方位保护用户安全,以下哪些项属于腾讯云业务安全防护能力?
      A. 羊毛党攻击防护
      B. 病毒木马攻击防护
      C. APP漏洞攻击防护
      D. 金融欺诈攻击防护
      E. 答案:
      F. 解析:

    40. 适合使用API网关的应用场景的选项有哪些项?
      A.微服务开发
      B.Serverless 开发
      C.传统应用的API暴露
      D.自动化运维
      答案:
      解析:

    41. 制作特定的asp, php, jsp, asa, cgi等网页文件,且网页中包括命令执行环境,与网站服务器WEB日录下正常的网页文件混在一起,使用浏览器远程来访问这些后门,得到命令执行环境,实现对网站或者WEB系统服务器的控制,或者利用密码字典的方式不断的尝试登录服务器,直到成功登录并实现对网站服务器的控制,这两种攻击手段的描述符合以下哪些项的特征*
      A.木马攻击
      B.密码破解攻击
      C.系统漏洞
      D.跨站攻击
      答案:
      解析:

    42. 在腾讯云中,监控数据的报表可以通过多种途径获得,下列途径中,属于获取数据报表方式的有哪些项?
      A.通过云产品控制台获取数据报表
      B.通过云监控控制台获取
      C.通过AP获取
      D.通过资源账单获得
      答案:
      解析:

    43. 当您需要用云API来查询实例机型列表时,以下哪些参数是您所必须提供的?
      A.API版本
      B.可用区名称
      C.机型系列
      D.主机名
      答案:
      解析:

    44. 在云上运维,我们推荐使用网络访问控制手段来保障运维和业务的安全,我们可以把业务分为以下哪些分类来制定网络访问控制规则?
      A.互联网应用组
      B.运维管理组
      C.内网应用组
      D.服务器组
      答案:
      解析:

    45. 在腾讯云上运维业务系统时,可以通过以下哪些项来合理的做到成本控制?
      A.按实际需要的量购买
      B.优化备份和快照策略,及时删除不需要的旧备份
      C.分析本地硬件和云产品的差别,合理进行产品选型
      D尽量使用本地硬件资源,减少采购云产品
      答案:
      解析:

    46. 目前您企业在腾讯云上的年消耗已经达到100万/年,业务系统非常的多,云服务器200台,负载均衡40个,域名30个并全部接入了CDN, MySQL数据库30套, Redis数据库20套,对象存储存储桶若干,数据量每年都要增长30TB,运维团队每天压力很大,成立了一个20人小团队,专门忙于处理各项业务系统的告警信息,但是依旧表示人手不够,运维团队总是忙于处理系统发生事故之后的“抢救”事件,平时也没有很好的监控手段,目前急需全面的业务监控手段,将人员从“救火的状态解救出来。由于涉及了大量的云产品和服务,您打算在腾讯云上启动云产品和业务的监控项目,需要对哪些对象进行监控?
      A. 云服务器
      B. 负载均衡
      C. MySQL
      D. Redis
      E. 答案:
      F. 解析:

    47. 目前您企业在腾讯云上的年消耗已经达到100万/年,业务系统非常的多,云服务器200台,负载均衡40个,域名30个并全部接入了CDN, MySQL数据库30套, Redis数据库20套,对象存储存储桶若干,数据量每年都要增长30TB,运维团队每天压力很大,成立了一个20人小团队,专门忙于处理各项业务系统的告警信息,但是依旧表示人手不够,运维团队总是忙于处理系统发生事故之后的“抢救”事件,平时也没有很好的监控手段,目前急需全面的业务监控手段,将人员从“救火的状态解救出来。由于云服务器的重要性,您需要多台服务器的CPU利用率以近乎于实时的动态图表进行集中展示,以便于及时了解服务器的运行情况,您应该使用以下哪种展示方式?*
      A.使用云监控中的Dashboard
      B.使用云拔测的站点拨测
      C.使用具体产品上的监控按钮
      D.只能自己开发报表进行实现
      答案:
      解析:

    48. 目前您企业在腾讯云上的年消耗已经达到100万/年,业务系统非常的多,云服务器200台,负载均衡40个,域名30个并全部接入了CDN, MySQL数据库30套, Redis数据库20套,对象存储存储桶若干,数据量每年都要增长30TB,运维团队每天压力很大,成立了一个20人小团队,专门忙于处理各项业务系统的告警信息,但是依旧表示人手不够,运维团队总是忙于处理系统发生事故之后的“抢救”事件,平时也没有很好的监控手段,目前急需全面的业务监控手段,将人员从"救火的状态解救出来。目前急需对云服务器中Apache服务的运行状态进行集中监控,如果服务停止就立刻报警,那么应该使用什么样的产品,可以将所有服务器上的服务信息自动集中起来以便于分析?
      A.日志服务
      B.对象存储
      C.文件存储
      D.调用链跟踪
      答案:
      解析:

    49. 您在本地机房中有大量的业务,您每天的工作安排的都非常满,但是还是无法全面照顾到所有方面,运维压力特别大,您计划把本地机房中所有的业务都迁移到腾讯云上,以减轻运维压力,预计在腾讯云上会维护大量的产品,其中包括30台的Centos linux集群,负载均衡, MysQL等,并且在迁移到云上之后,需要尽快开发3个APP对外提供服务。以下关于蓝鲸APP开发与传统APP开发模式的区别描述中,错误的是哪项?
      A.您使用蓝鲸平台的开发过程中,默认使用python进行开发,相对于其它开发语言, python比较简单,而且广泛应用于运维相关的开发
      B.基于蓝鲸开发APP,主要是开发一些运维工具,轻应用。程序较小,难度也比较小
      C.基于蓝鲸,我们不用从零开始,而主要把精力聚焦在应用的业务开发,大大降低了开发的难度,提高效率
      D.传统开发模式由于所有资源都由自身提供,所以可靠性和稳定性会更好
      答案:
      解析:vx联系:26985432,扣扣群:1085480699。添加请注明CSDN TCP

    50. 您在本地机房中有大量的业务,您每天的工作安排的都非常满,但是还是无法全面照顾到所有方面,运维压力特别大,您计划把本地机房中所有的业务都迁移到腾讯云上,以减轻运维压力,预计在腾讯云上会维护大量的产品,其中包括30台的Centos linux集群,负载均衡, MysQL等,并且在迁移到云上之后,需要尽快开发3个APP对外提供服务。您本地机房在云上部署,需要购买大量云资源,通过Web控制台购买会有大量重复的操作,并且不同的产品购买和配置需要耗时很久,不便于自动化和重用,您可以用以下哪种方式进行购买和配置资源来提升效率和自动化能力?
      A.云API
      B.申请工单人员完成购买和配置
      C.Ansible
      D.SDK
      答案:
      解析:

    51. 您在本地机房中有大量的业务,您每大的工作安排的都非常满,但是还是九法全面照顾到所有万面,运维压力特别大,您计划把本地机房中所有的业务都迁移到腾讯云上,以减轻运维压力,预计在腾讯云上会维护大量的产品,其中包括30台的Centos linux集群,负载均衡, MysQL等,并且在迁移到云上之后,需要尽快开发3个APP对外提供服务。您在云上部署业务之后,希望可以借助平台能力来实现自动化运维,目前您发现腾讯云上有一个产品"蓝鲸比较适合您,您可以在以下哪些场景下来使用蓝鲸实现自动化管理
      A.持续集成
      B.持续部署
      C.在业务系统遇到故障时,自动识别故障并恢复
      D.大量脚本需要在服务器组上执行的复杂运维场景
      答案:
      解析:

    52. 您在本地机房中有大量的业务,您每天的工作安排的都非常满,但是还是无法全面照顾到所有方面,运维压力特别大,您计划把本地机房中所有的业务都迁移到腾讯云上,以减轻运维压力,预计在腾讯云上会维护大量的产品,其中包括30台的Centos linux集群,负载均衡, MysQL等,并且在迁移到云上之后,需要尽快开发3个APP对外提供服务。
      腾讯云上可以通过蓝鲸来完成您的3款APP开发,基于蓝鲸开发APP具备以下哪项优势?
      A.用户只需要完成所有代码开发,无需关注后端服务器组件的运行情况
      B.用户只需使用平台支持的语言编写核心代码并设置代码运行的条件,即可在腾讯云基础设施上弹性、安全地运行代码,无需购买服务器,节约成本
      C.蓝鲸平台提供了完善的前后台开发框架、服务总线(ESB)、调度引擎、公共组件等模块,帮助用户快速低成本、兔运维地构建支撑工具和运营系统
      D.蓝鲸平台提供了各式各样的SDK,用户无需写代码就可以根据SDK快速创建APP
      答案:
      解析:

    53. 您计划把本地机房中的电商业务以微服务的方式部署在腾讯云上,并提供统一的访问入口,在高并发高流量时业务要具备良好的扩展性和压力承载能力,不能由于压力高导致消息丢失,业务的可用性和可靠性要达到非常高的水平,不允许由于某个可用区故障导致业务中断,在业务出现故障时,要能及时的判断故障原因以便于及时恢复业务上线
      腾讯云上的微服务解决方案包含很多产品,其中SCF属于腾讯云微服务方案中的哪项分类?
      A.微服务
      B.微计算
      C.微积分
      D.机器学习
      答案:
      解析:

    54. 您计划把本地机房中的电商业务以微服务的方式部署在腾讯云上,并提供统一的访问入口,在高并发高流量时业务要具备良好的扩展性和压力承载能力,不能由于压力高导致消息丢失,业务的可用性和可靠性要达到非常高的水平,不允许由于某个可用区故障导致业务中断,在业务出现故障时,要能及时的判断故障原因以便于及时恢复业务上线
      在实现电商业务过程中,必然要面临着单体架构演进为模块化设计,面对众多模块,我们通过以下哪些项来实现高峰期时模块的扩展性以及通过哪项配置实现统一的访问入口
      A.通过容器集群的弹性伸缩来保障模块的扩展性
      B.通过SCF来保障模块的扩展性
      C.通过NAT网关来提供统一的访问入口
      D.通过负载均衡来提供统一的访问入口
      答案:
      解析:

    55. 您计划把本地机房中的电商业务以微服务的方式部署在腾讯云上,并提供统一的访问入口,在高并发高流量时业务要具备良好的扩展性和压力承载能力,不能由于压力高导致消息丢失,业务的可用性和可靠性要达到非常高的水平,不允许由于某个可用区故障导致业务中断,在业务出现故障时,要能及时的判断故障原因以便于及时恢复业务上线
      TKE容器服务用户可以直接在控制台,通过配置日志收集规则进行集群内日志的收集,并将收集到的日志发送至日志服务CLS的指定日志主题。基于日志收集功能,使用日志服务平台可进行集群服务日志的实时检索、消费、投递等功能。请问TKE容器服务支持以下哪几种日志采集类型?
      A.采集容器标准输出日志
      B.采集容器内文件日志
      C.采集主机内文件日志
      D.采集云服务器日志
      答案:
      解析:

    56. 您计划把本地机房中的电商业务以微服务的方式部署在腾讯云上,并提供统一的访问入口,在高并发高流量时业务要具备良好的扩展性和压力承载能力,不能由于压力高导致消息丢失,业务的可用性和可靠性要达到非常高的水平,不允许由于某个可用区故障导致业务中断,在业务出现故障时,要能及时的判断故障原因以便于及时恢复业务上线
      如何避免某个可用区故障导致业务发生中断?
      A.将多个可用区的CVM添加到容器集群中
      B.将多个地域的CVM添加到容器集群中
      C.使用高版本的Kubernetes可以避免此故障
      D.使用云监控进行监控,一旦业务中断,立即执行访问入口切换到本地机房的操作
      答案:
      解析:

    57. 您是第一次使用腾讯云,在腾讯云上部署了一个小型的电商类网站,经过您的测算,一般的业务平峰期只需要20台机器,高峰期需要增加25台,为了更好的提供用户体验,您在腾讯云上直接购买了30台包年包月机器用于确保在高峰期一定可以流畅的访问,为了更好的知道每个月的费用消耗情况,您在月底时都会开工单询问本月的消耗以及询问消费的趋势和明细,随着时间的推移,您感觉费用居高不下,急需要解决此问题。
      此案例中,存在的问题有哪些?
      A.过度配置
      B.供应商选择不合理
      C.计费模式选择不合理
      D.未能主动掌握费用及消耗情况
      答案:
      解析:

    58. 您是第一次使用腾讯云,在腾讯云上部署了一个小型的电商类网站,经过您的测算,一般的业务平峰期只需要20台机器,高峰期需要增加25台,为了更好的提供用户体验,您在腾讯云上直接购买了30台包年包月机器用于确保在高峰期一定可以流畅的访问,为了更好的知道每个月的费用消耗情况,您在月底时都会开工单询问本月的消耗以及询问消费的趋势和明细,随着时间的推移,您感觉费用居高不下,急需要解决此问题。
      您可以通过以下哪个选项来得知您每个月的资源消耗金额明细?
      A.订单管理
      B.资源账单
      C.发票管理
      D.合同管理
      答案:
      解析:

    59. 您是第一次使用腾讯云,在腾讯云上部署了一个小型的电商类网站,经过您的测算,一般的业务平峰期只需要20台机器,高峰期需要增加25台,为了更好的提供用户体验,您在腾讯云上直接购买了30台包年包月机器用于确保在高峰期一定可以流畅的访问,为了更好的知道每个月的费用消耗情况,您在月底时都会开工单询问本月的消耗以及询问消费的趋势和明细,随着时间的推移,您感觉费用居高不下,急需要解决此问题。
      针对此案例中的错误部分,特做出以下的整改措施,以下哪项整改措施是错误的?
      A.高峰期用弹性伸缩产品来应对临时突发流量
      B.将CVM的计费模式分为包年包月和按量计费两种模式,高峰期的CVM用包年包月,平稳期的用按量计费
      C.充分了解各项明细的查询方法
      D.减少过度配置
      答案:
      解析:

    60. 您在本地机房中的业务有: 80台MySQL数据库服务器, 20台Redis数据库服务器500台虚拟机,10套硬件负载均衡, 10TB非结构化数据,本地运维压力日益上升,经过几轮选型,您打算把本地的业务全部迁移至腾讯云上,来减轻基础架构的运维任务。
      针对迁移需求,在迁移之前,您需要先对已有业务架构和逻辑先完成梳理,然后来决定是全量迁移还是平滑迁移,以免造成不良影响和拖慢迁移进程,以下关于在迁移方式的问题上,影响选择迁移方式的因素,不包括哪项?
      A.系统因素:系统的架构特点,业务流量特点,数据特点,网络特点等
      B技术因素:技术团队能力,研发资源投入规模,腾讯云产品的性能、功能满足程度
      C.业务因素:关键业务与非关键业务,关键业务中断成本,业务部门人力投入规模
      D.规则因素:要求迁移完成后,在云上业务试运行期间,不能有故障出现
      答案:
      解析:

    61. 您在本地机房中的业务有: 80台MySQL数据库服务器, 20台Redis数据库服务器500台虚拟机,10套硬件负载均衡, 10TB非结构化数据,本地运维压力日益上升,经过几轮选型,您打算把本地的业务全部迁移至腾讯云上,来减轻基础架构的运维任务。
      针对迁移需求,在迁移之前,您需要先对已有业务架构和逻辑先完成梳理,然后来决定是全量迁移还是平滑迁移,以免造成不良影响和拖慢迁移进程,以下关于在迁移方式的问题上,影响选择迁移方式的因素,不包括哪项?*
      A.系统因素:系统的架构特点,业务流量特点,数据特点,网络特点等
      B.技术因素:技术团队能力,研发资源投入规模,腾讯云产品的性能、功能满足程度
      C.业务因素:关键业务与非关键业务,关键业务中断成本,业务部门人力投入规模
      D.规则因素:要求迁移完成后,在云上业务试运行期间,不能有故障出现
      答案:
      解析:

    62. 您在本地机房中的业务有: 80台MySQL数据库服务器, 20台Redis数据库服务器500台虚拟机,10套硬件负载均衡, 10TB非结构化数据,本地运维压力日益上升,经过几轮选型,您打算把本地的业务全部迁移至腾讯云上,来减轻基础架构的运维任务。
      针对您业务中的一些独立存在的业务模块,可以采取全量迁移的方式上云,以下关于全量迁移的缺点描述中,错误的有哪项?
      A.需要停服
      B.回滚问题多
      C.停服时间不确定
      D.对业务系统要求低
      答案:
      解析:

    63. 您在本地机房中的业务有: 80台MySQL数据库服务器, 20台Redis数据库服务器500台虚拟机,10套硬件负载均衡, 10TB非结构化数据,本地运维压力日益上升,经过几轮选型,您打算把本地的业务全部迁移至腾讯云上,来减轻基础架构的运维任务。
      针对您企业中较为复杂的大型业务,您可以采用平滑迁移的方式进行大规模迁移,以下关于平滑迁移的优点描述中,错误的有哪项?
      A. 对业务影响小
      B. 持续时间较短
      C.迁移粒度把控较全量迁移更细
      D.迁移过程灵活
      答案:
      解析:

    64. 您在本地机房中的业务有: 80台MySQL数据库服务器, 20台Redis数据库服务器500台虚拟机,10套硬件负载均衡, 10TB非结构化数据,本地运维压力日益上升,经过几轮选型,您打算把本地的业务全部迁移至腾讯云上,来减轻基础架构的运维任务。
      经过慎重考虑,您企业中业务逻辑较为复杂的业务,您还是打算使用平滑迁移的方式进行迁移,以下关于平滑迁移的具体关键性步骤的描述中,正确的有哪些项?
      A.资源环境部署:在云上申请需要的资源,本地完成系统调整和代码改造,根据云的特性对应用系统架构做调整
      B.环境测试和验证,验证完毕后,配置新机房DB的配置,开始数据同步并校验
      C.大量数据同步结束后,完成业务流并禁用本地数据源写入
      D.完成以上步骤则可完成业务平滑迁移
      答案:
      解析:

    65. 您是第一次使用腾讯云,在腾讯云上部署了一个小型的电商类网站,经过您的测算,一般的业务平峰期只需要20台机器,高峰期需要增加25台,为了更好的提供用户体验,您在腾讯云上直接购买了30台包年包月机器用于确保在高峰期一定可以流畅的访问,为了更好的知道每个月的费用消耗情况,您在月底时都会开工单询问本月的消耗以及询问消费的趋势和明细,随着时间的推移,您感觉费用居高不下,急需要解决此问题。
      在此案例中,您应该使用以下哪项计费模式来用于您平峰时的CVM?
      A.竞价实例的计费方式
      B.按量计费
      C.包年包月
      D.按周计费
      答案:
      解析:vx联系:26985432,扣扣群:1085480699。添加请注明CSDN TCP

    更多相关内容
  • 阿里云运维架构实践秘籍

    万次阅读 2021-12-07 10:31:47
    中国互联网发展编年史、 运维、 ...、缓存、 Session管理六种策略、分库分表、迁移步骤、监控方案、运维的发展阶段、传统运维痛点、云服务供应商排行、黑客常见入侵步骤、架构阶段、云端运维安全、黑客常见系统层攻击

    ISBN: 978-7-111-64969-4
    作者:乔锐杰
    页数:343页
    阅读时间:2021-06-19
    推荐指数:★★★★★

    不愧是”乔帮主“的”降龙十八掌”,
    章章都打出了深厚的功力,
    是每一位开发和运维人员都要了解的运维知识,
    强烈推荐。

    阿里云运维架构实践秘籍

    1. 中国互联网发展编年史

    1994年4月20日中国实现了与国际互联网的全功能连接,
    但是直到1998年我国门户网站才兴起。

    互联网公司创立年份
    网易1997年6月
    搜狐1998年
    京东1998年6月18日
    腾讯1998年11月
    新浪1998年12月
    阿里1999年
    盛大1999年11月
    百度2000年
    抖音2016年 9月20日

    中国云服务发展编年史:

    名称创立年份
    阿里云2009年
    盛大云2011年
    天翼云2012年
    腾讯云2013年
    华为云2013年
    百度云2015年

    2. 运维

    运维的发展阶段

    1. 人工阶段
    2. 脚本和工具阶段
    3. 平台化阶段
    4. 智能化阶段

    传统运维痛点

    1. 有一定技术门槛
    2. 7*24小时响应中心
    3. 成本

    云服务供应商排行:

    参考链接:https://blog.csdn.net/diandi7/article/details/85262052

    在这里插入图片描述

    常见名词解释

    服务英文中文
    ECSElastic Compute Service云服务器
    RDSRelational Database Service关系型数据库
    SLBServer Load Balancer负载均衡
    OSSObject Storage Service对象存储服务
    VPCVirtual Private Cloud专有网络

    80%的企业会选择云产品,20%的企业会考虑自行搭建对应服务。
    一般单台Tomcat的极限并发在1000左右。
    8核16G服务器使用Tomcat会造成浪费。
    5Mbps的带宽指的是出口带宽,入口带宽不受限制。
    入网选型:SLB网络、公网IP、弹性EIP、DNAT
    出网选型:公网IP、弹性EIP、SNAT、公网IP类、SNAT类。
    Nginx是七层及四层优秀的负载均衡。
    8核32G Apache做Tomcat负载均衡,极限抗并发3000~5000
    如果一条记录频繁访问,就应该放到缓存,临界点是5分钟

    服务配置(CPU和内存)说明
    数据库1:4偏向内存型
    Tomcat1:24核8G最完美

    实例分为共享型和独享型。
    在SLB中加入新的服务器,可以无感知扩展。
    CDN只做静态缓存加速,对动态请求是没办法加速的。

    DevOps发展阶段

    1.人工阶段
    2.脚本和工具阶段
    3.平台化阶段
    4.智能化阶段

    K8S的DevOps流程
    Rancher

    3. 不同云盘单路随机写访问响应时间对比

    云盘名称响应时间
    ESSD云盘0.1~0.2ms
    SSD云盘0.5~2ms
    高效云盘1~3ms
    普通云盘5~10ms

    4. 常见数据库性能对比

    OracleMySQLRedis(KV)MongoDB(文档)HBase(列存储)
    单表极限1亿~10亿1亿无限制10亿~海量10亿~海量
    QPS2万~5万1万~3万10万~高并发1万~高并发1万~高并发

    MySQL 单表最大行数控制在500W以下,否则需要分库分表。

    5. 常见衡量业务量级别指标

    指标周期含义
    PV按天Page View。一天内页面的访问次数,每打开或刷新一次页面,就算一次PV。
    UV按天Unique Visitor。一天内访问网站的用户数(Cookie为依据)
    IP按天一天内多少个独立的IP浏览了页面。
    用户数注册用户数
    活跃用户数按天注册用户数一天中实际使用了业务系统的用户数,同UV
    在线用户数按天一天活跃用户数中,在一定时间段内在线数量。
    并发用户数在线用户基础上,同一时刻向服务器发送请求的用户数。

    6. 如何根据PV估算服务器数量?

    一个500万PV的网站,大概需要多少台服务器?

    一天中的80%业务请求量主要发生在40%的时间内。
    24小时的40%是9.6小时。
    每秒处理请求数量:(80% * 总PV)/(24小时60分钟60秒*40%)
    得:100万PV=23.1个请求/秒
    500万PV=115.7个请求/秒
    一天的高峰期是平时的2~3倍:
    100万PCV高峰期约为46.2和69.3个请求/秒
    500万PCV高峰期约为231.4和347.1个请求/秒

    7. 不同业务特性计算模型

    业务分类特性计算模型
    下载类内容下载,PV和IP差别不是很大PV=IP量/活跃用户数 * (2~5倍)
    音视频内容查看,停留某个页面比较长;PV和IP差距大PV=IP量/活跃用户数 * (5~10倍)
    电商论坛资讯内容筛选,浏览为主,不同页面浏览可能性大。PV和IP差距大PV=IP量/活跃用户数 * (10~30倍)

    1000人同时使用系统时:

    占比业务操作
    40%浏览系统内容停留在某个页面查看,不会对服务端产生负担。
    20%填写负责表格只是填写表单,没有提交。
    20%挂机什么也没做,也不会对服务器造成压力。
    20%操作点击、跳转、提交、产生压力。

    活跃用户数 = 用户数 * 业务因子(10%~30%)
    在线用户数 = 活跃用户数 * 业务因子(10%~30%)
    并发用户数≈每秒请求数 = 在线用户数 * 业务因子(10%~30%)

    8. PV量和服务器配置/RDS配置对应表

    PV(万)服务器配置RDS配置
    11核/1G/1台
    102核/4G/1台1核/1G/1台
    504核/8G/1台2核/4G/1台
    1008核/16G/1台4核/8G/1台
    5008核/16G/10台8核/16G/1台
    10008核/16G/20台16核/64G/1台

    9. 服务器CPU/内存配置模型

    互联网企业的服务器CPU利用率平均在10%-20%,磁盘利用率20-30%,有80%的企业都存在闲置资源浪费情况。

    比例最佳实践参考
    1:1个人网站、官网、小型网站1核1G、2核2G
    1:2消耗高资源计算,游戏类、高并发、电商、秒杀活动等最多的当属8核16G
    1:2Tomcat、Nginx、Squid2核4G
    1:2中小型Web服务、应用类、Tomcat中低配、Nginx、Apache、Squid、Python、Node4核8G
    1:2大型Web服务、应用类、Apache、Python、Node8核16G
    1:4数据库(先IO后内存)8核32G经典配置
    1:8内存型应用:Redis、Memcache等2核16G、4核32G、8核64G
    1:8Redis单进程单线程模式2核8G、2核16G

    10. 云盘空间选择

    容量类型
    系统盘(40G)没有文件存储、系统日常基础日志
    100~300G部署代码应用
    500G及以上数据库类应用、Binlog、数据文件、备份等。一般采用SSD云盘

    1.云盘中不建议进行分区
    2.云盘中不建议使用LVM
    3.云盘的系统盘不建议做数据存储
    4.云盘最好不要依赖ECS
    5.云盘最好挂载/etc/fstab中

    11. 宽带的选择

    如果需求只是入口流量一般采用SLB,带宽性能、架构扩展、安全性都比公网宽带好。
    如果是出口流量需要配置公网宽带。
    80%的宽带会被静态资源传输占用。
    远程管理服务器可采用2Mbps按量带宽即可。
    宽带配置 = 每秒请求数量*每次请求传输数据量(假设为20KB/s)

    PV平时访问带宽2倍带宽3倍带宽
    100万23.1*20=462KB/s=3696bps/s=3.5Mbps7Mbps11Mbps
    500万115.7*20=2314KB/s=18512bps/s=18.5Mbps37Mbps55Mbps

    1核1G 5Mbps费用是161.8元/月,
    1核1G 0Mbps费用是36.8元/月。
    每月5Mbps固定宽带费:161.8-36.8 = 125元/月;
    每月5Mbps固定宽带费每天费用:125/30 = 4.2元/天
    每月5Mbps固定宽带每天的可用流量:4.2/(0.8元每G流量) = 5.25G
    如上所述,每月5Mbps固定宽,每天需要5.25G以上的流量才能回本。

    12. 共享文件存储的方法

    1.Rsync文件共享实践
    2.Rsync+Inotify文件共享实践
    3.NFS文件共享实践
    4.NAS文件共享实践
    5.OSS文件共享实践

    13. OSS文件管理

    1.使用API接口、SDK管理OSS
    2.使用阿里云管理控制台管理OSS
    3.使用图形化工具管理OSS
    4.使用本地文件系统挂载管理OSS
    5.使用FTP管理OSS
    6.使用命令工具管理OSS

    14. OSS数据迁移

    1.OSSImport工具
    2.OSS在线迁移服务
    3.跨区域复制
    4.OSS离线迁移

    15. 缓存

    缓存是一种典型的牺牲数据时效性换取访问性能的技术。
    1.浏览器缓存
    2.磁盘缓存
    3.内存缓存
    4.CDN

    数据库缓存

    1.性能优越:I/O
    2.应用场景:80%查询,20%操作。
    3.数据一致性:先更新数据库,后更新缓存。
    4.高可用

    动态页面缓存

    1.Nginx代理
    2.PHP动态页面缓存
    3.Nginx内置Memcache模块实现动态页面缓存
    4.Nginx第三方模块

    16. Session管理六种策略

    1.基于源IP会话保持
    2.基于浏览器Cookie会话保持
    3.数据库存放Session
    4.动态缓存的集中Session管理
    5.基于Tomcat集群Session共享
    6.基于NAS文件共享

    17. 分库分表

    分库分表,将不同库核表进行分集群拆分。
    在高并发下,增加多个从库进行查询是可行的,
    但是还是没有办法解决数据库的写操作,这就是读写分离的瓶颈。
    这时候可以使用主主架构。
    主从模式慢慢改成副本集模式。

    分区拆表方式:
    1.哈希算法:取余不同结果放到不同分区
    2.范围:一段时间段放在一块。
    3.映射关系:维护映射关系

    18. 云迁移步骤

    1. 项目启动
    2. 系统架构梳理评估
      2.1 加入SLB保障架构灵活扩展性
      2.2 采用TCP层SLB保障性能
      2.3 采用低成本高效率按量带宽
      2.4 数据库优先采用RDS,低成本高效率
    3. 迁移方案
    4. 迁移实施
      4.1 域名备案
      4.2 镜像打包
      4.3 自动化运维工具
    5. 迁移测试
    6. 上线割接

    19. 监控方案

    1.Shell/Python
    2.Nagios
    3.Nagios+Cacti
    4.Zabbix
    5.云监控
    6.驻云监控
    7.Prometheus+Alertmanager+Grafana
    8.TICK技术栈

    20. 云端安全

    1.安全行业不容乐观
    2.防御两级分化
    3.互联网安全意识堪忧
    4.安全产品的使用问题
    5.安全人才匮乏
    6.云端安全环境复杂

    黑客常见入侵步骤

    1.信息收集
    2.漏洞筛选
    3.开始入侵
    4.放置后门
    5.清理痕迹

    黑客常见系统层攻击

    1.系统层攻击
    木马、网马、小马、大马

    2.应用层攻击
    SQL注入、跨站脚本攻击、密码暴力破解、恶意注册刷单、WebShell

    3.网络层攻击
    DDos

    通过专线+VPN的技术手段把云端和公司内网打通。
    鸡蛋不要放在一个篮子里。

    云端运维安全

    1.云端堡垒机
    2.运维用户管理
    3.密码安全管理
    4.防火墙安全管理
    5.端口安全管理
    6.云端开源WAF实践
    7.云端数据安全传输标准
    8.运维安全性能调优
    9.通过冷备份和热备份进一步保障云端数据安全
    10.加强安全巡检安全培训管理

    一台ECS大概能支撑5~30万PV访问量。

    Web应用请求类型汇总

    请求类型请求流程消耗性能资源
    DNS解析域名解析消耗DNS供应商解析性能
    静态请求获取域名js、css、html、图片等静态文件。服务器网络和磁盘I/O资源
    动态请求请求业务逻辑处理服务器CPU和内存
    数据库请求数据库增删改查服务器磁盘I/O、内存和CPU

    21. 架构阶段

    1.架构基础阶段:物理分离Web和数据库
    2.架构动静分离阶段:静态缓存+对象存储
    3.架构分布式阶段:负载均衡
    4.架构数据缓存阶段:数据库缓存
    5.架构扩展阶段:垂直扩展(业务拆分、读写分离、分库)
    6.架构分布式+大数据阶段:水平扩展(更多Web服务器、更多SLB、分布式缓存、分布式数据库)

    展开全文
  • 导语 | 腾讯云网络作为的基础设施,其质量和稳定性直接影响了的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要...

    导语 | 腾讯云网络作为云的基础设施,其质量和稳定性直接影响了云的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要求。本文是腾讯云专家工程师陈政产老师在云+社区技术沙龙深圳站的分享整理,为大家详细介绍腾讯云网络运维平台的建设。

    点击视频查看完整分享回放

    一、腾讯云网络介绍

    上图所示为腾讯云网路underlay架构,腾讯云的层级架构从上到下看,先是从地域Region级别,再到各可用区,最后到达网络计划模块。从这张图来看,往上走就是腾讯云的内网,往下走就是腾讯云的外网。

    腾讯云的内网有三个连接:网络计划模块之间的连接,可用区之间的连接,以及跨地域之间的连接。腾讯云的外网主要接入了腾讯云三网带宽,以及BGP,另外还承载着外网流量调度的功能。

    上图所示是腾讯云网络的overlay架构,overlay是基于underlay网络架构之上的,云的用户所使用的都是overlay的网络。overlay网络主要分为两个节点,一个是网络节点,一个是计算节点。

    简单来讲overlay可以理解为:通过腾讯自研的SDN控制器来构建点到点的隧道。比如子机跟子机之间的通信在所在母机上面构建一个隧道,如果子机跟paas服务进行通信,就在SDN控制机上面构建一个母机到网关集群的隧道。

    腾讯云现在已经拥有了40多个可用区,100多个Zone,服务器已经达到100W+了。这样的体量是非常大的,而且腾讯云还是在不停地演进当中,它的网络架构也在快速进行迭代,底层光缆错综复杂,不管是underlay还是overlay网络变更也非常得多,网络的故障也是各式各样的。

    腾讯云网络作为腾讯云的基础设施,它承载所有云上数据的传输,它的稳定性决定云网络质量以及用户口碑。我们对网络的稳定性提出了更高的要求,对网络故障要做到:1分钟发现故障,3分钟故障恢复。

    很多时候,网络隐患并不会立即演变成网络故障。网络故障在我理解看来它是有生命周期的,分为:事前的隐患阶段、事中网络变更阶段和事后网络故障阶段。

    事前属于网络隐患阶段,可能会有一些异常事件发生,但是不至于影响到业务的正常使用;事中阶段很多基于网络的变更导致的网络突发情况;事后阶段,即由意外事件导致了网络故障。

    为此,我们在隐患阶段引入了混沌工程的实践;在网络变更的时候,为了遏制网络变更导致的网络突发,我们引入了网络变更体检;在网络故障已经发生的阶段,我们通过建立网络监控,快速定位网络故障,尽快恢复,从而提升网络的可用性。

    到2020年11月份,在混沌工程方面我们全年已经支持了500多起演习,发现了30+的网络问题;另外网络变更已经接入了1000多次,将网络变更故障总时长压缩在20分钟以下;在网络监控方面,我们做到了15-30秒发现网络问题。


    二、腾讯云网络运维平台建设

    1. 混沌工程

    依上文所述,我们因为想要在网络故障前解决网络隐患,从而引入了混沌工程。那么混沌工程是怎么做的,它又是怎么在腾讯云网络上落地的呢?

    首先我们需要了解一下什么是混沌工程?在我看来,混沌工程就是在生产环境上做一些探索性的实验,发现现网系统的脆弱环节,然后不断地提升这个系统的弹性

    因为随着服务化或微服务化的普及,以及CI/CD的引入,从开发到上线的整个过程开始变得非常便捷,但是这却使得在一个复杂的分布式系统里面,业务故障的随机不可预知的概率大大增加,进而引发整个网络的紊乱和故障,导致用户业务上的不可用。

    虽然故障发生的时候我们有相应的监控和处理,但是我们还是希望在隐患还没有演变成网络故障的时候就能把它们挖掘出来,由此我们引入了混沌工程。

    混沌工程跟测试是有一定区别的,最主要的一点我认为是环境的问题。混沌工程最终还是希望能到生产环境中去做印证演习,而测试主要还是以非生产环境为主。

    此外演习对于运维人员也是一个考验,对大家的应急反应能力要求很高。另一个主要区别在于输入,测试一般是来做一些功能印证,输入和输出通常都是可以预知的,而混沌工程更多是一种意外事件的引入。

    混沌工程在腾讯云网络故障产品中落地是网络演习,我们的演习场景一般都来自于现网的故障。一般情况下网络的异常包括:质量丢包、流量突增以及流量哈希负载不均,了解了这个事件以后,做演习时候就要找出它的关键路径,然后是它的业务指标。云网络的业务指标包括:路由的收敛、网络的质量和流量等。

    在这个过程中,要有一些视图来指导你的演习,不然容易迷失。当我们有了稳态指标,在任务执行过程中对一些异常事件做处理,比如你要做隔离,那么隔离的工具是不是好用,设备是不是响应,网络是不是异常都是需要考虑的。

    最为重要的一点是,在做混沌工程的时候,不能把实验变成一次网络故障。你需要极力控制它的影响范围,一旦影响范围扩大了就需要有回滚措施。主要就是故障注入和故障销毁,故障注入就是异常的注入,故障销毁就是如果演习终止或者结束了故障要及时销毁。

    最后我们做的这些演习都希望演变成可自动化执行的流程,所以对稳态指标的判定、故障的自动销毁、异常的处理、故障的隔离都要有相应的措施,不能让意外演变成一次故障。演习结束的时候,我们也要对演习报告和产生的问题进行汇总分析,抽象成一些场景以及后续推进演习的优化方案。

    2. 变更体检

    整个腾讯云的体量在不断增长,网络架构也在不断演进,相应的网络变更数量也是水涨船高。网络变更在腾讯云上有一套比较标准的管理规范,需要建立规范基线,变更要有时间窗口,变更的申请、审批、实施、公告都要做到很全面。

    对网络变更需要归类出场景,由这些场景再提炼出比较好的实施方案。另外变更还需要进行审批,审批主要是去看变更的技术环节以及风险控制,以及对横向影响面的评估把握。

    最后在变更实施的时候,我们还要沉淀出一套风险控制的理论,尽量把风险压缩到最低,找出一些最佳实践。当我们有了比较成熟的或者风险比较小的方案后,将它引入自动化的变更实施,做到无人值守。

    即使有了这些规范,实际情况还是会存在一些网络变更的问题,主要是哪些问题呢?一个是网络变更对业务团队是不透明的。第二个问题是网络变更人员其实是没有感知业务的指标数据,做不到故障的感知,业务方在定位问题的时候也不能很快地关联到网络变更。

    经分析,最主要的问题在于:网络变更的时候缺少自己的业务指标的监控。所以这块我们引入了网络变更体检。

    网络变更体检主要是在什么环节呢?网络变更审批完之后我们就要添加相应的网络变更任务。在网络变更任务的变更实施的窗口期就要做执行监控分析,由于网络变更往往基于一个点的变更,所以存在一些能很好探测业务的指标作为异常评判。

    但是有些变更业务指标很难采到样本,那么该去做呢?在这里我们会做一些关联业务指标的告警分析。

    3. 网络监控

    除了网络变更,还有一项举措是必不可少的,那就是网络监控。我们对网络监控的要求是:快、准、全,并且颗粒度要求足够细

    腾讯云网络监控需要覆盖非常多的场景,包括外网运营商、内网LAN&DCI、网关集群质量、转发质量监控、专线监控等,监控的方式也各式各样,包括Ping、TraceRoute、Curl、Socket等。

    另外还需要提高告警精准性,能够做到快速精准定位,减少故障影响时间,监控粒度为5-10秒这个级别,故障发生后要求15-30秒发现问题。

    怎么做到精准呢?首先你的探测源必须是稳定的,不能有高负载的情况。另外探测源和探测目标之间的路径应该是很短的,如果路径很长,当异常发生的时候你的问题往往也定位不清。此外你采集的样本必须是较为稳定的,不能这一会儿是活的,下一会儿直接不通了。

    做网络监控我们又面临了哪些挑战呢?首先在于目标指标的采集,其实不是样本越多就越好,我们希望能用比较少量但精准的样本来反应情况,但是准确的样本还要保证它是长期活跃的,如果它的状态是“半死不活”的,那么对监控采样数据的干扰性就会比较大。最后探测的问题也需要覆盖得比较全面。

    第二个挑战在于快速发现问题,只有探测的粒度足够细,监控定位的速度才能够快上来,但是探测快了多了以后,别人发现了可能就做一些动作来限制你。

    其次我们还需要采取一些策略,当数据采集上来之后,能够对这些数据做快速全面的异常检测。网络异常不仅仅指突发性持续异常,对于网络不连续抖动这样的异常,我们也需要能监控到。

    对此,腾讯云制定了下面的网络监控的方案。在探活阶段把高质量样本调进来,然后进入到探测池,在探测池里构建出循环探测,探测器就只管自己的探测,探测完之后数据快速落到存储里面。数据落进来之后,我们的探测不再是纯粹的探测发现问题,还需要具备问题分析能力。

    在探测的时候,我们需要结合探测路径以及路径上的网络设备的日志,再结合一些指标,比如流量是否发生变化等做分析,来定位网络问题。

    三、腾讯云网络运维平台未来思考

    如上文所述,在网络排障方面,我们针对网络隐患采用了混沌工程的实验;对于网络变更,我们引入了变更体检;在网络监控方面我们已经比较全面和准确的覆盖了现网问题。

    未来我们还需要深入探索,在网络隐患层面,除了混沌工程还有没有其他更好的方法呢。另外,我们现在很多的网络定位是通过抓包来实现的,但是路径一旦变长,这件事就开始变得不可控,而且也不好进行协调,所以我们也在思考:在故障定位上是不是也有一些别的方法可以去做呢?最后,我们也希望在网络故障的时候系统能做到一定的网络自愈。

    为此,我们也做了很多的尝试。在网络故障预测方面,我们想结合网络设备的syslog、snmp等数据提前挖掘出网络隐患。

    在排障方面,我们希望能够做到全链路的排障,结合网络拓扑、流量染色、镜像等综合分析,把网络故障的定位做得更好。

    最后是故障自愈方面,在于网络流量的自动化调度和网络设备、链路故障自动化隔离。

    四、Q&A

    Q:您刚才介绍的混沌工程和对网络做整体变更之后的控制,一般是通过点到点而不是针对一个面来全盘做监控,那么腾讯云目前是怎么做网络监控的?

    A:通过点来做主要是因为点的监控会更加精准,只要这个点可以采集到业务指标。另外做探测一定要靠近它,链路要短,这样探测到问题那基本上就是这个点的问题了。但是当我没办法拿到这个点的探测业务指标数据该怎么办呢?根据网络层级结构,会有关联到上下联的网络设备,这时候你把关联做起来,如果发现上下联出问题了,就要第一时间定位是不这个点引起的,因为正常的话上下联是不会有问题的,通常是网络变更导致产生问题。前文也提到了我们会设有红绿灯机制,对于准确率很高的联系就会直接强制要求马上回滚,减少故障影响,对于这种面的问题通常需要运维的介入。

    Q:刚刚老师讲到:链路比较长的话要缩短探测链路。如果链路很长就会分成多段探测,还有很多分支,对于各种故障的点,可能一下子检测出来的点会很多,这种人工去分析的话很难,有没有技术上的手段做判断?

    A:我们之前有采用这样的方案,一个点有问题,我可以覆盖两个探测点,两个点探测到都是你有问题,那大概率是你的问题。还有一种是Full Mesh的,这个问题会被放大,因为链路一长会传递,会放大,这个问题就比较难解。还有一种思路,对于异常路径的汇聚,探测数据不是有异常嘛,它走过的路是不是有重叠的地方。

    Q:这个判断是人工判断吗?

    A:这是自动化分析,异常目标数据是有探测路径的,我们在探测路径上可以做一层汇聚,大家走的公共节点是哪个,那大概率就是你的问题。

    Q:我们的log那么多,除了自动化的分析方法之外,还有没有利用深度学习或机器学习的方法来进行?

    A:我们是有做一些尝试。

    Q:目前有没有部署到现网上面?

    A:目前有,但是它的准确率还不够,我们也有做日志的规范化。

    Q:是用模板匹配吗?

    A:有模板匹配的,基于规则的也有,基于算法的也有。

    Q:有没有基于深度学习的?

    A:有一些尝试,主要是做日志异常的检测。

    Q:我们对监控的数据要做标注,是之前已经做好的还是怎样的?

    A:我们现在采用的是以无监督的居多。日志打标是比较耗时耗力的工作,但不是说完全不可以做,目前也有团队在做这个事情,会对日志做一些基于规则的打标工作。

    Q:刚刚提到网络变更可能会导致网络故障,如果业务监控不全,它自己排查不出来业务故障,能不能单个业务去做网络变更?比如这个应用没有做好灾备就故障了,事后我要去排查为什么会故障,要去解决这个问题,但是我又想把这个场景复现一下,需要运维团队协助吗?

    A:我们做的是一个面上的问题,而不是像你这种纯业务的,我们云网络的监控是剥离业务的,对所有业务是同等对待的。除了SVIP级别客户的监控,其他都是大盘的监控,很少监控到点的问题。点的问题虽然有SVIP级别客户的监控,但因为样本数量少,想挑选高质量样本点的变更就更加困难,所以稳态指标很难比较好得挑出来。

    Q:能有什么方法可以帮助业务方排查遇到的问题吗?

    A:我们就是全链路的排障,这样就能通过模拟流量把问题分析出来。

    讲师简介

    陈政产

    腾讯云专家工程师

    陈政产,腾讯云专家工程师,目前负责云网络运维系统的建设工作。

    文章推荐

    鹅厂这个穷得成本精确到0.01元的微团队,怎么利用IoT与云原生监测大气质量的?

    展开全文
  • 所以我们构建了以应用为中心应用模型,满足混合云运维的各种需求,比如异构云元数据的统一纳管,通过自动化资源生命周期管理而不是脚本采集来保证数据的准确性。因此混合云CMDB要求拥有灵活的建模以及查询能力,...

    随着企业业务规模扩大和复杂化及云计算、大数据等技术的不断发展,大量传统企业希望用上云来加速其数字化转型,以获得虚拟化、软件化、服务化、平台化的红利。在这个过程中,因为软件资产规模持续增大而导致的软件开发运维和IT基础设施建设运营压力,也将无法继续采用线性增加的方式来解决,且在DevOps思想的影响与引导下,企业对于改善传统IT运维职责权边界不清晰,操作过程无序、提升运维效率及业务稳定性方面也有着迫切的需求。企业必须加快整个IT架构的转型,在基础设施上云后推动应用往云上迁移,充分利用好购买的云基础设施。

    企业上云挑战

    通常企业在基础设施上云后,主要面临如下4个方面挑战。

    第一,企业IT架构不统一,技术栈多,统一运维比较难实现。通常来说企业经过多年的发展,都存在大量功能高度重合,但是独立运行的应用。这些应用有的是自研,有的是ISV开发,甚至很多是定向采购,这些应用架构不同,语言不同,甚至运行环境也不同,同时为了这些应用的稳定运行,催生了大量的运维工具和系统,所以当企业的基础设施上云后,对这些应用统一进行运维成本极高,也是运维标准化、自动化的障碍。

    第二,企业正处于深化数字化转型阶段,对云不了解,对云上运维更不了解。企业数据中心面临转型,但是缺少统一的体系化设计和建设,应用系统不知道怎么上云、运维人员不知道云化后的定位,一切都在摸索中前进。我们在和客户的交流中就会经常被问,你们在公司怎么做运维的,帮我们列下你们工作的具体操作,甚至问你们的KPI是怎么定的。

    第三,基础设施上云后,在提升产研效率的同时对运维的SLA提出了更高的要求,应用系统的日益复杂、生产迭代的加快,对于应用运维系统来说,需要更智能的识别拦截风险,发生故障时更快的响应与快速恢复,保持业务的持续性运行。

    第四,未来大型企业必定会存在多朵云,不同技术栈的云如何管理及运维,存在困难或者说还没有比较好的解决方案。

    阿里运维的变化与发展

    我们看到当前企业所面对的挑战,阿里集团在全面上云的过程中也同样遇到了,基于以上的背景及挑战,我们可以得出:基础设施上云后,企业的3大刚需分别是业务迁云、云上自动化运维、多朵云的混合云运维。那么我们建设了面向混合云场景的统一运维平台,帮助企业以应用为视角实现更易上云、更好用云,实现构建多云架构下成熟应用的统一建模、架构蓝图可视化交互驱动、集中式&场景化运维,以面对这些挑战。接下来讲一下,我们是如何一步步演进、升级至混合云新一代运维平台。

    阿里巴巴的运维体系经历了脚本时代、工具时代和DevOps时代,目前正在实现自动化运维并探索智能化运维阶段。在2008-2009年,阿里巴巴的运维还处于脚本时代,大量的运维工作需要通过脚本来实现,随着业务规模扩大和复杂度提高,脚本的方式越来越难以维护,因此阿里巴巴开始引入运维工具;在运维工具时代,阿里巴巴的运维体系经历了从工具团队和运维团队并行的阶段,到了为更好保障工具质量统一的工具团队阶段;再到逐渐有 DevOps 理念和职能的偏软件的工具团队阶段;最后,阿里巴巴应用运维团队迎来了一场大变革,以前的应用运维团队全被打散,被合并到各业务软件开发团队中,全面践行 DevOps 理念。

    进入 DevOps 阶段后,成熟的流程化运维工具虽然提升了一部分运维效率,但是各个工具之间实际是独立割裂的,例如监控工具和运维工具是割裂的、巡检工具和快恢工具也是割裂的,这导致日常应用持续运维过程中,从监控发现、定位并快速恢复问题的链路很长且效率低下,对运维开发来说,期望业务应用上线后可以“No Ops”,监控及运维系统能自行发现异常并自动解决,把应用及业务带回正常状态,阿里巴巴应用运维开始了“监管控一体化”的体系建设,走上了通过智能化手段提升运维效率、运维安全,从而保障业务连续性稳定。

    大家都知道,阿里巴巴不但拥有众多形态各异的业务,而且体量大,特别是每年天猫双11大促,需要超大规模的 IAAS 资源支撑。2015年之前,阿里巴巴每年都要花费巨额费用来购买服务器,建设一代又一代的 IDC 数据中心;2015年至2019年,阿里巴巴走向全面云化的过程,在这个时期,阿里巴巴基础设施一部分在云下数据中心,另一部分在阿里云上的数据中心,还需要支持同城多活到异地多活,所以必须要有强大的云上云下一体化超大规模资源管理的能力;2019年阿里巴巴实现全面云化之后,又开始面对一个新的超大规模资源管理场景“混合云”管理。

    混合云场景下的运维实践

    上面我们提到了很多次“应用运维”,我们先来说一下什么是应用运维,讲这个之前我们先普及一下什么是“应用”,应用是指提供一组相同服务(Service)的资源集,可以对多个地域、多种资源进行全生命周期的角色、权限的统一管理,并拥有自己的代码介质如WAR、JAR、镜像, 那么应用运维即是对一组相同服务(Service)的资源集的生命周期进行运维。

    那么我们所讲的应用运维平台正是处于SaaS层与PaaS层中间,与APaaS的概念有点相似,主要负责面向用户的业务/应用的运维工作。因此应用运维向上可以触达业务包括流量、GMV、营收,向下可以触达平台和系统包括资源与硬件,应用天然和人强耦合,因此也可以关联账号和权限等虚拟资源,我们通过应用很容易可以构建业务运行的各种蓝图拓扑关系,通过对应用生命周期全封闭管理,我们可以高效,准确的管理好应用依赖的各种资源,应用运维也提供呈上启下的作用,从业务研发到应用运维再到基础设施运维的分层工作流,即为云+应用一体化运维方案,基于应用三态模型建设,自上而下提供应用等级、部署架构到蓝图规划的一整套解决方案,实现从用户对应用全生命周期的管理、研运一体精细化运营到一站式运维。

    至此,混合云应用运维平台诞生,通过阿里集团内部多年的经验沉淀演进,支撑了阿里集团的业务容器化、云化的重要架构演进。平台也是以ITIL理念为指导,提供云上的统一配置管理,为业务运维变更,一体化运维监控提供统一的数据,内置的安全策略以及核心资产保护,为业务变更的安全可靠提供稳定支撑,通过大数据以及算法平台,分析应用的指标、变更、日志等数据,为应用刻画智能基线和画像,通过与监控的统一事件中心联动、与应用运维自动化变更流程结合,实现基于指标和事件的异常快恢。

    平台核心能力介绍

    上面我们讲到企业上云后的挑战,这些挑战在阿里走向全面云化的过程中也都一一碰到,应用运维平台的演进诞生也分了几个主要核心能力的演进,下面我们讲讲这些核心能力是如何支撑业务上云的。

    统一CMDB

    首先我们统一了CMDB,CMDB 做为基础服务,为企业提供从团队协作、企业主数据、IT资产管理、监控等核心模块的数据交换能力,业界的解决方案也非常多,但是我们调研了业界内很多相关的产品,发现现有的CMDB都比较偏传统,面向应用管理的CMDB比较少。

    所以我们构建了以应用为中心应用模型,满足混合云运维的各种需求,比如异构云元数据的统一纳管,通过自动化资源生命周期管理而不是脚本采集来保证数据的准确性。因此混合云CMDB要求拥有灵活的建模以及查询能力,要求有能力在大流量高并发的情况下,提供实时、准确数据操作能力,提供灵活可自定义和拓扑结构图形化展示能力,可自定义规范、约束状态变化等能力,并支持深度的拓扑查询能力,也提供高可用的API服务,支持被集成。我们当前混合云的CMDB,经过历年双十一的沉淀与客户场景的不断打磨成型,并采用以业务变更驱动配置数据变更的方式而不是主动采集更新的方式,更好的保障了数据的是实时性和权威性,形成了产品能力上的差异化竞争。

    混合云资源管理

    接下来我再介绍下,云上运维必不可少的应用混合云资源纳管。既然我们是面向混合云的管理平台,势必需要无缝对接公有云、专有云 IaaS 资源,并且可以接管用户自建 IDC 等异构云的资源。支持 IaaS 资源全生命周期管理的同时并支持混合云资源的自动化编排,计量计费,成本分析与控制,在降低企业资源使用成本的同时,满足业务快速交付的需求。

    区别云平台资源纳管,以应用的视角管理应用的架构和资源,并提供一键式的资源交付能力,可以让不同的角色分工协作,例如平台规划人员提前规划好运行环境和网络,应用的架构角色可以定义应用系统的架构,平台自动创建应用系统以及应用服务的配置数据,然后应用的研发运维人员以业务的视角基于应用的部署架构,进行资源的规划,在资源编排时,业务只需关心应用运行在哪个环境中,对应用的研发运维角色屏蔽了地域、vpc等网络相关的配置信息,让业务人员更多的关注在资源配置上,平台自动进行资源申请交付,并主动维护资源和系统之间的管理关系,自动落入统一的CMDB中,这也就是前面讲到的,混合云平台的CMDB的数据的维护都是通过变更驱动的。

    可视化编排

    在应用运维领域,大部分的做法都是基于工作流以及工单管理来实现对应的运维变更操作,而传统的运维工作流在维护成本及可扩展性上都存在一定的不足,缺乏有效的流程生命周期管理手段。

    例如应用申请云资源的场景,大多是一种复合操作,可能会涉及多个云资源间的依赖关系,比如申请一个ECS的同时需要挂载SLB,同时挂载数据盘以及OSS才能满足业务需求,如果不是通过可视化编排,那么平台的易用性和复杂性会成倍增加。那么用户(PaaS服务以及开发、运维、运营等角色)可以根据实际业务需要,对多个原子组件通过简单可视的编排的方式进行灵活装配,构造出不同的业务流程完成一个完整的运维需求,运维编排也可以帮助我们更好地规范、管理和执行自动化运维操作,以模板的方式定义所需要进行的操作,然后再通过系统运行,从而提高整体运维操作的效率、增强运维操作的安全性,并避免人工运维的错误。

    自动化智能化运维

    当平台具备了基本能力以后,也就需要在其他领域进行突破。我们通过在阿里集团以及客户侧的大量实践,沉淀出基于应用的智能运维框架,轻量化的架构可以完成数据采集收集,算法快速开发调优,与专业的算法团队深入合作,快速构建起智能运维领域的相关能力,比如:弹性伸缩,智能告警,智能巡检、无人值守发布等场景,对竞品形成了技术上的优势。

    并且根据一些调研的数据显示,企业中70%以上的故障都是由于变更引起的,在企业应用敏捷迭代的场景下,如何体系化、自动化、智能化的保障变更安全是所有企业核心诉求。很多企业在进行生产变更时会要求双人复核,一定程度上对变更前的一些事项进行检查,降低变更风险,这就对人员的技能要求很高,而且经验不易复制,也一定程度上降低了效能。

    混合云应用维平台通过系统工程化的解决方案,根据阿里的各种业务场景,提炼了变更的风险策略,与运维平台变更流程进行了有效结合,实现变更前风险监测,对于识别到的风险,会进行变更拦截,进行流程加签审批,保障运维流程的安全;变更执行中,平台会实时对业务运行态指标进行监测,与应用画像进行比对,当变更时应用指标/业务指标发生大幅度抖动时,平台会自动进行变更拦截,及时控制影响范围。

    未来的运维趋势

    以上我们分析了阿里运维平台上云后演进过程,同时分享了平台的几个核心能力,下面我们聊一下未来运维发展趋势是如何的。

    如果说运维1.0时代,是以黑屏运维模式、主机运维技术特点,提升 IT运维工作(人员)自身的效率,运维2.0时代是白屏运维模式、容器化运维技术特点,提升IT系统的效率性、降低运维成本,那么运维3.0必将是数字化时代的运维模式,这种运维模式重要的特性就是以保障业务稳定、高效为目标,提供云+应用一体化运维模式、业务可靠性的系统工程技术能力,从各个维度系统化保障业务的稳定。

    在最新的十四五规划中,国家明确提出将加速推进传统企业的数字化转型,同时也明确提出,相关科技领域,电力,金融,交通等这些基础设施级别的民生企业要保证安全可靠。事实上在十三五期间,已经有越来越多的这类传统企业依赖云试水数字化数转型,而保障已经数字化转型成功的企业安全稳定运行在云上,必将是核心竞争力。

    在数字化变革的浪潮中,中国作为产业规模最大和门类最齐全的经济体,迎来百年未有的崛起机会,拥抱数字基础设施,探索符合数字化时代要求的技术和管理范式,将帮助我们切实把握机会,而把握这一机会的组织,将在数字化变革的浪潮中脱颖而出。

    未来我们也会和企业共同成长,提供企业用户金融级别高可用和连续性要求的应用所需各类服务,满足金融等业务场景下多活和容灾的业务需求,促进企业业务的敏态和稳态发展,切切实实帮助上云的企业客户,建立以云+应用为中心的企业数字化业务运营管理解决方案。

    混合云新一代运维平台,帮助企业数字化运营可体现、管理可决策、治理可执行,让企业在敢用云的同时用好云。

    原文链接

    本文为阿里云原创内容,未经允许不得转载。

    展开全文
  • 上云热潮之下,如何实现专有云运维?为帮助用户实现高效云运维,百度智能云将推出专有云运维系列文章,分享运维的技术要点,助力用户上云之路。本篇为第一篇,我们将重点解读针对专有云运维的关键难题,...
  • 有人说在云计算工程领域,最难的部分是运维,因为管100台、1万台或是100万台机器,是完全不同的概念,你想机器少可以人管,机器多了还能靠...但这里说的机房运维只是云计算运维的一个部分,事实上,随着平台被越来越
  • 本文整理自阿里资深技术专家、容器服务研发负责人易立在阿里联合主办的“2021上架构与运维峰会”中的演讲实录,分享了原生时代运维技术发出的重要改变,以及源自阿里超大规模原生应用发展进程中的...
  • 尽管传统产业受到数字化转型推动,对上云的热情高涨,但受到IT运维成本和IT运维团队规模限制等因素的制约,其网络信息安全运维管理能力难以匹配云计算安全运营需求,安全托管的出现使得安全运营管理难以匹配。...
  • 业务上云后,运维势在必行

    千次阅读 2022-03-01 09:44:51
    业务上云,运维面临新挑战
  • 在这个过程中,因为软件资产规模持续增大而导致的软件开发运维和IT基础设施建设运营压力,也将无法继续采用线性增加的方式来解决,且在DevOps思想的影响与引导下,企业对于改善传统IT运维职责权边界不清晰,操作过程...
  • 然而网络运维一直都是个痛点问题,无论是厂商还是用户都在不断尝试去解决这个问题,但效果不尽如意。随着上层业务的推动,传统IP网络面临着前所未有的挑战,网络的自动化需求在不断增强。如何从零开始逐步向网络自动...
  • 本期华云大咖说,华云数据资深售前方案顾问李志明基于多年的云建设云运维管理经验,为大家分享了云运维管理解决方案,从管理架构、人员、流程及技术角度出发,帮助企业更敏捷、更自动化、更高效地实现持续交付,加速...
  • 平安云运维解密

    千次阅读 2017-06-12 09:02:56
    作者简介:周锋、丘子隽,平安平台事业部云网络服务组技术专家 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请[订阅《程序员》] 导读:本文将介绍平安的日常运维管理,工具研发与最佳实践,希望...
  • 凌云时刻简介:原生智能运维解决方案,利用大数据为企业日常运维服务,通过可观测数据,融合智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。在9...
  • 叮铃铃~ “客户又投诉了!还是投诉网络慢,快查查是怎么回事!” “好的,马上排查!” 王亮放下电话立即展开对整个数据中心网络的排查,心想,这已经是这个月第3次...偶然一次关于公有云运维的技术论坛上,王亮接触到
  • 原生背景运维转型之 SRE 实践

    千次阅读 2022-01-15 00:19:12
    作者:yorkoliu,腾讯 IEG 业务运维专家一、前言上一篇文章《原生背景下的运维价值思考与实践(上)》 重点介绍了原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近...
  • 在20日下午进行的智能化运维分论坛上,来自中山大学陈鹏飞副教授同与会嘉宾探讨了原生大势下,智能运维的发展背景、技术以及未来展望,共同探寻原生时代的AIOps前沿体系,并带来了《面向原生系统的智能运维》...
  • 四款常见IT自动化运维工具简单介绍-行管家 第一款:Puppet Puppet是早期的Linux自动化运维工具,是一种LINUX、WINDOWS、UNIX平台的集中配置管理系统,到现在已经非常成熟,可以批量管理远程服务器,模块丰富,配置...
  • 而十年后在运维方面已经产生了翻天覆地的变化,本文系统地总结了 UPYUN 的云运维的野蛮成长、踩过的坑以及现阶段的状况。运维的艺术运维的艺术是弹性。首先,从无到有,这非常重要。无论运维做得多厉害...
  • 摘要:安全可信的网络连接方案是远程运维的基础,否则反而会将安全风险(数据安全、网络攻击)引入到客户本地云中。
  • 自2016年11月发布以来,国美通过“成熟的架构经验+过硬的产品+贴身的运维”,在客户中获得了良好的口碑。今天我把自己在做运维自动化中总结的一些经验分享给大家。一、 自动化理念这几年从SA到DevOps,有幸...
  • 在标准化实施完以后,由于数目的增加,或者是一些运维场景的增多,我们会逐步的进行一些工具化和自动化,这个阶段我们的运维的效率得到提升。 但是众多的工具以及自动化脚本,会让我们的管理过程中比较困难,随着...
  • 如果没有清晰的云运维规划和手段,云数据中心将难以高效的运转起来,所以云运维对于云建设者来说是至关重要的一环。那么云数据中心与传统的数据中心运维有什么共同点和差别?做好云运维应该关注什么?该如何选择一个...
  • 与传统运维不同,运维人员完全接触不到物理设备,感知不到底层基础设施的细节,取而代之的是服务器、云盘、VPC 网络等已经封装好的产品形态。上云已是趋势,但如何基于上的产品形态和原生的能力做好自动化...
  • IT监控与运维管理是用户保障业务系统正常稳定运行的必要手段,是用户业务系统的支撑工具。随着IT建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,849
精华内容 6,739
关键字:

网络云运维手段