aiops应用场景
IT运营团队使用许多工具来监视,诊断和解决系统和应用程序性能问题。 在最近对1,300名IT专业人员进行的有关监视和AIOps未来的调查中,有42%的人报告使用了10多种监视工具; 19%的人使用超过25种工具。
保持点亮并提供监视,警报,研究和解决应用程序事件所需的数据是很多技术。
监控工具并不适合所有情况,特别是对于在多云环境中运行关键任务应用程序的组织而言。 随着组织投资于移动应用,微服务, dataops和数据科学计划,正在增加新的监测工具,提供特定领域的监控能力。
AIOps平台旨在简化监视工具的格局。 AIOps帮助需要高应用程序服务级别的组织更好地管理其监视工具和IT运营工作流程的复杂性。 顾名思义,AIOps将机器学习和自动化功能带入了IT运营领域。 这些技术旨在更快地解决事件,识别影响性能的运营趋势以及简化解决问题所需的过程。
AIOps是一个新兴平台。 在调查中,有42%的受访者从未听说过AIOps,或者认为将机器学习应用于操作“不是问题”。 如今,只有4%的人在生产中使用AIOps工具。 尽管AIOps是一个新兴平台,但许多组织还是有充分的商业理由考虑使用它。
AIOps由业务需求和运营复杂性驱动
如今,越来越多的企业依靠应用程序来服务客户并运营业务。 这对应用程序的可靠性,性能和安全性提出了更高的要求和期望。
这也刺激了对应用程序开发团队构建新应用程序并更频繁地增强它们的需求。 在过去的十年中,保持应用程序服务水平的工作职责也有所扩大。
曾几何时,组织将NOC(网络运营中心)作为防御的第一线。 如果您曾经进入过NOC,则可能会看到数十个带有警告灯和趋势图像的计算机监视器,以帮助工作人员查明问题-理想情况是在最终用户体验并打开票证之前。
业务和IT领导者开始通过引入开发实践和站点可靠性工程师来更改此模型。 Devops通过建立集体责任来改变IT部门的文化,以实现频繁部署并更好地支持客户和员工的需求 。 CI / CD( 持续集成和持续交付 )和IaC(基础架构作为代码)之类的工具和实践是实现更频繁部署的一部分。
但是,开发人员实践还需要共同承担操作责任,以确保应用程序可靠,运行良好且安全。 这意味着IT组织中的更多人需要访问所有不同的监视工具。
许多IT组织还雇用SRE( 站点可靠性工程师 )来连接开发和运营。 SRE采用软件工程方法来处理系统管理主题。 在针对SRE的另一项调查中 ,他们表示事件响应是他们工作的重要组成部分:49%的人声称每周至少响应一次事件。
成熟的开发人员实践和雇用站点可靠性工程师是越来越多的IT组织如何面对日益增长的运营挑战的方式。 但是,仅仅期望他们能够理解所使用的数十种监视工具是导致性能下降的秘诀。
AIOps平台功能和技术架构
AIOps如何改善现状? AIOps平台通常具有以下架构组件和功能:
- 一个中央数据平台,用于汇总来自不同监视工具的原始日志和数据。
- 与最常用的日志格式,监视工具,IT服务管理工具,敏捷开发工具和其他协作平台的现成集成。
- 机器学习功能可帮助识别聚合数据中的模式。
- 控制台,仪表板和分析功能可帮助IT操作人员从中央界面查看和管理多个系统。
- 自动化功能使IT人员可以交流状态,路由问题并自动响应常见问题。
AIOps与其他IT运营平台的不同之处在于,它能够轻松聚合数据,利用机器学习来发现问题以及将自动化用作解决问题的工具的能力。 AIOps不会替代现有的监视工具。 它与它们集成在一起,因此IT部门中的更多人可以更好地了解问题,而无需学习和使用多种监视工具。
同样,AIOps平台通常不会替代现有的IT服务管理,工作流,敏捷性和其他通信工具。 相反,它们是在警报和解决事件时与其交互的中央平台。
无需AIOps即可监视任务关键型应用程序
想象一下,当用户尝试完成购买时,您的电子商务应用程序的性能会降低。 开始发出警报的第一个指标是购物车放弃率。
电子商务负责人Swift在Cherwell的移动界面中打开了有关该问题的票证,但是IT团队已经收到有关该问题的警报。 随着越来越多的用户尝试进行购买,底层的Web服务器挂起,数据库连接保持打开状态。 来自DataDog的警报报告这些问题,而Splunk报告电子商务应用程序的日志文件中的Java异常。
现在想象一下NOC对这个问题的React。 考虑到同时发出警报的数量,它们应该从哪里开始? 要求协助的SRE还必须调查来自不同工具的不同警报。 同时,这位电子商务负责人很沮丧,因为没人响应她的票!
AIOps帮助IT部门更快,更轻松地解决问题
这就是AIOps平台可以潜在地更快,更有效地解决此问题的方式。
首先,AIOps看到多个警报正在关闭,包括应用程序警报。 它会自动向SRE发出警报,并在响应时自动更新Cherwell,该事件已由SRE回答。 无需手动更新任何系统即可发出这些通信。
其次,来自Cherwell,电子商务平台,Splunk和DataDog的警报均已汇总并按时间顺序排列。 SRE立即知道哪个警报先于其他警报触发。 这非常有用,因为SRE可以快速看到Web服务器挂起和池数据库连接都在Java应用程序异常之后启动。
AIOps平台的机器学习功能相当复杂,因此,除了报告警报之外,它还突出显示了其他异常操作条件。 在这种情况下,电子商务应用程序具有到单个IP地址的许多慢速出站连接。 没有关于此问题的警报或例外,但是其时间早于其他任何警报。
SRE不需要花费更长的时间就可以确定这是与第三方服务的连接,该服务可以验证买方的城市,州和邮政编码。 该服务显然存在整个应用程序中泛滥的性能问题。
在确定了根本原因后,SRE在电子商务开发团队的Jira待办事项列表中添加了高严重性缺陷,从而向他们发出警告。 严重性高的问题标志着敏捷开发团队破坏了他们的冲刺并加以解决。 这是避开有影响的服务的快速修复,并且很容易通过其Jenkins CI / CD管道测试和部署更改。
AIOps平台会跟踪此缺陷,部署以及所有警报的下降,并使电子商务负责人随时了解最新情况。 即使SRE正在监视情况,但当所有监视器恢复正常时,AIOps平台会自动关闭该问题。
实施此方案并非易事,但使用AIOps平台也不是科幻小说。
翻译自: https://www.infoworld.com/article/3541308/how-aiops-improves-application-monitoring.html
aiops应用场景