近日,华为云联合中国信息通信研究院等单位编制的标准《面向LLM应用的可观测性能力要求》于第十二届可信云大会主论坛正式发布,旨在规范和指导企业进行LLM应用可观测性能力建设。
随着生成式AI技术的广泛应用,LLM在对话系统、RAG(检索增强生成)、智能体(Agent)等场景中展现出巨大潜力,同时基于大语言模型(LLM)以及 AI 生态技术栈构建的应用以及业务场景也越来越多,然而,LLM通常包含十亿甚至数万亿级别的参数,其应用在生产落地中仍面临着模型不确定性大、架构链路复杂、用户体验难以评估等痛点,如何构建大模型应用的全链路可观测性体系,如何评估LLM应用可观测性的能力是否完善,业界目前缺乏统一的标准。
基于此背景,华为云联合中国信通院以及国内多家头部厂商,基于前期的多项研究工作,与各行业专家通过多轮讨论,制定出了一套面向LLM应用的可观测性能力的分级要求,为行业提供参考。标准面向LLM应用在训练推理过程中的可观测建设工作,以数据的采集、模型、存储、应用为主线,对各环节所需能力进行标准化规范。
面向对象:适用于LLM应用可观测方案、云厂商可观测平台、可观测独立厂商产品、可观测建设方案等。
标准范围:标准从数据的全生命周期规范了面向LLM应用的可观测性技术要求,详细规范了数据模型构建的参考框架,前瞻性提出核心应用场景的能力建设指引。
内容简介:标准内容涵盖数据采集、数据模型、数据存储、数据应用四大部分,29个能力项,200+条能力指标。
作为参与该标准的核心厂商之一,华为云基于多年内部实践经验,打造了华为云智能可观测平台AOM。华为云智能可观测平台AOM利用AI赋能应用智能可观测,推动数字化转型和智能化升级,面向用户提供更高效、精准的监控和分析解决方案。
华为云可观测平台AOM主要能力
• 全场景数据接入,统一监控大盘与告警管理
统一接入中心实现4层指标体系数据上报,提供可视化图表统一汇总呈现指标、日志、调用链信息,统一告警规则配置、开箱即用告警模板以及智能告警降噪。
• 智能根因分析引擎
提供基于应用性能管理的应用监控与根因定位服务,从周期性、稳定性和自相关性等多维度对数据进行特征提取,自动检测指标异常,基于应用服务和流量Top N接口的平均RT、错误率等关键指标看护业务质量,全局分析问题。相比传统根因分析手段,AOM智能根因分析引擎将分析时长小时级缩短至分钟级。
• 智能化代码级剖析Profiling
支持调用链路时序图,直观展示Web端、App端到后端服务、数据库、中间件链路关系,用户一站式定位故障链路,快速发现消耗资源的代码,定位CPU、内存、时延性能问题。可实现7大类常见性能瓶颈的定位,节约开发人员性能问题定位工作量30%,竞争力达到业界领先。
