精华内容
下载资源
问答
  • 云监控 云监控相关公共文件
  • 阿里云云监控对接grafana插件!
  • 摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1 背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义...

    摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1     背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.

    目录

    使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控

    使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控

    1     背景

    上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

             但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。

             通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。

    本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

    2     云监控Agent安装

    云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。

    也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

    3     如何在云监控控制台查询GPU监控数据

    目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

    3.1   主机监控

    在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。

    3.2   Dashboard中自定义监控大盘

    可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

    3.2.1   折线图

    下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。

    下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。

    3.2.2   TopN表格

    下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。

    下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。

    TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

    4     如何设置报警规则

    新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:

    推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

    5     监控项说明

    GPU相关监控指标提供3个维度的数据

    5.1   GPU维度监控项

    GPU维度的指标,采集每个GPU层面的监控数据。

    MetricName

    单位

    名称

    dimensions

    gpu_memory_freespace

    Bytes

    GPU维度显存空闲量

    instanceId,gpuId

    gpu_memory_totalspace

    Bytes

    GPU维度显存总量

    instanceId,gpuId

    gpu_memory_usedspace

    Bytes

    GPU维度显存使用量

    instanceId,gpuId

    gpu_gpu_usedutilization

    %

    GPU维度GPU使用率

    instanceId,gpuId

    gpu_encoder_utilization

    %

    GPU维度编码器使用率

    instanceId,gpuId

    gpu_decoder_utilization

    %

    GPU维度解码器使用率

    instanceId,gpuId

    gpu_gpu_temperature

    ℃ 

    GPU维度GPU温度

    instanceId,gpuId

    gpu_power_readings_power_draw

    W

    GPU维度GPU功率

    instanceId,gpuId

    gpu_memory_freeutilization

    %

    GPU维度显存空闲率

    instanceId,gpuId

    gpu_memory_useutilization

    %

    GPU维度显存使用率

    instanceId,gpuId

    5.2   实例维度监控项

    实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

    MetricName

    单位

    名称

    dimensions

    instance_gpu_decoder_utilization

    %

    实例维度GPU解码器使用率

    instanceId

    instance_gpu_encoder_utilization

    %

    实例维度GPU编码器使用率

    instanceId

    instance_gpu_gpu_temperature

    ℃ 

    实例维度GPU温度

    instanceId

    instance_gpu_gpu_usedutilization

    %

    实例维度GPU使用率

    instanceId

    instance_gpu_memory_freespace

    Bytes

    实例维度GPU显存空闲量

    instanceId

    instance_gpu_memory_freeutilization

    %

    实例维度GPU显存空闲率

    instanceId

    instance_gpu_memory_totalspace

    Bytes

    实例维度GPU显存总量

    instanceId

    instance_gpu_memory_usedspace

    Bytes

    实例维度GPU显存使用量

    instanceId

    instance_gpu_memory_usedutilization

    %

    实例维度GPU显存使用率

    instanceId

    instance_gpu_power_readings_power_draw

    W

    实例维度GPU功率

    instanceId

    5.3   分组维度监控项

    分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

    MetricName

    单位

    名称

    dimensions

    group_gpu_decoder_utilization

    %

    分组维度GPU解码器使用率

    groupId

    group_gpu_encoder_utilization

    %

    分组维度GPU编码器使用率

    groupId

    group_gpu_gpu_temperature

      分组维度GPU温度

    groupId

    group_gpu_gpu_usedutilization

    %

    分组维度GPU使用率

    groupId

    group_gpu_memory_freespace

    Bytes

    分组维度GPU显存空闲量

    groupId

    group_gpu_memory_freeutilization

    %

    分组维度GPU显存空闲率

    groupId

    group_gpu_memory_totalspace

    Bytes

    分组维度GPU显存总量

    groupId

    group_gpu_memory_usedspace

    Bytes

    分组维度GPU显存使用量

    groupId

    group_gpu_memory_usedutilization

    %

    分组维度GPU显存使用率

    groupId

    group_gpu_power_readings_power_draw

    W

    分组维度GPU功率

    groupId

    6     如何通过OpenAPI查询GPU监控数据

    可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

    参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

    原文链接

    本文为云栖社区原创内容,未经允许不得转载。

    展开全文
  • ServerStatus中文版是一个酷炫高逼格的云探针、云监控、服务器云监控、多服务器探针
  • 腾讯云监控 为用户提供云服务器、云数据库等多个云产品的负载和性能监控指标
  • 使用云监控监控ECS实例 本文以某门户网站的监控设置为例,讲解云监控服务如何给业务系统做实时护航。主要内容 监控的必要性 云监控配置 监控的必要性 越来越多的用户选择将业务部署在云上,大大减轻了运维成本和...


    使用云监控监控ECS实例


    本文以某门户网站的监控设置为例,讲解云监控服务如何给业务系统做实时护航。

    主要内容

    • 监控的必要性
    • 云监控配置

    监控的必要性

    越来越多的用户选择将业务部署在云上,大大减轻了运维成本和压力,其中合理的监控设置功不可没,设置合理的监控不仅可以让用户实时了解系统业务的运行情况,还能帮助用户提前发现问题,避免可能会出现的业务故障;同时有效的告警机制能让用户在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快地恢复业务。

    云监控配置

    此网站架构如下图所示,其中使用到了阿里云产品ECS,RDS,OSS及负载均衡SLB,下面针对此种类型的架构,说明云监控的配置使用。


    image

    在开始设置监控前,需要检查ECS监控插件运行情况,确保监控信息能够正常采集,如安装失败需要手动安装,请参考云监控插件安装指南。此外,还需要提前添加报警联系人和联系组,建议设置至少2人以上的联系人,互为主备,以便及时响应监控告警。监控选项的设定,具体可参见云服务资源使用概览和报警概览。利用云监控的Dashboard功能,给您业务系统的云资源设置一个全局监控总览,可随时检查整个业务系统资源的健康状态。下图根据ECS分组选择添加监控的资源,依次添加内存使用率,CPU使用率等监控项。监控的实例数较少可以选择实例维度作为展示,如有多实例建议以分组或者用户为维度展示;监控数据取平均值。


    image


    为了更好的监控大屏展示效果,这里将ECS的CPU、内存、磁盘的使用率单独分组展示;将RDS的四项指标分两组展示。


    image


    报警阈值

    关于各项监控指标的报警阈值说明,建议根据实际业务情况斟酌设置,不要设置太低以免频繁触发报警影响监控服务体验,也不要设置太高以免触发阈值后没有足够的预留时间来响应和处理告警。

    报警规则

    以CPU使用率为例,由于需要给服务器预留部分处理性能保障服务器正常运行,所以建议将cpu告警阈值设置为70%,连续三次超过阈值后开始报警。如下图所示点击添加报警规则继续设置内存和磁盘的报警规则和报警通知人即可。


    image


    进程监控

    对于常见的web应用,设置进程监控,不仅可以实时监控应用进程的运行情况,还有助于故障的排查处理,下图是java进程的相关监控示例。


    image

    站点监控

    在云服务器外层的监控服务,站点监控主要用于模拟真实用户访问情况,实时测试业务可用性,有助于的故障排查处理。


    image


    RDS监控

    建议将RDS的CPU使用率告警阈值设置为70%,连续三次超过阈值后开始报警。硬盘使用率,最大IOPS使用率,连接数等其他监控项可根据您的实际情况来设置。


    image


    负载均衡监控

    为了更好使用负载均衡的云监控服务,需要先开启负载均衡SLB的健康检查,详情参见健康检查机制和配置说明建议设置负载均衡SLB带宽值的70%作为告警阈值,如下图所示。


    image

    如以上监控选项不能满足您的实际业务监控需求,可以参见创建自定义监控项和报警规则

    原文链接

    展开全文
  • 云监控插件状态“已停止”解决: 云监控判断停止的标准是15分钟没有心跳,停止的状态有两种可能: 1、云监控agent进程停止; 2、云监控agent无法与服务器通讯。 可以通过登录服务器运行:ps aux |grep cloudmonitor...

    云监控插件状态“已停止”解决:
    云监控判断停止的标准是15分钟没有心跳,停止的状态有两种可能:
    1、云监控agent进程停止;
    2、云监控agent无法与服务器通讯。

    可以通过登录服务器运行:ps aux |grep cloudmonitor 来判断进程是否存活,Windows可以通过查看cloudmonitor服务状态来判断。
    如果进程存在可以查看日志来分析原因:tail -f /usr/local/cloudmonitor/logs/cloudmonitor.log

    解决方法有两个:

    方法一:直接去控制台“批量安装与更新”

    方法二如下:进入服务器命令行安装
    wget -e 'http_proxy=hzcmsproxy.aliyun.com:3128' -O /tmp/cloudmonitor.tar.gz 'http://cms-download.aliyun.com/release/1.1.24/linux64/agent-linux64-1.1.24-package.tar.gz' 
    mkdir /usr/local/cloudmonitor
    tar -xf  /tmp/cloudmonitor.tar.gz -C /usr/local/cloudmonitor
    /usr/local/cloudmonitor/wrapper/bin/cloudmonitor.sh install
    /usr/local/cloudmonitor/wrapper/bin/cloudmonitor.sh start

    /usr/local/cloudmonitor/wrapper/bin/cloudmonitor.sh status
    状态如下表示启动正常:
    cloudmonitor is running: PID:21276, Wrapper:STARTED, Java:STARTED

    等一两分钟控制台“开发与运维---云监控”的状态就会变成运行中

    展开全文
  • 云监控插件会每分钟统计一次CPU消耗Top5 的进程,记录 Top5 进程的CPU使用率、内存使用率和打开文件数。 进程的CPU使用率与内存使用率,请参考Linux的top命令。 当前进程打开文件数,请参考Li...

    进程监控默认为您采集最近一段时间内活跃进程的CPU使用率、内存使用率以及进程打开文件数。如果您添加了进程关键字,还可以采集包含关键字的进程个数。

    查看活跃进程消耗

    • 云监控插件会每分钟统计一次CPU消耗Top5 的进程,记录 Top5 进程的CPU使用率、内存使用率和打开文件数。
    • 进程的CPU使用率与内存使用率,请参考Linux的top命令。
    • 当前进程打开文件数,请参考Linux的lsof命令。
     
    说明
    • 如果您的进程占用了多个CPU,会出现CPU使用率超过100%的情况,是因为这里的采集结果为多核CPU的总使用率。
    • 如果您查询的时间范围内,Top5的进程不固定,进程列表中会展示这段时间内全部进入过Top5的进程,列表中的时间表示该进程最后一次进入Top5的时间。
    • 只有进入Top5的进程才会采集进程的CPU使用率、内存使用率和打开文件数,所以如果该进程在查询的时间范围内未持续进入Top5,会出现监控图中数据点不连续的情况,数据点的密集程度则表明了该进程在服务器上的活跃程度。
      • 如下图所示的 wrapper 进程,未持续进入服务器CPU消耗最高的Top5进程,所以监控图中的数据点稀疏、不连续,有数据点的时间表示该进程在Top5内。
      • 如下图所示的 java 进程,在监控图中数据点非常密集、连续,表明该进程持续排入CPU消耗最高的Top5进程内。

    监控指定进程数

    您可以通过进程数监控,采集关键进程的数量,及时获取关键进程的存活状态。

    • 添加指定进程监控
      假设您的主机当前运行了如下几个进程 :
      • /usr/bin/java -Xmx2300m -Xms2300m org.apache.catalina.startup.Bootstrap
      • /usr/bin/ruby
      • nginx -c /ect/nginx/nginx.conf
      您添加了6个进程关键字,采集结果分别如下:
      • 添加进程关键字为:ruby,采集进程数:1,命中进程名称。
      • 添加进程关键字为:nginx,采集进程数:1,命中进程名称与参数。
      • 添加进程关键字为:/usr/bin,采集进程数:2,命中路径(两个进程包含这个路径)。
      • 添加进程关键字为:apache.catalina,采集进程数:1,命中部分参数。
      • 添加进程关键字为:nginx.conf,采集进程数:1,命中部分参数。
      • 添加进程关键字为:-c,采集进程数:1, 命中部分参数。

      操作步骤

      1. 登录云监控控制台
      2. 单击左侧导航栏中的主机监控,进入主机监控页面。
      3. 单击需要添加进程监控的主机名称,或单击操作中的监控图表,进入主机的监控详情页
      4. 单击进程监控页签,切换到进程监控页面
      5. 在进程数监控图表,您可以添加进程关键字,统计对应进程数量。单击添加进程监控 按钮,进入添加进程监控页面。
      6. 输入进程名称或进程关键字,单击增加即可。
    • 删除指定进程监控
      1. 登录云监控控制台
      2. 单击左侧导航栏中的主机监控,进入主机监控页面。
      3. 单击需要添加进程监控的主机名称,或单击操作中的监控图表,进入主机的监控详情页。
      4. 单击进程监控页签,切换到进程监控页面。
      5. 在进程数监控图表上,单击添加进程监控 按钮,进入添加进程监控页面。
      6. 在列表中,单击操作栏中的删除,可删除对应的进程监控。
      • 设置报警规则

        您在配置好指定进程的监控后,可以为进程配置报警规则,在进程数变化时收到报警通知。

        1. 登录云监控控制台
        2. 单击左侧导航栏中的主机监控,进入主机监控页面
        3. 选择需要添加进程监控报警的主机,单击操作栏中的报警规则,进入报警规则页面。
        4. 单击右上角的新建报警规则按钮,进入创建报警规则页面
        5. 设置报警规则的规则描述下拉列表中,选择进程数,然后配置相应的报警阈值。如果机器上配置了多个进程,每个进程数量不一样,可以单击添加报警规则一次为多个进程配置报警规则。

    转载于:https://www.cnblogs.com/weifeng1463/p/11591796.html

    展开全文
  • 2018年4月2号,新一代的云监控正式上线商业化,为阿里云上用户提供功能强大,却简单易用的监控服务。让用户在上云后更放心,让云上的it基础设施更透明。 云监控 产生于阿里云飞天基础监控平台,内部服务于阿里百万级...
  • 腾讯云自定义云监控

    2019-04-18 23:33:23
    一、背景原由由于腾讯云监控无法满足特定需求,故需自定义监控 二、操作步骤1、创建自定义监控配置项目a、登录腾讯云控制台,选择【云监控】-【自定义监控】,点击展开【监控配置】选项卡。在页面顶部点击【新增配置...
  • 本文将介绍如何利用阿里云云监控服务提供的自定义监控实现GPU云服务器的GPU监控和报警的可视化,从而达到对GPU使用情况实时掌握的目的。 1 背景 NVIDIA提供了nvidia-smi命令工具用于查询和监控GPU的相关数据,但是...
  • 云监控站点监控报警异常问题描述:客户使用云监控对网站进行监控,收到短信和邮件提醒网站异常,但是实际测网站访问正常,同时云监控控制台显示其中一个监控点异常,另外的监控点正常:问题原因:1、云监控站点监控...
  • 为您提供xrkmonitor字符云监控系统下载,xrkmonitor字符云监控系统是一个国产开源监控系统,专注于通过监控系统对软硬件系统进行掌控以及系统相关数据的可视化,通过插件化进制完成对通用项目监控的复用,支持多种...
  • 为您提供xrkmonitor字符云监控系统下载,xrkmonitor字符云监控系统是一个国产开源监控系统,专注于通过监控系统对软硬件系统进行掌控以及系统相关数据的可视化,通过插件化进制完成对通用项目监控的复用,支持多种...
  • 为您提供xrkmonitor字符云监控系统下载,xrkmonitor字符云监控系统是一个国产开源监控系统,专注于通过监控系统对软硬件系统进行掌控以及系统相关数据的可视化,通过插件化进制完成对通用项目监控的复用,支持多种...
  • 华为云主机添加云监控

    千次阅读 2019-04-22 10:40:13
    华为云的云监控 服务列表->管理与部署->云监控服务 选择:主机监控-弹性云服务器 这时,插件状态默认为“配置异常”,内存使用率等没有数据显示。 安装插件 使用root账号登录需要监控的主机,运行 cd /usr/...
  • 关于云监控服务

    2019-09-13 11:33:53
    云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。 客户价值 云监控服务能够监控云...
  • 通过阿里云sdk实现zabbix统一采集阿里云云监控slb,共享带宽监控阈值(SLB流入带宽,共享带宽bit/s)
  • 阿里云监控

    千次阅读 2016-12-10 16:40:55
    云监控定义 云监控(Cloud Monitor Service) 简称CMS,是一个开放式的监控平台,实时监控你的站点和服务器,并以多种告警方式(短信、旺旺、邮件)完成报警。 云监控的特点: [记住没有实时性的特点,因为其他的监控...
  • 云监控服务概览

    2019-04-12 15:28:04
    云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。云监控服务能够监控云服务器 ECS、云...
  • IC卡加油云监控系统

    2020-10-17 09:13:57
    IC卡加油云监控系统对油站的液位仪,管控系统,油机等系统的信息数据进行秒级采集,并实时共享数据协同中心,全面,准确,及时地掌控加油站成品油进,销,存等信息,实现实时的现场监控和移动监控,以及数据的统计和可视化.
  • 云监控服务使用

    2018-10-24 15:04:05
    云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。 客户价值: 云监控服务能够监控云...
  • 摘要: 本文将介绍如何利用阿里云云监控服务提供的自定义监控实现GPU云服务器的GPU监控和报警的可视化,从而达到对GPU使用情况实时掌握的目的。 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,043
精华内容 4,017
关键字:

云监控