精华内容
下载资源
问答
  • GPU监控

    千次阅读 2020-04-15 10:17:42
    说明 NVIDIA Data Center GPU Manager (DCGM) 是...可以集成到Prometheus监控方案中。 部署 从 https://developer.nvidia.com/dcgm 下载deb包(需要注册) sudo dpkg -i datacenter-gpu-manager_1.7.2_amd64.deb sy...

    说明

    NVIDIA Data Center GPU Manager (DCGM) 是一套用于在集群环境中管理和监视Tesla™GPU的工具。可以集成到Prometheus监控方案中。

    部署

    从 https://developer.nvidia.com/dcgm 下载deb包(需要注册)

    sudo dpkg -i  datacenter-gpu-manager_1.7.2_amd64.deb 
    systemctl enable dcgm.service 
    systemctl start dcgm.service
    

    从 https://d.pr/free/f/qcUmPG 下载dcgm工具包

    tar zxvf dcgm.tar.gz 
    cd dcgm
    cp dcgm-exporter /usr/local/bin/ 
    cp node_exporter /usr/local/bin/
    mkdir /run/prometheus
    cp prometheus-dcgm.service  /etc/systemd/system/
    cp prometheus-node-exporter.service  /etc/systemd/system/
    systemctl daemon-reload
    systemctl enable prometheus-dcgm.service
    systemctl enable prometheus-node-exporter.service
    systemctl start prometheus-dcgm.service
    systemctl start prometheus-node-exporter.service
    

    确认相关服务是否都已启动

    systemctl status dcgm.service
    systemctl status prometheus-dcgm.service
    systemctl status prometheus-node-exporter.service
    

    效果图 (Dashboard ID:11752)
    在这里插入图片描述

    展开全文
  • Prometheus GPU 监控

    千次阅读 2020-06-08 14:00:16
    Prometheus GPU 监控1,Prometheus GPU 监控 1,Prometheus GPU 监控 安装DCGM 参考: Prometheus + Grafana 监控 NVIDIA GPU DCGM 1.7.2 Downloads (December 2019)

    1,Prometheus GPU 监控

    • 安装DCGM
    • datacenter-gpu-manager_1.7.2_amd64.deb
    # dcgmi --version
    
    dcgmi  version: 1.7.2
    

    2,安装gpu-monitoring-tools

    # git clone https://github.com/NVIDIA/gpu-monitoring-tools.git
    # cd gpu-monitoring-tools/
    # make binary
    go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
    # make install
    go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
    install -m 557 dcgm-exporter /usr/bin/dcgm-exporter
    install -m 557 -D ./etc/dcgm-exporter/default-counters.csv /etc/dcgm-exporter/default-counters.csv
    install -m 557 -D ./etc/dcgm-exporter/dcp-metrics-included.csv /etc/dcgm-exporter/dcp-metrics-included.csv
    
    • 运行dcgm-exporter
    # which dcgm-exporter
    /usr/bin/dcgm-exporter
    # dcgm-exporter
    INFO[0000] Starting dcgm-exporter
    INFO[0000] DCGM successfully initialized!
    INFO[0000] Pipeline starting
    INFO[0000] Starting webserver
    
    • 测试,可以看到监控数据
    # curl 192.168.1.2:9400/metrics
    

    2.1,设置dcgm-exporter开机启动

    • vim /lib/systemd/system/dcgm-exporter.service 新建服务
    [Unit]
    Description=dcgm-exporter service
    
    [Service]
    User=root
    ExecStart=/usr/bin/dcgm-exporter
    
    TimeoutStopSec=10
    Restart=on-failure
    RestartSec=5
    
    [Install]
    WantedBy=multi-user.target
    
    # systemctl daemon-reload
    # systemctl enable dcgm-exporter.service
    # systemctl start dcgm-exporter.service
    # systemctl status dcgm-exporter.service
    

    3,Prometheus修改配置

    • 添加dcgm-exporter
        # dcgm-exporter
      - job_name: 'gpu'
        static_configs:
        - targets: ['192.168.1.2:9400']
    
    # cat prometheus.yml
      - job_name: 'prometheus'
    
        # metrics_path defaults to '/metrics'
        # scheme defaults to 'http'.
    
        static_configs:
        - targets: ['localhost:9090']
    
    
        # node_exporter
      - job_name: 'node'
        static_configs:
        - targets: ['127.0.0.1:9100','192.168.1.2:9100']
    
        # dcgm-exporter
      - job_name: 'gpu'
        static_configs:
        - targets: ['192.168.1.2:9400']
    
    • 重启prometheus
    systemctl restart  prometheus.service
    

    在这里插入图片描述

    4,grafana

    在这里插入图片描述

    5,使用监控面板9957可以切换节点

    在这里插入图片描述
    在这里插入图片描述

    6,Grafana设置

    • 监控功率,instance为ip地址
    DCGM_FI_DEV_POWER_USAGE{instance="192.168.1.101:9400"}
    
    • 显卡使用率
    DCGM_FI_DEV_GPU_UTIL{instance="192.168.1.101:9400"}
    

    7,使用12027

    在这里插入图片描述

       # dcgm-exporter
      - job_name: 'gpu-metrics'
        static_configs:
        - targets: ['127.0.0.1:9400','192.168.1.101:9400','192.168.1.102:9400']
    

    在这里插入图片描述

    • 手动设置监控
      在这里插入图片描述
    • 查看显卡指标
    curl http://127.0.0.1:9400/metrics
    
    • 使用功率
    DCGM_FI_DEV_POWER_USAGE{instance="127.0.0.1:9400"}
    
    • 内存使用
    DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}
    
    • 总内存
    DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}+DCGM_FI_DEV_FB_FREE{instance="127.0.0.1:9400"}
    
    • GPU使用率
    DCGM_FI_DEV_GPU_UTIL{instance="127.0.0.1:9400"}
    
    • GPU内存使用率
    DCGM_FI_DEV_MEM_COPY_UTIL{instance="192.168.0.114:9400"}
    

    8,使用GPU-Nodes-Metrics-Nvidia 12639

    参考:

    1. Prometheus + Grafana 监控 NVIDIA GPU
    2. DCGM 1.7.2 Downloads (December 2019)
    3. GPU Nodes v2
    4. NVIDIA/gpu-monitoring-tools
    5. NVIDIA DCGM Exporter Dashboard
    6. GPU Nodesby bkeyzers
    7. Integrating with DCGM
    8. 安装dcgm
    9. 基于DCGM和Prometheus的GPU监控方案 dcgm r采集指标项以及含义
    展开全文
  • 摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1 背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义...

    摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1     背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP.

    目录

    使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控

    使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控

    1     背景

    上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

             但是自定义监控的采集脚本需要用户自己实现,并且云监控控制台上自定义监控的展示维度也很有限,只能查看指定VM指定GPU的某个数据。

             通过使用阿里云提供的云监控插件,可以一键安装就实现GPU指标的采集和上报,同时展示维度上可以与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,可以监控集群级别的GPU指标,主机监控则可以在一个页面显示该实例所有GPU的所有监控指标。

    本文将会详细介绍如何通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

    2     云监控Agent安装

    云监控插件从1.2.28版本开始支持GPU数据的采集。云监控Agent(即云监控插件)的安装可以参考云监控官方使用文档:云监控Agent安装。同时支持Linux和Window操作系统。

    也可以在云监控控制台主机监控部分一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

    3     如何在云监控控制台查询GPU监控数据

    目前只有GPU计算型实例支持GPU云监控,实例必须要安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

    3.1   主机监控

    在云监控控制台中进入主机监控,进入需要查看监控数据的实例,点击GPU监控标签页,就可以看到该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。

    3.2   Dashboard中自定义监控大盘

    可以在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

    3.2.1   折线图

    下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,可以一目了然的查看相关实例的显存使用量波动情况。

    下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,可以一目了然的查看指定分组相关实例的GPU温度波动情况。

    3.2.2   TopN表格

    下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时温度情况,并确定GPU温度最高的实例。

    下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用户账号下所有GPU实例的实时功率情况,并确定GPU功率最高的实例。

    TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

    4     如何设置报警规则

    新增的GPU监控项添加报警规则方式同ECS的其他指标一样,可以针对某一特定指标设置报警规则,如下图:

    推荐通过创建模板后将模板应用于分组的方式批量添加GPU报警。查看报警模板最佳实践

    5     监控项说明

    GPU相关监控指标提供3个维度的数据

    5.1   GPU维度监控项

    GPU维度的指标,采集每个GPU层面的监控数据。

    MetricName

    单位

    名称

    dimensions

    gpu_memory_freespace

    Bytes

    GPU维度显存空闲量

    instanceId,gpuId

    gpu_memory_totalspace

    Bytes

    GPU维度显存总量

    instanceId,gpuId

    gpu_memory_usedspace

    Bytes

    GPU维度显存使用量

    instanceId,gpuId

    gpu_gpu_usedutilization

    %

    GPU维度GPU使用率

    instanceId,gpuId

    gpu_encoder_utilization

    %

    GPU维度编码器使用率

    instanceId,gpuId

    gpu_decoder_utilization

    %

    GPU维度解码器使用率

    instanceId,gpuId

    gpu_gpu_temperature

    ℃ 

    GPU维度GPU温度

    instanceId,gpuId

    gpu_power_readings_power_draw

    W

    GPU维度GPU功率

    instanceId,gpuId

    gpu_memory_freeutilization

    %

    GPU维度显存空闲率

    instanceId,gpuId

    gpu_memory_useutilization

    %

    GPU维度显存使用率

    instanceId,gpuId

    5.2   实例维度监控项

    实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

    MetricName

    单位

    名称

    dimensions

    instance_gpu_decoder_utilization

    %

    实例维度GPU解码器使用率

    instanceId

    instance_gpu_encoder_utilization

    %

    实例维度GPU编码器使用率

    instanceId

    instance_gpu_gpu_temperature

    ℃ 

    实例维度GPU温度

    instanceId

    instance_gpu_gpu_usedutilization

    %

    实例维度GPU使用率

    instanceId

    instance_gpu_memory_freespace

    Bytes

    实例维度GPU显存空闲量

    instanceId

    instance_gpu_memory_freeutilization

    %

    实例维度GPU显存空闲率

    instanceId

    instance_gpu_memory_totalspace

    Bytes

    实例维度GPU显存总量

    instanceId

    instance_gpu_memory_usedspace

    Bytes

    实例维度GPU显存使用量

    instanceId

    instance_gpu_memory_usedutilization

    %

    实例维度GPU显存使用率

    instanceId

    instance_gpu_power_readings_power_draw

    W

    实例维度GPU功率

    instanceId

    5.3   分组维度监控项

    分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

    MetricName

    单位

    名称

    dimensions

    group_gpu_decoder_utilization

    %

    分组维度GPU解码器使用率

    groupId

    group_gpu_encoder_utilization

    %

    分组维度GPU编码器使用率

    groupId

    group_gpu_gpu_temperature

      分组维度GPU温度

    groupId

    group_gpu_gpu_usedutilization

    %

    分组维度GPU使用率

    groupId

    group_gpu_memory_freespace

    Bytes

    分组维度GPU显存空闲量

    groupId

    group_gpu_memory_freeutilization

    %

    分组维度GPU显存空闲率

    groupId

    group_gpu_memory_totalspace

    Bytes

    分组维度GPU显存总量

    groupId

    group_gpu_memory_usedspace

    Bytes

    分组维度GPU显存使用量

    groupId

    group_gpu_memory_usedutilization

    %

    分组维度GPU显存使用率

    groupId

    group_gpu_power_readings_power_draw

    W

    分组维度GPU功率

    groupId

    6     如何通过OpenAPI查询GPU监控数据

    可以使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

    参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

    原文链接

    本文为云栖社区原创内容,未经允许不得转载。

    展开全文
  • 本文将介绍如何利用阿里云云监控服务提供的自定义监控实现GPU云服务器的GPU监控和报警的可视化,从而达到对GPU使用情况实时掌握的目的。 1 背景 NVIDIA提供了nvidia-smi命令工具用于查询和监控GPU的相关数据,但是...

    本文将介绍如何利用阿里云云监控服务提供的自定义监控实现GPU云服务器的GPU监控和报警的可视化,从而达到对GPU使用情况实时掌握的目的。

    0

    1 背景
    NVIDIA提供了nvidia-smi命令工具用于查询和监控GPU的相关数据,但是对于使用者来说,每次手动查看很不方便,无法做到实时监控,而且也无法可视化,不直观。
    本文将会介绍如何利用阿里云云监控服务提供的自定义监控功能来实现GPU云服务器的GPU监控和报警的可视化。
    2 自定义监控和报警
    阿里云云监控服务提供了自定义监控功能,用户可以利用它实现自定义的数据监控和报警。
    我们利用自定义监控提供的API或者SDK,可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。
    比如可以对GPU利用率、显存利用率、显存占用、功率、温度等关键信息进行监控和报警。
    详见:创建自定义监控项和报警规则
    3 监控数据上报
    自定义监控提供的SDK支持Python和bash,通过编写脚本调用SDK的接口,可以实现相应监控数据的上报。
    通过定时调度脚本,按创建监控项时定义的上报周期上报数据。Linux环境可以使用Crontab,Windows环境可以使用quartz.net。
    详见:监控数据上报
    4 GPU数据采集
    NVDIA驱动安装时提供了NVIDIA Management Library (NVML),该库提供了采集GPU数据的接口,并基于NVML提供了nvidia-smi命令用于采集GPU相关数据。NVML提供了Perl 和Python语言的官方支持,考虑到自定义监控上报SDK支持Python,我们可以下载NVML的Python bindings,编写Python脚本采集GPU数据。
    NVML的Python bindings可以从以下链接下载:https://pypi.python.org/pypi/nvidia-ml-py/

    5 示例
    5.1 创建自定义监控项
    在云监控控制台创建自定义监控项,如下图:
    1

    5.2 查看监控项数据
    在云监控控制台查看监控项,如下图:
    某实例GPU 0的GPU利用率(单位:Persent):
    2

    某实例GPU 0的显存利用率(单位:Persent):
    3

    某实例GPU 0的内存占用量(单位:Megabytes):
    4

    某实例GPU 1的功率(单位:Watt):
    5

    某实例GPU 1 的温度(单位:摄氏度):
    6

    5.3 设置报警规则
    在温度监控项上点击报警管理:
    7

    设置温度报警规则:
    8

    设置通知对象:
    9

    完成设置:10

    6231cf9d428fbf37b33c5a3f7314b7e71cee9587


    展开全文
  • 摘要: 本文将介绍如何利用阿里云云监控服务提供的自定义监控实现GPU云服务器的GPU监控和报警的可视化,从而达到对GPU使用情况实时掌握的目的。 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控...
  • GPU监控和故障通知 虽然在使用GPU混合低温货币时,尽管GPU具有内置的热控制功能,但是它可能无法安装在某些环境中,并且会导致哈希率降低甚至GPU故障。 该项目提供了一个工具来: 根据检测到的温度改变风扇转速 在...
  • 基于微信的多服务器GPU监控工具
  • 基于DCGM和Prometheus的GPU监控方案

    千次阅读 2020-04-05 18:16:50
    基于DCGM和Prometheus的GPU监控方案 背景: 在早期的GPU监控中我们会使用一些NVML工具来对GPU卡的基本信息进行采集,并持久化到监控系统的数据存储层。因为我们知道,其实通过nvidia-smi这样的命令也是可以获取到GPU...
  • CPUGPU监控工具

    2014-09-19 23:27:29
    提供周期监控CPU,GPU 信息工具,输出到日志
  • 本文将从 GPU-Operator 概念介绍、安装部署、深度训练测试应用部署,以及在 KubeSphere 使用自定义监控面板对接 GPU 监控,从原理到实践,逐步浅析介绍与实践 GPU-Operator。 GPU-Operator简介 众所周知,Kubernetes...
  • GPU监控最终方案.py

    2020-07-03 20:01:21
    Nightingale监控获取GPU信息插件,用于在Nightingale(夜莺)对互联运维的监控系统的支持
  • 一、(DCGM)NVIDIA GPU监控 安装go语言环境 sudo apt install golang-go # 验证安装是否成功 go version 下载datacenter-gpu-manager(DCGM) 从https://developer.nvidia.com/dcgm注册后下载DCGM 安装DCGM ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,641
精华内容 7,456
关键字:

gpu监控