跳到主要内容
版本:v1.7.x

监控:NVIDIA 监控

对 NVIDIA 操作系统的通用性能指标进行采集监控。 NVIDIA 监控需要用到 nvidia-smi 命令,nvidia-smi 是与 NVIDIA GPU 驱动程序一起安装的。所以在监控 NVIDIA 时,我们需要安装 NVIDIA GPU 驱动程序。

配置参数

参数名称参数帮助描述
监控Host被监控的对端 IPV4,IPV6 或 域名。注意⚠️不带协议头(eg: https://, http://)。
任务名称标识此监控的名称,名称需要保证唯一性。
端口Linux SSH 对外提供的端口,默认为22。
用户名SSH 连接用户名,可选
密码SSH 连接密码,可选
采集间隔监控周期性采集数据间隔时间,单位秒,可设置的最小间隔为30秒
是否探测新增监控前是否先探测检查监控可用性,探测成功才会继续新增修改操作
描述备注更多标识和描述此监控的备注信息,用户可以在这里备注信息

采集指标

指标集合:basic

指标名称指标单位指标帮助描述
index显卡索引
name显卡名称
utilization.gpu[%]GPU利用率
utilization.memory[%]显存利用率
memory.total[MiB]总显存
memory.used[MiB]已用显存
memory.free[MiB]空闲显存
temperature.gpu显卡温度