跳到主要内容
版本:v1.5.x

监控:Apache Yarn监控

Hertzbeat 对 Apache Yarn 节点监控指标进行监控。

使用协议:HTTP

监控前操作

获取 Apache Yarn 的 HTTP 监控端口。 取值:yarn.resourcemanager.webapp.address

配置参数

参数名称参数帮助描述
目标Host被监控的对端IPV4,IPV6或域名。不带协议头。
端口Apache Yarn 的监控端口号,默认为8088。
查询超时时间查询 Apache Yarn 的超时时间,单位毫秒,默认6000毫秒。
指标采集间隔监控数据采集的时间间隔,单位秒,最小间隔为30秒。

采集指标

指标集合:ClusterMetrics

指标名称指标单位指标帮助描述
NumActiveNMs当前存活的 NodeManager 个数
NumDecommissionedNMs当前 Decommissioned 的 NodeManager 个数
NumDecommissioningNMs集群正在下线的节点数
NumLostNMs集群丢失的节点数
NumUnhealthyNMs集群不健康的节点数

指标集合:JvmMetrics

指标名称指标单位指标帮助描述
MemNonHeapCommittedMMBJVM当前非堆内存大小已提交大小
MemNonHeapMaxMMBJVM非堆最大可用内存
MemNonHeapUsedMMBJVM当前已使用的非堆内存大小
MemHeapCommittedMMBJVM当前已使用堆内存大小
MemHeapMaxMMBJVM堆内存最大可用内存
MemHeapUsedMMBJVM当前已使用堆内存大小
GcTimeMillisJVM GC时间
GcCountJVM GC次数

指标集合:QueueMetrics

指标名称指标单位指标帮助描述
queue队列名称
AllocatedVCores分配的虚拟核数(已分配)
ReservedVCores预留核数
AvailableVCores可用核数(尚未分配)
PendingVCores阻塞调度核数
AllocatedMBMB已分配(已用)的内存大小
AvailableMBMB可用内存(尚未分配)
PendingMBMB阻塞调度内存
ReservedMBMB预留内存
AllocatedContainers已分配(已用)的container数
PendingContainers阻塞调度container个数
ReservedContainers预留container数
AggregateContainersAllocated累积的container分配总数
AggregateContainersReleased累积的container释放总数
AppsCompleted完成的任务数
AppsKilled被杀掉的任务数
AppsFailed失败的任务数
AppsPending阻塞的任务数
AppsRunning提正在运行的任务数
AppsSubmitted提交过的任务数
running_0运行时间小于60分钟的作业个数
running_60运行时间介于60~300分钟的作业个数
running_300运行时间介于300~1440分钟的作业个数
running_1440运行时间大于1440分钟的作业个数

指标集合:runtime

指标名称指标单位指标帮助描述
StartTime启动时间戳