跳到主要内容
版本:v1.5.x

监控:Apache HDFS NameNode监控

Hertzbeat 对 Apache HDFS NameNode 节点监控指标进行监控。

使用协议:HTTP

监控前操作

获取 Apache HDFS NameNode 的 HTTP 监控端口。取值:dfs.namenode.http-address

配置参数

参数名称参数帮助描述
目标Host被监控的对端IPV4,IPV6或域名。不带协议头。
端口HDFS NameNode 的监控端口号,默认为50070。
查询超时时间查询 HDFS NameNode 的超时时间,单位毫秒,默认6000毫秒。
指标采集间隔监控数据采集的时间间隔,单位秒,最小间隔为30秒。
是否探测新增监控前是否先探测检查监控可用性。
描述备注此监控的更多描述和备注信息。

采集指标

指标集合:FSNamesystem

指标名称指标单位指标帮助描述
CapacityTotal集群存储总容量
CapacityTotalGBGB集群存储总容量
CapacityUsed集群存储已使用容量
CapacityUsedGBGB集群存储已使用容量
CapacityRemaining集群存储剩余容量
CapacityRemainingGBGB集群存储剩余容量
CapacityUsedNonDFS集群非 HDFS 使用容量
TotalLoad整个集群的客户端连接数
FilesTotal集群文件总数量
BlocksTotal总 BLOCK 数量
PendingReplicationBlocks等待被备份的块数量
UnderReplicatedBlocks副本数不够的块数量
CorruptBlocks坏块数量
ScheduledReplicationBlocks安排要备份的块数量
PendingDeletionBlocks等待被删除的块数量
ExcessBlocks多余的块数量
PostponedMisreplicatedBlocks被推迟处理的异常块数量
NumLiveDataNodes活的数据节点数量
NumDeadDataNodes已经标记为 Dead 状态的数据节点数量
NumDecomLiveDataNodes下线且 Live 的节点数量
NumDecomDeadDataNodes下线且 Dead 的节点数量
NumDecommissioningDataNodes正在下线的节点数量
TransactionsSinceLastCheckpoint从上次Checkpoint之后的事务数量
LastCheckpointTime上一次Checkpoint时间
PendingDataNodeMessageCountDATANODE 的请求被 QUEUE 在 standby namenode 中的个数

指标集合:RPC

指标名称指标单位指标帮助描述
ReceivedBytes接收数据速率
SentBytes发送数据速率
RpcQueueTimeNumOpsRPC 调用速率

指标集合:runtime

指标名称指标单位指标帮助描述
StartTime启动时间

指标集合:JvmMetrics

指标名称指标单位指标帮助描述
MemNonHeapUsedMMBJVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedMMBJVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedMMBJVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedMMBJVM HeapMemory 提交大小
MemHeapMaxMMBJVM 配置的 HeapMemory 的大小
MemMaxMMBJVM 运行时可以使用的最大内存大小
GcCountParNew新生代GC消耗时间
GcTimeMillisParNew毫秒新生代GC消耗时间
GcCountConcurrentMarkSweep毫秒老年代GC次数
GcTimeMillisConcurrentMarkSweep老年代GC消耗时间
GcCountGC次数
GcTimeMillisGC消耗时间
ThreadsRunnable处于 BLOCKED 状态的线程数量
ThreadsBlocked处于 BLOCKED 状态的线程数量
ThreadsWaiting处于 WAITING 状态的线程数量
ThreadsTimedWaiting处于 TIMED WAITING 状态的线程数量