对DORIS数据库FE的通用性能指标进行采集监控。支持DORIS2.0.0。
使用协议:HTTP
监控前操作
查看 fe/conf/fe.conf
文件,获取 http_port
配置项的值,该值用作监控使用。
配置参数
参数名称 | 参数帮助描述 |
---|
监控Host | 被监控的对端IPV4,IPV6或域名。注意⚠️不带协议头(eg: https://, http://) |
任务名称 | 标识此监控的名称,名称需要保证唯一性 |
端口 | 数据库对外提供的端口,默认为8030 , 取值自 http_port 配置项的值 |
查询超时时间 | 设置连接未响应的超时时间,单位ms毫秒,默认6000毫秒 |
采集器 | 配置此监控使用哪台采集器调度采集 |
绑定标签 | 您可以使用标签进行监控资源的分类管理, 例如给资源分别绑定生产环境、测试环境的标签。 |
描述备注 | 更多标识和描述此监控的备注信息,用户可以在这里备注信息 |
采集指标
指标集合:doris_fe_connection_total
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 当前FE的MySQL端口连接数 |
指标集合:doris_fe_edit_log_clean
不应失败,如失败,需人工介入
指标名称 | 指标单位 | 指标帮助描述 |
---|
success | 无 | 清理历史元数据日志成功的次数 |
failed | 无 | 清理历史元数据日志失败的次数 |
指标集合:doris_fe_edit_log
指标名称 | 指标单位 | 指标帮助描述 |
---|
write | 无 | 元数据日志写入次数的计数 |
read | 无 | 元数据日志读取次数的计数 |
current | 无 | 元数据日志当前数量 |
accumulated_bytes | 字节 | 元数据日志写入量的累计值 |
current_bytes | 字节 | 元数据日志当前值 |
指标集合:doris_fe_image_clean
不应失败,如失败,需人工介入
指标名称 | 指标单位 | 指标帮助描述 |
---|
success | 无 | 清理历史元数据镜像文件成功的次数 |
failed | 无 | 清理历史元数据镜像文件失败的次数 |
指标集合:doris_fe_image_write
不应失败,如失败,需人工介入
指标名称 | 指标单位 | 指标帮助描述 |
---|
success | 无 | 生成元数据镜像文件成功的次数 |
failed | 无 | 生成元数据镜像文件失败的次数 |
指标集合:doris_fe_query_err
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 错误查询的累积值 |
指标集合:doris_fe_max_journal_id
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 当前FE节点最大元数据日志ID。如果是Master FE,则是当前写入的最大ID,如果是非Master FE,则代表当前回放的元数据日志最大ID。用于观察多个FE之间的 id 是否差距过大。过大则表示元数据同步出现问题 |
指标集合:doris_fe_max_tablet_compaction_score
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 所有BE节点中最大的 compaction score 值。该值可以观测当前集群最大的 compaction score,以判断是否过高。如过高则可能出现查询或写入延迟 |
指标集合:doris_fe_qps
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 当前FE每秒查询数量(仅统计查询请求) |
指标集合:doris_fe_query_err_rate
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 每秒错误查询数 |
指标集合:doris_fe_report_queue_size
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | BE的各种定期汇报任务在FE端的队列长度,该值反映了汇报任务在 Master FE 节点上的阻塞程度,数值越大,表示FE处理能力不足 |
指标集合:doris_fe_rps
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | 当前FE每秒请求数量(包含查询以及其他各类语句) |
指标集合:doris_fe_scheduled_tablet_num
指标名称 | 指标单位 | 指标帮助描述 |
---|
value | 无 | Master FE节点正在调度的 tablet 数量。包括正在修复的副本和正在均衡的副本,该数值可以反映当前集群,正在迁移的 tablet 数量。如果长时间有值,说明集群不稳定 |
指标集合:doris_fe_txn_status
可以观测各个状态下导入事务的数量,来判断是否有堆积
指标名称 | 指标单位 | 指标帮助描述 |
---|
unknown | 无 | 未知 |
prepare | 无 | 准备中 |
committed | 无 | 已提交 |
visible | 无 | 可见 |
aborted | 无 | 已中止/已撤销 |