一、监控体系构建
1. 核心监控指标矩阵
指标类别 关键指标 计算方式/说明 健康阈值(参考值)
内存相关 used_memory INFO Memory 获取 不超过 maxmemory 的 80%
mem_fragmentation_ratio 内存碎片率 = used_memory_rss / used_memory 1.0-1.5
命中率 keyspace_hits INFO Stats 获取 > 98%
keyspace_misses 缓存命中率 = hits / (hits + misses)
延迟监控 instantaneous_ops_per_sec 每秒操作数 根据业务基准值 ±30%
latency_percentiles_usec P50/P95/P99 延迟(微秒) P99 < 10ms
连接数 connected_clients 当前连接数 < maxclients 的 70%
rejected_connections 被拒绝连接数 持续 >0 需告警
持久化 rdb_last_bgsave_status 最近 RDB 状态 必须为 ok
aof_current_size AOF 文件大小 监控增长率
主从复制 master_link_status 主从连接状态 必须为 up
master_sync_in_progress 同步进行中 持续 1 需检查