Redis RabbitMQ Kafka 中间件可靠性故障排查指南

NoSQL 6min 11 浏览 2026-06-18

KubernetesSRERedisRabbitMQKafka中间件可靠性

场景

假设你管理一个多租户Kubernetes集群，运行着Redis缓存、RabbitMQ消息队列和Kafka事件流。某天，用户报告订单处理延迟激增，支付确认失败。初步观察发现Redis主节点频繁切换，RabbitMQ队列堆积，Kafka消费者组滞后增加。

症状

Redis: INFO stats显示keyspace_misses飙升，latency延迟超过100ms，repl_backlog_active周期变化。
RabbitMQ: 管理界面Queue长度持续增长，rabbitmqctl list_queues显示消息数超过阈值，部分队列出现unacked消息。
Kafka: kafka-consumer-groups --describe显示LAG持续上升，broker磁盘使用率接近90%。

诊断

Redis: 检查redis-cli -h <host> -p <port> info replication确认主从状态。使用SLOWLOG GET 10分析慢查询。查看systemctl status redis和日志。
RabbitMQ: 执行rabbitmqctl list_queues name messages consumers评估消费者效率。使用rabbitmqctl status检查内存和磁盘告警。运行rabbitmq-diagnostics检查连接和通道。
Kafka: 使用kafka-topics --describe --topic <topic> --bootstrap-server <broker>查看分区分布。kafka-log-dirs --describe --bootstrap-server <broker>检测磁盘不均衡。检查/var/log/kafka/server.log中的错误。

命令

Redis修复

# 重新选举主节点（若自动故障转移失败）
redis-cli -h <slave_ip> -p 6379 replicaof no one

# 提升一个从节点为主节点后，在其他从节点上执行
redis-cli -h <other_slave> -p 6379 replicaof <new_master_ip> 6379

# 清理慢查询：调整慢查询日志阈值
redis-cli CONFIG SET slowlog-log-slower-than 10000
redis-cli CONFIG SET slowlog-max-len 128

# 限制内存使用：设置最大内存和淘汰策略
redis-cli CONFIG SET maxmemory 4gb
redis-cli CONFIG SET maxmemory-policy allkeys-lru

RabbitMQ修复

# 强制重新宣布队列（若队列卡住）
rabbitmqctl eval 'rabbit_amqqueue:declare(rabbit_misc:r(<<"/">>, queue, <<"queue_name">>), true, false, []).'

# 重启堵塞的连接
rabbitmqctl list_connections name | awk '{print $1}' | xargs -I {} rabbitmqctl close_connection {} "manually closed"

# 添加更多消费者（水平扩展）：调整prefetch
rabbitmqctl set_policy ha-all ".*" '{"ha-mode":"all","ha-sync-mode":"automatic"}' --priority 1

Kafka修复

# 重新平衡消费者组
kafka-consumer-groups --bootstrap-server <broker> --group <group> --reset-offsets --to-latest --execute

# 增加分区（需谨慎）
kafka-topics --alter --topic <topic> --partitions <new_count> --bootstrap-server <broker>

# 清理日志段以释放磁盘空间
kafka-configs --bootstrap-server <broker> --entity-type topics --entity-name <topic> --alter --add-config retention.ms=86400000

风险控制

Redis: 执行REPLICAOF前确保目标节点数据同步最新；调整maxmemory时预留充足空间避免OOM。
RabbitMQ: 关闭连接前确认不会丢失事务性消息；修改策略前备份现有策略。
Kafka: 增加分区不可逆，需评估下游消费者兼容性；重置偏移量可能导致消息重复或丢失。

回滚

Redis: 恢复原主节点：redis-cli -h <old_master> replicaof <new_master> 6379，再将其提升为主（若需要）。
RabbitMQ: 移除策略：rabbitmqctl clear_policy ha-all。重启节点：systemctl restart rabbitmq-server。
Kafka: 恢复分区数不可行，只能重新创建主题并迁移；重置偏移量可通过--to-earliest回退。

验证

Redis: 执行redis-cli INFO stats确认keyspace_hits比率>99%，延迟<10ms，复制状态正常。
RabbitMQ: 查看队列长度降至正常水平，rabbitmqctl list_queues中unacked消息为0，消费者消费速率匹配。
Kafka: kafka-consumer-groups --describe中LAG为0或极低，生产者吞吐量达标。

何时提交OpsGlobal工单

多次手动干预后问题复发。
需要升级硬件或调整集群架构。
涉及核心业务中断且内部无法快速解决。
需要专业审计配置或性能调优。

适用场景

适合正在处理 NoSQL、Kubernetes, SRE, Redis, RabbitMQ 相关问题的团队，用于快速建立排查路径和交付标准。

问题背景

本文深入探讨在生产级Kubernetes环境中确保Redis、RabbitMQ和Kafka高可用的关键策略，包括故障场景识别、诊断流程、修复命令、风险控制、回滚方案及验证步骤，并指导何时提交OpsGlobal工单。

排查步骤

先确认影响范围和最近变更，再收集日志、配置、指标和链路数据，最后按风险从低到高执行修复。

命令示例

示例命令请替换为你的真实资源名，并使用环境变量保存账号、密码、token 等敏感信息。

风险说明

生产环境操作前需要确认备份、权限边界、变更窗口和回滚路径，避免扩大故障影响。

回滚方案

保留原配置和发布版本；如修复后指标异常，立即回退配置、镜像或数据库变更并复核日志。

交付清单

问题定位记录、关键命令、修复步骤、验证结果、后续优化建议。

Redis、RabbitMQ与Kafka中间件可靠性实战指南

场景

症状

诊断

命令