Linux SRE 生产故障排查手册

DevOps 6min 66 浏览 2026-06-16

LinuxSRE故障排查性能调优

场景

某生产环境 Linux 服务器（运行 Web 服务）响应缓慢，健康检查失败，用户报告延迟增加。

快速概览：uptime、free -h、df -h。
CPU 分析：top -bn1 | head -20，按 P 排序 CPU，按 M 排序内存。检查是否有异常进程。
内存分析：vmstat 1 5 检查交换活动。cat /proc/meminfo 查看详细内存。
磁盘分析：iostat -x 1 5 关注 %util、r/s、w/s、await。iotop 查看具体进程 I/O。
网络分析：netstat -tan | grep :80 | wc -l 查看连接数，ss -tn 更高效。
系统日志：journalctl -u <服务名> --since "5 minutes ago" 或 tail -100 /var/log/syslog。
进程跟踪：strace -p <PID> -c 统计系统调用，找出耗时操作。

提交工单时请附上以下信息： - 时间窗口、症状描述。 - 已执行的命令输出（如 top -bn1、vmstat）。 - 相关日志片段。

适合正在处理 DevOps、Linux, SRE, 故障排查, 性能调优相关问题的团队，用于快速建立排查路径和交付标准。

本文详细介绍了在生产环境中遇到 Linux 服务器性能问题时的排查步骤、命令、风险控制、回滚方案及何时联系 OpsGlobal 支持。

先确认影响范围和最近变更，再收集日志、配置、指标和链路数据，最后按风险从低到高执行修复。

示例命令请替换为你的真实资源名，并使用环境变量保存账号、密码、token 等敏感信息。

生产环境操作前需要确认备份、权限边界、变更窗口和回滚路径，避免扩大故障影响。

保留原配置和发布版本；如修复后指标异常，立即回退配置、镜像或数据库变更并复核日志。

问题定位记录、关键命令、修复步骤、验证结果、后续优化建议。