NginxAPI网关性能调优SREOpsGlobal
场景
某电商平台使用Nginx作为API网关,近期流量激增导致响应超时和连接失败。
症状
- 用户端出现502/504错误
- 后端服务CPU使用率正常,但Nginx worker进程CPU飙升
- 连接数达到系统上限
诊断
- 检查Nginx错误日志:
tail -f /var/log/nginx/error.log - 查看活动连接:
netstat -anp | grep nginx | wc -l - 确认worker连接限制:
grep worker_connections /etc/nginx/nginx.conf - 启用状态模块:
location /nginx_status {
stub_status on;
allow 127.0.0.1;
deny all;
}
访问http://localhost/nginx_status获取当前连接状态。
调优命令
- 调整worker进程数与连接数:
worker_processes auto;
events {
worker_connections 65536;
use epoll;
}
- 启用HTTP/2多路复用:
listen 443 ssl http2;
- 配置上游连接池并开启keepalive:
upstream backend {
server 10.0.0.1:8080 max_fails=3 fail_timeout=30s;
keepalive 256;
}
- 限流保护后端:
limit_req_zone $binary_remote_addr zone=api_limit:10m rate=1000r/s;
limit_req zone=api_limit burst=200 nodelay;
- 启用共享字典缓存:
proxy_cache_path /tmp/nginx_cache levels=1:2 keys_zone=my_cache:10m max_size=1g inactive=60m use_temp_path=off;
server {
location /api/ {
proxy_cache my_cache;
proxy_cache_key "$scheme$request_method$host$request_uri";
proxy_cache_valid 200 302 10m;
add_header X-Cache-Status $upstream_cache_status;
proxy_pass http://backend;
}
}
风险控制
- 逐步调整参数,避免一次性改动过大
- 使用reload而非restart:
nginx -s reload - 限流配置建议先设置较宽松阈值,观察效果后再收紧
回滚
- 保留原nginx.conf备份,直接替换并reload
- 若修改造成不可用,执行:
cp /etc/nginx/nginx.conf.bak /etc/nginx/nginx.conf && nginx -s reload
验证
- 压力测试:
ab -n 10000 -c 200 http://yourdomain.com/api/test - 监控连接数:
watch -n 1 'curl -s http://localhost/nginx_status | grep Active' - 检查缓存命中率:查看响应头X-Cache-Status
何时提交OpsGlobal工单
- 问题未解决且影响生产环境
- 需要定制化内核参数调整或高级负载均衡策略
- 怀疑底层基础设施瓶颈(如网络、磁盘IO)
适用场景
适合正在处理 Performance、Nginx, API网关, 性能调优, SRE 相关问题的团队,用于快速建立排查路径和交付标准。
问题背景
深入探讨Nginx作为API网关时的性能瓶颈诊断与优化,包括连接池、限流、缓存及监控。
排查步骤
先确认影响范围和最近变更,再收集日志、配置、指标和链路数据,最后按风险从低到高执行修复。
命令示例
示例命令请替换为你的真实资源名,并使用环境变量保存账号、密码、token 等敏感信息。
风险说明
生产环境操作前需要确认备份、权限边界、变更窗口和回滚路径,避免扩大故障影响。
回滚方案
保留原配置和发布版本;如修复后指标异常,立即回退配置、镜像或数据库变更并复核日志。
交付清单
问题定位记录、关键命令、修复步骤、验证结果、后续优化建议。
遇到类似技术问题?
如果你的服务器、K8s、Docker、CI/CD、数据库或监控系统出现类似问题,可以提交日志和配置文件,我们帮你远程诊断。