Prometheus Grafana OpenTelemetry 可观测性实战指南

Prometheus、Grafana与OpenTelemetry：构建生产级可观测性实践指南

Observability 6min 17 浏览 2026-06-18

KubernetesSRE

场景

你在管理一个运行在Kubernetes上的微服务应用，最近用户抱怨接口响应变慢，偶尔出现超时错误。你需要快速定位问题根源。

症状

应用整体延迟增加，P99从200ms飙升到2s。
部分请求返回HTTP 500错误。
监控告警触发，但现有指标（CPU、内存）未显示异常。

诊断

确认OpenTelemetry Collector已部署并接收来自应用程序的追踪和指标。
在Grafana中查看预置的“服务延迟”仪表盘，发现某个微服务的数据库查询耗时激增。
切换到追踪视图，找到相应trace，发现一个慢SQL查询（执行时间1.8s）。
查看Prometheus中的数据库连接池指标，发现连接数已满。

命令

以下命令在Kubernetes环境中执行，假设已安装Helm、kubectl并配置好上下文。

1. 部署OpenTelemetry Collector

helm repo add open-telemetry https://open-telemetry.github.io/opentelemetry-helm-charts
helm upgrade --install otel-collector open-telemetry/opentelemetry-collector \
  --set config.exporters.prometheus.endpoint="0.0.0.0:8889" \
  --set config.service.pipelines.metrics.exporters="[prometheus]" \
  --namespace observability --create-namespace

2. 配置Prometheus抓取

cat <<EOF | kubectl apply -f -
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: otel-collector
  namespace: observability
spec:
  selector:
    matchLabels:
      app.kubernetes.io/instance: otel-collector
  endpoints:
  - port: metrics
    interval: 15s
EOF

3. 在Grafana中导入仪表盘

使用Grafana UI或API导入预构建的OpenTelemetry仪表盘（ID: 15905）。

风险控制

OpenTelemetry Collector的采样率应合理设置（例如基于头部采样），避免高流量下内存溢出。
Prometheus抓取间隔不宜过短，以免增加负载。
修改配置前备份现有Prometheus规则和Grafana仪表盘。

回滚

如果更改导致问题，执行以下回滚：

helm rollback otel-collector -n observability
kubectl delete servicemonitor otel-collector -n observability

恢复Prometheus配置和Grafana仪表盘从备份。

验证

在Grafana中检查新的仪表盘是否显示所有微服务的正确延迟和错误率。
使用kubectl logs查看OpenTelemetry Collector日志，确认没有错误。
模拟慢请求，验证新的trace是否被正确记录。

何时提交OpsGlobal工单

如果符合以下情况，请提交工单： - 集成完成后延迟或错误率仍未改善。 - 需要定制化仪表盘或告警规则。 - 集群规模较大，需要优化OpenTelemetry Collector性能。 - 遇到未知错误（如Collector崩溃、数据丢失）。

适用场景

适合正在处理 Observability、Kubernetes, SRE 相关问题的团队，用于快速建立排查路径和交付标准。

问题背景

本文通过一个实际场景，介绍如何使用OpenTelemetry、Prometheus和Grafana在Kubernetes环境中实现端到端可观测性，包括症状、诊断、命令、风险控制、回滚、验证以及何时提交OpsGlobal工单。

排查步骤

先确认影响范围和最近变更，再收集日志、配置、指标和链路数据，最后按风险从低到高执行修复。

命令示例

示例命令请替换为你的真实资源名，并使用环境变量保存账号、密码、token 等敏感信息。

风险说明

生产环境操作前需要确认备份、权限边界、变更窗口和回滚路径，避免扩大故障影响。

回滚方案

保留原配置和发布版本；如修复后指标异常，立即回退配置、镜像或数据库变更并复核日志。

交付清单

问题定位记录、关键命令、修复步骤、验证结果、后续优化建议。

Prometheus、Grafana与OpenTelemetry：构建生产级可观测性实践指南

场景

症状

诊断

命令